LLM Engineers – Telegram
LLM Engineers
1.87K subscribers
103 photos
6 videos
3 files
142 links
A highly technical blog tailored for LLM engineers.

Contact me:
linkedin.com/in/mshojaei77
Download Telegram
با Unsloth الان می‌تونید Kimi K2 رو به صورت لوکال با Dynamic 1.8-bit GGUF اجرا کنید!

کل مدل 1.1TB رو به فقط 245GB کاهش دادن(۸۰٪ کاهش حجم).

Guide: docs.unsloth.ai/basics/kimi-k2
گوگل مدل Gemini Embedding رو منتشر کرد!

از بیش از ۱۰۰ زبان پشتیبانی می‌کنه، محدودیتش ۲۰۴۸ توکنه و در صدر لیدربورد MTEB Multilingual قرار گرفته.

متاسفانه اوپن سورس نیست قیمت api اش ۰.۱۵ دلار برای هر ۱ میلیون توکنه و یه پلن رایگان هم داره.

اطلاعات بیشتر

🛠️ @LLMEngineers
این مقاله و به دلخواه منابع مرتبط رو مطالعه کنید و توی گروه تو قسمت Technical Discussions دربارش سوالاتتون، برداشتتون یا انتقادتون ازش رو بگید.
میتونید هر مقاله دیگه ای رو هم مطالعه کنید و دربارش حرف بزنید یا معرفی کنید.
اگر دنبال بهترین مدل‌های Embedding برای زبان فارسی هستید، لیدربورد PTEB Leaderboard رو از دست ندید! این صفحه توسط PartAI ساخته شده و مدل‌های مختلف Text Embedding رو روی دیتاست‌ها و تسک‌های متفاوت مقایسه و رتبه‌بندی می‌کنه. 
این ابزار به شما کمک می‌کنه مناسب‌ترین مدل رو برای پروژه‌های NLP و چت‌بات‌های فارسی انتخاب کنید و پیشرفت مدل‌ها رو زیرنظر بگیرید.
🛠️ @LLMEngineers
LLM Engineers
🎯 100 Days of Reading LLM Papers Challenge Day 1: A Comprehensive Overview of Large Language Models 🔗 https://arxiv.org/abs/2307.06435 Additional Resources: ⦁ 📄 Article: Large Language Models - An Up‑to‑Date Pocket Guide ⦁ 📄 Article: Understanding Language…
دوستان گفتن که مقاله طولانیه و فرصت نکردن تموم کنن
به همین خاطر فردا رو هم به همین مقاله اختصاص میدیم
البته یه خلاصه ازش همین امشب منتشر میکنیم برای کسایی که وقت نمیکنن همشو بخونن خلاصه رو بخونن کافیه
LLM Engineers
با Unsloth الان می‌تونید Kimi K2 رو به صورت لوکال با Dynamic 1.8-bit GGUF اجرا کنید! کل مدل 1.1TB رو به فقط 245GB کاهش دادن(۸۰٪ کاهش حجم). Guide: docs.unsloth.ai/basics/kimi-k2
یه کوانتایز دیگه از Kimi K2 منتشر شده
Kimi-K2-Instruct-quantized.w4a16
این یک مدل کوانتایزشده‌ی ۴ بیتی است (وزن‌های کوچک اما اکتیویشن‌ها هنوز با دقت ۱۶ بیت کار می‌کنند) که با کمترین افت کیفیت، عملکرد خوبی نشون دادن طبق readme توی بنچمارک GSM8k 5-shot، امتیاز ۹۴.۸۴٪ دقت را کسب کرده که تقریباً پا‌به‌پای مدل کامل Kimi-K2 با امتیاز ۹۴.۹۲٪ هست.

https://huggingface.co/RedHatAI/Kimi-K2-Instruct-quantized.w4a16

🛠️ Join @LLMEngineers Community
تا حالا به این فکر کردی که چرا شرکت‌ها همش دنبال نیروی هوش مصنوعی‌ان ولی در عین حال استخدام شدن تو این حوزه نزدیک به غیرممکنه؟ 🤔

قضیه یه دور باطله که بهش میگن پارادوکس تجربه: شرکت‌ها برای موقعیت‌های شغلیِ به‌اصطلاح «پایین‌رده» هم سابقه کار مرتبط می‌خوان؛ در حالی که تا وقتی استخدام نشی، نمی‌تونی اون سابقه رو به دست بیاری!

این مشکل اصلی‌ترین مانع برای ورود به حوزه AI/ML هست، حتی بزرگ‌تر از چالش‌های فنی. اما دلایل دیگه‌ای هم کار رو سخت‌تر می‌کنه:

🔹 شکاف فنی عمیق: یاد گرفتن ریاضیات (جبر خطی، آمار) و ابزارهایی مثل TensorFlow و PyTorch واقعاً زمان‌بره و خیلی‌ها رو وسط راه دلسرد می‌کنه.

🔹 ساخت پورتفولیو: دیگه پروژه‌های دانشگاهی کافی نیست. باید پروژه‌هایی بسازی که یه مشکل واقعی رو حل کنن و ارزش تجاری داشته باشن؛ از جمع‌آوری دیتا تا دیپلوی کردن مدل.

🔹 رقابت سنگین: فقط تو نیستی که می‌خوای وارد این حوزه بشی. داری با فارغ‌التحصیل‌های دکترا و مهندس‌های باتجربه‌ای رقابت می‌کنی که اونا هم دنبال همین موقعیت‌ها هستن.

🔹 پیشرفت سرسام‌آور: هر هفته ابزار و مقاله‌ٔ جدیدی میاد. هم باید مبانی رو محکم یاد بگیری و هم از آخرین ترندها عقب نمونی که خودش خیلی فرسایشیه.

💡 به نظرت بهترین راه برای دور زدن این پارادوکس چیه؟ مشارکت تو پروژه‌های اوپن‌سورس؟ یا شاید پیدا کردن یه کارآموزی هرچند کوچیک؟

منبع

🛠️ Join @LLMEngineers Community
فرهنگ کار کردن تو OpenAI، یعنی همون شرکت سازنده ChatGPT، واقعاً چه شکلیه؟

یکی از کارمندای سابق‌شون که تازه از شرکت اومده بیرون، یه روایت دست‌اول و بدون سانسور از فرهنگ داخلی‌شون نوشته. خلاصه‌ش اینه که اونجا یه دنیای عجیب و غریبه: ترکیبی از سرعت یه استارتاپ کوچیک با جاه‌طلبی‌های دیوانه‌وار و فشار رقابت جهانی.

چند تا نکتهٔ جالب از داخل این شرکت:

🔹 ایمیل مرده! اونجا ایمیل تقریباً وجود نداره و همه‌چیز، تاکید می‌کنم همه‌چیز، روی Slack می‌چرخه. اگه حواست نباشه، غرق نوتیفیکیشن می‌شی.

🔹 اجازه نگیر، بساز. فرهنگ‌شون به شدت از پایین به بالاست. یه ایدهٔ خوب داشته باشی، لازم نیست از کسی اجازه بگیری، فقط شروع می‌کنی به ساختنش! برای همین چند تا تیم مختلف ممکنه همزمان روی یه ایدهٔ مشابه کار کنن.

🔹 سریع و بی‌قرار. شرکت با اینکه خیلی بزرگ شده، ولی مثل قایق تندرو جهت عوض می‌کنه. برخلاف غول‌هایی مثل گوگل، منتظر برنامه‌ریزی فصلی و جلسه‌های طولانی نمی‌مونن.

🔹 رازدارتر از چیزی که فکرشو بکنی. به خاطر توجه بیش از حد رسانه‌ها، به شدت مخفی‌کارن. نویسنده می‌گه بعضی وقتا خبرهای جدید رو اول تو توییتر می‌دیده بعد داخل شرکت می‌شنیده!

💡 جالبه که نویسنده می‌گه مسابقه برای رسیدن به AGI الان یه رقابت سه‌جانبه بین OpenAI، گوگل و انتروپیکه. به نظرتون کدوم‌شون با این فرهنگ‌های کاری متفاوت زودتر به مقصد می‌رسه؟ 🤔

منبع

🛠 Join @LLMEngineers Community
تیم Unsloth یه ویدیوی آموزشی کامل و جمع‌وجور منتشر کرده که خیلی خلاصه و بدون پیچیدگی می‌ری سر اصل مطلب و یاد می‌گیری که:

🔹 چطور مدل و روش آموزش مناسب (مثل LoRA) رو انتخاب کنی.
🔹 چطور دیتاست و تمپلیتِ چت مخصوص خودت رو بسازی.
🔹 چطور با نو‌ت‌بوک‌های خود Unsloth مدل رو عملاً آموزش بدی.
🔹 و در نهایت، چطور خروجی رو با ابزارهایی مثل Ollama و llama.cpp اجرا کنی.

لینک ویدیو

🛠 Join @LLMEngineers Community
یه نوت‌بوک آموزشی خفن از طرف یکی از کارکنان Hugging Face منتشر شده که قدم‌به‌قدم یاد می‌ده چطور می‌شه مدل جدید Gemma3n رو روی ترکیبی از تصویر، صدا و متن فاین-تیون (fine-tune) کرد.

این کار قبلاً خیلی سنگین بود، ولی این نوت‌بوک با چندتا ترفند این کار رو راحت کرده:

🔹 برای سخت‌افزار مناسب: کل فرایند طوری طراحی شده که روی یه GPU A100 توی گوگل کولب (با کمتر از ۴۰ گیگابایت VRAM) هم اجرا بشه.
🔹 تکنیک‌های بهینه: برای سبک‌سازی، از LoRA، نمونه‌برداری مجدد صدا (audio resampling) و کاهش کیفیت ویدیو (video downsampling) استفاده می‌کنه.
🔹 هدفش آموزشه: این نوت‌بوک بیشتر جنبهٔ آموزشی داره و بهتون نشون می‌ده چطور با چند نوع ورودی مختلف (صدا، تصویر، متن) کار کنید.
🔹 مدل اصلی: جدیدترین مدل چندوجهی گوگل، یعنی Gemma3n، که برای همین کارها ساخته شده.

لینک کولب

🛠 Join @LLMEngineers Community
تاحالا فکر کردین چرا آپدیت کردن وزن‌های یه مدل بزرگ انقدر پیچیده‌ست؟ یه تیم از MIT یه ایدهٔ قدیمی ولی جالب رو زنده کردن که شاید جواب همین سؤال باشه.

قضیه اینه که گرادیان‌ها و وزن‌های مدل یه جورایی دو تا زبون مختلف حرف می‌زنن و نمی‌شه همین‌طوری گرادیان رو از وزن کم کرد. این تیم یه چارچوب نظری به اسم «دوگانگی ماژولار» (Modular Duality) ساختن که مثل یه مترجم بین این دو تا عمل می‌کنه.

این روش جدید چطوری کار می‌کنه و چرا مهمه؟
🔹 برای هر لایه از شبکه (مثل Linear یا Conv2D) یه «نقشه»ی ریاضی می‌سازه تا گرادیان‌ها رو قبل از آپدیت وزن‌ها، به فضای درست «ترجمه» کنه.
🔹 بهینه‌سازهایی (optimizers) که هم فوق‌العاده سریع هستن و هم با بزرگ شدن مدل، عملکردشون افت نمی‌کنه و مقیاس‌پذیر باقی می‌مونن.
🔹 بر اساس این تئوری، یه زبان به اسم Modula هم ساختن که طراحی این بهینه‌سازهای هوشمند رو راحت‌تر می‌کنه.
🔹 یه نسخه از این الگوریتم‌ها تونسته رکورد سرعت آموزش مدل NanoGPT رو بشکنه!

خلاصه این کار یه دید عمیق‌تر و اصولی‌تر برای ساختن نسل بعدی Optimizerهاست که می‌تونه آموزش مدل‌های غول‌پیکر رو خیلی بهینه‌تر کنه.

paper
docs
code
یه خبر جالب، هاگینگ‌فیس جدیداً یه ربات کوچولوی رومیزی و بامزه به اسم Reachy Mini رو معرفی کرده که فقط تو پنج روز اول، یک میلیون دلار فروش داشته!

قضیه اینه که این ربات قرار نیست مثل ربات‌های دیگه کارهای خونه رو انجام بده. توماس ولف، یکی از بنیان‌گذارهای هاگینگ‌فیس، میگه Reachy Mini بیشتر شبیه یه «آیفون خالی» می‌مونه؛ یه دیوایس هک‌پذیر و سرگرم‌کننده که هر کسی بتونه اپ‌های خودش رو براش بنویسه و با مدل‌های AI به‌صورت لوکال ور بره.

ایده‌شون اینه که با یه محصول دوست‌داشتنی و نسبتاً ارزون، پای ربات‌های اپن‌سورس رو به خونه‌ها باز کنن و مردم با حضورشون احساس راحتی کنن. یه جورایی دارن بازار ربات‌های خانگی رو از سمت سرگرمی و دولوپرهای کنجکاو هدف می‌گیرن، نه کارهای خدماتی. باید دید این استراتژی در آینده چطور جواب می‌ده. 🤖

متن کامل مصاحبه

🛠 Join @LLMEngineers Community
احتمالاً مازیار پناهی رو می‌شناسید. یکی از چهره‌های شناخته‌شده‌ی هاگینگ فیس که سال‌هاست تو حوزه‌ی LMM ها کار می‌کنه و همیشه هم پای ثابت اوپن‌سورس بوده. این رفیقمون که تو پاریس مستقره، امروز یه حرکت زد و پروژه‌ی OpenMed رو ریلیز کرد.

قضیه چیه؟ تا حالا گیر مدلای پولی حوزه‌ی سلامت افتادین؟ که نه می‌دونی پشت صحنه چی می‌گذره، نه راحت می‌تونی ازش استفاده کنی. OpenMed اومده این بازی رو عوض کنه.

چند تا نکته‌ی کلیدی که این حرکت رو خفن می‌کنه:

* کمیّت و کیفیت با هم: +۳۸۰ تا مدل NER پزشکی رو رایگان و با لایسنس Apache 2.0 در دسترس گذاشته. اینا فقط رایگان نیستن؛ بنچمارک‌ها نشون می‌ده که از خیلی از رقبای پولی مثل Spark NLP هم بهترن. مثلاً روی دیتاست Gellus اختلاف F1 score با نسخه‌ی پولی +۳۶٪ بوده! 📊
* پروداکشن-رِدی و منعطف: مدل‌ها از سایز ۱۰۹ میلیون پارامتر تا نزدیک ۶۰۰ میلیون هستن. یعنی هم برای تسک‌های سبک و سریع، هم برای کارهای سنگین و دقیق، گزینه روی میزه. دردسر دیپلوی هم نداره.
* پوشش جامع: تقریباً هر دامنه‌ی پزشکی، از تشخیص دارو و بیماری گرفته تا ژن، آناتومی و آنکولوژی رو پوشش می‌ده. یه جعبه‌ابزار کامل برای هرکی تو این حوزه کار می‌کنه.

چرا مهمه؟ چون داره دسترسی به ابزارهای SOTA توی یه حوزه‌ی حساس و گرون مثل پزشکی رو دموکراتیک می‌کنه. این یعنی شتاب گرفتن تحقیق و توسعه برای استارتاپ‌ها و تیم‌های کوچیک‌تر.

البته باید دید در عمل و روی دیتاهای real-world چالش‌هاش چیه، ولی قدم اولش واقعاً خوبه. مدل‌ها رو می‌تونید از صفحه‌ی OpenMed چک کنید.

منبع

🛠 Join @LLMEngineers Community
🎯 100 Days of Reading LLM Papers Challenge

Day 2: Artificial Neural Networks for Beginners

🔗 https://arxiv.org/pdf/cs/0308031

Additional Resources:
📄 Article: Neural Network Fundamentals
🎬 Playlist: Neural networks, 3Blue1Brown
🎬 Playlist: Neural Networks: Zero to Hero, Andrej Karpathy



🛠 @LLMEngineers
سریع‌تر یا دقیق‌تر؟ بین Kimi K2 و Grok-4 ⚔️

خلاصه بگم: طبق بنچمارک Stagehand که برای اتوماسیون مرورگره، مدل چینی Kimi K2 با اینکه دقتش *فقط کمی* از Grok-4 پایین‌تره، سرعت Inferenceـش (روی LPU های Groq البته) هفت برابر بیشتره. یعنی برای تسک‌های real-time یا جاهایی که latency مهمه، Kimi یه غول به حساب میاد.

این کندی Grok-4 اتفاقی نیست. خود ایلان ماسک هم توییت زده و اعتراف کرده که مدلشون زیادی به مسائل ساده گیر می‌ده. انگار داره با هر پرامپتی مثل یه سوال سخت فلسفی برخورد می‌کنه.

Grok 4 treats everything as a hard question. We are hoping to fix that today." — Elon Musk


این یعنی تیم xAI از مشکل خبر داره و احتمالاً یه آپدیت برای بهینه‌سازی مدل تو راهه. در مقابل، Kimi K2 با ۱ تریلیون پارامتر (البته اگه این ادعا دقیق باشه) توی one-shot coding فوق‌العاده عمل می‌کنه. اگه ضعف Kimi توی reasoning اذیتت می‌کنه، می‌تونی با ابزارهایی مثل mcp-reasoner بهش قابلیت استدلال تزریق کنین.

---
🛠 Join @LLMEngineers Community
میسترال دو تا مدل صوتی speech understanding ریلیز کرده: Voxtral Small و Voxtral Mini. 🎙

یه نسخه ۲۴ میلیارد پارامتری برای پروداکشن و یه ۳ میلیاردی جمع‌وجور برای دیپلوی لوکال و روی دستگاه‌های Edge. هر دو هم اوپن‌سورس شدن که دمشون گرم.

ادعاشون اینه که Whisper large-v3 و Gemini 2.5 Flash رو راحت می‌زنن. روی کاغذ که قوی به نظر می‌رسه، ولی خب... می‌دونیم این بنچمارک‌ها داستان دارن.

برای اجرای لوکال پیشنهاد خودشون `vLLM`ئه.

یه ایرادی که گزارش شده اینه که نمی‌شه مدل رو قانع کرد که به دستورات داخل صوت گوش نده. مثلاً اگه فایل صوتی بگه «یه جوک بگو» و سیستم پرامپت بگه «فقط ترنسکرایب کن»، مدل باز هم جوک تحویلت می‌ده. 🤔

راه حل عملی: میسترال یه API جدا فقط برای ترنسکریپشن داده بیرون. اون نقطه ضعف instruction following رو نداره و فایل هم مستقیم قبول می‌کنه. پس اگه ترنسکریپت تمیز می‌خوای، برو سراغ اون یکی.

لینک دانلود مدل‌ها از هاگینگ‌فیس:
[Small]
[Mini]

🛠 Join @LLMEngineers Community
اپل توی یه مقاله‌ی جدید یه متد داده به اسم BETR که به جای اینکه برای ترین دنبال دیتای با کیفیت بگرده، میاد دیتای pretraining رو مستقیماً بر اساس شباهت به بنچمارک‌های هدف انتخاب می‌کنه.

ایده‌ش ساده‌ست: امبدینگ بنچمارک‌ها و نمونه‌ای از دیتاست اصلی رو می‌گیره، شباهت‌شون رو حساب می‌کنه و بعد یه مدل سبک (FastText) رو ترین می‌کنه که یاد بگیره کدوم داکیومنت‌ها به درد تسک‌های هدف می‌خورن. نتیجه؟ ۲ تا ۴.۷ برابر بهبود در بهره‌وری محاسباتی (compute multiplier) نسبت به بیس‌لاین‌های قوی مثل DCLM.

اما نکته‌ی مهم‌ترش اینه: اگه مدل رو فقط برای بنچمارک‌های مشخصی بهینه کنی (مثلاً Core benchmarks)، توی همون‌ها خفن می‌شه ولی روی تسک‌های ندیده، ضعیف عمل می‌کنه. دقیقاً مصداق قانون گودهارت. 🧠

«بنچمارک‌ها فقط پیشرفت رو اندازه نمی‌گیرن، بلکه به طور ضمنی اون رو هدایت می‌کنن.»


مقاله اصلی (BETR)
مقاله بیس‌لاین (DCLM)

🛠 Join @LLMEngineers Community