LLM Engineers – Telegram
LLM Engineers
1.87K subscribers
103 photos
6 videos
3 files
142 links
A highly technical blog tailored for LLM engineers.

Contact me:
linkedin.com/in/mshojaei77
Download Telegram
Channel created
Channel photo updated
بچه‌ها، من این نقشه راه LLM رو برای مسیر یادگیری خودم ساختم و گفتم با شما هم به اشتراک بذارمش.

یه مسیر کامله که از معماری ترنسفورمر و آماده‌سازی دیتا شروع میشه و تا آموزش مدل، RAG، ایجنت‌ها و LLMOps میره. برای هر بخش هم چندتا پروژه عملی گذاشتم که فقط تئوری نباشه.

خلاصه که مدام داره بهتر و کامل‌تر میشه. اگه دوست داشتید یه نگاهی بهش بندازید.
https://mshojaei77.github.io/roadmap
مدل Kimi K2 توی بنچمارک EQ-Bench به عنوان خلاق ترین مدل شناخته شده
و با توجه به قدرت Agentic اش برای استفاده از function calling خیلی عالیه.
و با توجه به اینکه این مدل مثل R1 و O3 اصلا Reasoning نیس
رسما قویترین مدل اوپن سورس دنیا حساب میشه.
و همه اینا به لطف Muon ‌Optimizer هست.
البته اندازه 1‌T پارامتری این مدل حتی با MoE بودنش کار رو برای هاست کردن لوکال سخت میکنه.

join our channel @LLMEngineers
حالا Muon چیه اصلا؟
توی LLMs یه چیزی داریم به اسم Optimizer که کارش به‌روزرسانی وزن‌های مدل تو پروسه آموزشه تا loss به حداقل برسه. معروف‌ترینشون AdamW عه که خیلی استفاده می‌شه و حسابی امتحانش رو پس داده.
حالا Muon اومده و یه جورایی بازی رو عوض کرده! این optimizer جدید با تکنیک matrix orthogonalization وزن‌ها رو خیلی بهینه‌تر به‌روزرسانی می‌کنه.
🔥 چرا Muon باحاله؟
- کارایی: تقریباً نصف FLOPs نسبت به AdamW مصرف می‌کنه و همون نتیجه (یا بهتر) رو می‌ده.
- مقیاس‌پذیری: برای مدل‌های غول‌پیکر (میلیاردها پارامتر) عالیه و نیازی به تنظیم پیچیده hyperparameter نداره.
- مزیت: آموزش سریع‌تر، هزینه محاسباتی کمتر، و دقت مدل هم حفظ می‌شه یا حتی بهتر می‌شه!

📖 برای اطلاعات بیشتر این paper رو بخونید:
Muon is Scalable for LLM Training ([arXiv:2502.16982]

join our channel @LLMEngineers
یه نگاه به قویترین مدل های اوپن سورس تا الان

join our channel @LLMEngineers
LLM Engineers
یه نگاه به قویترین مدل های اوپن سورس تا الان join our channel @LLMEngineers
حالا اگه مدلای Reasoning رو فاکتور بگیریم، این میشه

join our channel @LLMEngineers
🎯 100 Days of Reading LLM Papers Challenge

سلام دوستان!
از این به بعد چند روز یکبار یک مقاله مرتبط با LLM طبق رودمپ انتخاب می‌کنیم، تا شب می‌خونیم و شب دور هم درباره‌ش بحث می‌کنیم. خلاصه هر مقاله هم توی کانال قرار می‌گیره.
هر کسی دوست داشت می‌تونه مقاله متفاوتی بخونه و بیاد تجربه‌ش رو به اشتراک بذاره. هدف اینه که این کار رو به یک عادت مستمر و روتین تبدیل کنیم تا سطح دانش همه‌مون رشد کنه.
بعد از هر یادگیری هم می‌تونیم یکی از پروژه‌های عملی مرتبط با رودمپ رو انتخاب و اجرا کنیم تا مطالب رو کاربردی‌تر یاد بگیریم.
آزادی کامل تو انتخاب مقاله هست، فقط مهم اینه که پیوسته باشه و اینجا تبادل دانش داشته باشیم.
رودمپ مربوطه :
https://mshojaei77.github.io/roadmap

Group: @AI_LLMs
Channel @LLMEngineers
با Unsloth الان می‌تونید Kimi K2 رو به صورت لوکال با Dynamic 1.8-bit GGUF اجرا کنید!

کل مدل 1.1TB رو به فقط 245GB کاهش دادن(۸۰٪ کاهش حجم).

Guide: docs.unsloth.ai/basics/kimi-k2
گوگل مدل Gemini Embedding رو منتشر کرد!

از بیش از ۱۰۰ زبان پشتیبانی می‌کنه، محدودیتش ۲۰۴۸ توکنه و در صدر لیدربورد MTEB Multilingual قرار گرفته.

متاسفانه اوپن سورس نیست قیمت api اش ۰.۱۵ دلار برای هر ۱ میلیون توکنه و یه پلن رایگان هم داره.

اطلاعات بیشتر

🛠️ @LLMEngineers