بچهها، من این نقشه راه LLM رو برای مسیر یادگیری خودم ساختم و گفتم با شما هم به اشتراک بذارمش.
یه مسیر کامله که از معماری ترنسفورمر و آمادهسازی دیتا شروع میشه و تا آموزش مدل، RAG، ایجنتها و LLMOps میره. برای هر بخش هم چندتا پروژه عملی گذاشتم که فقط تئوری نباشه.
خلاصه که مدام داره بهتر و کاملتر میشه. اگه دوست داشتید یه نگاهی بهش بندازید.
https://mshojaei77.github.io/roadmap
یه مسیر کامله که از معماری ترنسفورمر و آمادهسازی دیتا شروع میشه و تا آموزش مدل، RAG، ایجنتها و LLMOps میره. برای هر بخش هم چندتا پروژه عملی گذاشتم که فقط تئوری نباشه.
خلاصه که مدام داره بهتر و کاملتر میشه. اگه دوست داشتید یه نگاهی بهش بندازید.
https://mshojaei77.github.io/roadmap
LLMs: From Foundation to Production
LLM development Roadmap
A comprehensive tutorial for mastering Large Language Models (LLMs) – from core mathematics and computing principles to production deployment, advanced applications, and emerging research trends.
مدل Kimi K2 توی بنچمارک EQ-Bench به عنوان خلاق ترین مدل شناخته شده
و با توجه به قدرت Agentic اش برای استفاده از function calling خیلی عالیه.
و با توجه به اینکه این مدل مثل R1 و O3 اصلا Reasoning نیس
رسما قویترین مدل اوپن سورس دنیا حساب میشه.
و همه اینا به لطف Muon Optimizer هست.
البته اندازه 1T پارامتری این مدل حتی با MoE بودنش کار رو برای هاست کردن لوکال سخت میکنه.
join our channel @LLMEngineers
و با توجه به قدرت Agentic اش برای استفاده از function calling خیلی عالیه.
و با توجه به اینکه این مدل مثل R1 و O3 اصلا Reasoning نیس
رسما قویترین مدل اوپن سورس دنیا حساب میشه.
و همه اینا به لطف Muon Optimizer هست.
البته اندازه 1T پارامتری این مدل حتی با MoE بودنش کار رو برای هاست کردن لوکال سخت میکنه.
join our channel @LLMEngineers
حالا Muon چیه اصلا؟
توی LLMs یه چیزی داریم به اسم Optimizer که کارش بهروزرسانی وزنهای مدل تو پروسه آموزشه تا loss به حداقل برسه. معروفترینشون AdamW عه که خیلی استفاده میشه و حسابی امتحانش رو پس داده.
حالا Muon اومده و یه جورایی بازی رو عوض کرده! این optimizer جدید با تکنیک matrix orthogonalization وزنها رو خیلی بهینهتر بهروزرسانی میکنه.
🔥 چرا Muon باحاله؟
- کارایی: تقریباً نصف FLOPs نسبت به AdamW مصرف میکنه و همون نتیجه (یا بهتر) رو میده.
- مقیاسپذیری: برای مدلهای غولپیکر (میلیاردها پارامتر) عالیه و نیازی به تنظیم پیچیده hyperparameter نداره.
- مزیت: آموزش سریعتر، هزینه محاسباتی کمتر، و دقت مدل هم حفظ میشه یا حتی بهتر میشه!
📖 برای اطلاعات بیشتر این paper رو بخونید:
Muon is Scalable for LLM Training ([arXiv:2502.16982]
join our channel @LLMEngineers
توی LLMs یه چیزی داریم به اسم Optimizer که کارش بهروزرسانی وزنهای مدل تو پروسه آموزشه تا loss به حداقل برسه. معروفترینشون AdamW عه که خیلی استفاده میشه و حسابی امتحانش رو پس داده.
حالا Muon اومده و یه جورایی بازی رو عوض کرده! این optimizer جدید با تکنیک matrix orthogonalization وزنها رو خیلی بهینهتر بهروزرسانی میکنه.
🔥 چرا Muon باحاله؟
- کارایی: تقریباً نصف FLOPs نسبت به AdamW مصرف میکنه و همون نتیجه (یا بهتر) رو میده.
- مقیاسپذیری: برای مدلهای غولپیکر (میلیاردها پارامتر) عالیه و نیازی به تنظیم پیچیده hyperparameter نداره.
- مزیت: آموزش سریعتر، هزینه محاسباتی کمتر، و دقت مدل هم حفظ میشه یا حتی بهتر میشه!
📖 برای اطلاعات بیشتر این paper رو بخونید:
Muon is Scalable for LLM Training ([arXiv:2502.16982]
join our channel @LLMEngineers
arXiv.org
Muon is Scalable for LLM Training
Recently, the Muon optimizer based on matrix orthogonalization has demonstrated strong results in training small-scale language models, but the scalability to larger models has not been proven. We...
🎯 100 Days of Reading LLM Papers Challenge
سلام دوستان!
از این به بعد چند روز یکبار یک مقاله مرتبط با LLM طبق رودمپ انتخاب میکنیم، تا شب میخونیم و شب دور هم دربارهش بحث میکنیم. خلاصه هر مقاله هم توی کانال قرار میگیره.
هر کسی دوست داشت میتونه مقاله متفاوتی بخونه و بیاد تجربهش رو به اشتراک بذاره. هدف اینه که این کار رو به یک عادت مستمر و روتین تبدیل کنیم تا سطح دانش همهمون رشد کنه.
بعد از هر یادگیری هم میتونیم یکی از پروژههای عملی مرتبط با رودمپ رو انتخاب و اجرا کنیم تا مطالب رو کاربردیتر یاد بگیریم.
آزادی کامل تو انتخاب مقاله هست، فقط مهم اینه که پیوسته باشه و اینجا تبادل دانش داشته باشیم.
رودمپ مربوطه :
https://mshojaei77.github.io/roadmap
Group: @AI_LLMs
Channel @LLMEngineers
سلام دوستان!
از این به بعد چند روز یکبار یک مقاله مرتبط با LLM طبق رودمپ انتخاب میکنیم، تا شب میخونیم و شب دور هم دربارهش بحث میکنیم. خلاصه هر مقاله هم توی کانال قرار میگیره.
هر کسی دوست داشت میتونه مقاله متفاوتی بخونه و بیاد تجربهش رو به اشتراک بذاره. هدف اینه که این کار رو به یک عادت مستمر و روتین تبدیل کنیم تا سطح دانش همهمون رشد کنه.
بعد از هر یادگیری هم میتونیم یکی از پروژههای عملی مرتبط با رودمپ رو انتخاب و اجرا کنیم تا مطالب رو کاربردیتر یاد بگیریم.
آزادی کامل تو انتخاب مقاله هست، فقط مهم اینه که پیوسته باشه و اینجا تبادل دانش داشته باشیم.
رودمپ مربوطه :
https://mshojaei77.github.io/roadmap
Group: @AI_LLMs
Channel @LLMEngineers
LLMs: From Foundation to Production
LLM development Roadmap
A comprehensive tutorial for mastering Large Language Models (LLMs) – from core mathematics and computing principles to production deployment, advanced applications, and emerging research trends.
با Unsloth الان میتونید Kimi K2 رو به صورت لوکال با Dynamic 1.8-bit GGUF اجرا کنید!
کل مدل 1.1TB رو به فقط 245GB کاهش دادن(۸۰٪ کاهش حجم).
Guide: docs.unsloth.ai/basics/kimi-k2
کل مدل 1.1TB رو به فقط 245GB کاهش دادن(۸۰٪ کاهش حجم).
Guide: docs.unsloth.ai/basics/kimi-k2
گوگل مدل Gemini Embedding رو منتشر کرد!
از بیش از ۱۰۰ زبان پشتیبانی میکنه، محدودیتش ۲۰۴۸ توکنه و در صدر لیدربورد MTEB Multilingual قرار گرفته.
متاسفانه اوپن سورس نیست قیمت api اش ۰.۱۵ دلار برای هر ۱ میلیون توکنه و یه پلن رایگان هم داره.
اطلاعات بیشتر
🛠️ @LLMEngineers
از بیش از ۱۰۰ زبان پشتیبانی میکنه، محدودیتش ۲۰۴۸ توکنه و در صدر لیدربورد MTEB Multilingual قرار گرفته.
متاسفانه اوپن سورس نیست قیمت api اش ۰.۱۵ دلار برای هر ۱ میلیون توکنه و یه پلن رایگان هم داره.
اطلاعات بیشتر
🛠️ @LLMEngineers
🎯 100 Days of Reading LLM Papers Challenge
Day 1:
🔗 https://arxiv.org/abs/2307.06435
🛠 @LLMEngineers
Day 1:
A Comprehensive Overview of Large Language Models🔗 https://arxiv.org/abs/2307.06435
Additional Resources:
⦁ 📄 Article: Large Language Models - An Up‑to‑Date Pocket Guide
⦁ 📄 Article: Understanding Language Models
⦁ 🎬 Video: LLMs Explained Briefly
⦁ 🎬 Video: Deep Dive into LLMs
⦁ 🎬 Video: Intro to LLMs
🛠 @LLMEngineers
این مقاله و به دلخواه منابع مرتبط رو مطالعه کنید و توی گروه تو قسمت Technical Discussions دربارش سوالاتتون، برداشتتون یا انتقادتون ازش رو بگید.
میتونید هر مقاله دیگه ای رو هم مطالعه کنید و دربارش حرف بزنید یا معرفی کنید.
میتونید هر مقاله دیگه ای رو هم مطالعه کنید و دربارش حرف بزنید یا معرفی کنید.
اگر دنبال بهترین مدلهای Embedding برای زبان فارسی هستید، لیدربورد PTEB Leaderboard رو از دست ندید! این صفحه توسط PartAI ساخته شده و مدلهای مختلف Text Embedding رو روی دیتاستها و تسکهای متفاوت مقایسه و رتبهبندی میکنه.
این ابزار به شما کمک میکنه مناسبترین مدل رو برای پروژههای NLP و چتباتهای فارسی انتخاب کنید و پیشرفت مدلها رو زیرنظر بگیرید.
🛠️ @LLMEngineers
این ابزار به شما کمک میکنه مناسبترین مدل رو برای پروژههای NLP و چتباتهای فارسی انتخاب کنید و پیشرفت مدلها رو زیرنظر بگیرید.
🛠️ @LLMEngineers
