NEW BOT Телеграм, страница

Channel created

11:51

Channel photo updated

11:51

بچه‌ها، من این نقشه راه LLM رو برای مسیر یادگیری خودم ساختم و گفتم با شما هم به اشتراک بذارمش.

یه مسیر کامله که از معماری ترنسفورمر و آماده‌سازی دیتا شروع میشه و تا آموزش مدل، RAG، ایجنت‌ها و LLMOps میره. برای هر بخش هم چندتا پروژه عملی گذاشتم که فقط تئوری نباشه.

خلاصه که مدام داره بهتر و کامل‌تر میشه. اگه دوست داشتید یه نگاهی بهش بندازید.
https://mshojaei77.github.io/roadmap

LLMs: From Foundation to Production

LLM development Roadmap

A comprehensive tutorial for mastering Large Language Models (LLMs) – from core mathematics and computing principles to production deployment, advanced applications, and emerging research trends.

👍7

534 views11:58

LLM Engineers

مدل Kimi K2 توی بنچمارک EQ-Bench به عنوان خلاق ترین مدل شناخته شده
و با توجه به قدرت Agentic اش برای استفاده از function calling خیلی عالیه.
و با توجه به اینکه این مدل مثل R1 و O3 اصلا Reasoning نیس
رسما قویترین مدل اوپن سورس دنیا حساب میشه.
و همه اینا به لطف Muon ‌Optimizer هست.
البته اندازه 1‌T پارامتری این مدل حتی با MoE بودنش کار رو برای هاست کردن لوکال سخت میکنه.

join our channel @LLMEngineers

531 viewsShojaei, edited 12:25

LLM Engineers

حالا Muon چیه اصلا؟
توی LLMs یه چیزی داریم به اسم Optimizer که کارش به‌روزرسانی وزن‌های مدل تو پروسه آموزشه تا loss به حداقل برسه. معروف‌ترینشون AdamW عه که خیلی استفاده می‌شه و حسابی امتحانش رو پس داده.
حالا Muon اومده و یه جورایی بازی رو عوض کرده! این optimizer جدید با تکنیک matrix orthogonalization وزن‌ها رو خیلی بهینه‌تر به‌روزرسانی می‌کنه.
🔥 چرا Muon باحاله؟
- کارایی: تقریباً نصف FLOPs نسبت به AdamW مصرف می‌کنه و همون نتیجه (یا بهتر) رو می‌ده.
- مقیاس‌پذیری: برای مدل‌های غول‌پیکر (میلیاردها پارامتر) عالیه و نیازی به تنظیم پیچیده hyperparameter نداره.
- مزیت: آموزش سریع‌تر، هزینه محاسباتی کمتر، و دقت مدل هم حفظ می‌شه یا حتی بهتر می‌شه!

📖 برای اطلاعات بیشتر این paper رو بخونید:
Muon is Scalable for LLM Training ([arXiv:2502.16982]

join our channel @LLMEngineers

arXiv.org

Muon is Scalable for LLM Training

Recently, the Muon optimizer based on matrix orthogonalization has demonstrated strong results in training small-scale language models, but the scalability to larger models has not been proven. We...

👍2🔥2

507 viewsShojaei, edited 12:45

LLM Engineers

یه نگاه به قویترین مدل های اوپن سورس تا الان

join our channel @LLMEngineers

461 viewsShojaei, edited 13:40

LLM Engineers

یه نگاه به قویترین مدل های اوپن سورس تا الان join our channel @LLMEngineers

حالا اگه مدلای Reasoning رو فاکتور بگیریم، این میشه

join our channel @LLMEngineers

464 viewsShojaei, 13:48

LLM Engineers

🎯 100 Days of Reading LLM Papers Challenge

سلام دوستان!
از این به بعد چند روز یکبار یک مقاله مرتبط با LLM طبق رودمپ انتخاب می‌کنیم، تا شب می‌خونیم و شب دور هم درباره‌ش بحث می‌کنیم. خلاصه هر مقاله هم توی کانال قرار می‌گیره.
هر کسی دوست داشت می‌تونه مقاله متفاوتی بخونه و بیاد تجربه‌ش رو به اشتراک بذاره. هدف اینه که این کار رو به یک عادت مستمر و روتین تبدیل کنیم تا سطح دانش همه‌مون رشد کنه.
بعد از هر یادگیری هم می‌تونیم یکی از پروژه‌های عملی مرتبط با رودمپ رو انتخاب و اجرا کنیم تا مطالب رو کاربردی‌تر یاد بگیریم.
آزادی کامل تو انتخاب مقاله هست، فقط مهم اینه که پیوسته باشه و اینجا تبادل دانش داشته باشیم.
رودمپ مربوطه :
https://mshojaei77.github.io/roadmap

Group: @AI_LLMs
Channel @LLMEngineers

LLMs: From Foundation to Production

LLM development Roadmap

A comprehensive tutorial for mastering Large Language Models (LLMs) – from core mathematics and computing principles to production deployment, advanced applications, and emerging research trends.

👍3

513 viewsShojaei, edited 17:24

LLM Engineers

با Unsloth الان می‌تونید Kimi K2 رو به صورت لوکال با Dynamic 1.8-bit GGUF اجرا کنید!

کل مدل 1.1TB رو به فقط 245GB کاهش دادن(۸۰٪ کاهش حجم).

Guide: docs.unsloth.ai/basics/kimi-k2

529 viewsShojaei, 18:45

LLM Engineers

گوگل مدل Gemini Embedding رو منتشر کرد!

از بیش از ۱۰۰ زبان پشتیبانی می‌کنه، محدودیتش ۲۰۴۸ توکنه و در صدر لیدربورد MTEB Multilingual قرار گرفته.

متاسفانه اوپن سورس نیست قیمت api اش ۰.۱۵ دلار برای هر ۱ میلیون توکنه و یه پلن رایگان هم داره.

اطلاعات بیشتر

🛠️ @LLMEngineers

❤1

525 viewsShojaei, edited 22:47

LLM Engineers

🎯 100 Days of Reading LLM Papers Challenge

Day 1: A Comprehensive Overview of Large Language Models

🔗 https://arxiv.org/abs/2307.06435

Additional Resources:
⦁ 📄 Article: Large Language Models - An Up‑to‑Date Pocket Guide
⦁ 📄 Article: Understanding Language Models
⦁ 🎬 Video: LLMs Explained Briefly
⦁ 🎬 Video: Deep Dive into LLMs
⦁ 🎬 Video: Intro to LLMs

🛠 @LLMEngineers

👍1

1.16K viewsShojaei, edited 02:33

LLM Engineers

این مقاله و به دلخواه منابع مرتبط رو مطالعه کنید و توی گروه تو قسمت Technical Discussions دربارش سوالاتتون، برداشتتون یا انتقادتون ازش رو بگید.
میتونید هر مقاله دیگه ای رو هم مطالعه کنید و دربارش حرف بزنید یا معرفی کنید.

❤3👍1

569 viewsShojaei, edited 02:35

LLM Engineers

اگر دنبال بهترین مدل‌های Embedding برای زبان فارسی هستید، لیدربورد PTEB Leaderboard رو از دست ندید! این صفحه توسط PartAI ساخته شده و مدل‌های مختلف Text Embedding رو روی دیتاست‌ها و تسک‌های متفاوت مقایسه و رتبه‌بندی می‌کنه.
این ابزار به شما کمک می‌کنه مناسب‌ترین مدل رو برای پروژه‌های NLP و چت‌بات‌های فارسی انتخاب کنید و پیشرفت مدل‌ها رو زیرنظر بگیرید.
🛠️ @LLMEngineers

👍4

670 viewsShojaei, edited 13:08

LLM Engineers

🎯 100 Days of Reading LLM Papers Challenge Day 1: A Comprehensive Overview of Large Language Models 🔗 https://arxiv.org/abs/2307.06435 Additional Resources: ⦁ 📄 Article: Large Language Models - An Up‑to‑Date Pocket Guide ⦁ 📄 Article: Understanding Language…

دوستان گفتن که مقاله طولانیه و فرصت نکردن تموم کنن
به همین خاطر فردا رو هم به همین مقاله اختصاص میدیم
البته یه خلاصه ازش همین امشب منتشر میکنیم برای کسایی که وقت نمیکنن همشو بخونن خلاصه رو بخونن کافیه

690 viewsShojaei, edited 16:30

LLM Engineers

خلاصه مقاله برای دوستانی که وقت ندارن یا حوصله خوندن مقاله کامل ندارن، اینو با دقت بخونن کفایت میکنه :

https://mshojaei77.github.io/Blog/llms_intro.html

LLMs: From Foundations to Production

Intro to LLMs

A comprehensive tutorial for mastering Large Language Models (LLMs) – from core mathematics and computing principles to production deployment, advanced applications, and emerging research trends.

👍1

739 viewsShojaei, edited 17:56

LLM Engineers

با Unsloth الان می‌تونید Kimi K2 رو به صورت لوکال با Dynamic 1.8-bit GGUF اجرا کنید! کل مدل 1.1TB رو به فقط 245GB کاهش دادن(۸۰٪ کاهش حجم). Guide: docs.unsloth.ai/basics/kimi-k2

یه کوانتایز دیگه از Kimi K2 منتشر شده
Kimi-K2-Instruct-quantized.w4a16
این یک مدل کوانتایزشده‌ی ۴ بیتی است (وزن‌های کوچک اما اکتیویشن‌ها هنوز با دقت ۱۶ بیت کار می‌کنند) که با کمترین افت کیفیت، عملکرد خوبی نشون دادن طبق readme توی بنچمارک GSM8k 5-shot، امتیاز ۹۴.۸۴٪ دقت را کسب کرده که تقریباً پا‌به‌پای مدل کامل Kimi-K2 با امتیاز ۹۴.۹۲٪ هست.

https://huggingface.co/RedHatAI/Kimi-K2-Instruct-quantized.w4a16

🛠️ Join @LLMEngineers Community

273 viewsShojaei, edited 12:57

LLM Engineers

تا حالا به این فکر کردی که چرا شرکت‌ها همش دنبال نیروی هوش مصنوعی‌ان ولی در عین حال استخدام شدن تو این حوزه نزدیک به غیرممکنه؟ 🤔

قضیه یه دور باطله که بهش میگن پارادوکس تجربه: شرکت‌ها برای موقعیت‌های شغلیِ به‌اصطلاح «پایین‌رده» هم سابقه کار مرتبط می‌خوان؛ در حالی که تا وقتی استخدام نشی، نمی‌تونی اون سابقه رو به دست بیاری!

این مشکل اصلی‌ترین مانع برای ورود به حوزه AI/ML هست، حتی بزرگ‌تر از چالش‌های فنی. اما دلایل دیگه‌ای هم کار رو سخت‌تر می‌کنه:

🔹 شکاف فنی عمیق: یاد گرفتن ریاضیات (جبر خطی، آمار) و ابزارهایی مثل TensorFlow و PyTorch واقعاً زمان‌بره و خیلی‌ها رو وسط راه دلسرد می‌کنه.

🔹 ساخت پورتفولیو: دیگه پروژه‌های دانشگاهی کافی نیست. باید پروژه‌هایی بسازی که یه مشکل واقعی رو حل کنن و ارزش تجاری داشته باشن؛ از جمع‌آوری دیتا تا دیپلوی کردن مدل.

🔹 رقابت سنگین: فقط تو نیستی که می‌خوای وارد این حوزه بشی. داری با فارغ‌التحصیل‌های دکترا و مهندس‌های باتجربه‌ای رقابت می‌کنی که اونا هم دنبال همین موقعیت‌ها هستن.

🔹 پیشرفت سرسام‌آور: هر هفته ابزار و مقاله‌ٔ جدیدی میاد. هم باید مبانی رو محکم یاد بگیری و هم از آخرین ترندها عقب نمونی که خودش خیلی فرسایشیه.

💡 به نظرت بهترین راه برای دور زدن این پارادوکس چیه؟ مشارکت تو پروژه‌های اوپن‌سورس؟ یا شاید پیدا کردن یه کارآموزی هرچند کوچیک؟

منبع

🛠️ Join @LLMEngineers Community

Medium

The Experience Paradox: The Harsh Reality of AI/ML Career Transitions

TL;DR: Successful transitions are still possible, but that demand persistence, planning and strategy.

👍2❤1

906 viewsShojaei, edited 13:25

LLM Engineers

فرهنگ کار کردن تو OpenAI، یعنی همون شرکت سازنده ChatGPT، واقعاً چه شکلیه؟

یکی از کارمندای سابق‌شون که تازه از شرکت اومده بیرون، یه روایت دست‌اول و بدون سانسور از فرهنگ داخلی‌شون نوشته. خلاصه‌ش اینه که اونجا یه دنیای عجیب و غریبه: ترکیبی از سرعت یه استارتاپ کوچیک با جاه‌طلبی‌های دیوانه‌وار و فشار رقابت جهانی.

چند تا نکتهٔ جالب از داخل این شرکت:

🔹 ایمیل مرده! اونجا ایمیل تقریباً وجود نداره و همه‌چیز، تاکید می‌کنم همه‌چیز، روی Slack می‌چرخه. اگه حواست نباشه، غرق نوتیفیکیشن می‌شی.

🔹 اجازه نگیر، بساز. فرهنگ‌شون به شدت از پایین به بالاست. یه ایدهٔ خوب داشته باشی، لازم نیست از کسی اجازه بگیری، فقط شروع می‌کنی به ساختنش! برای همین چند تا تیم مختلف ممکنه همزمان روی یه ایدهٔ مشابه کار کنن.

🔹 سریع و بی‌قرار. شرکت با اینکه خیلی بزرگ شده، ولی مثل قایق تندرو جهت عوض می‌کنه. برخلاف غول‌هایی مثل گوگل، منتظر برنامه‌ریزی فصلی و جلسه‌های طولانی نمی‌مونن.

🔹 رازدارتر از چیزی که فکرشو بکنی. به خاطر توجه بیش از حد رسانه‌ها، به شدت مخفی‌کارن. نویسنده می‌گه بعضی وقتا خبرهای جدید رو اول تو توییتر می‌دیده بعد داخل شرکت می‌شنیده!

💡 جالبه که نویسنده می‌گه مسابقه برای رسیدن به AGI الان یه رقابت سه‌جانبه بین OpenAI، گوگل و انتروپیکه. به نظرتون کدوم‌شون با این فرهنگ‌های کاری متفاوت زودتر به مقصد می‌رسه؟ 🤔

منبع

🛠 Join @LLMEngineers Community

933 viewsShojaei, 13:35

About

Blog

Apps

Platform