مروری بر وضعیت مدلهای باز در پایان سال ۲۰۲۵: سقوط Llama و پادشاهی اژدهای چینی
سال ۲۰۲۵ سالی بود که "Open Model" از یک انتخاب برای حفظ حریم خصوصی، به انتخاب اول برای Performance تبدیل شد. شکاف بین مدلهای اختصاصی (Closed) و باز تقریبا از بین رفته. اگر هنوز روی استک ۲۰۲۴ و Llama 3 ماندهاید، عملاً دارید با تکنولوژی منسوخ کار میکنید.
اکوسیستم در ۱۲ ماه گذشته زیر و رو شد. در حالی که سال ۲۰۲۴ همه منتظر Llama بعدی بودند، سال ۲۰۲۵ با تسلط کامل DeepSeek و Qwen تمام شد.
تحلیل فنی و کاربردی برترینهای امسال:
مدل DeepSeek R1: نقطه عطف سال
اهمیت این مدل که ژانویه ۲۰۲۵ ریلیز شد، فقط در بنچمارکها نبود. تیم DeepSeek با انتشار این مدل تحت لایسنس MIT بازی را عوض کرد (برخلاف لایسنس محدود V3). این حرکت باعث شد سایر لابراتوارهای چینی هم مجبور شوند گارد را باز کنند.
به نظر من، این مدل ثابت کرد که نوآوری دیگر در انحصار تیمهای چند هزار نفره نیست. یک تیم کوچک و متمرکز توانست استانداردها را جابجا کند.
خانواده Qwen 3: استاندارد جدید صنعت
واقعیت این است که Qwen جای Llama را به عنوان مدل Default برای Fine-tuning گرفت. الان Qwen 3 همه چیز را پوشش میدهد: از مدلهای Dense و MoE گرفته تا Vision و Omni.
تنوع سایز و قدرت Multilingual این مدل باعث شده اکثر پیادهسازیهای آکادمیک و پروداکشن روی این بیس انجام شود. اگر الان دارید پایپلاین جدید بالا میآورید، Qwen 3 انتخاب منطقیتری نسبت به Llama است.
مدل GPT-OSS: حرکت اجباری OpenAI
بالاخره OpenAI هم تسلیم فشار بازار شد و مدل باز داد. اما گول اسمش را نخورید. این مدل در General Knowledge و زبانهای غیرانگلیسی ضعیف است.
کاربرد اصلی آن در سیستمهای Agentic است. OpenAI سطوح مختلف "Thinking" را در این مدل پیاده کرده که برای تسکهای استدلالی عالی است، اما به عنوان یک مدل General purpose توصیه نمیشود.
معماریهای جدید و مدلهای خاص
انویدیا با Nemotron 2 نشان داد که دوران Transformer خالص رو به پایان است. معماری هیبرید Mamba2-Transformer در این مدل، سرعت Inference را در Contextهای طولانی به شدت افزایش داده.
برای پردازش صدا (STT)، مدل Parakeet 3 الان SOTA محسوب میشود و عملاً Whisper را در محیطهای لوکال (مخصوصا روی مکبوک) از نظر Latency و دقت شکست داده.
وضعیت کلی و Tier List مهندسی
در حال حاضر ردهبندی خانواده مدل های اوپن سورس به این صورت است:
فرانتیر (Frontier):
DeepSeek, Qwen, Moonshot AI (Kimi)
رقبای نزدیک:
Zhipu (GLM) , Minimax
قابل توجه:
Nvidia, Mistral, Google (Gemma 3)
در حاشیه:
Meta (Llama)
(بله، متا دیگر پیشرو نیست و آینده Llama مبهم است)
منبع:
interconnects.ai/p/2025-open-models-year-in-review
🛠 Join @LLMEngineers Community
سال ۲۰۲۵ سالی بود که "Open Model" از یک انتخاب برای حفظ حریم خصوصی، به انتخاب اول برای Performance تبدیل شد. شکاف بین مدلهای اختصاصی (Closed) و باز تقریبا از بین رفته. اگر هنوز روی استک ۲۰۲۴ و Llama 3 ماندهاید، عملاً دارید با تکنولوژی منسوخ کار میکنید.
اکوسیستم در ۱۲ ماه گذشته زیر و رو شد. در حالی که سال ۲۰۲۴ همه منتظر Llama بعدی بودند، سال ۲۰۲۵ با تسلط کامل DeepSeek و Qwen تمام شد.
تحلیل فنی و کاربردی برترینهای امسال:
مدل DeepSeek R1: نقطه عطف سال
اهمیت این مدل که ژانویه ۲۰۲۵ ریلیز شد، فقط در بنچمارکها نبود. تیم DeepSeek با انتشار این مدل تحت لایسنس MIT بازی را عوض کرد (برخلاف لایسنس محدود V3). این حرکت باعث شد سایر لابراتوارهای چینی هم مجبور شوند گارد را باز کنند.
به نظر من، این مدل ثابت کرد که نوآوری دیگر در انحصار تیمهای چند هزار نفره نیست. یک تیم کوچک و متمرکز توانست استانداردها را جابجا کند.
خانواده Qwen 3: استاندارد جدید صنعت
واقعیت این است که Qwen جای Llama را به عنوان مدل Default برای Fine-tuning گرفت. الان Qwen 3 همه چیز را پوشش میدهد: از مدلهای Dense و MoE گرفته تا Vision و Omni.
تنوع سایز و قدرت Multilingual این مدل باعث شده اکثر پیادهسازیهای آکادمیک و پروداکشن روی این بیس انجام شود. اگر الان دارید پایپلاین جدید بالا میآورید، Qwen 3 انتخاب منطقیتری نسبت به Llama است.
مدل GPT-OSS: حرکت اجباری OpenAI
بالاخره OpenAI هم تسلیم فشار بازار شد و مدل باز داد. اما گول اسمش را نخورید. این مدل در General Knowledge و زبانهای غیرانگلیسی ضعیف است.
کاربرد اصلی آن در سیستمهای Agentic است. OpenAI سطوح مختلف "Thinking" را در این مدل پیاده کرده که برای تسکهای استدلالی عالی است، اما به عنوان یک مدل General purpose توصیه نمیشود.
معماریهای جدید و مدلهای خاص
انویدیا با Nemotron 2 نشان داد که دوران Transformer خالص رو به پایان است. معماری هیبرید Mamba2-Transformer در این مدل، سرعت Inference را در Contextهای طولانی به شدت افزایش داده.
برای پردازش صدا (STT)، مدل Parakeet 3 الان SOTA محسوب میشود و عملاً Whisper را در محیطهای لوکال (مخصوصا روی مکبوک) از نظر Latency و دقت شکست داده.
وضعیت کلی و Tier List مهندسی
در حال حاضر ردهبندی خانواده مدل های اوپن سورس به این صورت است:
فرانتیر (Frontier):
DeepSeek, Qwen, Moonshot AI (Kimi)
رقبای نزدیک:
Zhipu (GLM) , Minimax
قابل توجه:
Nvidia, Mistral, Google (Gemma 3)
در حاشیه:
Meta (Llama)
(بله، متا دیگر پیشرو نیست و آینده Llama مبهم است)
منبع:
interconnects.ai/p/2025-open-models-year-in-review
🛠 Join @LLMEngineers Community
اگه خسته شدید از اینکه برای هر پرزنتیشن پول اشتراک سرویسهای تجاری مثل Gamma یا Beautiful AI بدید، یا دیتای شرکتتون حساسه و نمیتونید روی کلاود بفرستید، این ابزار دقیقاً همون چیزیه که لازم دارید.
پروژه Presenton یه جایگزین Open-Source و قدرتمنده که کل پایپلاین ساخت اسلاید رو میاره روی لوکال سیستم خودتون. معماری این ابزار طوری طراحی شده که هم با APIهای معروف مثل OpenAI و Anthropic کار میکنه و هم – که برای ما گیکها جذابتره – با Ollama کامل سینک میشه. یعنی عملاً میتونید بدون اینترنت و با مدلهای Gemma روی سیستم خودتون خروجی بگیرید.
نکته فنی جالبش اینه که تمپلیتها رو با HTML و Tailwind CSS هندل میکنه، یعنی دستتون برای شخصیسازی دیزاین کاملاً بازه. یکی از قابلیتهای کاربردیش که توی ابزارهای اوپنسورس کمتر میبینیم، امکان "Clone" کردن استایل هست؛ یعنی فایل PPTX شرکت رو آپلود میکنید، استایل و برندینگ رو استخراج میکنه و اسلایدهای جدید رو دقیقاً توی همون قالب جنریت میکنه.
برای ایمیجهای داخل اسلاید هم دستتون بازه؛ میتونید از gpt image یا nano banana استفاده کنید یا اگر میخواید رایگان در بیاد، وصلش کنید به Pexels و Pixabay یا حتی مدلهای تصویر ساز لوکال. خروجی نهایی هم PPTX و هم PDF تمیز تحویل میده.
دیپلوی کردنش هم با یه ایمیج Docker انجام میشه. کافیه متغیرهای محیطی (ENV vars) مربوط به مدل زبانی که میخواید (مثلاً OLLAMA_URL) رو ست کنید و تمام. اگر GPU دارید، حتماً کانتینر رو با دسترسی GPU ران کنید تا سرعت جنریت با مدلهای لوکال منطقی باشه.
به نظر من، برگ برنده اصلی این ابزار فقط رابط کاربریش نیست، بلکه API قدرتمندشه. شما میتونید این رو به عنوان یه میکروسرویس بالا بیارید، دیتای خام رو از دیتابیس بگیرید و پروسه ساخت گزارشهای هفتگی یا ماهانه رو کاملاً اتوماتیک کنید. ضمن اینکه پشتیبانیش از پروتکل جدید MCP (Model Context Protocol) نشون میده تیم توسعهدهندش تکنولوژی روز رو خوب میشناسه.
📃 گیتهاب پروژه:
https://github.com/presenton/presenton
📃 داکیومنتها:
https://docs.presenton.ai
🛠 Join @LLMEngineers Community
پروژه Presenton یه جایگزین Open-Source و قدرتمنده که کل پایپلاین ساخت اسلاید رو میاره روی لوکال سیستم خودتون. معماری این ابزار طوری طراحی شده که هم با APIهای معروف مثل OpenAI و Anthropic کار میکنه و هم – که برای ما گیکها جذابتره – با Ollama کامل سینک میشه. یعنی عملاً میتونید بدون اینترنت و با مدلهای Gemma روی سیستم خودتون خروجی بگیرید.
نکته فنی جالبش اینه که تمپلیتها رو با HTML و Tailwind CSS هندل میکنه، یعنی دستتون برای شخصیسازی دیزاین کاملاً بازه. یکی از قابلیتهای کاربردیش که توی ابزارهای اوپنسورس کمتر میبینیم، امکان "Clone" کردن استایل هست؛ یعنی فایل PPTX شرکت رو آپلود میکنید، استایل و برندینگ رو استخراج میکنه و اسلایدهای جدید رو دقیقاً توی همون قالب جنریت میکنه.
برای ایمیجهای داخل اسلاید هم دستتون بازه؛ میتونید از gpt image یا nano banana استفاده کنید یا اگر میخواید رایگان در بیاد، وصلش کنید به Pexels و Pixabay یا حتی مدلهای تصویر ساز لوکال. خروجی نهایی هم PPTX و هم PDF تمیز تحویل میده.
دیپلوی کردنش هم با یه ایمیج Docker انجام میشه. کافیه متغیرهای محیطی (ENV vars) مربوط به مدل زبانی که میخواید (مثلاً OLLAMA_URL) رو ست کنید و تمام. اگر GPU دارید، حتماً کانتینر رو با دسترسی GPU ران کنید تا سرعت جنریت با مدلهای لوکال منطقی باشه.
به نظر من، برگ برنده اصلی این ابزار فقط رابط کاربریش نیست، بلکه API قدرتمندشه. شما میتونید این رو به عنوان یه میکروسرویس بالا بیارید، دیتای خام رو از دیتابیس بگیرید و پروسه ساخت گزارشهای هفتگی یا ماهانه رو کاملاً اتوماتیک کنید. ضمن اینکه پشتیبانیش از پروتکل جدید MCP (Model Context Protocol) نشون میده تیم توسعهدهندش تکنولوژی روز رو خوب میشناسه.
📃 گیتهاب پروژه:
https://github.com/presenton/presenton
📃 داکیومنتها:
https://docs.presenton.ai
🛠 Join @LLMEngineers Community
GitHub
GitHub - presenton/presenton: Open-Source AI Presentation Generator and API (Gamma, Beautiful AI, Decktopus Alternative)
Open-Source AI Presentation Generator and API (Gamma, Beautiful AI, Decktopus Alternative) - presenton/presenton
Forwarded from FingerCoder | فینگرکدر
🧠✨ نشست تعاملی طراحی پرامپت
یک دورهمی آزاد برای فکر کردن، تجربه کردن و گفتگو درباره پرامپتنویسی
اگه به دنیای هوش مصنوعی علاقهمندی، با ابزارهایی مثل ChatGPT کار میکنی یا دوست داری یاد بگیری چطور بهتر و هوشمندانهتر با AI تعامل داشته باشی، این نشست دقیقاً برای توئه.
یه دورهمی تعاملی و گفتگومحوره که قراره توش:
💬 درباره پرامپتنویسی صحبت کنیم و تجربههامون رو به اشتراک بذاریم
🧪 پرامپتها رو با هم بسازیم، تست کنیم و بهترشون کنیم
🤝 از هم یاد بگیریم و تعامل واقعی داشته باشیم
✨ نگاهمون به استفاده از AI رو عمیقتر و کاربردیتر کنیم
یه عصر خودمونی، فکری و پرانرژی برای کسایی که دوست دارن فعالانه یاد بگیرن، سؤال بپرسن و تو گفتگو مشارکت کنن.
📍 مکان:خیابان مطهری شمالی ،بین کوچه ۱۷ و ۱۹،کافه اسپیرو
🕒 زمان: پنجشنبه، ساعت 15:30 تا 17:30
🔗 لینک ثبتنام:
https://evnd.co/c9i4A
اگه دوست داری پرامپتنویسی رو نه فقط یاد بگیری، بلکه تجربه کنی و دربارهش فکر کنی، این نشست رو از دست نده.
بیاین کنار هم بهتر سؤال بپرسیم، بهتر تعامل کنیم و هوشمندانهتر از AI استفاده کنیم 🤍🤖✨
🤍 با حمایت و میزبانی مجموعه «اسپیرو»
@fingercoder
یک دورهمی آزاد برای فکر کردن، تجربه کردن و گفتگو درباره پرامپتنویسی
اگه به دنیای هوش مصنوعی علاقهمندی، با ابزارهایی مثل ChatGPT کار میکنی یا دوست داری یاد بگیری چطور بهتر و هوشمندانهتر با AI تعامل داشته باشی، این نشست دقیقاً برای توئه.
یه دورهمی تعاملی و گفتگومحوره که قراره توش:
💬 درباره پرامپتنویسی صحبت کنیم و تجربههامون رو به اشتراک بذاریم
🧪 پرامپتها رو با هم بسازیم، تست کنیم و بهترشون کنیم
🤝 از هم یاد بگیریم و تعامل واقعی داشته باشیم
✨ نگاهمون به استفاده از AI رو عمیقتر و کاربردیتر کنیم
یه عصر خودمونی، فکری و پرانرژی برای کسایی که دوست دارن فعالانه یاد بگیرن، سؤال بپرسن و تو گفتگو مشارکت کنن.
📍 مکان:خیابان مطهری شمالی ،بین کوچه ۱۷ و ۱۹،کافه اسپیرو
🕒 زمان: پنجشنبه، ساعت 15:30 تا 17:30
🔗 لینک ثبتنام:
https://evnd.co/c9i4A
اگه دوست داری پرامپتنویسی رو نه فقط یاد بگیری، بلکه تجربه کنی و دربارهش فکر کنی، این نشست رو از دست نده.
بیاین کنار هم بهتر سؤال بپرسیم، بهتر تعامل کنیم و هوشمندانهتر از AI استفاده کنیم 🤍🤖✨
🤍 با حمایت و میزبانی مجموعه «اسپیرو»
@fingercoder
انتشار Gemini 3 Flash نشون داد که دیگه دوران مدلهای کوچیکی که فقط نسخهی ضعیف شدهی مدلهای بزرگ (Distilled) بودن تموم شده. این مدل عملاً یه Frontier-class محسوب میشه که توی خیلی از بنچمارکهای Reasoning، معلم خودش یعنی Gemini 3 Pro رو شکست داده. نکتهی طلایی این موفقیت، رویکرد Distillation Pretraining هست که تیم Google DeepMind با لیدری افرادی مثل Arnaud Autef پیاده کرده.
معماری Gemini 3 Flash بر پایهی تحقیقاتی بنا شده که Autef قبلاً توی اپل روی مدلهای Diffusion انجام داده بود. مقالهی TRACT (مخفف Transitive Closure Time-Distillation) مشکل اصلی تقطیر (Distillation) سنتی یعنی Objective degeneracy رو حل کرد. در متدهای قدیمی، وقتی دانش رو از معلم به شاگرد منتقل میکردی، خطاها روی هم جمع میشدن و خروجی نهایی تار (Blur) میشد. تکنیک Transitive Closure به شاگرد اجازه میده که چندین گام پردازشی معلم رو در یک حرکت "بپرونه" و همزمان با استفاده از یک Self-Teacher (EMA) پایداری آموزش رو حفظ کنه.
تکنولوژی Distillation Pretraining در این مدل یعنی برخلاف روال معمول که اول مدل رو میسازن و بعد دانش رو بهش تزریق میکنن، اینجا Loss تقطیر مستقیماً در فاز Pretraining ادغام شده. به نظر من این یعنی مدل از همون روز اول یاد میگیره چطوری مثل نسخهی Pro استدلال کنه، نه اینکه صرفاً ادای اون رو دربیاره. نتیجهش شده امتیاز ۷۸٪ روی SWE-bench Verified که حتی از Gemini 3 Pro با امتیاز ۷۶.۲٪ هم بالاتره. این یعنی شاگرد با حذف مسیرهای استدلالی اضافه، از معلمش بهینهتر و دقیقتر شده.
ویژگیهای عملیاتی Gemini 3 Flash برای ما دولوپرها چند مورد کلیدی داره:
پارامتر thinking_level به شما اجازه میده شدت تفکر مدل رو از Minimal تا High تنظیم کنید. این یعنی قابلیت Deep Think نسخههای سنگین، حالا با Latency بسیار پایین در دسترس هست.
تکنیک Context Forcing باعث شده حافظهی شاگرد و معلم در طول فرآیند تولید متن کاملاً همترازو (Align) بمونه تا از Hallucination که معمولاً در زنجیرههای طولانی Reasoning برای مدلهای کوچیک پیش میاد، جلوگیری بشه.
سرعت این مدل ۳ برابر بیشتر از Gemini 2.5 Pro هست در حالی که از نظر عمق فهم مطلب، باهاش برابری میکنه.
واقعیت اینه که استراتژی DeepMind از Scaling خام (فقط بزرگتر کردن مدل) به سمت "علم آموزش" (Science of Training) شیفت کرده. اونا با Gemini 3 Flash تونستن Pareto frontier رو جابجا کنن؛ یعنی رسیدن به سطح هوش GPT-5 با هزینه و پارامترهای خیلی کمتر. این یه برد بزرگ برای تیم پیشآموزش (Pretraining) به رهبری Vlad Feinberg هست که ثابت کردن فرمول درست تقطیر، مهمتر از تعداد GPUهاست.
به نظر من، Gemini 3 Flash پایان عصر مدلهای سنگین و کند برای کارهای روزمره است. وقتی میتونی Reasoning در سطح Pro رو با سرعت چت واقعی داشته باشی، دیگه دلیلی برای تحمل Latency مدلهای بزرگتر باقی نمیمونه.
📃 مقالهی TRACT
🛠 Join @LLMEngineers Community
معماری Gemini 3 Flash بر پایهی تحقیقاتی بنا شده که Autef قبلاً توی اپل روی مدلهای Diffusion انجام داده بود. مقالهی TRACT (مخفف Transitive Closure Time-Distillation) مشکل اصلی تقطیر (Distillation) سنتی یعنی Objective degeneracy رو حل کرد. در متدهای قدیمی، وقتی دانش رو از معلم به شاگرد منتقل میکردی، خطاها روی هم جمع میشدن و خروجی نهایی تار (Blur) میشد. تکنیک Transitive Closure به شاگرد اجازه میده که چندین گام پردازشی معلم رو در یک حرکت "بپرونه" و همزمان با استفاده از یک Self-Teacher (EMA) پایداری آموزش رو حفظ کنه.
تکنولوژی Distillation Pretraining در این مدل یعنی برخلاف روال معمول که اول مدل رو میسازن و بعد دانش رو بهش تزریق میکنن، اینجا Loss تقطیر مستقیماً در فاز Pretraining ادغام شده. به نظر من این یعنی مدل از همون روز اول یاد میگیره چطوری مثل نسخهی Pro استدلال کنه، نه اینکه صرفاً ادای اون رو دربیاره. نتیجهش شده امتیاز ۷۸٪ روی SWE-bench Verified که حتی از Gemini 3 Pro با امتیاز ۷۶.۲٪ هم بالاتره. این یعنی شاگرد با حذف مسیرهای استدلالی اضافه، از معلمش بهینهتر و دقیقتر شده.
ویژگیهای عملیاتی Gemini 3 Flash برای ما دولوپرها چند مورد کلیدی داره:
پارامتر thinking_level به شما اجازه میده شدت تفکر مدل رو از Minimal تا High تنظیم کنید. این یعنی قابلیت Deep Think نسخههای سنگین، حالا با Latency بسیار پایین در دسترس هست.
تکنیک Context Forcing باعث شده حافظهی شاگرد و معلم در طول فرآیند تولید متن کاملاً همترازو (Align) بمونه تا از Hallucination که معمولاً در زنجیرههای طولانی Reasoning برای مدلهای کوچیک پیش میاد، جلوگیری بشه.
سرعت این مدل ۳ برابر بیشتر از Gemini 2.5 Pro هست در حالی که از نظر عمق فهم مطلب، باهاش برابری میکنه.
واقعیت اینه که استراتژی DeepMind از Scaling خام (فقط بزرگتر کردن مدل) به سمت "علم آموزش" (Science of Training) شیفت کرده. اونا با Gemini 3 Flash تونستن Pareto frontier رو جابجا کنن؛ یعنی رسیدن به سطح هوش GPT-5 با هزینه و پارامترهای خیلی کمتر. این یه برد بزرگ برای تیم پیشآموزش (Pretraining) به رهبری Vlad Feinberg هست که ثابت کردن فرمول درست تقطیر، مهمتر از تعداد GPUهاست.
به نظر من، Gemini 3 Flash پایان عصر مدلهای سنگین و کند برای کارهای روزمره است. وقتی میتونی Reasoning در سطح Pro رو با سرعت چت واقعی داشته باشی، دیگه دلیلی برای تحمل Latency مدلهای بزرگتر باقی نمیمونه.
📃 مقالهی TRACT
🛠 Join @LLMEngineers Community
arXiv.org
TRACT: Denoising Diffusion Models with Transitive Closure Time-Distillation
Denoising Diffusion models have demonstrated their proficiency for generative sampling. However, generating good samples often requires many iterations. Consequently, techniques such as binary...
سال ۲۰۲۵ داره تموم میشه و اگه بخوایم کل امسال رو توی یه کلمه خلاصه کنیم، اون کلمه RLVR هست. کارپاتی (Andrej Karpathy) یه جمعبندی از سال ۲۰۲۵ نوشته که دقیقاً نشون میده چرا حسوحال مدلهای امسال (مثل OpenAI o3 و DeepSeek R1) با مدلهای قبلی فرق داره.
اینجا چکیده فنی و بدون حاشیه اتفاقات امسال رو براتون لیست کردم:
۱. تغییر پارادایم آموزش: ظهور RLVR
جدول زمانی آموزش LLMها به این شکل تغییر کرد:
سال ۲۰۲x: تمرکز روی Pre-training
سال ۲۰۲۲: تکنیک RLHF + PPO (دوران GPT-3.5)
سال ۲۰۲۳: بهینهسازی با LoRA SFT
سال ۲۰۲۴: تمرکز روی Mid-Training
سال ۲۰۲۵: جهش با RLVR + GRPO
تکنیک RLVR یا Reinforcement Learning from Verifiable Rewards بازی رو عوض کرد. برخلاف RLHF که روی "سلیقه انسان" استوار بود (که گرون و نادقیقه)، توی RLVR مدل رو توی محیطهایی که خروجی قابل تایید دارن (مثل ریاضی، کدنویسی و پازلهای منطقی) ول میکنن تا خودش استراتژی حل مسئله رو یاد بگیره.
نتیجه؟ مدلها یاد گرفتن "فکر کنن". اون چیزی که به اسم Reasoning Traces میبینیم، نتیجهی تلاش مدل برای ماکسیمایز کردن ریوارد در این محیطهای قابل تاییده. الان Scaling Law جدید روی "زمان فکر کردن" (Inference-time compute) تعریف میشه، نه فقط حجم دیتا.
۲. هوش دندانهدار (Jagged Intelligence)
ما با یه موجود بیولوژیک طرف نیستیم، با یه "روح احضار شده" طرفیم. هوش مدلهای ۲۰۲۵ به شدت نامتوازن هست.
توی حوزههایی که RLVR اعمال شده (ریاضی و کد)، مدلها نابغهن. اما توی حوزههایی که محیط Verifiable ندارن، هنوز میتونن مثل یه بچه دبستانی گیج بزنن یا با یه Jailbreak ساده فریب بخورن.
به نظر من، بنچمارکها توی ۲۰۲۵ رسماً بیارزش شدن. چون بنچمارکها ذاتاً محیطهای قابل تاییدن و مدلها ناخودآگاه (یا خودآگاه) روی اونها Overfit شدن. Goodhart's Law با تمام قدرت برقراره.
۳. لایه جدید نرمافزار: Vibe Coding و Cursor
سال ۲۰۲۵ سالی بود که "نوشتن کد" جای خودش رو به "توصیف رفتار" داد. کارپاتی اصطلاح Vibe Coding رو استفاده میکنه؛ یعنی شما با زبان طبیعی و حستون برنامه مینویسید و اصلا براتون مهم نیست زیر کاپوت چه کدی تولید شده.
اپلیکیشنهای یکبار مصرف (Ephemeral Apps) ترند شد. کدی که مینویسی تا یه باگ رو دیباگ کنی و بعد دور میریزی.
ابزارهایی مثل Cursor نشون دادن که لایه اپلیکیشن فقط "Wrap کردن API" نیست؛ بلکه Orchestration هوشمند، مدیریت Context و هندل کردن وابستگیهاست.
۴. ایجنتهای Localhost
با اومدن Claude Code، مفهوم ایجنت تغییر کرد. تا قبل از این فکر میکردیم ایجنتها قراره توی کانتینرهای ابری اجرا بشن، اما الان مشخص شد که "دسترسی و Context" مهمتر از قدرت پردازشیه.
اجرای ایجنت روی کامپیوتر خودت (Localhost) یعنی دسترسی به فایلها، ترمینال و محیط واقعی توسعهدهنده بدون تاخیر شبکه. این پارادایم خیلی منطقیتر از ایجنتهای ابریه.
۵. رابط کاربری Native
مدلهایی مثل Google Nano Banana نشون دادن که خروجی تکست، فرمت بهینه برای انسان نیست. ما دنبال تصویر، نمودار و UI هستیم. مدلهای جدید دارن یاد میگیرن که مستقیماً UI تولید کنن، نه اینکه تکست بدن و ما رندرش کنیم.
جمعبندی من:
ما هنوز توی فاز "پیدا کردن فرم فکتور" هستیم. مدلها همزمان هم خیلی باهوشتر از انتظارمون شدن (توی استدلال) و هم خیلی خنگتر (توی درک عمومی).
نکته کلیدی برای مهندسهای هوش مصنوعی اینه: تمرکزتون رو از روی Pre-training بردارید. الان بازی توی زمین Post-training، طراحی Reward Functionهای قابل اثبات و ارکستراسیون ایجنتهاست. کسی برنده است که بتونه این "هوش دندانهدار" رو توی یه سیستم قابل اطمینان کپسوله کنه.
📃 پست اصلی کارپاتی:
https://karpathy.bearblog.dev/year-in-review-2025/
🛠 Join @LLMEngineers Community
اینجا چکیده فنی و بدون حاشیه اتفاقات امسال رو براتون لیست کردم:
۱. تغییر پارادایم آموزش: ظهور RLVR
جدول زمانی آموزش LLMها به این شکل تغییر کرد:
سال ۲۰۲x: تمرکز روی Pre-training
سال ۲۰۲۲: تکنیک RLHF + PPO (دوران GPT-3.5)
سال ۲۰۲۳: بهینهسازی با LoRA SFT
سال ۲۰۲۴: تمرکز روی Mid-Training
سال ۲۰۲۵: جهش با RLVR + GRPO
تکنیک RLVR یا Reinforcement Learning from Verifiable Rewards بازی رو عوض کرد. برخلاف RLHF که روی "سلیقه انسان" استوار بود (که گرون و نادقیقه)، توی RLVR مدل رو توی محیطهایی که خروجی قابل تایید دارن (مثل ریاضی، کدنویسی و پازلهای منطقی) ول میکنن تا خودش استراتژی حل مسئله رو یاد بگیره.
نتیجه؟ مدلها یاد گرفتن "فکر کنن". اون چیزی که به اسم Reasoning Traces میبینیم، نتیجهی تلاش مدل برای ماکسیمایز کردن ریوارد در این محیطهای قابل تاییده. الان Scaling Law جدید روی "زمان فکر کردن" (Inference-time compute) تعریف میشه، نه فقط حجم دیتا.
۲. هوش دندانهدار (Jagged Intelligence)
ما با یه موجود بیولوژیک طرف نیستیم، با یه "روح احضار شده" طرفیم. هوش مدلهای ۲۰۲۵ به شدت نامتوازن هست.
توی حوزههایی که RLVR اعمال شده (ریاضی و کد)، مدلها نابغهن. اما توی حوزههایی که محیط Verifiable ندارن، هنوز میتونن مثل یه بچه دبستانی گیج بزنن یا با یه Jailbreak ساده فریب بخورن.
به نظر من، بنچمارکها توی ۲۰۲۵ رسماً بیارزش شدن. چون بنچمارکها ذاتاً محیطهای قابل تاییدن و مدلها ناخودآگاه (یا خودآگاه) روی اونها Overfit شدن. Goodhart's Law با تمام قدرت برقراره.
۳. لایه جدید نرمافزار: Vibe Coding و Cursor
سال ۲۰۲۵ سالی بود که "نوشتن کد" جای خودش رو به "توصیف رفتار" داد. کارپاتی اصطلاح Vibe Coding رو استفاده میکنه؛ یعنی شما با زبان طبیعی و حستون برنامه مینویسید و اصلا براتون مهم نیست زیر کاپوت چه کدی تولید شده.
اپلیکیشنهای یکبار مصرف (Ephemeral Apps) ترند شد. کدی که مینویسی تا یه باگ رو دیباگ کنی و بعد دور میریزی.
ابزارهایی مثل Cursor نشون دادن که لایه اپلیکیشن فقط "Wrap کردن API" نیست؛ بلکه Orchestration هوشمند، مدیریت Context و هندل کردن وابستگیهاست.
۴. ایجنتهای Localhost
با اومدن Claude Code، مفهوم ایجنت تغییر کرد. تا قبل از این فکر میکردیم ایجنتها قراره توی کانتینرهای ابری اجرا بشن، اما الان مشخص شد که "دسترسی و Context" مهمتر از قدرت پردازشیه.
اجرای ایجنت روی کامپیوتر خودت (Localhost) یعنی دسترسی به فایلها، ترمینال و محیط واقعی توسعهدهنده بدون تاخیر شبکه. این پارادایم خیلی منطقیتر از ایجنتهای ابریه.
۵. رابط کاربری Native
مدلهایی مثل Google Nano Banana نشون دادن که خروجی تکست، فرمت بهینه برای انسان نیست. ما دنبال تصویر، نمودار و UI هستیم. مدلهای جدید دارن یاد میگیرن که مستقیماً UI تولید کنن، نه اینکه تکست بدن و ما رندرش کنیم.
جمعبندی من:
ما هنوز توی فاز "پیدا کردن فرم فکتور" هستیم. مدلها همزمان هم خیلی باهوشتر از انتظارمون شدن (توی استدلال) و هم خیلی خنگتر (توی درک عمومی).
نکته کلیدی برای مهندسهای هوش مصنوعی اینه: تمرکزتون رو از روی Pre-training بردارید. الان بازی توی زمین Post-training، طراحی Reward Functionهای قابل اثبات و ارکستراسیون ایجنتهاست. کسی برنده است که بتونه این "هوش دندانهدار" رو توی یه سیستم قابل اطمینان کپسوله کنه.
📃 پست اصلی کارپاتی:
https://karpathy.bearblog.dev/year-in-review-2025/
🛠 Join @LLMEngineers Community
karpathy
2025 LLM Year in Review
2025 Year in Review of LLM paradigm changes
Forwarded from Farhad
سلام بچه ها من یک کانال دارم بحث های پیشرفته تئوری رو پوشش میدم. ممنون میشم حمایت کنید :
https://www.youtube.com/@AIResearchJourney
https://www.youtube.com/@AIResearchJourney
LLM Engineers
سلام بچه ها من یک کانال دارم بحث های پیشرفته تئوری رو پوشش میدم. ممنون میشم حمایت کنید : https://www.youtube.com/@AIResearchJourney
کانال یوتیوب دوستان کامیونیتی هستش
حمایت کنید ✌🏻
حمایت کنید ✌🏻
شیائومی با MiMo-V2-Flash نشون داد که "مهندسی عملگرا" دقیقا یعنی چی. مدل MoE با ۳۰۹ میلیارد پارامتر که فقط ۱۵ میلیاردش فعاله (Active Params)، ولی نکته اصلی سایز مدل نیست؛ شاهکار توی معماری و انتخابهای فنیشون برای بهینهسازیه.
معماری Hybrid Attention اینجا بازی رو عوض کرده. ترکیب Sliding Window Attention (SWA) با Global Attention با نسبت ۵ به ۱. نکته عجیب ماجرا اینه که Window Size رو روی ۱۲۸ بستن و نتیجه گرفتن (حتی بهتر از ۵۱۲). این یعنی ۶ برابر کاهش در مصرف حافظه KV Cache. فقط حواستون باشه، طبق گفته خودشون Attention Sink Bias رو به هیچ وجه نباید حذف کنید، چون برای حفظ کانتکست حیاتیه.
ماژول MTP یا همون Multi-Token Prediction رو هم جداگانه اپنسورس کردن. این ماژول ۳ لایه، سرعت خروجی رو ۳ برابر میکنه و مهمتر از اون، توی آموزش RL زمان بیکاری GPU رو برای نمونههای Long-tail به شدت کاهش میده. یه FFN متراکم سادهست (برعکس خود مدل که MoE هست) ولی تاثیرش توی پروداکشن وحشتناکه.
تکنیک MOPD برای Post-training هم درس بزرگیه. ایده اینه که Knowledge Distillation رو تبدیل کردن به یه فرآیند RL. دانش Teacher رو با هزینه محاسباتی ۱/۵۰ روشهای معمول (مثل SFT+RL) به Student منتقل کردن. عملا یه لوپ Self-reinforcing ساختن که مدل دانشآموز میتونه خودش تبدیل به معلم قویتری بشه.
به نظر من، MiMo-V2 فقط یه مدل زبانی نیست، یه کلاس درس برای کساییه که میخوان Inference ارزان و سریع داشته باشن و درگیر Hype سایز مدل نشن. وقتی ۱۵ میلیارد پارامتر فعال بتونه بنچمارکهای مدلهای ۳۰+ میلیاردی رو بزنه، یعنی معماری درست چیده شده.
📃 گزارش فنی و جزئیات معماری:
https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
🤗 لینک مدل در هاگینگفیس:
https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
🛠 Join @LLMEngineers Community
معماری Hybrid Attention اینجا بازی رو عوض کرده. ترکیب Sliding Window Attention (SWA) با Global Attention با نسبت ۵ به ۱. نکته عجیب ماجرا اینه که Window Size رو روی ۱۲۸ بستن و نتیجه گرفتن (حتی بهتر از ۵۱۲). این یعنی ۶ برابر کاهش در مصرف حافظه KV Cache. فقط حواستون باشه، طبق گفته خودشون Attention Sink Bias رو به هیچ وجه نباید حذف کنید، چون برای حفظ کانتکست حیاتیه.
ماژول MTP یا همون Multi-Token Prediction رو هم جداگانه اپنسورس کردن. این ماژول ۳ لایه، سرعت خروجی رو ۳ برابر میکنه و مهمتر از اون، توی آموزش RL زمان بیکاری GPU رو برای نمونههای Long-tail به شدت کاهش میده. یه FFN متراکم سادهست (برعکس خود مدل که MoE هست) ولی تاثیرش توی پروداکشن وحشتناکه.
تکنیک MOPD برای Post-training هم درس بزرگیه. ایده اینه که Knowledge Distillation رو تبدیل کردن به یه فرآیند RL. دانش Teacher رو با هزینه محاسباتی ۱/۵۰ روشهای معمول (مثل SFT+RL) به Student منتقل کردن. عملا یه لوپ Self-reinforcing ساختن که مدل دانشآموز میتونه خودش تبدیل به معلم قویتری بشه.
به نظر من، MiMo-V2 فقط یه مدل زبانی نیست، یه کلاس درس برای کساییه که میخوان Inference ارزان و سریع داشته باشن و درگیر Hype سایز مدل نشن. وقتی ۱۵ میلیارد پارامتر فعال بتونه بنچمارکهای مدلهای ۳۰+ میلیاردی رو بزنه، یعنی معماری درست چیده شده.
📃 گزارش فنی و جزئیات معماری:
https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
🤗 لینک مدل در هاگینگفیس:
https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
🛠 Join @LLMEngineers Community
GitHub
MiMo-V2-Flash/paper.pdf at main · XiaomiMiMo/MiMo-V2-Flash
MiMo-V2-Flash: Efficient Reasoning, Coding, and Agentic Foundation Model - XiaomiMiMo/MiMo-V2-Flash
🤏 مدل FunctionGemma: بازگشت به میکروسکوپ!
گوگل یه حرکت خلاف جهت بازار زده و مدل FunctionGemma رو با سایز عجیب ۲۷۰ میلیون پارامتر (270M) منتشر کرده. توی دنیایی که همه دنبال مدلهای ۱۰۰ میلیاردی هستن، این سایز یعنی "تقریبا هیچی". اما اشتباه نکنید، این مدل قرار نیست براتون شعر بگه یا فلسفه ببافه؛ این مدل یه آچار فرانسه تخصصی برای Function Calling روی Edge Device هاست.
معماری این مدل بر پایه Gemma 3 هست ولی برای دیالوگ مستقیم ساخته نشده. هدف اصلی اینه که به عنوان یه لایه واسط (Middleware) بین درخواست کاربر و APIهای سیستم عامل یا اپلیکیشنها قرار بگیره. گوگل ادعا میکنه این مدل رو باید Fine-tune کنید تا قدرت واقعیش رو ببینید.
نکته فنی جذاب ماجرا اینجاست: نسخه Base این مدل روی تسکهای Mobile Actions حدود ۵۸٪ دقت داره، اما وقتی روی دیتای دومینِ خودتون (مثلا کنترلرهای اندروید) Fine-tune میشه، دقتش میپره روی ۸۵٪. این یعنی یه مدل ۲۷۰ میلیونی که روی CPU گوشی سامسونگ S25 Ultra اجرا میشه، میتونه با دقت بالا بفهمه کاربر وقتی میگه "چراغ رو روشن کن"، باید کدوم تابع سیستمی رو با چه پارامترهایی صدا بزنه.
پرفورمنس و کاربرد عملی این مدل:
روی سختافزار محدود مثل گوشی یا Browser اجرا میشه و نیازی به اینترنت نداره (Privacy-first). برای توسعهدهندهها، دیتاسیت Mobile Actions رو هم منتشر کردن که نشون میده چطور میشه دستورات متنی رو به JSON برای اجرا تبدیل کرد. با ابزارهایی مثل Unsloth هم سازگاره و میتونید خیلی سریع روی دیتای خودتون شخصیسازیش کنید و توی LM Studio سرو کنید.
به نظر من، این حرکت گوگل نشوندهنده یه شیفت پارادایم توی معماری Agent هاست. تا الان فکر میکردیم یه مدل گنده (مثل GPT-4) باید همه کارها رو بکنه، اما آینده احتمالا "تیمسازی" از مدلهاست: یه مدل متوسط برای برنامهریزی (Planner) و چندین مدل میکرو مثل FunctionGemma برای اجرای دقیق ابزارها (Executors). اینجوری هم Latency میاد پایین، هم هزینه Inference نزدیک به صفر میشه و هم امنیت داده کاربر حفظ میشه چون لاجیک روی گوشی میمونه.
اگه دارید روی سیستمهای Agentic کار میکنید که نیاز به Tool Use دارن ولی منابع سرور محدود دارید، این مدل رو حتما تست کنید. فقط یادتون باشه، بدون Fine-tune کردن روی Task خودتون، احتمالا خروجی جالبی نمیده.
📃 لینک مدل در هاگینگفیس:
https://huggingface.co/collections/google/functiongemma
📃 دیتاسیت Mobile Actions برای تمرین:
https://huggingface.co/datasets/google/mobile-actions
🛠 Join @LLMEngineers Community
گوگل یه حرکت خلاف جهت بازار زده و مدل FunctionGemma رو با سایز عجیب ۲۷۰ میلیون پارامتر (270M) منتشر کرده. توی دنیایی که همه دنبال مدلهای ۱۰۰ میلیاردی هستن، این سایز یعنی "تقریبا هیچی". اما اشتباه نکنید، این مدل قرار نیست براتون شعر بگه یا فلسفه ببافه؛ این مدل یه آچار فرانسه تخصصی برای Function Calling روی Edge Device هاست.
معماری این مدل بر پایه Gemma 3 هست ولی برای دیالوگ مستقیم ساخته نشده. هدف اصلی اینه که به عنوان یه لایه واسط (Middleware) بین درخواست کاربر و APIهای سیستم عامل یا اپلیکیشنها قرار بگیره. گوگل ادعا میکنه این مدل رو باید Fine-tune کنید تا قدرت واقعیش رو ببینید.
نکته فنی جذاب ماجرا اینجاست: نسخه Base این مدل روی تسکهای Mobile Actions حدود ۵۸٪ دقت داره، اما وقتی روی دیتای دومینِ خودتون (مثلا کنترلرهای اندروید) Fine-tune میشه، دقتش میپره روی ۸۵٪. این یعنی یه مدل ۲۷۰ میلیونی که روی CPU گوشی سامسونگ S25 Ultra اجرا میشه، میتونه با دقت بالا بفهمه کاربر وقتی میگه "چراغ رو روشن کن"، باید کدوم تابع سیستمی رو با چه پارامترهایی صدا بزنه.
پرفورمنس و کاربرد عملی این مدل:
روی سختافزار محدود مثل گوشی یا Browser اجرا میشه و نیازی به اینترنت نداره (Privacy-first). برای توسعهدهندهها، دیتاسیت Mobile Actions رو هم منتشر کردن که نشون میده چطور میشه دستورات متنی رو به JSON برای اجرا تبدیل کرد. با ابزارهایی مثل Unsloth هم سازگاره و میتونید خیلی سریع روی دیتای خودتون شخصیسازیش کنید و توی LM Studio سرو کنید.
به نظر من، این حرکت گوگل نشوندهنده یه شیفت پارادایم توی معماری Agent هاست. تا الان فکر میکردیم یه مدل گنده (مثل GPT-4) باید همه کارها رو بکنه، اما آینده احتمالا "تیمسازی" از مدلهاست: یه مدل متوسط برای برنامهریزی (Planner) و چندین مدل میکرو مثل FunctionGemma برای اجرای دقیق ابزارها (Executors). اینجوری هم Latency میاد پایین، هم هزینه Inference نزدیک به صفر میشه و هم امنیت داده کاربر حفظ میشه چون لاجیک روی گوشی میمونه.
اگه دارید روی سیستمهای Agentic کار میکنید که نیاز به Tool Use دارن ولی منابع سرور محدود دارید، این مدل رو حتما تست کنید. فقط یادتون باشه، بدون Fine-tune کردن روی Task خودتون، احتمالا خروجی جالبی نمیده.
📃 لینک مدل در هاگینگفیس:
https://huggingface.co/collections/google/functiongemma
📃 دیتاسیت Mobile Actions برای تمرین:
https://huggingface.co/datasets/google/mobile-actions
🛠 Join @LLMEngineers Community
بالاخره یه منبع درستوحسابی پیدا شد که فرق اسکریپتنویسی توی Colab رو با یه سیستم Production-level واقعی نشون بده. کتاب LLM Engineer's Handbook که اوایل ۲۰۲۵ منتشر شده، دقیقاً دست میذاره رو نقطهی درد اکثر ما: خروج از "جهنم ژوپیتر نوتبوک" و ورود به دنیای مهندسی نرمافزار مقیاسپذیر.
نویسندههاش آدمایین که دستشون تو کاره؛ Maxime Labonne رو احتمالاً اگر تو توییتر یا هاسینگفیس فعال باشید میشناسید (بابت مدلها و آموزشهای دقیقش) و Paul Iusztin هم که سابقه سنگین MLOps داره. ترکیب این دو تا باعث شده کتاب هم از نظر تئوری مدلها قوی باشه و هم از نظر زیرساخت.
تمرکز اصلی کتاب روی ساخت یه پروژه End-to-End به اسم LLM Twin هست. ایده اینه که یه سیستم بسازید که سبک نوشتاری و شخصیت شما رو تقلید کنه. اما نکته اینجاست که هدف ساختن مدل نیست، هدف ساختن "پایپلاین" هست.
چیزایی که تو این کتاب پوشش داده میشه فراتر از
- مباحث RAG و Fine-tuning رو با دید عملیاتی بررسی میکنه (نه فقط تئوری).
- معماری سیستم رو بر اساس پترن FTI (Feature, Training, Inference) میچینه که برای جدا کردن نگرانیها تو سیستمهای بزرگ حیاتیه.
- ابزارهایی مثل ZenML برای ارکستراسیون، Comet ML برای ترک کردن آزمایشها و AWS SageMaker برای دیپلوی رو وسط میکشه.
به نظر من، برگ برنده این کتاب اینه که وارد جزئیات کثیف Production میشه. مثلاً چطوری Latency اینفرنس رو پایین بیاریم؟ چطوری دیتابیسهای برداری مثل Qdrant رو مدیریت کنیم؟ یا چطوری برای پرامپتها مانیتورینگ بذاریم؟ اینا چیزایی نیست که تو کورسهای یوتوب پیدا بشه.
استک فنی کتاب کاملاً پایتونی و مدرنه (Poetry, Docker, GitHub Actions) و دید خوبی میده که چطوری CI/CD رو برای مدلهای زبانی پیادهسازی کنیم. اگر دنبال این هستید که از فاز "مدلسازی" صرف بیاید بیرون و تبدیل بشید به کسی که میتونه یه سرویس AI پایدار رو نگهداری کنه، این کتاب مسیر رو شفاف میکنه.
کدهاش هم توی گیتهاب فعاله و بهروزرسانی میشه، که برای یه کتاب فنی امتیاز بزرگیه. البته حواستون باشه که این کتاب برای مبتدیها نیست؛ باید پایتون و اصول اولیه AWS و GenAI رو بلد باشید تا گیر نکنید.
📃 لینک ریپازیتوری گیتهاب پروژه:
https://github.com/PacktPublishing/LLM-Engineers-Handbook
📃 لینک کتاب در آمازون:
https://www.amazon.com/LLM-Engineers-Handbook-engineering-production/dp/1836200067
🛠 Join @LLMEngineers Community
نویسندههاش آدمایین که دستشون تو کاره؛ Maxime Labonne رو احتمالاً اگر تو توییتر یا هاسینگفیس فعال باشید میشناسید (بابت مدلها و آموزشهای دقیقش) و Paul Iusztin هم که سابقه سنگین MLOps داره. ترکیب این دو تا باعث شده کتاب هم از نظر تئوری مدلها قوی باشه و هم از نظر زیرساخت.
تمرکز اصلی کتاب روی ساخت یه پروژه End-to-End به اسم LLM Twin هست. ایده اینه که یه سیستم بسازید که سبک نوشتاری و شخصیت شما رو تقلید کنه. اما نکته اینجاست که هدف ساختن مدل نیست، هدف ساختن "پایپلاین" هست.
چیزایی که تو این کتاب پوشش داده میشه فراتر از
model.generate سادهست:- مباحث RAG و Fine-tuning رو با دید عملیاتی بررسی میکنه (نه فقط تئوری).
- معماری سیستم رو بر اساس پترن FTI (Feature, Training, Inference) میچینه که برای جدا کردن نگرانیها تو سیستمهای بزرگ حیاتیه.
- ابزارهایی مثل ZenML برای ارکستراسیون، Comet ML برای ترک کردن آزمایشها و AWS SageMaker برای دیپلوی رو وسط میکشه.
به نظر من، برگ برنده این کتاب اینه که وارد جزئیات کثیف Production میشه. مثلاً چطوری Latency اینفرنس رو پایین بیاریم؟ چطوری دیتابیسهای برداری مثل Qdrant رو مدیریت کنیم؟ یا چطوری برای پرامپتها مانیتورینگ بذاریم؟ اینا چیزایی نیست که تو کورسهای یوتوب پیدا بشه.
استک فنی کتاب کاملاً پایتونی و مدرنه (Poetry, Docker, GitHub Actions) و دید خوبی میده که چطوری CI/CD رو برای مدلهای زبانی پیادهسازی کنیم. اگر دنبال این هستید که از فاز "مدلسازی" صرف بیاید بیرون و تبدیل بشید به کسی که میتونه یه سرویس AI پایدار رو نگهداری کنه، این کتاب مسیر رو شفاف میکنه.
کدهاش هم توی گیتهاب فعاله و بهروزرسانی میشه، که برای یه کتاب فنی امتیاز بزرگیه. البته حواستون باشه که این کتاب برای مبتدیها نیست؛ باید پایتون و اصول اولیه AWS و GenAI رو بلد باشید تا گیر نکنید.
📃 لینک ریپازیتوری گیتهاب پروژه:
https://github.com/PacktPublishing/LLM-Engineers-Handbook
📃 لینک کتاب در آمازون:
https://www.amazon.com/LLM-Engineers-Handbook-engineering-production/dp/1836200067
🛠 Join @LLMEngineers Community
GitHub
GitHub - PacktPublishing/LLM-Engineers-Handbook: The LLM's practical guide: From the fundamentals to deploying advanced LLM and…
The LLM's practical guide: From the fundamentals to deploying advanced LLM and RAG apps to AWS using LLMOps best practices - PacktPublishing/LLM-Engineers-Handbook
آنتونیو گولی (Antonio Gulli)، مهندس ارشد و مدیر در گوگل، داکیومنتی رو منتشر کرده که عملاً یه کورس دانشگاهی کامل برای ساخت سیستمهای هوشمند و Agentic هست؛ از صفر تا صدِ دیزاین پترنهای مدرن هوش مصنوعی رو با کد پوشش داده.
اگر دنبال این هستید که از سطح "Hello World" با LLMها فراتر برید و سیستمهای واقعی بسازید، این داکیومنت دقیقاً همون چیزیه که لازم دارید. تمرکز اصلی روی Agentic Design Patterns هست، یعنی الگوهایی که مدلهای زبانی رو از یک تولیدکننده متن ساده، به یک عامل هوشمند تبدیل میکنن.
نکات کلیدی و فنی که در این کتاب یاد میگیرید:
۱. معماری جریان کار (Workflows):
فصلهای ابتدایی به اصول پایه مثل Prompt Chaining و Routing میپردازن. اینجا یاد میگیرید چطور تسکهای پیچیده رو بشکنید و بر اساس ورودی کاربر، تصمیم بگیرید کدوم مدل یا ابزار باید اجرا بشه. این پایه و اساس هر سیستم Agentic هست.
۲. استدلال و برنامهریزی (Reasoning & Planning):
تکنیکهایی مثل ReAct و Chain of Thought (CoT) دیگه فقط تئوری نیستن. اینجا پیادهسازی عملی اونها رو میبینید. اینکه چطور Agent قبل از اجرا، فکر کنه، پلن بریزه و بعد اقدام کنه (Chapter 6 & 17).
۳. پروتکلهای اتصال و ابزار (MCP & Tools):
یکی از بخشهای جذاب، بحث Model Context Protocol (MCP) هست. این استاندارد جدید برای اتصال LLMها به دیتاسورسها و ابزارهای خارجی داره تبدیل به استاندارد صنعت میشه. فصل ۱۰ و ۵ به طور عمیق وارد Function Calling و استفاده از ابزارها میشن.
۴. سیستمهای چند عاملی (Multi-Agent):
توی فصلهای ۷ و ۱۵، یاد میگیرید چطور چندین Agent تخصصی رو کنار هم بچینید تا با هم همکاری کنن (Collaboration). این دقیقا همون جاییه که فریمورکهایی مثل LangGraph و CrewAI میدرخشن و این کتاب با کد نشون میده چطور پیادهسازیش کنید.
۵. حافظه و یادگیری (Memory & RAG):
مدیریت حافظه (Short/Long term) و RAG پیشرفته (Chapter 8 & 14) برای اینکه Agent بتونه کانتکست رو در طول زمان حفظ کنه و به دیتای سازمان دسترسی داشته باشه، حیاتیه.
۶. قابلیت اطمینان و پروداکشن (Reliability):
به نظر من، مهمترین بخش برای مهندسهای سنیور، فصلهای مربوط به Guardrails (ایمنی)، Evaluation (ارزیابی) و Error Handling هست. ساختن دمو راحته، ولی ساختن ایجنتی که تو پروداکشن کرش نکنه و خروجی سمی نده، هنره.
فریمورکهای استفاده شده:
کدها عمدتاً با استفاده از LangChain، LangGraph و Google ADK نوشته شدن که الان استک استاندارد بازار محسوب میشن.
چرا باید این رو بخونید؟
تکنولوژی Agentic AI هنوز در لبهست (Frontier). اکثر منابع موجود پراکنده و ناقصن. این داکیومنت تمام پترنهایی که الان توی سیلیکونولی استفاده میشه رو یکجا و منسجم جمع کرده.
📥 لینکهای دانلود:
📄 دانلود مستقیم PDF از گوگل درایو:
https://drive.google.com/file/d/1-5ho2aSZ-z0FcW8W_jMUoFSQ5hTKvJ43/view?usp=drivesdk
📄 لینک میرور در گیتهاب (PDF):
https://github.com/sarwarbeing-ai/Agentic_Design_Patterns/blob/main/Agentic_Design_Patterns.pdf
🛠 Join @LLMEngineers Community
اگر دنبال این هستید که از سطح "Hello World" با LLMها فراتر برید و سیستمهای واقعی بسازید، این داکیومنت دقیقاً همون چیزیه که لازم دارید. تمرکز اصلی روی Agentic Design Patterns هست، یعنی الگوهایی که مدلهای زبانی رو از یک تولیدکننده متن ساده، به یک عامل هوشمند تبدیل میکنن.
نکات کلیدی و فنی که در این کتاب یاد میگیرید:
۱. معماری جریان کار (Workflows):
فصلهای ابتدایی به اصول پایه مثل Prompt Chaining و Routing میپردازن. اینجا یاد میگیرید چطور تسکهای پیچیده رو بشکنید و بر اساس ورودی کاربر، تصمیم بگیرید کدوم مدل یا ابزار باید اجرا بشه. این پایه و اساس هر سیستم Agentic هست.
۲. استدلال و برنامهریزی (Reasoning & Planning):
تکنیکهایی مثل ReAct و Chain of Thought (CoT) دیگه فقط تئوری نیستن. اینجا پیادهسازی عملی اونها رو میبینید. اینکه چطور Agent قبل از اجرا، فکر کنه، پلن بریزه و بعد اقدام کنه (Chapter 6 & 17).
۳. پروتکلهای اتصال و ابزار (MCP & Tools):
یکی از بخشهای جذاب، بحث Model Context Protocol (MCP) هست. این استاندارد جدید برای اتصال LLMها به دیتاسورسها و ابزارهای خارجی داره تبدیل به استاندارد صنعت میشه. فصل ۱۰ و ۵ به طور عمیق وارد Function Calling و استفاده از ابزارها میشن.
۴. سیستمهای چند عاملی (Multi-Agent):
توی فصلهای ۷ و ۱۵، یاد میگیرید چطور چندین Agent تخصصی رو کنار هم بچینید تا با هم همکاری کنن (Collaboration). این دقیقا همون جاییه که فریمورکهایی مثل LangGraph و CrewAI میدرخشن و این کتاب با کد نشون میده چطور پیادهسازیش کنید.
۵. حافظه و یادگیری (Memory & RAG):
مدیریت حافظه (Short/Long term) و RAG پیشرفته (Chapter 8 & 14) برای اینکه Agent بتونه کانتکست رو در طول زمان حفظ کنه و به دیتای سازمان دسترسی داشته باشه، حیاتیه.
۶. قابلیت اطمینان و پروداکشن (Reliability):
به نظر من، مهمترین بخش برای مهندسهای سنیور، فصلهای مربوط به Guardrails (ایمنی)، Evaluation (ارزیابی) و Error Handling هست. ساختن دمو راحته، ولی ساختن ایجنتی که تو پروداکشن کرش نکنه و خروجی سمی نده، هنره.
فریمورکهای استفاده شده:
کدها عمدتاً با استفاده از LangChain، LangGraph و Google ADK نوشته شدن که الان استک استاندارد بازار محسوب میشن.
چرا باید این رو بخونید؟
تکنولوژی Agentic AI هنوز در لبهست (Frontier). اکثر منابع موجود پراکنده و ناقصن. این داکیومنت تمام پترنهایی که الان توی سیلیکونولی استفاده میشه رو یکجا و منسجم جمع کرده.
📥 لینکهای دانلود:
📄 دانلود مستقیم PDF از گوگل درایو:
https://drive.google.com/file/d/1-5ho2aSZ-z0FcW8W_jMUoFSQ5hTKvJ43/view?usp=drivesdk
📄 لینک میرور در گیتهاب (PDF):
https://github.com/sarwarbeing-ai/Agentic_Design_Patterns/blob/main/Agentic_Design_Patterns.pdf
🛠 Join @LLMEngineers Community
مقاله جدیدی که از دانشگاه مسکو اومده بیرون، یه درد مشترک ما و روسها رو هدف گرفته: مدلهای خفن مثل LLaMa-3 و Mistral روی انگلیسی عالیان، ولی وقتی میخوایم برای زبان خودمون (Russian اونجا، Farsi اینجا) بهینهشون کنیم، یا باید کلی هزینه Pre-training بدیم یا با دیتاستهای کمکیفیت Instruction Tuning کنیم که نتیجهاش میشه یه مدل که "فارسی حرف میزنه ولی مغزش کوچیک شده" (Catastrophic Forgetting).
راهکار این مقاله Learned Embedding Propagation (LEP) هست.
ایده اصلی اینه: به جای اینکه مدل رو از اول روی دیتاستهای Instruction-Tuning زبان مقصد (که معمولا کمه یا بیکیفیته) آموزش بدیم، بیایم "دانشِ پیروی از دستورات" (Instruction Following) رو از مدل انگلیسی به مدل زبانمادری تزریق کنیم، اونم فقط با دستکاری Embeddingها.
روش کار به صورت خلاصه اینطوریه:
یک: ابتدا Vocabulary مدل رو دستکاری میکنن (تکنیک Vocabulary Conversion). توکنهای انگلیسی رو نگه میدارن ولی توکنهای اختصاصی زبان جدید رو با الگوریتمهایی مثل BPE یا Unigram اضافه میکنن تا Tokenization بهینه بشه.
دو: مدل Base رو روی متون خام زبان مقصد (Continued Pre-training) آموزش میدن. اینجا فقط Embeddingها آپدیت میشن تا مدل زبان رو بفهمه. هنوز Instruction بلد نیست.
سه: حالا بخش جذاب ماجراست. با یه تبدیل خطی (Linear Transformation)، فاصله بین Embeddingهای مدل Base و مدل Instruct انگلیسی رو یاد میگیرن و این تبدیل رو روی Embeddingهای مدل جدید اعمال میکنن. یعنی عملاً مغز Instruct-Tuned مدل انگلیسی رو "پورت" میکنن روی بدنه زبانفهم جدید.
نکته مهمی که تو بنچمارکگیریشون (که اسمش رو گذاشتن Darumeru) فهمیدن اینه که بنچمارکهای موجود (مثل MERA یا Open Leaderboardها) قابل اعتماد نیستن چون Data Leakage توشون زیاده. برای همین یه تسک جدید به اسم DaruCopy اضافه کردن.
تسک کپی کردن (Copy Task) یعنی مدل بتونه یه متن طولانی رو بدون تغییر کپی کنه. شاید مسخره به نظر بیاد، ولی وقتی Vocabulary عوض میشه، مدلها قاطی میکنن و شروع میکنن به هذیون گفتن (Hallucination). اگر مدلی نتونه متن ورودی رو کپی کنه، یعنی توکنهای جدید رو درست مپ نکرده.
به نظر من این مقاله برای کامیونیتی فارسی طلاست. ما همیشه مشکل دیتاست باکیفیت Instruction فارسی داریم (مثل Saiga که اونا دارن). با LEP میتونیم Qwen-3-Instruct رو برداریم، توکنهای فارسی رو بهش تزریق کنیم و بدون نیاز به هزاران سمپل فاینتیون، یه مدل اینستراکت فارسی تر و تمیز داشته باشیم که منطق مدل اصلی رو حفظ کرده.
نتایج نشون میده که این روش نه تنها هزینهها رو به شدت کاهش میده، بلکه در اکثر تسکها عملکردش با مدلهایی که فولفاینتیون شدن برابری میکنه یا حتی بهتره، چون دانش اصلی مدل Base کمتر دستکاری شده.
📃 عنوان مقاله: Facilitating large language model Russian adaptation with Learned Embedding Propagation
https://arxiv.org/abs/2412.21140v1
🛠 Join @LLMEngineers Community
راهکار این مقاله Learned Embedding Propagation (LEP) هست.
ایده اصلی اینه: به جای اینکه مدل رو از اول روی دیتاستهای Instruction-Tuning زبان مقصد (که معمولا کمه یا بیکیفیته) آموزش بدیم، بیایم "دانشِ پیروی از دستورات" (Instruction Following) رو از مدل انگلیسی به مدل زبانمادری تزریق کنیم، اونم فقط با دستکاری Embeddingها.
روش کار به صورت خلاصه اینطوریه:
یک: ابتدا Vocabulary مدل رو دستکاری میکنن (تکنیک Vocabulary Conversion). توکنهای انگلیسی رو نگه میدارن ولی توکنهای اختصاصی زبان جدید رو با الگوریتمهایی مثل BPE یا Unigram اضافه میکنن تا Tokenization بهینه بشه.
دو: مدل Base رو روی متون خام زبان مقصد (Continued Pre-training) آموزش میدن. اینجا فقط Embeddingها آپدیت میشن تا مدل زبان رو بفهمه. هنوز Instruction بلد نیست.
سه: حالا بخش جذاب ماجراست. با یه تبدیل خطی (Linear Transformation)، فاصله بین Embeddingهای مدل Base و مدل Instruct انگلیسی رو یاد میگیرن و این تبدیل رو روی Embeddingهای مدل جدید اعمال میکنن. یعنی عملاً مغز Instruct-Tuned مدل انگلیسی رو "پورت" میکنن روی بدنه زبانفهم جدید.
نکته مهمی که تو بنچمارکگیریشون (که اسمش رو گذاشتن Darumeru) فهمیدن اینه که بنچمارکهای موجود (مثل MERA یا Open Leaderboardها) قابل اعتماد نیستن چون Data Leakage توشون زیاده. برای همین یه تسک جدید به اسم DaruCopy اضافه کردن.
تسک کپی کردن (Copy Task) یعنی مدل بتونه یه متن طولانی رو بدون تغییر کپی کنه. شاید مسخره به نظر بیاد، ولی وقتی Vocabulary عوض میشه، مدلها قاطی میکنن و شروع میکنن به هذیون گفتن (Hallucination). اگر مدلی نتونه متن ورودی رو کپی کنه، یعنی توکنهای جدید رو درست مپ نکرده.
به نظر من این مقاله برای کامیونیتی فارسی طلاست. ما همیشه مشکل دیتاست باکیفیت Instruction فارسی داریم (مثل Saiga که اونا دارن). با LEP میتونیم Qwen-3-Instruct رو برداریم، توکنهای فارسی رو بهش تزریق کنیم و بدون نیاز به هزاران سمپل فاینتیون، یه مدل اینستراکت فارسی تر و تمیز داشته باشیم که منطق مدل اصلی رو حفظ کرده.
نتایج نشون میده که این روش نه تنها هزینهها رو به شدت کاهش میده، بلکه در اکثر تسکها عملکردش با مدلهایی که فولفاینتیون شدن برابری میکنه یا حتی بهتره، چون دانش اصلی مدل Base کمتر دستکاری شده.
📃 عنوان مقاله: Facilitating large language model Russian adaptation with Learned Embedding Propagation
https://arxiv.org/abs/2412.21140v1
🛠 Join @LLMEngineers Community
arXiv.org
Facilitating large language model Russian adaptation with Learned...
Rapid advancements of large language model (LLM) technologies led to the introduction of powerful open-source instruction-tuned LLMs that have the same text generation quality as the...
❤2
قبل از هر چیز، تسلیت صمیمانه به تمام مردم ایران و خانوادههایی که تو این مدت داغدار شدن. ۷ هفته سکوت این کانال نه از روی بیخبری بود و نه بیتفاوتی؛ پاسخی بود به فاجعهای که همهمون لمسش کردیم.
باید خیلی شفاف بگم: پست گذاشتن ما به معنی عادیسازی شرایط نیست. هیچچیز برای ما عادی نشده و هیچچیز هم تمام نشده. داغ این روزها روی تن جامعه و مخصوصاً کامیونیتی تکنولوژی میمونه. اما به اصرار و درخواست خیلی از شما بچهها که تو این شرایط برای بقا و جلو بردن پروژههاتون به دانش روز احتیاج داشتید، تصمیم گرفتیم فعالیت رو از سر بگیریم. ما برمیگردیم چون معتقدیم یاد گرفتن تکنولوژی های روز دنیا، خودش یه نوع ایستادگیه و نباید اجازه بدیم شکاف دانش ما با دنیا از این بیشتر بشه.
باید خیلی شفاف بگم: پست گذاشتن ما به معنی عادیسازی شرایط نیست. هیچچیز برای ما عادی نشده و هیچچیز هم تمام نشده. داغ این روزها روی تن جامعه و مخصوصاً کامیونیتی تکنولوژی میمونه. اما به اصرار و درخواست خیلی از شما بچهها که تو این شرایط برای بقا و جلو بردن پروژههاتون به دانش روز احتیاج داشتید، تصمیم گرفتیم فعالیت رو از سر بگیریم. ما برمیگردیم چون معتقدیم یاد گرفتن تکنولوژی های روز دنیا، خودش یه نوع ایستادگیه و نباید اجازه بدیم شکاف دانش ما با دنیا از این بیشتر بشه.
❤59👍9👎4
LLM Engineers pinned «قبل از هر چیز، تسلیت صمیمانه به تمام مردم ایران و خانوادههایی که تو این مدت داغدار شدن. ۷ هفته سکوت این کانال نه از روی بیخبری بود و نه بیتفاوتی؛ پاسخی بود به فاجعهای که همهمون لمسش کردیم. باید خیلی شفاف بگم: پست گذاشتن ما به معنی عادیسازی شرایط نیست.…»
مدل GLM-5 با معماری MoE و وزنهای باز منتشر شد و نشون داد که جنگ در سال ۲۰۲۶ دیگه روی صرفاً تعداد پارامتر نیست، بلکه روی بهینهسازی سیستم و زیرساخت پسآموزشه. این مدل با ۷۴۴ میلیارد پارامتر کل عرضه شده که موقع استنتاج فقط ۴۰ میلیارد پارامتر فعال داره. حجم دادههای پیشآموزش هم به ۲۸.۵ تریلیون توکن رسیده که نشوندهنده کیفیت و چگالی بالای اطلاعات توی وزنهاست.
معماری Sparse Attention که از DeepSeek قرض گرفته شده، مستقیماً هزینههای عملیاتی رو هدف قرار میده. استفاده از این تکنیک باعث میشه مدیریت Context پنجرههای طولانی بدون ترکیدن VRAM ممکن بشه. واقعیت اینه که داشتن مدل بزرگ بدون Sparse Attention توی محیط Production عملاً یعنی خودکشی مالی، و GLM-5 این رو خوب فهمیده.
زیرساخت Slime که همراه این مدل معرفی شده، به نظر من نقطه عطف اصلی این انتشار برای مهندسهای هوش مصنوعیه. این یه فریمورک RL ناهمگام (Asynchronous) هست که برای مقیاسپذیری الگوریتمهای پسآموزش طراحی شده. ترکیب Megatron برای آموزش سنگین و SGLang برای استنتاج سریع، نشون میده که تیم توسعهدهنده دنبال حل مشکل Train-Inference Mismatch بوده. پشتیبانی کامل از FP8 و FSDP توی Slime یعنی میتونید پروسه RL رو با کمترین هدررفت منابع انجام بدید.
توزیع وزنها در Hugging Face به همراه آرتیفکتهای ارزیابی و راهنمای سرو کردن (Serving Guidance)، استاندارد جدیدی رو برای پروژههای Open-weight تعریف کرده. این که فایلها چند روز قبل از اعلام رسمی آپلود شدن و همزمان مستندات فنی دقیق ارائه شده، نشون میده با یه محصول آماده برای استقرار (Production-ready) طرف هستیم، نه فقط یه مقاله علمی برای نمایش.
به نظر من، ارزش واقعی GLM-5 توی بنچمارکهاش نیست، بلکه توی "قابلیت دیپلوی شدن" و ابزارهای همراهشه. وقتی یه مدل ۷۴۴ میلیاردی رو با مکانیزمهای Sparse طوری بهینه میکنن که با منابع معقول قابل اجرا باشه، یعنی داریم به سمتی میریم که کارایی سیستم (System Efficiency) از تئوریهای معماری پیشی گرفته. اگه دنبال پیادهسازی RLhf یا پروژههای مبتنی بر استدلال (Reasoning) هستید، بررسی Slime واجبتر از خود مدله.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/zai-org/GLM-5
📃 زیرساخت آموزشی Slime در گیتهاب:
https://github.com/THUDM/slime
🛠 Join @LLMEngineers Community
معماری Sparse Attention که از DeepSeek قرض گرفته شده، مستقیماً هزینههای عملیاتی رو هدف قرار میده. استفاده از این تکنیک باعث میشه مدیریت Context پنجرههای طولانی بدون ترکیدن VRAM ممکن بشه. واقعیت اینه که داشتن مدل بزرگ بدون Sparse Attention توی محیط Production عملاً یعنی خودکشی مالی، و GLM-5 این رو خوب فهمیده.
زیرساخت Slime که همراه این مدل معرفی شده، به نظر من نقطه عطف اصلی این انتشار برای مهندسهای هوش مصنوعیه. این یه فریمورک RL ناهمگام (Asynchronous) هست که برای مقیاسپذیری الگوریتمهای پسآموزش طراحی شده. ترکیب Megatron برای آموزش سنگین و SGLang برای استنتاج سریع، نشون میده که تیم توسعهدهنده دنبال حل مشکل Train-Inference Mismatch بوده. پشتیبانی کامل از FP8 و FSDP توی Slime یعنی میتونید پروسه RL رو با کمترین هدررفت منابع انجام بدید.
توزیع وزنها در Hugging Face به همراه آرتیفکتهای ارزیابی و راهنمای سرو کردن (Serving Guidance)، استاندارد جدیدی رو برای پروژههای Open-weight تعریف کرده. این که فایلها چند روز قبل از اعلام رسمی آپلود شدن و همزمان مستندات فنی دقیق ارائه شده، نشون میده با یه محصول آماده برای استقرار (Production-ready) طرف هستیم، نه فقط یه مقاله علمی برای نمایش.
به نظر من، ارزش واقعی GLM-5 توی بنچمارکهاش نیست، بلکه توی "قابلیت دیپلوی شدن" و ابزارهای همراهشه. وقتی یه مدل ۷۴۴ میلیاردی رو با مکانیزمهای Sparse طوری بهینه میکنن که با منابع معقول قابل اجرا باشه، یعنی داریم به سمتی میریم که کارایی سیستم (System Efficiency) از تئوریهای معماری پیشی گرفته. اگه دنبال پیادهسازی RLhf یا پروژههای مبتنی بر استدلال (Reasoning) هستید، بررسی Slime واجبتر از خود مدله.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/zai-org/GLM-5
📃 زیرساخت آموزشی Slime در گیتهاب:
https://github.com/THUDM/slime
🛠 Join @LLMEngineers Community
🔥8
مدل Qwen3.5-397B-A17B که همین چند ساعت پیش آپدیت شد، یه قدرتنمایی توی مهندسی زیرساخته و نشون میده تیم توسعهدهنده کاملاً با چالشهای عملیاتی درگیر بوده. این مدل با ۳۹۷ میلیارد پارامتر کل و فقط ۱۷ میلیارد پارامتر فعال، عملاً داره مرزهای کارایی MoE رو جابهجا میکنه. چیزی که اینجا مهمه، معماری ترکیبی Gated DeltaNet و Gated Attention هست که در کنار MoE قرار گرفته. استفاده از DeltaNet که یه نوع Linear Attention بهینه هست، باعث میشه توی Context پنجرههای طولانی، گلوگاههای محاسباتی معمول رو نداشته باشیم.
تکنیک MTP یا Multi-token Prediction که به صورت Multi-steps پیادهسازی شده، یکی از نقاط قوت این مدل برای افزایش سرعت استنتاج و کیفیت خروجی در گامهای بلنده. با ۵۱۲ اکسپرت که ۱۰ تاشون مسیریابی میشن و ۱ دونهشون اشتراکیه، تعادل خوبی بین تخصصگرایی مدل و حفظ دانش عمومی برقرار شده. این چیدمان باعث میشه مدل توی کارهای پیچیده مثل استدلالهای چند مرحلهای، دقت بالاتری نسبت به MoEهای کلاسیک داشته باشه.
پشتیبانی از ۲۶۲ هزار توکن Context به صورت Native و قابلیت گسترش تا بیش از ۱ میلیون توکن با YaRN، این مدل رو برای پردازش داکیومنتهای حجیم بیرقیب میکنه. نکته مهندسی و جذاب ماجرا اینجاست که توی مستندات، آپشن Language-model-only رو گذاشتن. این یعنی میتونید بخشهای بینایی (Multimodal) رو موقع سرو کردن غیرفعال کنید تا KV Cache آزاد بشه و بتونید از حداکثر ظرفیت Context بدون کرش کردن کارت گرافیک استفاده کنید. این دقیقاً همون دیدگاه سینیوری هست که برای محیط Production لازمه؛ حذف اضافات برای گرفتن پرفورمنس ماکسیمم.
واقعیت اینه که Qwen3.5 ثابت کرد برای داشتن Context یک میلیونی، نباید فقط به سختافزار تکیه کرد؛ بلکه باید معماری رو طوری دستکاری کرد که "هوشمندانه" از حافظه استفاده کنه. قابلیت نادیده گرفتن کامپوننتهای Vision موقع استنتاج متنی، چیزیه که باید خیلی زودتر توی مدلهای مولتیمودال میدیدیم.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/Qwen/Qwen3.5-397B-A17B
🛠 Join @LLMEngineers Community
تکنیک MTP یا Multi-token Prediction که به صورت Multi-steps پیادهسازی شده، یکی از نقاط قوت این مدل برای افزایش سرعت استنتاج و کیفیت خروجی در گامهای بلنده. با ۵۱۲ اکسپرت که ۱۰ تاشون مسیریابی میشن و ۱ دونهشون اشتراکیه، تعادل خوبی بین تخصصگرایی مدل و حفظ دانش عمومی برقرار شده. این چیدمان باعث میشه مدل توی کارهای پیچیده مثل استدلالهای چند مرحلهای، دقت بالاتری نسبت به MoEهای کلاسیک داشته باشه.
پشتیبانی از ۲۶۲ هزار توکن Context به صورت Native و قابلیت گسترش تا بیش از ۱ میلیون توکن با YaRN، این مدل رو برای پردازش داکیومنتهای حجیم بیرقیب میکنه. نکته مهندسی و جذاب ماجرا اینجاست که توی مستندات، آپشن Language-model-only رو گذاشتن. این یعنی میتونید بخشهای بینایی (Multimodal) رو موقع سرو کردن غیرفعال کنید تا KV Cache آزاد بشه و بتونید از حداکثر ظرفیت Context بدون کرش کردن کارت گرافیک استفاده کنید. این دقیقاً همون دیدگاه سینیوری هست که برای محیط Production لازمه؛ حذف اضافات برای گرفتن پرفورمنس ماکسیمم.
واقعیت اینه که Qwen3.5 ثابت کرد برای داشتن Context یک میلیونی، نباید فقط به سختافزار تکیه کرد؛ بلکه باید معماری رو طوری دستکاری کرد که "هوشمندانه" از حافظه استفاده کنه. قابلیت نادیده گرفتن کامپوننتهای Vision موقع استنتاج متنی، چیزیه که باید خیلی زودتر توی مدلهای مولتیمودال میدیدیم.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/Qwen/Qwen3.5-397B-A17B
🛠 Join @LLMEngineers Community
❤6🔥2👍1
مدل Step 3.5 Flash از تیم StepFun یکی از جدیترین تلاشها برای بهینهسازی مدلهای زبانی در چرخههای عاملیت (Agent Loops) محسوب میشه. این مدل با معماری MoE و مجموع ۱۹۶ میلیارد پارامتر طراحی شده، اما در زمان استنتاج فقط ۱۱ میلیارد پارامتر فعال (Active Parameters) داره. این یعنی داریم با مدلی کار میکنیم که دانش یک غول ۲۰۰ میلیاردی رو داره ولی با سرعت و هزینه یک مدل سبک ۱۱ میلیاردی اجرا میشه.
معماری Interleaved 3:1 Sliding-window / Full Attention یک حرکت مهندسی هوشمندانه برای مدیریت Context است. در این ساختار، به جای استفاده از Full Attention در تمام لایهها که هزینه محاسباتی رو به شدت بالا میبره، از ترکیب ۳ به ۱ پنجرههای لغزان (Sliding-window) و توجه کامل استفاده شده. این یعنی مدل هم ارتباطات محلی رو خیلی سریع میفهمه و هم هر چند لایه یک بار، دید کلی (Global) پیدا میکنه. برای ایجنتهایی که نیاز به پردازش تاریخچه طولانی چت دارن، این یعنی تعادل بین دقت و سرعت.
پایپلاین RL این مدل هم از سیگنالهای قابل تایید (Verifiable Signals) و بازخورد ترجیحی (Preference Feedback) به صورت ترکیبی استفاده میکنه. برخلاف روشهای سنتی RLHF که فقط روی سلیقه انسانی تمرکز دارن، اینجا مدل بر اساس درستی خروجی (مثلاً اجرای کد یا حل ریاضی) هم جریمه یا تشویق میشه. این پایداری در آموزش Off-policy باعث شده که مدل در سناریوهای دنیای واقعی کمتر دچار توهم بشه و رفتارهای منطقیتری از خودش نشون بده.
به نظر من، Step 3.5 Flash نشون داد که دوران مدلهای General-purpose که فقط برای چت کردن ساخته میشدن تموم شده. ما الان نیاز به مدلهایی داریم که برای "کار انجام دادن" (Task Execution) بهینه شده باشن. تمرکز روی زیرساخت RL پایدار و معماری هیبریدی Attention، این مدل رو به یکی از بهترین گزینهها برای دیپلوی کردن سیستمهای Agentic در سال ۲۰۲۶ تبدیل کرده.
📃 مقاله فنی در arXiv:
https://arxiv.org/abs/2602.10604
📃 مخزن کد در گیتهاب:
https://github.com/stepfun-ai/Step-3.5-Flash
📃 مدل در هاگینگ فیس:
https://huggingface.co/stepfun-ai/Step-3.5-Flash
🛠 Join @LLMEngineers Community
معماری Interleaved 3:1 Sliding-window / Full Attention یک حرکت مهندسی هوشمندانه برای مدیریت Context است. در این ساختار، به جای استفاده از Full Attention در تمام لایهها که هزینه محاسباتی رو به شدت بالا میبره، از ترکیب ۳ به ۱ پنجرههای لغزان (Sliding-window) و توجه کامل استفاده شده. این یعنی مدل هم ارتباطات محلی رو خیلی سریع میفهمه و هم هر چند لایه یک بار، دید کلی (Global) پیدا میکنه. برای ایجنتهایی که نیاز به پردازش تاریخچه طولانی چت دارن، این یعنی تعادل بین دقت و سرعت.
پایپلاین RL این مدل هم از سیگنالهای قابل تایید (Verifiable Signals) و بازخورد ترجیحی (Preference Feedback) به صورت ترکیبی استفاده میکنه. برخلاف روشهای سنتی RLHF که فقط روی سلیقه انسانی تمرکز دارن، اینجا مدل بر اساس درستی خروجی (مثلاً اجرای کد یا حل ریاضی) هم جریمه یا تشویق میشه. این پایداری در آموزش Off-policy باعث شده که مدل در سناریوهای دنیای واقعی کمتر دچار توهم بشه و رفتارهای منطقیتری از خودش نشون بده.
به نظر من، Step 3.5 Flash نشون داد که دوران مدلهای General-purpose که فقط برای چت کردن ساخته میشدن تموم شده. ما الان نیاز به مدلهایی داریم که برای "کار انجام دادن" (Task Execution) بهینه شده باشن. تمرکز روی زیرساخت RL پایدار و معماری هیبریدی Attention، این مدل رو به یکی از بهترین گزینهها برای دیپلوی کردن سیستمهای Agentic در سال ۲۰۲۶ تبدیل کرده.
📃 مقاله فنی در arXiv:
https://arxiv.org/abs/2602.10604
📃 مخزن کد در گیتهاب:
https://github.com/stepfun-ai/Step-3.5-Flash
📃 مدل در هاگینگ فیس:
https://huggingface.co/stepfun-ai/Step-3.5-Flash
🛠 Join @LLMEngineers Community
arXiv.org
Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters
We introduce Step 3.5 Flash, a sparse Mixture-of-Experts (MoE) model that bridges frontier-level agentic intelligence and computational efficiency. We focus on what matters most when building...
❤6
مدل Qwen3-Coder-Next که اوایل فوریه ۲۰۲۶ منتشر شد، دقیقاً همون چیزیه که برای ساخت Coding Agentهای محلی و حرفهای لازم داشتیم. با ۸۰ میلیارد پارامتر کل و فقط ۳ میلیارد پارامتر فعال (Active)، این مدل عملاً روی سیستمهای میانرده هم با سرعت وحشتناکی اجرا میشه. وقتی فقط ۳ میلیارد پارامتر موقع استنتاج درگیر باشن، یعنی تأخیر (Latency) به حداقل میرسه و این برای محیطهای توسعه (Dev Workflows) که سرعت بازخورد توشون حیاتیه، یک پارامتر تعیینکننده است.
معماری این مدل هم مثل نسخههای پیشرفته Qwen3.5، ترکیبی از DeltaNet و Attention سنتی در کنار Sparse MoE هست. استفاده از DeltaNet یعنی مدیریت حافظه و محاسبات در پنجرههای طولانی ۲۶۲ هزار توکنی دیگه کابوس نیست. با این ظرفیت Context، میتونید کل داکیومنتها و بخش بزرگی از کدبیس (Codebase) پروژه رو یکجا به مدل بدید بدون اینکه نگران از دست رفتن تمرکز مدل یا پر شدن VRAM باشید. واقعیت اینه که برای ایجنتهای کدنویس، کانتکست بالا از نون شب واجبتره چون باید کل ساختار پروژه رو درک کنن.
چیزی که Qwen3-Coder-Next رو از بقیه متمایز میکنه، بهینهسازی اختصاصی برای سناریوهای Agentic هست. این مدل صرفاً کد تولید نمیکنه؛ بلکه برای استفاده طولانیمدت از ابزارها (Long-horizon tool use) و مهمتر از اون، "بازیابی بعد از شکست" (Failure recovery) تیون شده. یعنی اگه کدی که زد در مرحله اجرا با خطا مواجه شد، میتونه لاگ سیستم رو بخونه و خودش رو اصلاح کنه. این دقیقاً تفاوت یه مدل معمولی با یه "مهندس هوش مصنوعی" خودمختاره.
پتانسیل این مدل توی استفاده از ابزارهای خارجی (Tool Use) و پایداری در استدلالهای طولانی، اونو به یه انتخاب سینیور برای پروژههای اتوماسیون نرمافزار تبدیل میکنه. اگه دنبال ساخت یه Devin شخصی یا ابزارهای مشابه هستید، این مدل همون قطعه گمشده پازله.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/Qwen/Qwen3-Coder-Next
🛠 Join @LLMEngineers Community
معماری این مدل هم مثل نسخههای پیشرفته Qwen3.5، ترکیبی از DeltaNet و Attention سنتی در کنار Sparse MoE هست. استفاده از DeltaNet یعنی مدیریت حافظه و محاسبات در پنجرههای طولانی ۲۶۲ هزار توکنی دیگه کابوس نیست. با این ظرفیت Context، میتونید کل داکیومنتها و بخش بزرگی از کدبیس (Codebase) پروژه رو یکجا به مدل بدید بدون اینکه نگران از دست رفتن تمرکز مدل یا پر شدن VRAM باشید. واقعیت اینه که برای ایجنتهای کدنویس، کانتکست بالا از نون شب واجبتره چون باید کل ساختار پروژه رو درک کنن.
چیزی که Qwen3-Coder-Next رو از بقیه متمایز میکنه، بهینهسازی اختصاصی برای سناریوهای Agentic هست. این مدل صرفاً کد تولید نمیکنه؛ بلکه برای استفاده طولانیمدت از ابزارها (Long-horizon tool use) و مهمتر از اون، "بازیابی بعد از شکست" (Failure recovery) تیون شده. یعنی اگه کدی که زد در مرحله اجرا با خطا مواجه شد، میتونه لاگ سیستم رو بخونه و خودش رو اصلاح کنه. این دقیقاً تفاوت یه مدل معمولی با یه "مهندس هوش مصنوعی" خودمختاره.
پتانسیل این مدل توی استفاده از ابزارهای خارجی (Tool Use) و پایداری در استدلالهای طولانی، اونو به یه انتخاب سینیور برای پروژههای اتوماسیون نرمافزار تبدیل میکنه. اگه دنبال ساخت یه Devin شخصی یا ابزارهای مشابه هستید، این مدل همون قطعه گمشده پازله.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/Qwen/Qwen3-Coder-Next
🛠 Join @LLMEngineers Community
👍2
مدل GLM-4.7-Flash که اواخر ژانویه ۲۰۲۶ منتشر شد، دقیقاً همون نقطه تعادلیه که اکثر مهندسها دنبالش میگردن؛ یعنی نه اونقدر ضعیفه که نشه بهش کار سپرد و نه اونقدر سنگین که برای اجراش نیاز به کلاستر اختصاصی باشه. این مدل با معماری MoE و ۳۰ میلیارد پارامتر کل طراحی شده، اما موقع اجرا فقط ۳ میلیارد پارامتر رو درگیر میکنه. یعنی عملاً با هزینه و سرعت یک مدل ۳ میلیاردی، قدرت استدلال و دانش یک مدل ۳۰ میلیاردی رو در اختیار دارید.
معماری این مدل برای کارهای Agentic و کدنویسی بهینه شده و نکته طلایی برای ما مهندسها، ارائه دستورالعملهای دقیق برای Speculative Decoding هست. تیم Zhipu AI توی مستنداتش مستقیم گفته که برای گرفتن بالاترین سرعت، از نسخههای Main-branch ابزارهای vLLM و SGLang استفاده کنید. استفاده از کانفیگ EAGLE برای SGLang و تنظیمات MTP-style برای vLLM باعث میشه نرخ تولید توکن به قدری بالا بره که برای سیستمهای تعاملی و ایجنتهایی که نیاز به فکر کردن سریع دارن، هیچ گلوگاهی حس نشه.
واقعیت اینه که ریختن وزن مدل توی هاگینگ فیس دیگه کافی نیست. چیزی که GLM-4.7-Flash رو ارزشمند میکنه، وجود آرتیفکتهای ارزیابی (Evaluation Artifacts) و پارامترهای دقیق برای بنچمارکهای SWE و Terminal هست. این یعنی توسعهدهندهها میدونن مدلشون توی محیطهای عملیاتی مثل ترمینال لینوکس یا حل باگهای نرمافزاری چه رفتاری داره و پارامترهای بهینه رو هم همونجا گذاشتن تا ما وقتمون رو برای پیدا کردن بهترین Temperature یا Top-p تلف نکنیم.
به نظر من، این مدل پادشاه فعلی "پردازشهای محلی" (Local Serving) در لایه بیزنس هست. وقتی میتونید با یک یا دو کارت گرافیک معمولی، مدلی رو بالا بیارید که هم از Speculative Decoding پشتیبانی میکنه و هم توی تسکهای استدلالی رقیب مدلهای بزرگتره، دیگه دلیلی برای استفاده از APIهای گرونقیمت باقی نمیمونه. تمرکز روی کارایی به جای ابعاد بزرگ، نشون میده که بلوغ مهندسی توی تیمهای توسعهدهنده به سطح سینیور رسیده.
اگه دنبال راهاندازی یه سیستم RAG داخلی یا دستیار کدنویسی هستید که هم امنیت دادههاتون حفظ بشه و هم سرعت پاسخدهی زیر ثانیه باشه، GLM-4.7-Flash با این معماری MoE بهینه، بهترین خروجی رو بهتون میده. مخصوصاً اگه از پایپلاینهای SGLang استفاده میکنید، حتماً تنظیمات اختصاصی EAGLE رو که توی مدلکارت اومده تست کنید؛ تفاوت سرعتش با حالت عادی واقعاً چشمگیره.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/zai-org/GLM-4.7-Flash
🛠 Join @LLMEngineers Community
معماری این مدل برای کارهای Agentic و کدنویسی بهینه شده و نکته طلایی برای ما مهندسها، ارائه دستورالعملهای دقیق برای Speculative Decoding هست. تیم Zhipu AI توی مستنداتش مستقیم گفته که برای گرفتن بالاترین سرعت، از نسخههای Main-branch ابزارهای vLLM و SGLang استفاده کنید. استفاده از کانفیگ EAGLE برای SGLang و تنظیمات MTP-style برای vLLM باعث میشه نرخ تولید توکن به قدری بالا بره که برای سیستمهای تعاملی و ایجنتهایی که نیاز به فکر کردن سریع دارن، هیچ گلوگاهی حس نشه.
واقعیت اینه که ریختن وزن مدل توی هاگینگ فیس دیگه کافی نیست. چیزی که GLM-4.7-Flash رو ارزشمند میکنه، وجود آرتیفکتهای ارزیابی (Evaluation Artifacts) و پارامترهای دقیق برای بنچمارکهای SWE و Terminal هست. این یعنی توسعهدهندهها میدونن مدلشون توی محیطهای عملیاتی مثل ترمینال لینوکس یا حل باگهای نرمافزاری چه رفتاری داره و پارامترهای بهینه رو هم همونجا گذاشتن تا ما وقتمون رو برای پیدا کردن بهترین Temperature یا Top-p تلف نکنیم.
به نظر من، این مدل پادشاه فعلی "پردازشهای محلی" (Local Serving) در لایه بیزنس هست. وقتی میتونید با یک یا دو کارت گرافیک معمولی، مدلی رو بالا بیارید که هم از Speculative Decoding پشتیبانی میکنه و هم توی تسکهای استدلالی رقیب مدلهای بزرگتره، دیگه دلیلی برای استفاده از APIهای گرونقیمت باقی نمیمونه. تمرکز روی کارایی به جای ابعاد بزرگ، نشون میده که بلوغ مهندسی توی تیمهای توسعهدهنده به سطح سینیور رسیده.
اگه دنبال راهاندازی یه سیستم RAG داخلی یا دستیار کدنویسی هستید که هم امنیت دادههاتون حفظ بشه و هم سرعت پاسخدهی زیر ثانیه باشه، GLM-4.7-Flash با این معماری MoE بهینه، بهترین خروجی رو بهتون میده. مخصوصاً اگه از پایپلاینهای SGLang استفاده میکنید، حتماً تنظیمات اختصاصی EAGLE رو که توی مدلکارت اومده تست کنید؛ تفاوت سرعتش با حالت عادی واقعاً چشمگیره.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/zai-org/GLM-4.7-Flash
🛠 Join @LLMEngineers Community
👍2
مدل Nanbeige4.1-3B که اواسط فوریه ۲۰۲۶ آپدیت شد، یه مثال نقض برای کساییه که فکر میکنن مدلهای ۳ میلیاردی فقط برای چتهای ساده یا خلاصهسازی متن هستن. این مدل با تمرکز روی "عمق عاملیت" (Agentic Depth) طراحی شده و ادعای تکنیکال اصلیش، توانایی مدیریت زنجیرههای طولانی فراخوانی ابزار (Tool Invocations) تا بیش از ۵۰۰ مرحله است. برای یه مدل ۳ میلیاردی، این یعنی شکستن سقف شیشهای که همیشه بین استدلال عمومی و چرخههای کاری پیچیده وجود داشت.
پستتراینینگ (Post-training) این مدل با استفاده از ترکیب SFT و RL به شدت روی سناریوهای جستجوی عمیق (Deep-search) متمرکز بوده. مشکل همیشگی مدلهای کوچیک اینه که یا توی استدلال عمومی خوبن یا توی استفاده از ابزار، اما وقتی تعداد مراحل کار زیاد میشه، کانتکست رو گم میکنن یا دچار توهم میشن. Nanbeige4.1 نشون داده که با یه دیتای باکیفیت و پایپلاین RL درست، میشه مدلی ساخت که توی چرخههای طولانی "خسته" نشه و هدف اصلی تسک رو فراموش نکنه.
به نظر من، ارزش واقعی این مدل برای مهندسهایی هست که میخوان سیستمهای Agentic رو به صورت Local و با کمترین هزینه سختافزاری اجرا کنن. ۵۰۰ مرحله فراخوانی ابزار یعنی شما میتونید یه ایجنت محقق (Research Agent) بسازید که ساعتها توی وب بگرده، دیتای مختلف رو بخونه، ابزارهای تحلیل رو صدا بزنه و در نهایت یه گزارش دقیق بده؛ بدون اینکه نیاز باشه به مدلهای ابری گرونقیمت وصل بشید.
استراتژی تیم Nanbeige توی انتشار وزنها به همراه گزارش فنی دقیق (PDF) در هاگینگ فیس، نشوندهنده شفافیت در متدولوژی آموزشیشونه. اونا به جای هایپ روی تعداد پارامتر، روی "پایداری در مسیرهای طولانی" (Long Trajectories) تمرکز کردن که دقیقاً همون چیزیه که برای ساختن اپلیکیشنهای واقعی مبتنی بر هوش مصنوعی (و نه فقط دموهای جذاب) بهش نیاز داریم.
اگه دارید روی ایجنتهای خودمختار کار میکنید که نیاز به جستجوی عمیق دارن، Nanbeige4.1-3B میتونه جایگزین خیلی خوبی برای مدلهای سنگینتر باشه، به شرطی که پرامپتنویسی و ساختار ابزارهاتون رو دقیق تنظیم کرده باشید. این مدل ثابت میکنه که توی سال ۲۰۲۶، "هوشمندی" دیگه لزوماً به معنی "بزرگی" نیست، بلکه به معنی "تخصص در فرآیند" هست.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/Nanbeige/Nanbeige4.1-3B
🛠 Join @LLMEngineers Community
پستتراینینگ (Post-training) این مدل با استفاده از ترکیب SFT و RL به شدت روی سناریوهای جستجوی عمیق (Deep-search) متمرکز بوده. مشکل همیشگی مدلهای کوچیک اینه که یا توی استدلال عمومی خوبن یا توی استفاده از ابزار، اما وقتی تعداد مراحل کار زیاد میشه، کانتکست رو گم میکنن یا دچار توهم میشن. Nanbeige4.1 نشون داده که با یه دیتای باکیفیت و پایپلاین RL درست، میشه مدلی ساخت که توی چرخههای طولانی "خسته" نشه و هدف اصلی تسک رو فراموش نکنه.
به نظر من، ارزش واقعی این مدل برای مهندسهایی هست که میخوان سیستمهای Agentic رو به صورت Local و با کمترین هزینه سختافزاری اجرا کنن. ۵۰۰ مرحله فراخوانی ابزار یعنی شما میتونید یه ایجنت محقق (Research Agent) بسازید که ساعتها توی وب بگرده، دیتای مختلف رو بخونه، ابزارهای تحلیل رو صدا بزنه و در نهایت یه گزارش دقیق بده؛ بدون اینکه نیاز باشه به مدلهای ابری گرونقیمت وصل بشید.
استراتژی تیم Nanbeige توی انتشار وزنها به همراه گزارش فنی دقیق (PDF) در هاگینگ فیس، نشوندهنده شفافیت در متدولوژی آموزشیشونه. اونا به جای هایپ روی تعداد پارامتر، روی "پایداری در مسیرهای طولانی" (Long Trajectories) تمرکز کردن که دقیقاً همون چیزیه که برای ساختن اپلیکیشنهای واقعی مبتنی بر هوش مصنوعی (و نه فقط دموهای جذاب) بهش نیاز داریم.
اگه دارید روی ایجنتهای خودمختار کار میکنید که نیاز به جستجوی عمیق دارن، Nanbeige4.1-3B میتونه جایگزین خیلی خوبی برای مدلهای سنگینتر باشه، به شرطی که پرامپتنویسی و ساختار ابزارهاتون رو دقیق تنظیم کرده باشید. این مدل ثابت میکنه که توی سال ۲۰۲۶، "هوشمندی" دیگه لزوماً به معنی "بزرگی" نیست، بلکه به معنی "تخصص در فرآیند" هست.
📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/Nanbeige/Nanbeige4.1-3B
🛠 Join @LLMEngineers Community
❤3🔥1
