LLM Engineers – Telegram
LLM Engineers
1.87K subscribers
103 photos
6 videos
3 files
140 links
A highly technical blog tailored for LLM engineers.

Contact me:
linkedin.com/in/mshojaei77
Download Telegram
معماری مدل‌های صوتی (Spoken Dialogue Models) داره یه شیفت سنگین رو تجربه می‌کنه؛ گذار از حالت Half-Duplex (مثل بیسیم واکی-تاکی که یکی حرف می‌زنه اون یکی گوش میده) به Full-Duplex (مکالمه طبیعی همزمان که می‌تونیم بپریم وسط حرف هم). ترندهایی مثل GPT-4o Voice Mode باعث شدن هایپ این قضیه زیاد بشه، ولی واقعیت اینه که ارزیابی این مدل‌ها تا الان فقط روی "محتوای متنی" بوده، نه "دینامیک مکالمه".

مقاله جدید Full-Duplex-Bench دقیقاً دست گذاشته روی همین نقطه کور. این‌ها یه بنچمارک ساختن که کیفیت تعامل رو می‌سنجه، نه فقط اینکه مدل چی میگه، بلکه "کی" و "چطور" میگه.

چهار بُعد اصلی که توی این بنچمارک تست میشه و باید توی توسعه مدل‌های Voice بهش دقت کنید:

۱. هندل کردن مکث (Pause Handling):
مدل باید فرق بین "تموم شدن حرف" و "مکث برای فکر کردن" رو بفهمه. اکثر مدل‌های فعلی (مخصوصا End-to-Endها) تا یه مکث کوچیک می‌بینن، سریع میپرن وسط و Interrupt می‌کنن که تجربه کاربری رو نابود می‌کنه (Takeover Rate بالا).

۲. بک‌چنل (Backchanneling):
یه مکالمه طبیعی پر از "آها"، "اووم" و "درسته" است که شنونده میگه تا نشون بده داره گوش میده، بدون اینکه نوبت صحبت رو بگیره. مدل باید بتونه بدون اینکه رشته کلام رو از دست یوزر بگیره، فیدبک صوتی بده.

۳. جابجایی نوبت (Smooth Turn-Taking):
اینجا Latency حرف اول رو میزنه. فاصله زمانی بین سکوت یوزر و شروع جواب مدل. مدل باید تشخیص بده کِی نوبت اونه و بدون تاخیر غیرطبیعی شروع کنه.

۴. مدیریت وقفه (User Interruption):
اگه مدل داره حرف می‌زنه و یوزر می‌پره وسط حرفش، مدل چقدر سریع خفه میشه؟ (Barge-in). مدل‌های E2E معمولاً اینجا گیج می‌زنن و به حرف زدن ادامه میدن یا چرت و پرت تحویل میدن چون کانتکست به هم می‌ریزه.

نکات فنی و وضعیت فعلی مدل‌ها بر اساس این بنچمارک:

مدل‌های End-to-End مثل Moshi و dGSLM:
این‌ها Latency وحشتناک پایینی دارن (حدود ۳۰۰ میلی‌ثانیه) که عالیه، ولی به شدت "بی‌ادب" هستن. یعنی Takeover Rate بالایی دارن و هر نویزی رو سیگنال شروع صحبت می‌بینن و میپرن وسط. کنترل‌پذیری این معماری‌ها هنوز پایین‌ه.

مدل‌های Cascaded مثل Freeze-Omni:
این‌ها که پایپ‌لاین جدا (VAD + ASR + LLM + TTS) دارن، توی کنترل نوبت و تشخیص وقفه خیلی بهتر عمل می‌کنن چون ماژولار هستن و لاجیک مشخص دارن، ولی Latency بالاتری دارن که حس Real-time رو کم می‌کنه.

مدل Gemini Live:
به عنوان یه مدل تجاری Closed-source، تعادل خوبی بین بک‌چنل و مدیریت نوبت داره ولی حتی اون هم روی دیتاست‌های واقعی (مثل Candor) گاهی گیج میزنه و نوبت رو به موقع نمی‌گیره.

به نظر من، آینده دست مدل‌های Native End-to-End هست چون پتانسیل انتقال احساسات و Latency پایین رو دارن، ولی فعلاً از مشکل "عدم بلوغ در Turn-taking" رنج می‌برن. اگر روی Voice Agent کار می‌کنید، فعلاً یا باید کندی Cascaded رو تحمل کنید یا بیخیال دقت در نوبت‌گیری بشید. راه حل احتمالی تزریق توکن‌های کنترلی خاص برای مدیریت State مکالمه داخل خود مدل E2E هست، نه اینکه صرفاً روی دیتای خام Audio آموزش بدیم.

📃 Full-Duplex-Bench: A Benchmark to Evaluate Full-Duplex Spoken Dialogue Models
https://arxiv.org/abs/2503.04721

🛠 Join @LLMEngineers Community
همه درگیر بنچمارک‌های Reasoning و MMLU شدن، ولی اون چیزی که تو پروداکشن (Production) و مخصوصاً سیستم‌های Agentic مو رو از ماست می‌کشه بیرون، System Prompt Adherence (پایبندی به پرامپت سیستم) هست.

واقعیت اینه که وقتی داری یه Agent می‌سازی که باید فرمت JSON برگردونه یا توی یه چارچوب امنیتی خاص کد بزنه، خلاقیت شاعرانه مدل به هیچ دردی نمی‌خوره. توی سال ۲۰۲۵، بحث از "آیا مدل می‌فهمه؟" به "آیا مدل اطاعت می‌کنه؟" تغییر کرده.

چند تا نکته فنی و دیتای به درد بخور از وضعیت فعلی Adherence براتون درآوردم:

معیار سنجش (Benchmarks) تغییر کرده
دیگه تست‌های ساده Yes/No جواب نمیده. الان بنچمارک‌هایی مثل IFEval (که روی فرمت تمرکز داره) خوبن ولی کافی نیستن. ترند جدید AgentIF و AdvancedIF هستن. اینا میان سناریوهای Multi-turn و پیچیده رو تست می‌کنن. مثلاً مدل رو تو موقعیتی میذارن که ۱۲ تا Constraint مختلف داره (مثل "فقط اگه X بزرگتر از Y بود API رو کال کن، خروجی YAML باشه، و به Z اشاره نکن"). جالبه بدونید حتی مدل‌های تاپ هم توی این سناریوها زیر ۳۰٪ پرفکت عمل می‌کنن.

وضعیت مدل‌ها در ۲۰۲۵ (The Leaderboard)
طبق دیتای Vellum و SEAL، وضعیت فعلی اینطوریه:
مدل Claude 4.5 Sonnet با ۹۲٪ پایبندی، فعلاً پادشاه بلامنازع Instruction-following هست، مخصوصاً توی تسک‌های طولانی.
مدل Grok-4 و GPT-5 با اختلاف کمی پشت سرش هستن.
نکته جذاب برای ما که دنبال هزینه کمتریم: توی دسته SLMها (مدل‌های زیر ۳۲ میلیارد پارامتر)، مدل Qwen3-30B و Mistral Small 3 شاهکار کردن. اگر دارید روی Edge یا سیستم‌های لوکال کار می‌کنید، Qwen3 با ۸۵٪ پایبندی، بهترین گزینه برای جایگزینی مدل‌های گرون‌قیمته.

تکنیک‌های بهبود (Optimization)
تکنیک RIFL (که یه پایپ‌لاین RL هست) الان ترند شده برای اینکه Adherence رو بکشه بالا. به جای اینکه فقط روی دیتای SFT معمولی فاین‌تیون کنید، استفاده از RIFL و دیتای سینتتیک مثل Self-Instruct می‌تونه ۶ تا ۱۰ درصد پرفورمنس رو توی پیروی از دستورات بهتر کنه.

چالش‌های امنیتی
به نظر من بزرگترین ترس الان Prompt Injection نیست، بلکه Context Drift توی پرامپت‌های طولانیه. هرچی کانتکست طولانی‌تر میشه، مدل "نصیحت‌های اول کار" (System Prompt) رو فراموش می‌کنه. بنچمارک‌ها نشون میدن که Adherence با افزایش طول کانتکست، حدود ۲۰٪ افت می‌کنه.

اگه دارید سیستم Agentic می‌سازید، به جای اینکه فقط روی "هوش" مدل مانور بدید، روی ابزارهایی مثل lm-evaluation-harness وقت بذارید و مطمئن بشید که مدل دقیقاً همون کاری رو می‌کنه که بهش گفتید، نه اون چیزی که خودش فکر می‌کنه درسته.

📃 دیتاست AgentIF :
https://huggingface.co/datasets/THU-KEG/AgentIF

📃 مقاله:
AgentIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios


🛠 Join @LLMEngineers Community
عملیات Fine-tune با Unsloth الان ۳ تا ۵ برابر سریع‌تر شده. بحث فقط سرعت نیست، مدیریت VRAM به شدت بهینه شده و عملاً با سخت‌افزار ضعیف‌تر می‌تونید مدل‌های سنگین‌تر رو Train کنید.

تکنیک اصلی که اضافه شده Uncontaminated Packing هست. توی حالت استاندارد وقتی Batch Size رو بالا می‌برید، چون طول Sequenceهای دیتاست متفاوته، GPU مجبور میشه کلی Padding (صفر) اضافه کنه تا ماتریس‌ها هم‌اندازه بشن. این یعنی پردازشِ هیچی.
مکانیزم Packing میاد Sequenceهای کوتاه رو هوشمندانه می‌چسبونه کنار هم توی یک Tensor واحد، بدون اینکه Attention Mask بین نمونه‌ها نشت کنه (Leakage). نتیجه؟ دور ریز محاسباتی تقریباً صفر میشه.

کرنل‌های Triton هم بازنویسی شدن. مخصوصاً کرنل RoPE و MLP.
قبلاً توی Contextهای خیلی طولانی (مثلاً 500K) ارورهای عجیب CUDA Out of Bounds می‌گرفتیم. دلیلش این بود که Indexing پیش‌فرض روی Int32 بود. الان Unsloth اومده از Int64 Indexing استفاده کرده که این گلوگاه رو برای Long Context Training باز می‌کنه.
علاوه بر این، عملیات RoPE الان کاملاً In-place انجام میشه و کپی‌های اضافی حافظه حذف شده.

توی بنچمارک‌های واقعی روی مدل‌هایی مثل Qwen3 و Llama 3:
کاهش مصرف VRAM بین ۳۰ تا ۹۰ درصد (بسته به کانفیگ) دیده میشه.
سرعت آموزش بطور متوسط ۳ برابر شده. اگر دیتای شما شامل جملات کوتاه و بلندِ میکس باشه، این سرعت تا ۵ برابر هم میرسه (چون تاثیر Packing بیشتر میشه).
نکته مهم اینه که حتی اگر Packing رو فعال نکنید، حالت پیش‌فرض جدید (Padding-free) خودش حدود ۱.۵ تا ۲ برابر سریع‌تر از نسخه قبلیه.

به نظر من این آپدیت برای کسایی که محدودیت GPU دارن (اکثر ماها) حیاتیه. الان میشه روی یه کارت T4 توی Colab مدل‌های 8B یا حتی 14B رو با سرعت خیلی معقول‌تری Fine-tune کرد. دقت مدل هم طبق بنچمارک‌ها هیچ تغییری نمی‌کنه و Loss Curve دقیقاً منطبق بر حالت استاندارده.

برای استفاده کافیه کتابخونه رو آپدیت کنید و توی SFTConfig آرگومان packing = True رو ست کنید. بک‌اند‌های Flash Attention 3 و xFormers هم ساپورت میشن.

📃 داکیومنت و بنچمارک‌های کامل:
https://docs.unsloth.ai/new/3x-faster-training-packing

🛠 Join @LLMEngineers Community
نسخه جدید GPT-5.2 منتشر شد

نکات فنی و کاربردی که باید بدونید:

بنچمارک GDPval رو برای اولین بار معرفی کردن که نشون میده این مدل تو ۴۴ شغل تخصصی، در ۷۰.۹٪ موارد خروجی بهتری از متخصصین انسانی داشته. این کار رو با ۱۱ برابر سرعت بیشتر و کمتر از ۱٪ هزینه انجام میده.

معماری Agentic این مدل به شدت تقویت شده. توی تست‌های Tool calling (مثل Tau2-bench) به دقت ۹۸.۷٪ رسیده. یعنی اگر دارید سیستم‌های Multi-agent می‌سازید که باید دیتابیس بخونن، تحلیل کنن و اکشن بزنن، ضریب خطای "گیج شدن مدل" به شدت پایین اومده.

بنچمارک ARC-AGI-2 شاید مهم‌ترین بخش برای نِردها باشه. این تست برای سنجش "استدلال انتزاعی" و حل مسائل جدیده (نه چیزایی که حفظ کرده). نسخه قبلی (GPT-5.1) امتیازش ۱۷.۶٪ بود، ولی GPT-5.2 پریده روی ۵۲.۹٪. این یعنی یه جهش وحشتناک تو قدرت حل مسئله (Problem Solving) که قبلا قفل بود.

توی حوزه Coding، مدل روی SWE-bench Verified به امتیاز ۸۰٪ رسیده. گزارش‌های اولیه نشون میده تو بحث Front-end و کدهای UI که نیاز به درک بصری و فضایی دارن، خیلی بهتر شده. با این حال هنوز برای کارهای خیلی خاص و Pure Coding، مدل Claude 4.5 Opus رقیب سرسختیه، ولی GPT-5.2 تو دیباگ کردن و پروژه‌های End-to-End بهتر عمل می‌کنه.

هزینه API و دسترسی کمی چالش برانگیزه. مدل GPT-5.2 Pro که دقیق‌ترین نسخه هست، قیمتش برای خروجی به ازای هر میلیون توکن ۱۶۸ دلاره! (نسخه معمولی ۱۴ دلار). این یعنی برای پروداکشن عادی به صرفه نیست، ولی برای کارهای پیچیده که نیاز به استدلال سنگین دارن (مثل تحلیل حقوقی یا معماری نرم‌افزار) کاملاً توجیه اقتصادی داره.

بحث Hallucination هم بهبود داشته. طبق ادعای OpenAI، حدود ۳۰٪ کمتر از نسخه ۵.۱ توهم میزنه. این برای سیستم‌های RAG و Enterprise که دقت توشون حیاتیه، خبر خوبیه.

جمع‌بندی من اینه:
اگر دنبال یه مدل برای "انجام کار" هستید (ساختن فایل، تحلیل داده حجیم، مدیریت پروژه)، GPT-5.2 الان بهترین گزینه است. گوگل با Gemini 3 Pro تو مالتی‌مدیا خوبه، آنتروپیک با Claude تو کدنویسی تمیز هنوز جایگاه داره، ولی OpenAI با ۵.۲ دوباره تاج پادشاهی "استدلال عمیق" رو پس گرفت.

📃 جزئیات کامل فنی و بنچمارک‌ها:
https://openai.com/gpt-5-2-announcement

🛠 Join @LLMEngineers Community
معمولاً وقتی از LLMها می‌خوایم کد فرانت‌اند (HTML/CSS) یا نمودار (Matplotlib) تولید کنن، لاجیک کد درسته ولی خروجی بصری فاجعه‌ست. دکمه‌ها روی همن، رنگ‌بندی داغونه و عملاً "Sense of Aesthetics" یا درک زیبایی‌شناسی ندارن. دلیلش هم واضحه: مدل‌های متنی با تابع خطای متنی (Textual Loss) آموزش دیدن و هیچ ایده‌ای ندارن که کدشون بعد از رندر شدن چه شکلی میشه.

پروژه جدید AesCoder دقیقاً دست روی همین نقطه ضعف گذاشته و نشون میده چطور میشه با استفاده از Agentic Reward Feedback یک مدل ۴ میلیاردی ساخت که توی تسک‌های بصری GPT-4o رو شکست بده.

مکانیزم کار اینجوریه که فرآیند RL (یادگیری تقویتی) رو از حالت Text-based خارج کردن و سه تا ایجنت رو مسئول امتیازدهی کردن:

۱. ایجنت Execution: بررسی می‌کنه کد اصلا ران میشه یا نه (مثلا با HTMLHint).
۲. ایجنت Static Aesthetics: کد رو رندر می‌کنه، اسکرین‌شات می‌گیره و میده به یک مدل VLM قوی (مثل GPT-4o یا GPT-5 که تو پیپر اشاره شده) تا لی‌اوت، رنگ‌بندی و زیبایی بصری رو نمره بده.
۳. ایجنت Interactive Aesthetics: این خیلی جذابه؛ یک ایجنت مثل WebVoyager روی صفحه رندر شده کلیک می‌کنه، اسکرول می‌کنه و چک می‌کنه که آیا تعاملات (Interaction) درست کار می‌کنن یا نه.

ترکیب این فیدبک‌ها با الگوریتم GRPO (همون الگوریتمی که DeepSeek استفاده کرده) باعث میشه مدل یاد بگیره کدی بزنه که فقط "درست" نیست، بلکه "تمیز و کاربردی" هم هست.

به نظر من این پیپر داره آینده‌ی Vertical AI رو فریاد می‌زنه. دیگه دوران اینکه یک مدل جنرال همه کار بکنه داره تموم میشه. اینجا با یک مدل ۴ میلیاردی (بر پایه Qwen) و یک دیتاست تخصصی (AesCode-358K)، خروجی‌هایی گرفتن که مدل‌های ۱۰۰ برابر بزرگتر نمیتونن تولید کنن.

نکته فنی مهمش برای ما اینه که اگر دارید روی Code Generation کار می‌کنید، دیگه نباید به Unit Test متنی بسنده کنید. باید خروجی رو رندر کنید و فیدبک ویژوال رو برگردونید توی پروسه آموزش یا RAG. این متدولوژی Agentic Reward حتی توی پرامپت‌اینجینیرینگ پیشرفته هم قابل پیاده‌سازی هست و لازم نیست حتما مدل Train کنید.

مدل AesCoder-4B الان ریلیز شده و روی فریم‌ورک vLLM به راحتی بالا میاد. برای تولید Landing Page، کامپوننت‌های UI و نمودارهای آماری پایتون شدیداً بهینه شده.

📃 پیپر اصلی AesCoder:
https://arxiv.org/abs/2510.23272

💻 مدل‌:
https://huggingface.co/SamuelBang/AesCoder-4B

🛠 Join @LLMEngineers Community
اتصال LLM به دیتابیس سازمانی (Enterprise Database) شاید جذاب‌ترین و در عین حال خطرناک‌ترین یوزکیس این روزهاست. اخیراً یه پیاده‌سازی دیدم که سعی کرده بود با استفاده از متد GRPO (که دیپ‌سیک رو معروف کرد) و مدل Qwen-0.6B، یه ایجنت رزرو هتل بسازه که مستقیماً با PostgreSQL حرف می‌زنه.

ایده روی کاغذ فوق‌العاده‌ست: ترکیب Reinforcement Learning با ابزارهای واقعی (Tools) برای اینکه مدل یاد بگیره کِی و چطور کوئری بزنه. اما در عمل؟ این نوت‌بوک یه فاجعه آموزشیه که فقط ظاهرش قشنگه.

چرا این پیاده‌سازی کار نمی‌کنه؟
توابع پایتونی که برای سرچ دیتابیس نوشته شده (مثل search_hotels) اصلا خروجی رو برمی‌گردونن (Return None)؛ یعنی مدل عملاً کور هست و هیچ دیتایی نمیینه. بدتر از اون، تابع Reward که قلب تپنده GRPO هست، باگ داره و امتیازی برمی‌گردونه! کل پروسه آموزش روی ۴ تا دونه داده انجام میشه که برای RL شوخیه. عملاً مدل داره روی هوا یاد می‌گیره که "ادای" ابزار صدا زدن رو دربیاره، بدون اینکه واقعاً بفهمه چی کار می‌کنه.

به نظر من، مسیر واقعی برای ساخت ایجنت دیتابیس اینه:
اگه تو شرکتتون می‌خواید مدلی بسازید که با دیتابیس تعامل کنه، خودتون رو درگیر پیچیدگی‌های RL نکنید، مگر اینکه مرحله SFT رو رد کرده باشید. نقشه راه عملیاتی برای مدل‌های کوچیک به این صورته:

۱. استراتژی پرامپتینگ (No-Code/Low-Code):
برای ۹۰٪ یوزکیس‌ها، اصلاً نیاز به فاین‌تیون ندارید. اسکیمای دیتابیس (Schema) رو تمیز کنید و به عنوان Context به مدل بدید. از فریم‌ورک‌هایی مثل LangChain یا LlamaIndex استفاده کنید که مکانیزم Tool Calling رو هندل می‌کنن.

۲. فاین‌تیون نظارت‌شده (SFT - The Sweet Spot):
اگه مدل باید فرمت خاصی از JSON برگردونه یا SQLهای پیچیده بنویسه که با پرامپت درنمیاد، برید سراغ SFT.
دیتاست شما باید شامل جفت‌های (سوال کاربر -> کوئری SQL صحیح) یا (سوال کاربر -> فراخوانی ابزار) باشه. با ابزارهایی مثل Unsloth (که برای سرعت عالیه) روی یه مدل کوچیک فاین‌تیون بزنید. این روش پایداری خیلی بالاتری نسبت به RL داره.

۳. مرحله پیشرفته (RL & GRPO):
کی بریم سراغ GRPO؟ زمانی که "درستی" جواب قابل سنجش (Verifiable) باشه. مثلاً در Text-to-SQL، اگر کوئری تولید شده اجرا بشه و نتیجه درست بده، Reward مثبت میدیم. اینجا مدل یاد می‌گیره که "منطق" کوئری زدن رو بهبود بده، نه فقط تقلید از دیتاست. ولی یادتون باشه، برای این کار نیاز به هزاران نمونه و یه محیط ایزوله (Sandbox) دیتابیس دارید، نه ۴ تا سطر داده!

نکته فنی و امنیتی:
هیچ‌وقت، تاکید می‌کنم هیچ‌وقت به LLM دسترسی مستقیم UPDATE یا DELETE روی پروداکشن ندید. ایجنت باید کوئری SELECT بسازه یا پیشنهاد بده، و یه لایه میانی (Application Layer) اون رو Validate و اجرا کنه.

اگه می‌خواید با TRL و GRPO کار کنید، داکیومنت اصلی رو بخونید، نه کدهای ناقص:

📃 داکیومنت TRL برای GRPO

📙 نوتبوک کولب ذکر شده

🛠 Join @LLMEngineers Community
مسیر یادگیری Reinforcement Learning تو اواخر ۲۰۲۵ کلا تغییر فاز داده. قبلاً تهش این بود که ایجنت ماریو بازی کنه، الان بحث سر "Reasoning" و "Alignment" مدل‌های زبانیه. اگه می‌بینید DeepSeek یا مدل‌های Gemini دارن می‌ترکونن، دلیلش SFT نیست، دلیلش RL در مقیاس بزرگه.

برای اینکه تو این بازار آشفته گم نشید، نقشه‌راه منابع رو بر اساس کاربرد واقعی و وضعیت فعلی کامیونیتی دسته‌بندی کردم.

فاز اول: تئوری محض (فرار نکنید)
پایه و اساس RL ریاضیاته. بدون فهمیدن MDP و Bellman Equation، ابزارها رو فقط کپی‌پیست می‌کنید و وقتی مدل Reward Hacking کرد، نمی‌فهمید کجای کار میلنگه.
کتاب Sutton & Barto هنوزم "کتاب مقدس" این حوزه است. درسته قدیمیه و خبری از LLM توش نیست، ولی منطق Policy Gradient و TD Learning همونه.

📕 کتاب رفرنس ساتون و بارتو:
http://incompleteideas.net/book/RLbook2020.pdf

ویدیوهای دیوید سیلور (DeepMind) با اینکه مال ۲۰۱۵ هست، ولی هنوزم بهترین نقطه شروعه چون شهودی درس میده.
🎞 پلی‌لیست دیوید سیلور:
https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ

فاز دوم: ورود به کد (Deep RL)
دوره Hugging Face بهترین گزینه برای تبدیل تئوری به کده. اینجا با کتابخونه‌هایی مثل Stable Baselines3 و CleanRL کار می‌کنید. خوبیش اینه که پروژه عملی داره (مثلا Doom یا Minecraft بازی کردن) و رایگانه. این دوره پل بین تئوری خشک و دنیای مدرنه.

🤗 دوره عملی Hugging Face:
https://huggingface.co/learn/deep-rl-course/unit0/introduction

فاز سوم: دنیای LLM و Alignment (اصل داستان)
الان پول تو این بخشه. اینجا دیگه بحث DQN نیست، بحث PPO، DPO و جدیداً GRPO هست.
کتابخونه TRL از Hugging Face الان استاندارد صنعتی برای این کاره. داکیومنت‌هاش فقط کد نیست، رسما آموزش روش‌های جدید مثل KTO و ORPO هست.
ترند جدید اما GRPO هست (Group Relative Policy Optimization). این همون روشیه که مدل‌های استدلالی رو می‌سازن چون نیاز به Critic مدل نداره و حافظه کمتری میخواد.

به نظر من، بهترین منبع فعلی برای یادگیری GRPO، داکیومنت‌ها و نوت‌بوک‌های Unsloth هست. اینا اومدن جوری بهینه‌ش کردن که روی GPUهای معمولی هم بتونید مدل رو Reasoning-aware کنید. حتی از کورس‌های رسمی DeepLearning.AI هم عملی‌تر و عمیق‌تره.

🤗 هندبوک Alignment (کتابخونه TRL):
https://huggingface.co/docs/trl/index

🦥 راهنمای Unsloth برای GRPO و RLHF:
https://unsloth.ai/blog/grpo

جمع‌بندی و تجربه شخصی:
اشتباه رایج اینه که ملت یه راست میرن سراغ DPO یا GRPO بدون اینکه بفهمن Reward Function چیه. RL برخلاف Supervised Learning، به شدت به هایپرپارامترها حساسه و ناپایداره.
پیشنهادم اینه: ۱۰ قسمت ویدیو دیوید سیلور رو ببینید (با سرعت 1.5x)، بعدش یه پروژه با TRL یا Unsloth بالا بیارید. الان PPO داره جاش رو تو کامیونیتی اوپن‌سورس به GRPO و DPO میده چون هم سریع‌ترن هم به سخت‌افزار کمتری نیاز دارن. روی این دوتا تمرکز کنید.

🛠 Join @LLMEngineers Community
مروری بر وضعیت مدل‌های باز در پایان سال ۲۰۲۵: سقوط Llama و پادشاهی اژدهای چینی

سال ۲۰۲۵ سالی بود که "Open Model" از یک انتخاب برای حفظ حریم خصوصی، به انتخاب اول برای Performance تبدیل شد. شکاف بین مدل‌های اختصاصی (Closed) و باز تقریبا از بین رفته. اگر هنوز روی استک ۲۰۲۴ و Llama 3 مانده‌اید، عملاً دارید با تکنولوژی منسوخ کار می‌کنید.

اکوسیستم در ۱۲ ماه گذشته زیر و رو شد. در حالی که سال ۲۰۲۴ همه منتظر Llama بعدی بودند، سال ۲۰۲۵ با تسلط کامل DeepSeek و Qwen تمام شد.

تحلیل فنی و کاربردی برترین‌های امسال:

مدل DeepSeek R1: نقطه عطف سال
اهمیت این مدل که ژانویه ۲۰۲۵ ریلیز شد، فقط در بنچمارک‌ها نبود. تیم DeepSeek با انتشار این مدل تحت لایسنس MIT بازی را عوض کرد (برخلاف لایسنس محدود V3). این حرکت باعث شد سایر لابراتوارهای چینی هم مجبور شوند گارد را باز کنند.
به نظر من، این مدل ثابت کرد که نوآوری دیگر در انحصار تیم‌های چند هزار نفره نیست. یک تیم کوچک و متمرکز توانست استانداردها را جابجا کند.

خانواده Qwen 3: استاندارد جدید صنعت
واقعیت این است که Qwen جای Llama را به عنوان مدل Default برای Fine-tuning گرفت. الان Qwen 3 همه چیز را پوشش می‌دهد: از مدل‌های Dense و MoE گرفته تا Vision و Omni.
تنوع سایز و قدرت Multilingual این مدل باعث شده اکثر پیاده‌سازی‌های آکادمیک و پروداکشن روی این بیس انجام شود. اگر الان دارید پایپ‌لاین جدید بالا می‌آورید، Qwen 3 انتخاب منطقی‌تری نسبت به Llama است.

مدل GPT-OSS: حرکت اجباری OpenAI
بالاخره OpenAI هم تسلیم فشار بازار شد و مدل باز داد. اما گول اسمش را نخورید. این مدل در General Knowledge و زبان‌های غیرانگلیسی ضعیف است.
کاربرد اصلی آن در سیستم‌های Agentic است. OpenAI سطوح مختلف "Thinking" را در این مدل پیاده کرده که برای تسک‌های استدلالی عالی است، اما به عنوان یک مدل General purpose توصیه نمی‌شود.

معماری‌های جدید و مدل‌های خاص
انویدیا با Nemotron 2 نشان داد که دوران Transformer خالص رو به پایان است. معماری هیبرید Mamba2-Transformer در این مدل، سرعت Inference را در Context‌های طولانی به شدت افزایش داده.
برای پردازش صدا (STT)، مدل Parakeet 3 الان SOTA محسوب می‌شود و عملاً Whisper را در محیط‌های لوکال (مخصوصا روی مک‌بوک) از نظر Latency و دقت شکست داده.

وضعیت کلی و Tier List مهندسی
در حال حاضر رده‌بندی خانواده مدل های اوپن سورس به این صورت است:

فرانتیر (Frontier):
DeepSeek, Qwen, Moonshot AI (Kimi)
رقبای نزدیک:
Zhipu (GLM) , Minimax
قابل توجه:
Nvidia, Mistral, Google (Gemma 3)
در حاشیه:
Meta (Llama)
(بله، متا دیگر پیشرو نیست و آینده Llama مبهم است)

منبع:
interconnects.ai/p/2025-open-models-year-in-review

🛠 Join @LLMEngineers Community
اگه خسته شدید از اینکه برای هر پرزنتیشن پول اشتراک سرویس‌های تجاری مثل Gamma یا Beautiful AI بدید، یا دیتای شرکتتون حساسه و نمی‌تونید روی کلاود بفرستید، این ابزار دقیقاً همون چیزیه که لازم دارید.

پروژه Presenton یه جایگزین Open-Source و قدرتمنده که کل پایپ‌لاین ساخت اسلاید رو میاره روی لوکال سیستم خودتون. معماری این ابزار طوری طراحی شده که هم با APIهای معروف مثل OpenAI و Anthropic کار می‌کنه و هم – که برای ما گیک‌ها جذاب‌تره – با Ollama کامل سینک میشه. یعنی عملاً می‌تونید بدون اینترنت و با مدل‌های Gemma روی سیستم خودتون خروجی بگیرید.

نکته فنی جالبش اینه که تمپلیت‌ها رو با HTML و Tailwind CSS هندل می‌کنه، یعنی دستتون برای شخصی‌سازی دیزاین کاملاً بازه. یکی از قابلیت‌های کاربردیش که توی ابزارهای اوپن‌سورس کمتر می‌بینیم، امکان "Clone" کردن استایل هست؛ یعنی فایل PPTX شرکت رو آپلود می‌کنید، استایل و برندینگ رو استخراج می‌کنه و اسلایدهای جدید رو دقیقاً توی همون قالب جنریت می‌کنه.

برای ایمیج‌های داخل اسلاید هم دستتون بازه؛ می‌تونید از gpt image یا nano banana استفاده کنید یا اگر می‌خواید رایگان در بیاد، وصلش کنید به Pexels و Pixabay یا حتی مدل‌های تصویر ساز لوکال. خروجی نهایی هم PPTX و هم PDF تمیز تحویل میده.

دیپلوی کردنش هم با یه ایمیج Docker انجام میشه. کافیه متغیرهای محیطی (ENV vars) مربوط به مدل زبانی که می‌خواید (مثلاً OLLAMA_URL) رو ست کنید و تمام. اگر GPU دارید، حتماً کانتینر رو با دسترسی GPU ران کنید تا سرعت جنریت با مدل‌های لوکال منطقی باشه.

به نظر من، برگ برنده اصلی این ابزار فقط رابط کاربریش نیست، بلکه API قدرتمندشه. شما می‌تونید این رو به عنوان یه میکروسرویس بالا بیارید، دیتای خام رو از دیتابیس بگیرید و پروسه ساخت گزارش‌های هفتگی یا ماهانه رو کاملاً اتوماتیک کنید. ضمن اینکه پشتیبانیش از پروتکل جدید MCP (Model Context Protocol) نشون میده تیم توسعه‌دهندش تکنولوژی روز رو خوب می‌شناسه.

📃 گیت‌هاب پروژه:

https://github.com/presenton/presenton

📃 داکیومنت‌ها:
https://docs.presenton.ai

🛠 Join @LLMEngineers Community
🧠 نشست تعاملی طراحی پرامپت
یک دورهمی آزاد برای فکر کردن، تجربه کردن و گفتگو درباره پرامپت‌نویسی

اگه به دنیای هوش مصنوعی علاقه‌مندی، با ابزارهایی مثل ChatGPT کار می‌کنی یا دوست داری یاد بگیری چطور بهتر و هوشمندانه‌تر با AI تعامل داشته باشی، این نشست دقیقاً برای توئه.

یه دورهمی تعاملی و گفتگو‌محوره که قراره توش:
💬 درباره پرامپت‌نویسی صحبت کنیم و تجربه‌هامون رو به اشتراک بذاریم
🧪 پرامپت‌ها رو با هم بسازیم، تست کنیم و بهترشون کنیم
🤝 از هم یاد بگیریم و تعامل واقعی داشته باشیم
نگاه‌مون به استفاده از AI رو عمیق‌تر و کاربردی‌تر کنیم

یه عصر خودمونی، فکری و پرانرژی برای کسایی که دوست دارن فعالانه یاد بگیرن، سؤال بپرسن و تو گفتگو مشارکت کنن.

📍 مکان:خیابان مطهری شمالی ،بین کوچه ۱۷ و ۱۹،کافه اسپیرو
🕒 زمان: پنجشنبه، ساعت 15:30 تا 17:30

🔗 لینک ثبت‌نام:
https://evnd.co/c9i4A

اگه دوست داری پرامپت‌نویسی رو نه فقط یاد بگیری، بلکه تجربه کنی و درباره‌ش فکر کنی، این نشست رو از دست نده.
بیاین کنار هم بهتر سؤال بپرسیم، بهتر تعامل کنیم و هوشمندانه‌تر از AI استفاده کنیم 🤍🤖

🤍 با حمایت و میزبانی مجموعه «اسپیرو»
@fingercoder
انتشار Gemini 3 Flash نشون داد که دیگه دوران مدل‌های کوچیکی که فقط نسخه‌ی ضعیف شده‌ی مدل‌های بزرگ (Distilled) بودن تموم شده. این مدل عملاً یه Frontier-class محسوب می‌شه که توی خیلی از بنچمارک‌های Reasoning، معلم خودش یعنی Gemini 3 Pro رو شکست داده. نکته‌ی طلایی این موفقیت، رویکرد Distillation Pretraining هست که تیم Google DeepMind با لیدری افرادی مثل Arnaud Autef پیاده کرده.

معماری Gemini 3 Flash بر پایه‌ی تحقیقاتی بنا شده که Autef قبلاً توی اپل روی مدل‌های Diffusion انجام داده بود. مقاله‌ی TRACT (مخفف Transitive Closure Time-Distillation) مشکل اصلی تقطیر (Distillation) سنتی یعنی Objective degeneracy رو حل کرد. در متدهای قدیمی، وقتی دانش رو از معلم به شاگرد منتقل می‌کردی، خطاها روی هم جمع می‌شدن و خروجی نهایی تار (Blur) می‌شد. تکنیک Transitive Closure به شاگرد اجازه می‌ده که چندین گام پردازشی معلم رو در یک حرکت "بپرونه" و همزمان با استفاده از یک Self-Teacher (EMA) پایداری آموزش رو حفظ کنه.

تکنولوژی Distillation Pretraining در این مدل یعنی برخلاف روال معمول که اول مدل رو می‌سازن و بعد دانش رو بهش تزریق می‌کنن، اینجا Loss تقطیر مستقیماً در فاز Pretraining ادغام شده. به نظر من این یعنی مدل از همون روز اول یاد می‌گیره چطوری مثل نسخه‌ی Pro استدلال کنه، نه اینکه صرفاً ادای اون رو دربیاره. نتیجه‌ش شده امتیاز ۷۸٪ روی SWE-bench Verified که حتی از Gemini 3 Pro با امتیاز ۷۶.۲٪ هم بالاتره. این یعنی شاگرد با حذف مسیرهای استدلالی اضافه، از معلمش بهینه‌تر و دقیق‌تر شده.

ویژگی‌های عملیاتی Gemini 3 Flash برای ما دولوپرها چند مورد کلیدی داره:

پارامتر thinking_level به شما اجازه می‌ده شدت تفکر مدل رو از Minimal تا High تنظیم کنید. این یعنی قابلیت Deep Think نسخه‌های سنگین، حالا با Latency بسیار پایین در دسترس هست.
تکنیک Context Forcing باعث شده حافظه‌ی شاگرد و معلم در طول فرآیند تولید متن کاملاً هم‌ترازو (Align) بمونه تا از Hallucination که معمولاً در زنجیره‌های طولانی Reasoning برای مدل‌های کوچیک پیش میاد، جلوگیری بشه.
سرعت این مدل ۳ برابر بیشتر از Gemini 2.5 Pro هست در حالی که از نظر عمق فهم مطلب، باهاش برابری می‌کنه.

واقعیت اینه که استراتژی DeepMind از Scaling خام (فقط بزرگتر کردن مدل) به سمت "علم آموزش" (Science of Training) شیفت کرده. اونا با Gemini 3 Flash تونستن Pareto frontier رو جابجا کنن؛ یعنی رسیدن به سطح هوش GPT-5 با هزینه‌ و پارامترهای خیلی کمتر. این یه برد بزرگ برای تیم پیش‌آموزش (Pretraining) به رهبری Vlad Feinberg هست که ثابت کردن فرمول درست تقطیر، مهم‌تر از تعداد GPUهاست.

به نظر من، Gemini 3 Flash پایان عصر مدل‌های سنگین و کند برای کارهای روزمره است. وقتی می‌تونی Reasoning در سطح Pro رو با سرعت چت واقعی داشته باشی، دیگه دلیلی برای تحمل Latency مدل‌های بزرگتر باقی نمی‌مونه.

📃 مقاله‌ی TRACT

🛠 Join @LLMEngineers Community
سال ۲۰۲۵ داره تموم میشه و اگه بخوایم کل امسال رو توی یه کلمه خلاصه کنیم، اون کلمه RLVR هست. کارپاتی (Andrej Karpathy) یه جمع‌بندی از سال ۲۰۲۵ نوشته که دقیقاً نشون میده چرا حس‌وحال مدل‌های امسال (مثل OpenAI o3 و DeepSeek R1) با مدل‌های قبلی فرق داره.

اینجا چکیده فنی و بدون حاشیه اتفاقات امسال رو براتون لیست کردم:

۱. تغییر پارادایم آموزش: ظهور RLVR
جدول زمانی آموزش LLMها به این شکل تغییر کرد:
سال ۲۰۲x: تمرکز روی Pre-training
سال ۲۰۲۲: تکنیک RLHF + PPO (دوران GPT-3.5)
سال ۲۰۲۳: بهینه‌سازی با LoRA SFT
سال ۲۰۲۴: تمرکز روی Mid-Training
سال ۲۰۲۵: جهش با RLVR + GRPO

تکنیک RLVR یا Reinforcement Learning from Verifiable Rewards بازی رو عوض کرد. برخلاف RLHF که روی "سلیقه انسان" استوار بود (که گرون و نادقیقه)، توی RLVR مدل رو توی محیط‌هایی که خروجی قابل تایید دارن (مثل ریاضی، کدنویسی و پازل‌های منطقی) ول می‌کنن تا خودش استراتژی حل مسئله رو یاد بگیره.
نتیجه؟ مدل‌ها یاد گرفتن "فکر کنن". اون چیزی که به اسم Reasoning Traces می‌بینیم، نتیجه‌ی تلاش مدل برای ماکسیمایز کردن ریوارد در این محیط‌های قابل تاییده. الان Scaling Law جدید روی "زمان فکر کردن" (Inference-time compute) تعریف میشه، نه فقط حجم دیتا.

۲. هوش دندانه‌دار (Jagged Intelligence)
ما با یه موجود بیولوژیک طرف نیستیم، با یه "روح احضار شده" طرفیم. هوش مدل‌های ۲۰۲۵ به شدت نامتوازن هست.
توی حوزه‌هایی که RLVR اعمال شده (ریاضی و کد)، مدل‌ها نابغه‌ن. اما توی حوزه‌هایی که محیط Verifiable ندارن، هنوز می‌تونن مثل یه بچه دبستانی گیج بزنن یا با یه Jailbreak ساده فریب بخورن.
به نظر من، بنچمارک‌ها توی ۲۰۲۵ رسماً بی‌ارزش شدن. چون بنچمارک‌ها ذاتاً محیط‌های قابل تاییدن و مدل‌ها ناخودآگاه (یا خودآگاه) روی اون‌ها Overfit شدن. Goodhart's Law با تمام قدرت برقراره.

۳. لایه جدید نرم‌افزار: Vibe Coding و Cursor
سال ۲۰۲۵ سالی بود که "نوشتن کد" جای خودش رو به "توصیف رفتار" داد. کارپاتی اصطلاح Vibe Coding رو استفاده می‌کنه؛ یعنی شما با زبان طبیعی و حس‌تون برنامه می‌نویسید و اصلا براتون مهم نیست زیر کاپوت چه کدی تولید شده.
اپلیکیشن‌های یک‌بار مصرف (Ephemeral Apps) ترند شد. کدی که می‌نویسی تا یه باگ رو دیباگ کنی و بعد دور می‌ریزی.
ابزارهایی مثل Cursor نشون دادن که لایه اپلیکیشن فقط "Wrap کردن API" نیست؛ بلکه Orchestration هوشمند، مدیریت Context و هندل کردن وابستگی‌هاست.

۴. ایجنت‌های Localhost
با اومدن Claude Code، مفهوم ایجنت تغییر کرد. تا قبل از این فکر می‌کردیم ایجنت‌ها قراره توی کانتینرهای ابری اجرا بشن، اما الان مشخص شد که "دسترسی و Context" مهم‌تر از قدرت پردازشیه.
اجرای ایجنت روی کامپیوتر خودت (Localhost) یعنی دسترسی به فایل‌ها، ترمینال و محیط واقعی توسعه‌دهنده بدون تاخیر شبکه. این پارادایم خیلی منطقی‌تر از ایجنت‌های ابریه.

۵. رابط کاربری Native
مدل‌هایی مثل Google Nano Banana نشون دادن که خروجی تکست، فرمت بهینه برای انسان نیست. ما دنبال تصویر، نمودار و UI هستیم. مدل‌های جدید دارن یاد می‌گیرن که مستقیماً UI تولید کنن، نه اینکه تکست بدن و ما رندرش کنیم.

جمع‌بندی من:
ما هنوز توی فاز "پیدا کردن فرم فکتور" هستیم. مدل‌ها همزمان هم خیلی باهوش‌تر از انتظارمون شدن (توی استدلال) و هم خیلی خنگ‌تر (توی درک عمومی).
نکته کلیدی برای مهندس‌های هوش مصنوعی اینه: تمرکزتون رو از روی Pre-training بردارید. الان بازی توی زمین Post-training، طراحی Reward Function‌های قابل اثبات و ارکستراسیون ایجنت‌هاست. کسی برنده است که بتونه این "هوش دندانه‌دار" رو توی یه سیستم قابل اطمینان کپسوله کنه.

📃 پست اصلی کارپاتی:
https://karpathy.bearblog.dev/year-in-review-2025/

🛠 Join @LLMEngineers Community
Forwarded from Farhad
سلام بچه ها من یک کانال دارم بحث های پیشرفته تئوری رو پوشش میدم. ممنون میشم حمایت کنید :

https://www.youtube.com/@AIResearchJourney
شیائومی با MiMo-V2-Flash نشون داد که "مهندسی عمل‌گرا" دقیقا یعنی چی. مدل MoE با ۳۰۹ میلیارد پارامتر که فقط ۱۵ میلیاردش فعاله (Active Params)، ولی نکته اصلی سایز مدل نیست؛ شاهکار توی معماری و انتخاب‌های فنی‌شون برای بهینه‌سازیه.

معماری Hybrid Attention اینجا بازی رو عوض کرده. ترکیب Sliding Window Attention (SWA) با Global Attention با نسبت ۵ به ۱. نکته عجیب ماجرا اینه که Window Size رو روی ۱۲۸ بستن و نتیجه گرفتن (حتی بهتر از ۵۱۲). این یعنی ۶ برابر کاهش در مصرف حافظه KV Cache. فقط حواستون باشه، طبق گفته خودشون Attention Sink Bias رو به هیچ وجه نباید حذف کنید، چون برای حفظ کانتکست حیاتیه.

ماژول MTP یا همون Multi-Token Prediction رو هم جداگانه اپن‌سورس کردن. این ماژول ۳ لایه، سرعت خروجی رو ۳ برابر می‌کنه و مهم‌تر از اون، توی آموزش RL زمان بیکاری GPU رو برای نمونه‌های Long-tail به شدت کاهش میده. یه FFN متراکم ساده‌ست (برعکس خود مدل که MoE هست) ولی تاثیرش توی پروداکشن وحشتناکه.

تکنیک MOPD برای Post-training هم درس بزرگیه. ایده اینه که Knowledge Distillation رو تبدیل کردن به یه فرآیند RL. دانش Teacher رو با هزینه محاسباتی ۱/۵۰ روش‌های معمول (مثل SFT+RL) به Student منتقل کردن. عملا یه لوپ Self-reinforcing ساختن که مدل دانش‌آموز می‌تونه خودش تبدیل به معلم قوی‌تری بشه.

به نظر من، MiMo-V2 فقط یه مدل زبانی نیست، یه کلاس درس برای کساییه که می‌خوان Inference ارزان و سریع داشته باشن و درگیر Hype سایز مدل نشن. وقتی ۱۵ میلیارد پارامتر فعال بتونه بنچمارک‌های مدل‌های ۳۰+ میلیاردی رو بزنه، یعنی معماری درست چیده شده.

📃 گزارش فنی و جزئیات معماری:
https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf

🤗 لینک مدل در هاگینگ‌فیس:
https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash

🛠 Join @LLMEngineers Community
🤏 مدل FunctionGemma: بازگشت به میکروسکوپ!

گوگل یه حرکت خلاف جهت بازار زده و مدل FunctionGemma رو با سایز عجیب ۲۷۰ میلیون پارامتر (270M) منتشر کرده. توی دنیایی که همه دنبال مدل‌های ۱۰۰ میلیاردی هستن، این سایز یعنی "تقریبا هیچی". اما اشتباه نکنید، این مدل قرار نیست براتون شعر بگه یا فلسفه ببافه؛ این مدل یه آچار فرانسه تخصصی برای Function Calling روی Edge Device هاست.

معماری این مدل بر پایه Gemma 3 هست ولی برای دیالوگ مستقیم ساخته نشده. هدف اصلی اینه که به عنوان یه لایه واسط (Middleware) بین درخواست کاربر و APIهای سیستم عامل یا اپلیکیشن‌ها قرار بگیره. گوگل ادعا میکنه این مدل رو باید Fine-tune کنید تا قدرت واقعیش رو ببینید.

نکته فنی جذاب ماجرا اینجاست: نسخه Base این مدل روی تسک‌های Mobile Actions حدود ۵۸٪ دقت داره، اما وقتی روی دیتای دومینِ خودتون (مثلا کنترلرهای اندروید) Fine-tune میشه، دقتش میپره روی ۸۵٪. این یعنی یه مدل ۲۷۰ میلیونی که روی CPU گوشی سامسونگ S25 Ultra اجرا میشه، میتونه با دقت بالا بفهمه کاربر وقتی میگه "چراغ رو روشن کن"، باید کدوم تابع سیستمی رو با چه پارامترهایی صدا بزنه.

پرفورمنس و کاربرد عملی این مدل:
روی سخت‌افزار محدود مثل گوشی یا Browser اجرا میشه و نیازی به اینترنت نداره (Privacy-first). برای توسعه‌دهنده‌ها، دیتاسیت Mobile Actions رو هم منتشر کردن که نشون میده چطور میشه دستورات متنی رو به JSON برای اجرا تبدیل کرد. با ابزارهایی مثل Unsloth هم سازگاره و میتونید خیلی سریع روی دیتای خودتون شخصی‌سازیش کنید و توی LM Studio سرو کنید.

به نظر من، این حرکت گوگل نشون‌دهنده یه شیفت پارادایم توی معماری Agent هاست. تا الان فکر می‌کردیم یه مدل گنده (مثل GPT-4) باید همه کارها رو بکنه، اما آینده احتمالا "تیم‌سازی" از مدل‌هاست: یه مدل متوسط برای برنامه‌ریزی (Planner) و چندین مدل میکرو مثل FunctionGemma برای اجرای دقیق ابزارها (Executors). اینجوری هم Latency میاد پایین، هم هزینه Inference نزدیک به صفر میشه و هم امنیت داده کاربر حفظ میشه چون لاجیک روی گوشی میمونه.

اگه دارید روی سیستم‌های Agentic کار می‌کنید که نیاز به Tool Use دارن ولی منابع سرور محدود دارید، این مدل رو حتما تست کنید. فقط یادتون باشه، بدون Fine-tune کردن روی Task خودتون، احتمالا خروجی جالبی نمیده.

📃 لینک مدل در هاگینگ‌فیس:
https://huggingface.co/collections/google/functiongemma

📃 دیتاسیت Mobile Actions برای تمرین:
https://huggingface.co/datasets/google/mobile-actions

🛠 Join @LLMEngineers Community
بالاخره یه منبع درست‌وحسابی پیدا شد که فرق اسکریپت‌نویسی توی Colab رو با یه سیستم Production-level واقعی نشون بده. کتاب LLM Engineer's Handbook که اوایل ۲۰۲۵ منتشر شده، دقیقاً دست می‌ذاره رو نقطه‌ی درد اکثر ما: خروج از "جهنم ژوپیتر نوت‌بوک" و ورود به دنیای مهندسی نرم‌افزار مقیاس‌پذیر.

نویسنده‌هاش آدمایین که دستشون تو کاره؛ Maxime Labonne رو احتمالاً اگر تو توییتر یا هاسینگ‌فیس فعال باشید می‌شناسید (بابت مدل‌ها و آموزش‌های دقیقش) و Paul Iusztin هم که سابقه سنگین MLOps داره. ترکیب این دو تا باعث شده کتاب هم از نظر تئوری مدل‌ها قوی باشه و هم از نظر زیرساخت.

تمرکز اصلی کتاب روی ساخت یه پروژه End-to-End به اسم LLM Twin هست. ایده اینه که یه سیستم بسازید که سبک نوشتاری و شخصیت شما رو تقلید کنه. اما نکته اینجاست که هدف ساختن مدل نیست، هدف ساختن "پایپ‌لاین" هست.

چیزایی که تو این کتاب پوشش داده میشه فراتر از model.generate ساده‌ست:
- مباحث RAG و Fine-tuning رو با دید عملیاتی بررسی می‌کنه (نه فقط تئوری).
- معماری سیستم رو بر اساس پترن FTI (Feature, Training, Inference) می‌چینه که برای جدا کردن نگرانی‌ها تو سیستم‌های بزرگ حیاتیه.
- ابزارهایی مثل ZenML برای ارکستراسیون، Comet ML برای ترک کردن آزمایش‌ها و AWS SageMaker برای دیپلوی رو وسط می‌کشه.

به نظر من، برگ برنده این کتاب اینه که وارد جزئیات کثیف Production میشه. مثلاً چطوری Latency اینفرنس رو پایین بیاریم؟ چطوری دیتابیس‌های برداری مثل Qdrant رو مدیریت کنیم؟ یا چطوری برای پرامپت‌ها مانیتورینگ بذاریم؟ اینا چیزایی نیست که تو کورس‌های یوتوب پیدا بشه.

استک فنی کتاب کاملاً پایتونی و مدرنه (Poetry, Docker, GitHub Actions) و دید خوبی میده که چطوری CI/CD رو برای مدل‌های زبانی پیاده‌سازی کنیم. اگر دنبال این هستید که از فاز "مدل‌سازی" صرف بیاید بیرون و تبدیل بشید به کسی که می‌تونه یه سرویس AI پایدار رو نگهداری کنه، این کتاب مسیر رو شفاف می‌کنه.

کدهاش هم توی گیت‌هاب فعاله و به‌روزرسانی میشه، که برای یه کتاب فنی امتیاز بزرگیه. البته حواستون باشه که این کتاب برای مبتدی‌ها نیست؛ باید پایتون و اصول اولیه AWS و GenAI رو بلد باشید تا گیر نکنید.

📃 لینک ریپازیتوری گیت‌هاب پروژه:
https://github.com/PacktPublishing/LLM-Engineers-Handbook

📃 لینک کتاب در آمازون:
https://www.amazon.com/LLM-Engineers-Handbook-engineering-production/dp/1836200067

🛠 Join @LLMEngineers Community