مدل Moshi یه قدم خیلی بزرگ برای حل مشکل Latency در تعامل صوتی با هوش مصنوعیه. تا الان اکثر سولوشنهای موجود، یه پایپلاین Cascade بودن (یعنی اول ASR، بعد LLM، تهش TTS) که ذاتاً کند و غیرطبیعیه. تیم Kyutai (یه لابراتوار فرانسوی) اومده یه مدل End-to-End واقعی ساخته که همزمان میشنوه و حرف میزنه، اونم به صورت Full-Duplex.
معماری Moshi بر پایه یه مدل زبانی ۷ میلیاردی به اسم Helium بنا شده که از پایه توسط خودشون ترین شده. نکته کلیدی اینجاست که این مدل صرفاً یه LLM نیست که بهش مبدل صدا چسبونده باشن؛ بلکه یه معماری Multi-stream داره. یعنی دو تا استریم صوتی جدا (یکی کاربر، یکی خود مدل) رو همزمان پردازش میکنه. این یعنی دیگه مفهوم نوبتی حرف زدن (Turn-based) که تو سیستمهای قدیمی بود حذف شده و شما میتونید وسط حرفش بپرید (Interruption) یا همزمان باهاش صحبت کنید، دقیقاً مثل مکالمه انسانی.
قلب تپندهی این سیستم، یه Neural Audio Codec جدید به اسم Mimi هست. برخلاف کدکهای قبلی مثل EnCodec یا SemantiCodec که Latency بالایی داشتن یا Frame Rate شون با توکنهای متنی مچ نمیشد، Mimi تونسته با Frame Rate حدود 12.5Hz کار کنه. این یعنی هر ۸۰ میلیثانیه یه توکن صوتی میده که برای Streaming فوقالعادهست. برای مقایسه، اکثر کدکها ۵۰ هرتز هستن که بار پردازشی رو الکی زیاد میکنن. Mimi همزمان اطلاعات آکوستیک (کیفیت صدا) و سمنتیک (مفهوم) رو فشرده میکنه.
تکنیک "Inner Monologue" شاهکار مهندسی این پیپره. مدل قبل از اینکه توکن صوتی (Audio Token) رو تولید کنه، اول توکن متنی (Text Token) متناظرش رو به صورت داخلی جنریت میکنه. این کار باعث میشه مدل "فکر کنه" و بعد "حرف بزنه". این قضیه دو تا باگ بزرگ مدلهای Speech-to-Speech قبلی رو حل کرده: یکی اینکه کیفیت محتوا و استدلال به شدت میره بالا (چون از دیتای متنی LLM استفاده میکنه) و دوم اینکه عملاً مدل همزمان داره ASR و TTS رو به صورت Streaming انجام میده.
برای اجرا، تیم Kyutai سه تا بکاند مختلف داده: PyTorch برای ریسرچ، Rust برای پروداکشن (که پرفرمنسش عالیه) و MLX برای اجرا روی مکبوکهای اپل سیلیکون. روی یه GPU L4، تاخیر (Latency) عملی حدود ۲۰۰ میلیثانیه است که عملاً Real-time محسوب میشه. مدل در دو نسخه Moshiko (صدای مرد) و Moshika (صدای زن) و تحت لایسنس CC-BY 4.0 منتشر شده که یعنی برای استفادههای مختلف بازه.
به نظر من، Moshi نشون داد که دوران چسبوندن Whisper به Llama و VITS تموم شده. اگر میخواید روی Voice AI کار کنید، معماریهایی مثل GPT-4o و همین Moshi که Audio Token رو Native میفهمن، آینده هستن. دقت کنید که این مدل هنوز ۷ میلیاردیه و ممکنه توی Reasoning پیچیده کم بیاره، ولی معماریش برای ساخت Voice Assistant های لوکال بینظیره.
تجربه شخصی من اینه که برای تست لوکال حتما از نسخه Rust یا MLX استفاده کنید، نسخه پایتونی خام برای دمو کمی سنگینه. ضمناً برای فاینتیون روی زبانهای دیگه (مثل فارسی) چون توکنایزر Mimi روی دیتای زیادی ترین شده، احتمالاً نتیجه خوبی میده ولی نیاز به GPU قوی دارید.
صفحه اصلی پروژه و دمو:
https://moshi.chat/
کدها و پیادهسازیهای Rust و Python:
https://github.com/kyutai-labs/moshi
مقاله فنی و جزئیات معماری:
https://arxiv.org/abs/2410.00037
دانلود مدلها از هاگینگفیس:
https://huggingface.co/kyutai
🛠 Join @LLMEngineers Community
معماری Moshi بر پایه یه مدل زبانی ۷ میلیاردی به اسم Helium بنا شده که از پایه توسط خودشون ترین شده. نکته کلیدی اینجاست که این مدل صرفاً یه LLM نیست که بهش مبدل صدا چسبونده باشن؛ بلکه یه معماری Multi-stream داره. یعنی دو تا استریم صوتی جدا (یکی کاربر، یکی خود مدل) رو همزمان پردازش میکنه. این یعنی دیگه مفهوم نوبتی حرف زدن (Turn-based) که تو سیستمهای قدیمی بود حذف شده و شما میتونید وسط حرفش بپرید (Interruption) یا همزمان باهاش صحبت کنید، دقیقاً مثل مکالمه انسانی.
قلب تپندهی این سیستم، یه Neural Audio Codec جدید به اسم Mimi هست. برخلاف کدکهای قبلی مثل EnCodec یا SemantiCodec که Latency بالایی داشتن یا Frame Rate شون با توکنهای متنی مچ نمیشد، Mimi تونسته با Frame Rate حدود 12.5Hz کار کنه. این یعنی هر ۸۰ میلیثانیه یه توکن صوتی میده که برای Streaming فوقالعادهست. برای مقایسه، اکثر کدکها ۵۰ هرتز هستن که بار پردازشی رو الکی زیاد میکنن. Mimi همزمان اطلاعات آکوستیک (کیفیت صدا) و سمنتیک (مفهوم) رو فشرده میکنه.
تکنیک "Inner Monologue" شاهکار مهندسی این پیپره. مدل قبل از اینکه توکن صوتی (Audio Token) رو تولید کنه، اول توکن متنی (Text Token) متناظرش رو به صورت داخلی جنریت میکنه. این کار باعث میشه مدل "فکر کنه" و بعد "حرف بزنه". این قضیه دو تا باگ بزرگ مدلهای Speech-to-Speech قبلی رو حل کرده: یکی اینکه کیفیت محتوا و استدلال به شدت میره بالا (چون از دیتای متنی LLM استفاده میکنه) و دوم اینکه عملاً مدل همزمان داره ASR و TTS رو به صورت Streaming انجام میده.
برای اجرا، تیم Kyutai سه تا بکاند مختلف داده: PyTorch برای ریسرچ، Rust برای پروداکشن (که پرفرمنسش عالیه) و MLX برای اجرا روی مکبوکهای اپل سیلیکون. روی یه GPU L4، تاخیر (Latency) عملی حدود ۲۰۰ میلیثانیه است که عملاً Real-time محسوب میشه. مدل در دو نسخه Moshiko (صدای مرد) و Moshika (صدای زن) و تحت لایسنس CC-BY 4.0 منتشر شده که یعنی برای استفادههای مختلف بازه.
به نظر من، Moshi نشون داد که دوران چسبوندن Whisper به Llama و VITS تموم شده. اگر میخواید روی Voice AI کار کنید، معماریهایی مثل GPT-4o و همین Moshi که Audio Token رو Native میفهمن، آینده هستن. دقت کنید که این مدل هنوز ۷ میلیاردیه و ممکنه توی Reasoning پیچیده کم بیاره، ولی معماریش برای ساخت Voice Assistant های لوکال بینظیره.
تجربه شخصی من اینه که برای تست لوکال حتما از نسخه Rust یا MLX استفاده کنید، نسخه پایتونی خام برای دمو کمی سنگینه. ضمناً برای فاینتیون روی زبانهای دیگه (مثل فارسی) چون توکنایزر Mimi روی دیتای زیادی ترین شده، احتمالاً نتیجه خوبی میده ولی نیاز به GPU قوی دارید.
صفحه اصلی پروژه و دمو:
https://moshi.chat/
کدها و پیادهسازیهای Rust و Python:
https://github.com/kyutai-labs/moshi
مقاله فنی و جزئیات معماری:
https://arxiv.org/abs/2410.00037
دانلود مدلها از هاگینگفیس:
https://huggingface.co/kyutai
🛠 Join @LLMEngineers Community
GitHub
GitHub - kyutai-labs/moshi: Moshi is a speech-text foundation model and full-duplex spoken dialogue framework. It uses Mimi, a…
Moshi is a speech-text foundation model and full-duplex spoken dialogue framework. It uses Mimi, a state-of-the-art streaming neural audio codec. - kyutai-labs/moshi
دنیای Voice AI (هوش مصنوعی صوتی) دیگه اون منشیهای تلفنی خنگ یا دستیارهای صوتی قدیمی مثل Siri و Alexa نیست که مجبور باشی داد بزنی تا یه آهنگ پخش کنن. توی سال ۲۰۲۵، ما داریم درباره «ایجنتهای صوتی» صحبت میکنیم که مکالمه Real-time دارن، وسط حرفت میپرن، احساساتت رو میفهمن و دقیقاً مثل یه آدم باهات حرف میزنن.
برای اینکه وارد این دنیا بشید، باید ساختار فنی پشت صحنه رو خیلی ساده درک کنید. کلاً دو مدل معماری اصلی داریم که الان توی بازار استفاده میشه:
معماری کلاسیک (Hybrid Pipeline)
این روشیه که اکثر سیستمها هنوز باهاش کار میکنن و شبیه یه خط تولید سه مرحلهای هست:
۱. گوش (ASR/STT): صدا رو میگیره و تبدیل به متن میکنه.
۲. مغز (LLM): متن رو میخونه، فکر میکنه و جواب رو متنی مینویسه.
۳. زبان (TTS): جواب متنی رو دوباره به صدا تبدیل میکنه.
مشکل اینجاست که چون دیتا باید سه بار دستبهدست بشه، یه تأخیر (Latency) حدود ۱ ثانیهای داره که حس «مکالمه طبیعی» رو از بین میبره.
معماری مدرن (Native Speech-to-Speech)
این همون تکنولوژی خفنیه که مدلهایی مثل GPT-4o، Gemini Live و مدلهای جدید چینی مثل Qwen3-Omni دارن. اینجا دیگه تبدیل متن نداریم. مدل مستقیماً "صدا" رو میشنوه و "صدا" تولید میکنه.
نتیجه؟ سرعت وحشتناک بالا (زیر ۳۰۰ میلیثانیه) و درک لحن و احساسات. یعنی اگر با بغض حرف بزنی، مدل میفهمه ناراحتی!
چطور شروع کنیم؟ (نقشه راه عملی)
نرید از صفر کد پایتون بزنید که صدا ضبط کنه و بفرسته API. این کار اشتباهه. الان فریمورکهایی هستن که کارهای سخت مثل مدیریت WebRTC (همون تکنولوژی تماس تصویری) و قطع و وصل شدن نت رو هندل میکنن.
اگر برنامهنویس هستید:
برید سراغ Pipecat یا LiveKit. اینا مثل React هستن برای دنیای Voice. شما فقط منطق برنامه رو مینویسید، اینا اتصال بین گوش، مغز و زبان رو مدیریت میکنن.
اگر میخواید بدون کد زدن تست کنید:
پلتفرمهایی مثل Vapi یا Retell AI هستن که اجازه میدن توی چند دقیقه یه ایجنت تلفنی بسازید، بهش شماره بدید و باهاش تماس بگیرید.
به نظر من:
آینده تعامل با کامپیوترها، تایپ کردن نیست. Voice AI داره به سمتی میره که شما با نرمافزارتون «حرف» میزنید و اون کارها رو انجام میده. الان بهترین زمان برای یادگیری این حوزه است چون هنوز خیلیها درگیر چتباتهای متنیان و بازار Voice دست نخوردهست.
🛠 Join @LLMEngineers Community
برای اینکه وارد این دنیا بشید، باید ساختار فنی پشت صحنه رو خیلی ساده درک کنید. کلاً دو مدل معماری اصلی داریم که الان توی بازار استفاده میشه:
معماری کلاسیک (Hybrid Pipeline)
این روشیه که اکثر سیستمها هنوز باهاش کار میکنن و شبیه یه خط تولید سه مرحلهای هست:
۱. گوش (ASR/STT): صدا رو میگیره و تبدیل به متن میکنه.
۲. مغز (LLM): متن رو میخونه، فکر میکنه و جواب رو متنی مینویسه.
۳. زبان (TTS): جواب متنی رو دوباره به صدا تبدیل میکنه.
مشکل اینجاست که چون دیتا باید سه بار دستبهدست بشه، یه تأخیر (Latency) حدود ۱ ثانیهای داره که حس «مکالمه طبیعی» رو از بین میبره.
معماری مدرن (Native Speech-to-Speech)
این همون تکنولوژی خفنیه که مدلهایی مثل GPT-4o، Gemini Live و مدلهای جدید چینی مثل Qwen3-Omni دارن. اینجا دیگه تبدیل متن نداریم. مدل مستقیماً "صدا" رو میشنوه و "صدا" تولید میکنه.
نتیجه؟ سرعت وحشتناک بالا (زیر ۳۰۰ میلیثانیه) و درک لحن و احساسات. یعنی اگر با بغض حرف بزنی، مدل میفهمه ناراحتی!
چطور شروع کنیم؟ (نقشه راه عملی)
نرید از صفر کد پایتون بزنید که صدا ضبط کنه و بفرسته API. این کار اشتباهه. الان فریمورکهایی هستن که کارهای سخت مثل مدیریت WebRTC (همون تکنولوژی تماس تصویری) و قطع و وصل شدن نت رو هندل میکنن.
اگر برنامهنویس هستید:
برید سراغ Pipecat یا LiveKit. اینا مثل React هستن برای دنیای Voice. شما فقط منطق برنامه رو مینویسید، اینا اتصال بین گوش، مغز و زبان رو مدیریت میکنن.
اگر میخواید بدون کد زدن تست کنید:
پلتفرمهایی مثل Vapi یا Retell AI هستن که اجازه میدن توی چند دقیقه یه ایجنت تلفنی بسازید، بهش شماره بدید و باهاش تماس بگیرید.
به نظر من:
آینده تعامل با کامپیوترها، تایپ کردن نیست. Voice AI داره به سمتی میره که شما با نرمافزارتون «حرف» میزنید و اون کارها رو انجام میده. الان بهترین زمان برای یادگیری این حوزه است چون هنوز خیلیها درگیر چتباتهای متنیان و بازار Voice دست نخوردهست.
🛠 Join @LLMEngineers Community
معماری مدلهای صوتی (Spoken Dialogue Models) داره یه شیفت سنگین رو تجربه میکنه؛ گذار از حالت Half-Duplex (مثل بیسیم واکی-تاکی که یکی حرف میزنه اون یکی گوش میده) به Full-Duplex (مکالمه طبیعی همزمان که میتونیم بپریم وسط حرف هم). ترندهایی مثل GPT-4o Voice Mode باعث شدن هایپ این قضیه زیاد بشه، ولی واقعیت اینه که ارزیابی این مدلها تا الان فقط روی "محتوای متنی" بوده، نه "دینامیک مکالمه".
مقاله جدید Full-Duplex-Bench دقیقاً دست گذاشته روی همین نقطه کور. اینها یه بنچمارک ساختن که کیفیت تعامل رو میسنجه، نه فقط اینکه مدل چی میگه، بلکه "کی" و "چطور" میگه.
چهار بُعد اصلی که توی این بنچمارک تست میشه و باید توی توسعه مدلهای Voice بهش دقت کنید:
۱. هندل کردن مکث (Pause Handling):
مدل باید فرق بین "تموم شدن حرف" و "مکث برای فکر کردن" رو بفهمه. اکثر مدلهای فعلی (مخصوصا End-to-Endها) تا یه مکث کوچیک میبینن، سریع میپرن وسط و Interrupt میکنن که تجربه کاربری رو نابود میکنه (Takeover Rate بالا).
۲. بکچنل (Backchanneling):
یه مکالمه طبیعی پر از "آها"، "اووم" و "درسته" است که شنونده میگه تا نشون بده داره گوش میده، بدون اینکه نوبت صحبت رو بگیره. مدل باید بتونه بدون اینکه رشته کلام رو از دست یوزر بگیره، فیدبک صوتی بده.
۳. جابجایی نوبت (Smooth Turn-Taking):
اینجا Latency حرف اول رو میزنه. فاصله زمانی بین سکوت یوزر و شروع جواب مدل. مدل باید تشخیص بده کِی نوبت اونه و بدون تاخیر غیرطبیعی شروع کنه.
۴. مدیریت وقفه (User Interruption):
اگه مدل داره حرف میزنه و یوزر میپره وسط حرفش، مدل چقدر سریع خفه میشه؟ (Barge-in). مدلهای E2E معمولاً اینجا گیج میزنن و به حرف زدن ادامه میدن یا چرت و پرت تحویل میدن چون کانتکست به هم میریزه.
نکات فنی و وضعیت فعلی مدلها بر اساس این بنچمارک:
مدلهای End-to-End مثل Moshi و dGSLM:
اینها Latency وحشتناک پایینی دارن (حدود ۳۰۰ میلیثانیه) که عالیه، ولی به شدت "بیادب" هستن. یعنی Takeover Rate بالایی دارن و هر نویزی رو سیگنال شروع صحبت میبینن و میپرن وسط. کنترلپذیری این معماریها هنوز پایینه.
مدلهای Cascaded مثل Freeze-Omni:
اینها که پایپلاین جدا (VAD + ASR + LLM + TTS) دارن، توی کنترل نوبت و تشخیص وقفه خیلی بهتر عمل میکنن چون ماژولار هستن و لاجیک مشخص دارن، ولی Latency بالاتری دارن که حس Real-time رو کم میکنه.
مدل Gemini Live:
به عنوان یه مدل تجاری Closed-source، تعادل خوبی بین بکچنل و مدیریت نوبت داره ولی حتی اون هم روی دیتاستهای واقعی (مثل Candor) گاهی گیج میزنه و نوبت رو به موقع نمیگیره.
به نظر من، آینده دست مدلهای Native End-to-End هست چون پتانسیل انتقال احساسات و Latency پایین رو دارن، ولی فعلاً از مشکل "عدم بلوغ در Turn-taking" رنج میبرن. اگر روی Voice Agent کار میکنید، فعلاً یا باید کندی Cascaded رو تحمل کنید یا بیخیال دقت در نوبتگیری بشید. راه حل احتمالی تزریق توکنهای کنترلی خاص برای مدیریت State مکالمه داخل خود مدل E2E هست، نه اینکه صرفاً روی دیتای خام Audio آموزش بدیم.
📃 Full-Duplex-Bench: A Benchmark to Evaluate Full-Duplex Spoken Dialogue Models
https://arxiv.org/abs/2503.04721
🛠 Join @LLMEngineers Community
مقاله جدید Full-Duplex-Bench دقیقاً دست گذاشته روی همین نقطه کور. اینها یه بنچمارک ساختن که کیفیت تعامل رو میسنجه، نه فقط اینکه مدل چی میگه، بلکه "کی" و "چطور" میگه.
چهار بُعد اصلی که توی این بنچمارک تست میشه و باید توی توسعه مدلهای Voice بهش دقت کنید:
۱. هندل کردن مکث (Pause Handling):
مدل باید فرق بین "تموم شدن حرف" و "مکث برای فکر کردن" رو بفهمه. اکثر مدلهای فعلی (مخصوصا End-to-Endها) تا یه مکث کوچیک میبینن، سریع میپرن وسط و Interrupt میکنن که تجربه کاربری رو نابود میکنه (Takeover Rate بالا).
۲. بکچنل (Backchanneling):
یه مکالمه طبیعی پر از "آها"، "اووم" و "درسته" است که شنونده میگه تا نشون بده داره گوش میده، بدون اینکه نوبت صحبت رو بگیره. مدل باید بتونه بدون اینکه رشته کلام رو از دست یوزر بگیره، فیدبک صوتی بده.
۳. جابجایی نوبت (Smooth Turn-Taking):
اینجا Latency حرف اول رو میزنه. فاصله زمانی بین سکوت یوزر و شروع جواب مدل. مدل باید تشخیص بده کِی نوبت اونه و بدون تاخیر غیرطبیعی شروع کنه.
۴. مدیریت وقفه (User Interruption):
اگه مدل داره حرف میزنه و یوزر میپره وسط حرفش، مدل چقدر سریع خفه میشه؟ (Barge-in). مدلهای E2E معمولاً اینجا گیج میزنن و به حرف زدن ادامه میدن یا چرت و پرت تحویل میدن چون کانتکست به هم میریزه.
نکات فنی و وضعیت فعلی مدلها بر اساس این بنچمارک:
مدلهای End-to-End مثل Moshi و dGSLM:
اینها Latency وحشتناک پایینی دارن (حدود ۳۰۰ میلیثانیه) که عالیه، ولی به شدت "بیادب" هستن. یعنی Takeover Rate بالایی دارن و هر نویزی رو سیگنال شروع صحبت میبینن و میپرن وسط. کنترلپذیری این معماریها هنوز پایینه.
مدلهای Cascaded مثل Freeze-Omni:
اینها که پایپلاین جدا (VAD + ASR + LLM + TTS) دارن، توی کنترل نوبت و تشخیص وقفه خیلی بهتر عمل میکنن چون ماژولار هستن و لاجیک مشخص دارن، ولی Latency بالاتری دارن که حس Real-time رو کم میکنه.
مدل Gemini Live:
به عنوان یه مدل تجاری Closed-source، تعادل خوبی بین بکچنل و مدیریت نوبت داره ولی حتی اون هم روی دیتاستهای واقعی (مثل Candor) گاهی گیج میزنه و نوبت رو به موقع نمیگیره.
به نظر من، آینده دست مدلهای Native End-to-End هست چون پتانسیل انتقال احساسات و Latency پایین رو دارن، ولی فعلاً از مشکل "عدم بلوغ در Turn-taking" رنج میبرن. اگر روی Voice Agent کار میکنید، فعلاً یا باید کندی Cascaded رو تحمل کنید یا بیخیال دقت در نوبتگیری بشید. راه حل احتمالی تزریق توکنهای کنترلی خاص برای مدیریت State مکالمه داخل خود مدل E2E هست، نه اینکه صرفاً روی دیتای خام Audio آموزش بدیم.
📃 Full-Duplex-Bench: A Benchmark to Evaluate Full-Duplex Spoken Dialogue Models
https://arxiv.org/abs/2503.04721
🛠 Join @LLMEngineers Community
همه درگیر بنچمارکهای Reasoning و MMLU شدن، ولی اون چیزی که تو پروداکشن (Production) و مخصوصاً سیستمهای Agentic مو رو از ماست میکشه بیرون، System Prompt Adherence (پایبندی به پرامپت سیستم) هست.
واقعیت اینه که وقتی داری یه Agent میسازی که باید فرمت JSON برگردونه یا توی یه چارچوب امنیتی خاص کد بزنه، خلاقیت شاعرانه مدل به هیچ دردی نمیخوره. توی سال ۲۰۲۵، بحث از "آیا مدل میفهمه؟" به "آیا مدل اطاعت میکنه؟" تغییر کرده.
چند تا نکته فنی و دیتای به درد بخور از وضعیت فعلی Adherence براتون درآوردم:
معیار سنجش (Benchmarks) تغییر کرده
دیگه تستهای ساده Yes/No جواب نمیده. الان بنچمارکهایی مثل IFEval (که روی فرمت تمرکز داره) خوبن ولی کافی نیستن. ترند جدید AgentIF و AdvancedIF هستن. اینا میان سناریوهای Multi-turn و پیچیده رو تست میکنن. مثلاً مدل رو تو موقعیتی میذارن که ۱۲ تا Constraint مختلف داره (مثل "فقط اگه X بزرگتر از Y بود API رو کال کن، خروجی YAML باشه، و به Z اشاره نکن"). جالبه بدونید حتی مدلهای تاپ هم توی این سناریوها زیر ۳۰٪ پرفکت عمل میکنن.
وضعیت مدلها در ۲۰۲۵ (The Leaderboard)
طبق دیتای Vellum و SEAL، وضعیت فعلی اینطوریه:
مدل Claude 4.5 Sonnet با ۹۲٪ پایبندی، فعلاً پادشاه بلامنازع Instruction-following هست، مخصوصاً توی تسکهای طولانی.
مدل Grok-4 و GPT-5 با اختلاف کمی پشت سرش هستن.
نکته جذاب برای ما که دنبال هزینه کمتریم: توی دسته SLMها (مدلهای زیر ۳۲ میلیارد پارامتر)، مدل Qwen3-30B و Mistral Small 3 شاهکار کردن. اگر دارید روی Edge یا سیستمهای لوکال کار میکنید، Qwen3 با ۸۵٪ پایبندی، بهترین گزینه برای جایگزینی مدلهای گرونقیمته.
تکنیکهای بهبود (Optimization)
تکنیک RIFL (که یه پایپلاین RL هست) الان ترند شده برای اینکه Adherence رو بکشه بالا. به جای اینکه فقط روی دیتای SFT معمولی فاینتیون کنید، استفاده از RIFL و دیتای سینتتیک مثل Self-Instruct میتونه ۶ تا ۱۰ درصد پرفورمنس رو توی پیروی از دستورات بهتر کنه.
چالشهای امنیتی
به نظر من بزرگترین ترس الان Prompt Injection نیست، بلکه Context Drift توی پرامپتهای طولانیه. هرچی کانتکست طولانیتر میشه، مدل "نصیحتهای اول کار" (System Prompt) رو فراموش میکنه. بنچمارکها نشون میدن که Adherence با افزایش طول کانتکست، حدود ۲۰٪ افت میکنه.
اگه دارید سیستم Agentic میسازید، به جای اینکه فقط روی "هوش" مدل مانور بدید، روی ابزارهایی مثل
📃 دیتاست AgentIF :
https://huggingface.co/datasets/THU-KEG/AgentIF
📃 مقاله:
AgentIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
🛠 Join @LLMEngineers Community
واقعیت اینه که وقتی داری یه Agent میسازی که باید فرمت JSON برگردونه یا توی یه چارچوب امنیتی خاص کد بزنه، خلاقیت شاعرانه مدل به هیچ دردی نمیخوره. توی سال ۲۰۲۵، بحث از "آیا مدل میفهمه؟" به "آیا مدل اطاعت میکنه؟" تغییر کرده.
چند تا نکته فنی و دیتای به درد بخور از وضعیت فعلی Adherence براتون درآوردم:
معیار سنجش (Benchmarks) تغییر کرده
دیگه تستهای ساده Yes/No جواب نمیده. الان بنچمارکهایی مثل IFEval (که روی فرمت تمرکز داره) خوبن ولی کافی نیستن. ترند جدید AgentIF و AdvancedIF هستن. اینا میان سناریوهای Multi-turn و پیچیده رو تست میکنن. مثلاً مدل رو تو موقعیتی میذارن که ۱۲ تا Constraint مختلف داره (مثل "فقط اگه X بزرگتر از Y بود API رو کال کن، خروجی YAML باشه، و به Z اشاره نکن"). جالبه بدونید حتی مدلهای تاپ هم توی این سناریوها زیر ۳۰٪ پرفکت عمل میکنن.
وضعیت مدلها در ۲۰۲۵ (The Leaderboard)
طبق دیتای Vellum و SEAL، وضعیت فعلی اینطوریه:
مدل Claude 4.5 Sonnet با ۹۲٪ پایبندی، فعلاً پادشاه بلامنازع Instruction-following هست، مخصوصاً توی تسکهای طولانی.
مدل Grok-4 و GPT-5 با اختلاف کمی پشت سرش هستن.
نکته جذاب برای ما که دنبال هزینه کمتریم: توی دسته SLMها (مدلهای زیر ۳۲ میلیارد پارامتر)، مدل Qwen3-30B و Mistral Small 3 شاهکار کردن. اگر دارید روی Edge یا سیستمهای لوکال کار میکنید، Qwen3 با ۸۵٪ پایبندی، بهترین گزینه برای جایگزینی مدلهای گرونقیمته.
تکنیکهای بهبود (Optimization)
تکنیک RIFL (که یه پایپلاین RL هست) الان ترند شده برای اینکه Adherence رو بکشه بالا. به جای اینکه فقط روی دیتای SFT معمولی فاینتیون کنید، استفاده از RIFL و دیتای سینتتیک مثل Self-Instruct میتونه ۶ تا ۱۰ درصد پرفورمنس رو توی پیروی از دستورات بهتر کنه.
چالشهای امنیتی
به نظر من بزرگترین ترس الان Prompt Injection نیست، بلکه Context Drift توی پرامپتهای طولانیه. هرچی کانتکست طولانیتر میشه، مدل "نصیحتهای اول کار" (System Prompt) رو فراموش میکنه. بنچمارکها نشون میدن که Adherence با افزایش طول کانتکست، حدود ۲۰٪ افت میکنه.
اگه دارید سیستم Agentic میسازید، به جای اینکه فقط روی "هوش" مدل مانور بدید، روی ابزارهایی مثل
lm-evaluation-harness وقت بذارید و مطمئن بشید که مدل دقیقاً همون کاری رو میکنه که بهش گفتید، نه اون چیزی که خودش فکر میکنه درسته.📃 دیتاست AgentIF :
https://huggingface.co/datasets/THU-KEG/AgentIF
📃 مقاله:
AgentIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
🛠 Join @LLMEngineers Community
عملیات Fine-tune با Unsloth الان ۳ تا ۵ برابر سریعتر شده. بحث فقط سرعت نیست، مدیریت VRAM به شدت بهینه شده و عملاً با سختافزار ضعیفتر میتونید مدلهای سنگینتر رو Train کنید.
تکنیک اصلی که اضافه شده Uncontaminated Packing هست. توی حالت استاندارد وقتی Batch Size رو بالا میبرید، چون طول Sequenceهای دیتاست متفاوته، GPU مجبور میشه کلی Padding (صفر) اضافه کنه تا ماتریسها هماندازه بشن. این یعنی پردازشِ هیچی.
مکانیزم Packing میاد Sequenceهای کوتاه رو هوشمندانه میچسبونه کنار هم توی یک Tensor واحد، بدون اینکه Attention Mask بین نمونهها نشت کنه (Leakage). نتیجه؟ دور ریز محاسباتی تقریباً صفر میشه.
کرنلهای Triton هم بازنویسی شدن. مخصوصاً کرنل RoPE و MLP.
قبلاً توی Contextهای خیلی طولانی (مثلاً 500K) ارورهای عجیب CUDA Out of Bounds میگرفتیم. دلیلش این بود که Indexing پیشفرض روی Int32 بود. الان Unsloth اومده از Int64 Indexing استفاده کرده که این گلوگاه رو برای Long Context Training باز میکنه.
علاوه بر این، عملیات RoPE الان کاملاً In-place انجام میشه و کپیهای اضافی حافظه حذف شده.
توی بنچمارکهای واقعی روی مدلهایی مثل Qwen3 و Llama 3:
کاهش مصرف VRAM بین ۳۰ تا ۹۰ درصد (بسته به کانفیگ) دیده میشه.
سرعت آموزش بطور متوسط ۳ برابر شده. اگر دیتای شما شامل جملات کوتاه و بلندِ میکس باشه، این سرعت تا ۵ برابر هم میرسه (چون تاثیر Packing بیشتر میشه).
نکته مهم اینه که حتی اگر Packing رو فعال نکنید، حالت پیشفرض جدید (Padding-free) خودش حدود ۱.۵ تا ۲ برابر سریعتر از نسخه قبلیه.
به نظر من این آپدیت برای کسایی که محدودیت GPU دارن (اکثر ماها) حیاتیه. الان میشه روی یه کارت T4 توی Colab مدلهای 8B یا حتی 14B رو با سرعت خیلی معقولتری Fine-tune کرد. دقت مدل هم طبق بنچمارکها هیچ تغییری نمیکنه و Loss Curve دقیقاً منطبق بر حالت استاندارده.
برای استفاده کافیه کتابخونه رو آپدیت کنید و توی
📃 داکیومنت و بنچمارکهای کامل:
https://docs.unsloth.ai/new/3x-faster-training-packing
🛠 Join @LLMEngineers Community
تکنیک اصلی که اضافه شده Uncontaminated Packing هست. توی حالت استاندارد وقتی Batch Size رو بالا میبرید، چون طول Sequenceهای دیتاست متفاوته، GPU مجبور میشه کلی Padding (صفر) اضافه کنه تا ماتریسها هماندازه بشن. این یعنی پردازشِ هیچی.
مکانیزم Packing میاد Sequenceهای کوتاه رو هوشمندانه میچسبونه کنار هم توی یک Tensor واحد، بدون اینکه Attention Mask بین نمونهها نشت کنه (Leakage). نتیجه؟ دور ریز محاسباتی تقریباً صفر میشه.
کرنلهای Triton هم بازنویسی شدن. مخصوصاً کرنل RoPE و MLP.
قبلاً توی Contextهای خیلی طولانی (مثلاً 500K) ارورهای عجیب CUDA Out of Bounds میگرفتیم. دلیلش این بود که Indexing پیشفرض روی Int32 بود. الان Unsloth اومده از Int64 Indexing استفاده کرده که این گلوگاه رو برای Long Context Training باز میکنه.
علاوه بر این، عملیات RoPE الان کاملاً In-place انجام میشه و کپیهای اضافی حافظه حذف شده.
توی بنچمارکهای واقعی روی مدلهایی مثل Qwen3 و Llama 3:
کاهش مصرف VRAM بین ۳۰ تا ۹۰ درصد (بسته به کانفیگ) دیده میشه.
سرعت آموزش بطور متوسط ۳ برابر شده. اگر دیتای شما شامل جملات کوتاه و بلندِ میکس باشه، این سرعت تا ۵ برابر هم میرسه (چون تاثیر Packing بیشتر میشه).
نکته مهم اینه که حتی اگر Packing رو فعال نکنید، حالت پیشفرض جدید (Padding-free) خودش حدود ۱.۵ تا ۲ برابر سریعتر از نسخه قبلیه.
به نظر من این آپدیت برای کسایی که محدودیت GPU دارن (اکثر ماها) حیاتیه. الان میشه روی یه کارت T4 توی Colab مدلهای 8B یا حتی 14B رو با سرعت خیلی معقولتری Fine-tune کرد. دقت مدل هم طبق بنچمارکها هیچ تغییری نمیکنه و Loss Curve دقیقاً منطبق بر حالت استاندارده.
برای استفاده کافیه کتابخونه رو آپدیت کنید و توی
SFTConfig آرگومان packing = True رو ست کنید. بکاندهای Flash Attention 3 و xFormers هم ساپورت میشن.📃 داکیومنت و بنچمارکهای کامل:
https://docs.unsloth.ai/new/3x-faster-training-packing
🛠 Join @LLMEngineers Community
نسخه جدید GPT-5.2 منتشر شد
نکات فنی و کاربردی که باید بدونید:
بنچمارک GDPval رو برای اولین بار معرفی کردن که نشون میده این مدل تو ۴۴ شغل تخصصی، در ۷۰.۹٪ موارد خروجی بهتری از متخصصین انسانی داشته. این کار رو با ۱۱ برابر سرعت بیشتر و کمتر از ۱٪ هزینه انجام میده.
معماری Agentic این مدل به شدت تقویت شده. توی تستهای Tool calling (مثل Tau2-bench) به دقت ۹۸.۷٪ رسیده. یعنی اگر دارید سیستمهای Multi-agent میسازید که باید دیتابیس بخونن، تحلیل کنن و اکشن بزنن، ضریب خطای "گیج شدن مدل" به شدت پایین اومده.
بنچمارک ARC-AGI-2 شاید مهمترین بخش برای نِردها باشه. این تست برای سنجش "استدلال انتزاعی" و حل مسائل جدیده (نه چیزایی که حفظ کرده). نسخه قبلی (GPT-5.1) امتیازش ۱۷.۶٪ بود، ولی GPT-5.2 پریده روی ۵۲.۹٪. این یعنی یه جهش وحشتناک تو قدرت حل مسئله (Problem Solving) که قبلا قفل بود.
توی حوزه Coding، مدل روی SWE-bench Verified به امتیاز ۸۰٪ رسیده. گزارشهای اولیه نشون میده تو بحث Front-end و کدهای UI که نیاز به درک بصری و فضایی دارن، خیلی بهتر شده. با این حال هنوز برای کارهای خیلی خاص و Pure Coding، مدل Claude 4.5 Opus رقیب سرسختیه، ولی GPT-5.2 تو دیباگ کردن و پروژههای End-to-End بهتر عمل میکنه.
هزینه API و دسترسی کمی چالش برانگیزه. مدل GPT-5.2 Pro که دقیقترین نسخه هست، قیمتش برای خروجی به ازای هر میلیون توکن ۱۶۸ دلاره! (نسخه معمولی ۱۴ دلار). این یعنی برای پروداکشن عادی به صرفه نیست، ولی برای کارهای پیچیده که نیاز به استدلال سنگین دارن (مثل تحلیل حقوقی یا معماری نرمافزار) کاملاً توجیه اقتصادی داره.
بحث Hallucination هم بهبود داشته. طبق ادعای OpenAI، حدود ۳۰٪ کمتر از نسخه ۵.۱ توهم میزنه. این برای سیستمهای RAG و Enterprise که دقت توشون حیاتیه، خبر خوبیه.
جمعبندی من اینه:
اگر دنبال یه مدل برای "انجام کار" هستید (ساختن فایل، تحلیل داده حجیم، مدیریت پروژه)، GPT-5.2 الان بهترین گزینه است. گوگل با Gemini 3 Pro تو مالتیمدیا خوبه، آنتروپیک با Claude تو کدنویسی تمیز هنوز جایگاه داره، ولی OpenAI با ۵.۲ دوباره تاج پادشاهی "استدلال عمیق" رو پس گرفت.
📃 جزئیات کامل فنی و بنچمارکها:
https://openai.com/gpt-5-2-announcement
🛠 Join @LLMEngineers Community
نکات فنی و کاربردی که باید بدونید:
بنچمارک GDPval رو برای اولین بار معرفی کردن که نشون میده این مدل تو ۴۴ شغل تخصصی، در ۷۰.۹٪ موارد خروجی بهتری از متخصصین انسانی داشته. این کار رو با ۱۱ برابر سرعت بیشتر و کمتر از ۱٪ هزینه انجام میده.
معماری Agentic این مدل به شدت تقویت شده. توی تستهای Tool calling (مثل Tau2-bench) به دقت ۹۸.۷٪ رسیده. یعنی اگر دارید سیستمهای Multi-agent میسازید که باید دیتابیس بخونن، تحلیل کنن و اکشن بزنن، ضریب خطای "گیج شدن مدل" به شدت پایین اومده.
بنچمارک ARC-AGI-2 شاید مهمترین بخش برای نِردها باشه. این تست برای سنجش "استدلال انتزاعی" و حل مسائل جدیده (نه چیزایی که حفظ کرده). نسخه قبلی (GPT-5.1) امتیازش ۱۷.۶٪ بود، ولی GPT-5.2 پریده روی ۵۲.۹٪. این یعنی یه جهش وحشتناک تو قدرت حل مسئله (Problem Solving) که قبلا قفل بود.
توی حوزه Coding، مدل روی SWE-bench Verified به امتیاز ۸۰٪ رسیده. گزارشهای اولیه نشون میده تو بحث Front-end و کدهای UI که نیاز به درک بصری و فضایی دارن، خیلی بهتر شده. با این حال هنوز برای کارهای خیلی خاص و Pure Coding، مدل Claude 4.5 Opus رقیب سرسختیه، ولی GPT-5.2 تو دیباگ کردن و پروژههای End-to-End بهتر عمل میکنه.
هزینه API و دسترسی کمی چالش برانگیزه. مدل GPT-5.2 Pro که دقیقترین نسخه هست، قیمتش برای خروجی به ازای هر میلیون توکن ۱۶۸ دلاره! (نسخه معمولی ۱۴ دلار). این یعنی برای پروداکشن عادی به صرفه نیست، ولی برای کارهای پیچیده که نیاز به استدلال سنگین دارن (مثل تحلیل حقوقی یا معماری نرمافزار) کاملاً توجیه اقتصادی داره.
بحث Hallucination هم بهبود داشته. طبق ادعای OpenAI، حدود ۳۰٪ کمتر از نسخه ۵.۱ توهم میزنه. این برای سیستمهای RAG و Enterprise که دقت توشون حیاتیه، خبر خوبیه.
جمعبندی من اینه:
اگر دنبال یه مدل برای "انجام کار" هستید (ساختن فایل، تحلیل داده حجیم، مدیریت پروژه)، GPT-5.2 الان بهترین گزینه است. گوگل با Gemini 3 Pro تو مالتیمدیا خوبه، آنتروپیک با Claude تو کدنویسی تمیز هنوز جایگاه داره، ولی OpenAI با ۵.۲ دوباره تاج پادشاهی "استدلال عمیق" رو پس گرفت.
📃 جزئیات کامل فنی و بنچمارکها:
https://openai.com/gpt-5-2-announcement
🛠 Join @LLMEngineers Community
معمولاً وقتی از LLMها میخوایم کد فرانتاند (HTML/CSS) یا نمودار (Matplotlib) تولید کنن، لاجیک کد درسته ولی خروجی بصری فاجعهست. دکمهها روی همن، رنگبندی داغونه و عملاً "Sense of Aesthetics" یا درک زیباییشناسی ندارن. دلیلش هم واضحه: مدلهای متنی با تابع خطای متنی (Textual Loss) آموزش دیدن و هیچ ایدهای ندارن که کدشون بعد از رندر شدن چه شکلی میشه.
پروژه جدید AesCoder دقیقاً دست روی همین نقطه ضعف گذاشته و نشون میده چطور میشه با استفاده از Agentic Reward Feedback یک مدل ۴ میلیاردی ساخت که توی تسکهای بصری GPT-4o رو شکست بده.
مکانیزم کار اینجوریه که فرآیند RL (یادگیری تقویتی) رو از حالت Text-based خارج کردن و سه تا ایجنت رو مسئول امتیازدهی کردن:
۱. ایجنت Execution: بررسی میکنه کد اصلا ران میشه یا نه (مثلا با HTMLHint).
۲. ایجنت Static Aesthetics: کد رو رندر میکنه، اسکرینشات میگیره و میده به یک مدل VLM قوی (مثل GPT-4o یا GPT-5 که تو پیپر اشاره شده) تا لیاوت، رنگبندی و زیبایی بصری رو نمره بده.
۳. ایجنت Interactive Aesthetics: این خیلی جذابه؛ یک ایجنت مثل WebVoyager روی صفحه رندر شده کلیک میکنه، اسکرول میکنه و چک میکنه که آیا تعاملات (Interaction) درست کار میکنن یا نه.
ترکیب این فیدبکها با الگوریتم GRPO (همون الگوریتمی که DeepSeek استفاده کرده) باعث میشه مدل یاد بگیره کدی بزنه که فقط "درست" نیست، بلکه "تمیز و کاربردی" هم هست.
به نظر من این پیپر داره آیندهی Vertical AI رو فریاد میزنه. دیگه دوران اینکه یک مدل جنرال همه کار بکنه داره تموم میشه. اینجا با یک مدل ۴ میلیاردی (بر پایه Qwen) و یک دیتاست تخصصی (AesCode-358K)، خروجیهایی گرفتن که مدلهای ۱۰۰ برابر بزرگتر نمیتونن تولید کنن.
نکته فنی مهمش برای ما اینه که اگر دارید روی Code Generation کار میکنید، دیگه نباید به Unit Test متنی بسنده کنید. باید خروجی رو رندر کنید و فیدبک ویژوال رو برگردونید توی پروسه آموزش یا RAG. این متدولوژی Agentic Reward حتی توی پرامپتاینجینیرینگ پیشرفته هم قابل پیادهسازی هست و لازم نیست حتما مدل Train کنید.
مدل AesCoder-4B الان ریلیز شده و روی فریمورک vLLM به راحتی بالا میاد. برای تولید Landing Page، کامپوننتهای UI و نمودارهای آماری پایتون شدیداً بهینه شده.
📃 پیپر اصلی AesCoder:
https://arxiv.org/abs/2510.23272
💻 مدل:
https://huggingface.co/SamuelBang/AesCoder-4B
🛠 Join @LLMEngineers Community
پروژه جدید AesCoder دقیقاً دست روی همین نقطه ضعف گذاشته و نشون میده چطور میشه با استفاده از Agentic Reward Feedback یک مدل ۴ میلیاردی ساخت که توی تسکهای بصری GPT-4o رو شکست بده.
مکانیزم کار اینجوریه که فرآیند RL (یادگیری تقویتی) رو از حالت Text-based خارج کردن و سه تا ایجنت رو مسئول امتیازدهی کردن:
۱. ایجنت Execution: بررسی میکنه کد اصلا ران میشه یا نه (مثلا با HTMLHint).
۲. ایجنت Static Aesthetics: کد رو رندر میکنه، اسکرینشات میگیره و میده به یک مدل VLM قوی (مثل GPT-4o یا GPT-5 که تو پیپر اشاره شده) تا لیاوت، رنگبندی و زیبایی بصری رو نمره بده.
۳. ایجنت Interactive Aesthetics: این خیلی جذابه؛ یک ایجنت مثل WebVoyager روی صفحه رندر شده کلیک میکنه، اسکرول میکنه و چک میکنه که آیا تعاملات (Interaction) درست کار میکنن یا نه.
ترکیب این فیدبکها با الگوریتم GRPO (همون الگوریتمی که DeepSeek استفاده کرده) باعث میشه مدل یاد بگیره کدی بزنه که فقط "درست" نیست، بلکه "تمیز و کاربردی" هم هست.
به نظر من این پیپر داره آیندهی Vertical AI رو فریاد میزنه. دیگه دوران اینکه یک مدل جنرال همه کار بکنه داره تموم میشه. اینجا با یک مدل ۴ میلیاردی (بر پایه Qwen) و یک دیتاست تخصصی (AesCode-358K)، خروجیهایی گرفتن که مدلهای ۱۰۰ برابر بزرگتر نمیتونن تولید کنن.
نکته فنی مهمش برای ما اینه که اگر دارید روی Code Generation کار میکنید، دیگه نباید به Unit Test متنی بسنده کنید. باید خروجی رو رندر کنید و فیدبک ویژوال رو برگردونید توی پروسه آموزش یا RAG. این متدولوژی Agentic Reward حتی توی پرامپتاینجینیرینگ پیشرفته هم قابل پیادهسازی هست و لازم نیست حتما مدل Train کنید.
مدل AesCoder-4B الان ریلیز شده و روی فریمورک vLLM به راحتی بالا میاد. برای تولید Landing Page، کامپوننتهای UI و نمودارهای آماری پایتون شدیداً بهینه شده.
📃 پیپر اصلی AesCoder:
https://arxiv.org/abs/2510.23272
💻 مدل:
https://huggingface.co/SamuelBang/AesCoder-4B
🛠 Join @LLMEngineers Community
arXiv.org
Code Aesthetics with Agentic Reward Feedback
Large Language Models (LLMs) have become valuable assistants for developers in code-related tasks. While LLMs excel at traditional programming tasks such as code generation and bug fixing, they...
LLM Engineers
معمولاً وقتی از LLMها میخوایم کد فرانتاند (HTML/CSS) یا نمودار (Matplotlib) تولید کنن، لاجیک کد درسته ولی خروجی بصری فاجعهست. دکمهها روی همن، رنگبندی داغونه و عملاً "Sense of Aesthetics" یا درک زیباییشناسی ندارن. دلیلش هم واضحه: مدلهای متنی با تابع…
خیلی حرفه مدل 4b بین همچین ابرقدرت هایی بدرخشه !!
روی تسک تخصصی خودش با مدلای ۴۰۰ تا ۷۰۰ میلیاردی رقابت میکنه
روی تسک تخصصی خودش با مدلای ۴۰۰ تا ۷۰۰ میلیاردی رقابت میکنه
اتصال LLM به دیتابیس سازمانی (Enterprise Database) شاید جذابترین و در عین حال خطرناکترین یوزکیس این روزهاست. اخیراً یه پیادهسازی دیدم که سعی کرده بود با استفاده از متد GRPO (که دیپسیک رو معروف کرد) و مدل Qwen-0.6B، یه ایجنت رزرو هتل بسازه که مستقیماً با PostgreSQL حرف میزنه.
ایده روی کاغذ فوقالعادهست: ترکیب Reinforcement Learning با ابزارهای واقعی (Tools) برای اینکه مدل یاد بگیره کِی و چطور کوئری بزنه. اما در عمل؟ این نوتبوک یه فاجعه آموزشیه که فقط ظاهرش قشنگه.
چرا این پیادهسازی کار نمیکنه؟
توابع پایتونی که برای سرچ دیتابیس نوشته شده (مثل
به نظر من، مسیر واقعی برای ساخت ایجنت دیتابیس اینه:
اگه تو شرکتتون میخواید مدلی بسازید که با دیتابیس تعامل کنه، خودتون رو درگیر پیچیدگیهای RL نکنید، مگر اینکه مرحله SFT رو رد کرده باشید. نقشه راه عملیاتی برای مدلهای کوچیک به این صورته:
۱. استراتژی پرامپتینگ (No-Code/Low-Code):
برای ۹۰٪ یوزکیسها، اصلاً نیاز به فاینتیون ندارید. اسکیمای دیتابیس (Schema) رو تمیز کنید و به عنوان Context به مدل بدید. از فریمورکهایی مثل LangChain یا LlamaIndex استفاده کنید که مکانیزم Tool Calling رو هندل میکنن.
۲. فاینتیون نظارتشده (SFT - The Sweet Spot):
اگه مدل باید فرمت خاصی از JSON برگردونه یا SQLهای پیچیده بنویسه که با پرامپت درنمیاد، برید سراغ SFT.
دیتاست شما باید شامل جفتهای (سوال کاربر -> کوئری SQL صحیح) یا (سوال کاربر -> فراخوانی ابزار) باشه. با ابزارهایی مثل Unsloth (که برای سرعت عالیه) روی یه مدل کوچیک فاینتیون بزنید. این روش پایداری خیلی بالاتری نسبت به RL داره.
۳. مرحله پیشرفته (RL & GRPO):
کی بریم سراغ GRPO؟ زمانی که "درستی" جواب قابل سنجش (Verifiable) باشه. مثلاً در Text-to-SQL، اگر کوئری تولید شده اجرا بشه و نتیجه درست بده، Reward مثبت میدیم. اینجا مدل یاد میگیره که "منطق" کوئری زدن رو بهبود بده، نه فقط تقلید از دیتاست. ولی یادتون باشه، برای این کار نیاز به هزاران نمونه و یه محیط ایزوله (Sandbox) دیتابیس دارید، نه ۴ تا سطر داده!
نکته فنی و امنیتی:
هیچوقت، تاکید میکنم هیچوقت به LLM دسترسی مستقیم
اگه میخواید با TRL و GRPO کار کنید، داکیومنت اصلی رو بخونید، نه کدهای ناقص:
📃 داکیومنت TRL برای GRPO
📙 نوتبوک کولب ذکر شده
🛠 Join @LLMEngineers Community
ایده روی کاغذ فوقالعادهست: ترکیب Reinforcement Learning با ابزارهای واقعی (Tools) برای اینکه مدل یاد بگیره کِی و چطور کوئری بزنه. اما در عمل؟ این نوتبوک یه فاجعه آموزشیه که فقط ظاهرش قشنگه.
چرا این پیادهسازی کار نمیکنه؟
توابع پایتونی که برای سرچ دیتابیس نوشته شده (مثل
search_hotels) اصلا خروجی رو برمیگردونن (Return None)؛ یعنی مدل عملاً کور هست و هیچ دیتایی نمیینه. بدتر از اون، تابع Reward که قلب تپنده GRPO هست، باگ داره و امتیازی برمیگردونه! کل پروسه آموزش روی ۴ تا دونه داده انجام میشه که برای RL شوخیه. عملاً مدل داره روی هوا یاد میگیره که "ادای" ابزار صدا زدن رو دربیاره، بدون اینکه واقعاً بفهمه چی کار میکنه.به نظر من، مسیر واقعی برای ساخت ایجنت دیتابیس اینه:
اگه تو شرکتتون میخواید مدلی بسازید که با دیتابیس تعامل کنه، خودتون رو درگیر پیچیدگیهای RL نکنید، مگر اینکه مرحله SFT رو رد کرده باشید. نقشه راه عملیاتی برای مدلهای کوچیک به این صورته:
۱. استراتژی پرامپتینگ (No-Code/Low-Code):
برای ۹۰٪ یوزکیسها، اصلاً نیاز به فاینتیون ندارید. اسکیمای دیتابیس (Schema) رو تمیز کنید و به عنوان Context به مدل بدید. از فریمورکهایی مثل LangChain یا LlamaIndex استفاده کنید که مکانیزم Tool Calling رو هندل میکنن.
۲. فاینتیون نظارتشده (SFT - The Sweet Spot):
اگه مدل باید فرمت خاصی از JSON برگردونه یا SQLهای پیچیده بنویسه که با پرامپت درنمیاد، برید سراغ SFT.
دیتاست شما باید شامل جفتهای (سوال کاربر -> کوئری SQL صحیح) یا (سوال کاربر -> فراخوانی ابزار) باشه. با ابزارهایی مثل Unsloth (که برای سرعت عالیه) روی یه مدل کوچیک فاینتیون بزنید. این روش پایداری خیلی بالاتری نسبت به RL داره.
۳. مرحله پیشرفته (RL & GRPO):
کی بریم سراغ GRPO؟ زمانی که "درستی" جواب قابل سنجش (Verifiable) باشه. مثلاً در Text-to-SQL، اگر کوئری تولید شده اجرا بشه و نتیجه درست بده، Reward مثبت میدیم. اینجا مدل یاد میگیره که "منطق" کوئری زدن رو بهبود بده، نه فقط تقلید از دیتاست. ولی یادتون باشه، برای این کار نیاز به هزاران نمونه و یه محیط ایزوله (Sandbox) دیتابیس دارید، نه ۴ تا سطر داده!
نکته فنی و امنیتی:
هیچوقت، تاکید میکنم هیچوقت به LLM دسترسی مستقیم
UPDATE یا DELETE روی پروداکشن ندید. ایجنت باید کوئری SELECT بسازه یا پیشنهاد بده، و یه لایه میانی (Application Layer) اون رو Validate و اجرا کنه.اگه میخواید با TRL و GRPO کار کنید، داکیومنت اصلی رو بخونید، نه کدهای ناقص:
📃 داکیومنت TRL برای GRPO
📙 نوتبوک کولب ذکر شده
🛠 Join @LLMEngineers Community
huggingface.co
GRPO Trainer
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
مسیر یادگیری Reinforcement Learning تو اواخر ۲۰۲۵ کلا تغییر فاز داده. قبلاً تهش این بود که ایجنت ماریو بازی کنه، الان بحث سر "Reasoning" و "Alignment" مدلهای زبانیه. اگه میبینید DeepSeek یا مدلهای Gemini دارن میترکونن، دلیلش SFT نیست، دلیلش RL در مقیاس بزرگه.
برای اینکه تو این بازار آشفته گم نشید، نقشهراه منابع رو بر اساس کاربرد واقعی و وضعیت فعلی کامیونیتی دستهبندی کردم.
فاز اول: تئوری محض (فرار نکنید)
پایه و اساس RL ریاضیاته. بدون فهمیدن MDP و Bellman Equation، ابزارها رو فقط کپیپیست میکنید و وقتی مدل Reward Hacking کرد، نمیفهمید کجای کار میلنگه.
کتاب Sutton & Barto هنوزم "کتاب مقدس" این حوزه است. درسته قدیمیه و خبری از LLM توش نیست، ولی منطق Policy Gradient و TD Learning همونه.
📕 کتاب رفرنس ساتون و بارتو:
http://incompleteideas.net/book/RLbook2020.pdf
ویدیوهای دیوید سیلور (DeepMind) با اینکه مال ۲۰۱۵ هست، ولی هنوزم بهترین نقطه شروعه چون شهودی درس میده.
🎞 پلیلیست دیوید سیلور:
https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ
فاز دوم: ورود به کد (Deep RL)
دوره Hugging Face بهترین گزینه برای تبدیل تئوری به کده. اینجا با کتابخونههایی مثل Stable Baselines3 و CleanRL کار میکنید. خوبیش اینه که پروژه عملی داره (مثلا Doom یا Minecraft بازی کردن) و رایگانه. این دوره پل بین تئوری خشک و دنیای مدرنه.
🤗 دوره عملی Hugging Face:
https://huggingface.co/learn/deep-rl-course/unit0/introduction
فاز سوم: دنیای LLM و Alignment (اصل داستان)
الان پول تو این بخشه. اینجا دیگه بحث DQN نیست، بحث PPO، DPO و جدیداً GRPO هست.
کتابخونه TRL از Hugging Face الان استاندارد صنعتی برای این کاره. داکیومنتهاش فقط کد نیست، رسما آموزش روشهای جدید مثل KTO و ORPO هست.
ترند جدید اما GRPO هست (Group Relative Policy Optimization). این همون روشیه که مدلهای استدلالی رو میسازن چون نیاز به Critic مدل نداره و حافظه کمتری میخواد.
به نظر من، بهترین منبع فعلی برای یادگیری GRPO، داکیومنتها و نوتبوکهای Unsloth هست. اینا اومدن جوری بهینهش کردن که روی GPUهای معمولی هم بتونید مدل رو Reasoning-aware کنید. حتی از کورسهای رسمی DeepLearning.AI هم عملیتر و عمیقتره.
🤗 هندبوک Alignment (کتابخونه TRL):
https://huggingface.co/docs/trl/index
🦥 راهنمای Unsloth برای GRPO و RLHF:
https://unsloth.ai/blog/grpo
جمعبندی و تجربه شخصی:
اشتباه رایج اینه که ملت یه راست میرن سراغ DPO یا GRPO بدون اینکه بفهمن Reward Function چیه. RL برخلاف Supervised Learning، به شدت به هایپرپارامترها حساسه و ناپایداره.
پیشنهادم اینه: ۱۰ قسمت ویدیو دیوید سیلور رو ببینید (با سرعت 1.5x)، بعدش یه پروژه با TRL یا Unsloth بالا بیارید. الان PPO داره جاش رو تو کامیونیتی اوپنسورس به GRPO و DPO میده چون هم سریعترن هم به سختافزار کمتری نیاز دارن. روی این دوتا تمرکز کنید.
🛠 Join @LLMEngineers Community
برای اینکه تو این بازار آشفته گم نشید، نقشهراه منابع رو بر اساس کاربرد واقعی و وضعیت فعلی کامیونیتی دستهبندی کردم.
فاز اول: تئوری محض (فرار نکنید)
پایه و اساس RL ریاضیاته. بدون فهمیدن MDP و Bellman Equation، ابزارها رو فقط کپیپیست میکنید و وقتی مدل Reward Hacking کرد، نمیفهمید کجای کار میلنگه.
کتاب Sutton & Barto هنوزم "کتاب مقدس" این حوزه است. درسته قدیمیه و خبری از LLM توش نیست، ولی منطق Policy Gradient و TD Learning همونه.
📕 کتاب رفرنس ساتون و بارتو:
http://incompleteideas.net/book/RLbook2020.pdf
ویدیوهای دیوید سیلور (DeepMind) با اینکه مال ۲۰۱۵ هست، ولی هنوزم بهترین نقطه شروعه چون شهودی درس میده.
🎞 پلیلیست دیوید سیلور:
https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQ
فاز دوم: ورود به کد (Deep RL)
دوره Hugging Face بهترین گزینه برای تبدیل تئوری به کده. اینجا با کتابخونههایی مثل Stable Baselines3 و CleanRL کار میکنید. خوبیش اینه که پروژه عملی داره (مثلا Doom یا Minecraft بازی کردن) و رایگانه. این دوره پل بین تئوری خشک و دنیای مدرنه.
🤗 دوره عملی Hugging Face:
https://huggingface.co/learn/deep-rl-course/unit0/introduction
فاز سوم: دنیای LLM و Alignment (اصل داستان)
الان پول تو این بخشه. اینجا دیگه بحث DQN نیست، بحث PPO، DPO و جدیداً GRPO هست.
کتابخونه TRL از Hugging Face الان استاندارد صنعتی برای این کاره. داکیومنتهاش فقط کد نیست، رسما آموزش روشهای جدید مثل KTO و ORPO هست.
ترند جدید اما GRPO هست (Group Relative Policy Optimization). این همون روشیه که مدلهای استدلالی رو میسازن چون نیاز به Critic مدل نداره و حافظه کمتری میخواد.
به نظر من، بهترین منبع فعلی برای یادگیری GRPO، داکیومنتها و نوتبوکهای Unsloth هست. اینا اومدن جوری بهینهش کردن که روی GPUهای معمولی هم بتونید مدل رو Reasoning-aware کنید. حتی از کورسهای رسمی DeepLearning.AI هم عملیتر و عمیقتره.
🤗 هندبوک Alignment (کتابخونه TRL):
https://huggingface.co/docs/trl/index
🦥 راهنمای Unsloth برای GRPO و RLHF:
https://unsloth.ai/blog/grpo
جمعبندی و تجربه شخصی:
اشتباه رایج اینه که ملت یه راست میرن سراغ DPO یا GRPO بدون اینکه بفهمن Reward Function چیه. RL برخلاف Supervised Learning، به شدت به هایپرپارامترها حساسه و ناپایداره.
پیشنهادم اینه: ۱۰ قسمت ویدیو دیوید سیلور رو ببینید (با سرعت 1.5x)، بعدش یه پروژه با TRL یا Unsloth بالا بیارید. الان PPO داره جاش رو تو کامیونیتی اوپنسورس به GRPO و DPO میده چون هم سریعترن هم به سختافزار کمتری نیاز دارن. روی این دوتا تمرکز کنید.
🛠 Join @LLMEngineers Community
مروری بر وضعیت مدلهای باز در پایان سال ۲۰۲۵: سقوط Llama و پادشاهی اژدهای چینی
سال ۲۰۲۵ سالی بود که "Open Model" از یک انتخاب برای حفظ حریم خصوصی، به انتخاب اول برای Performance تبدیل شد. شکاف بین مدلهای اختصاصی (Closed) و باز تقریبا از بین رفته. اگر هنوز روی استک ۲۰۲۴ و Llama 3 ماندهاید، عملاً دارید با تکنولوژی منسوخ کار میکنید.
اکوسیستم در ۱۲ ماه گذشته زیر و رو شد. در حالی که سال ۲۰۲۴ همه منتظر Llama بعدی بودند، سال ۲۰۲۵ با تسلط کامل DeepSeek و Qwen تمام شد.
تحلیل فنی و کاربردی برترینهای امسال:
مدل DeepSeek R1: نقطه عطف سال
اهمیت این مدل که ژانویه ۲۰۲۵ ریلیز شد، فقط در بنچمارکها نبود. تیم DeepSeek با انتشار این مدل تحت لایسنس MIT بازی را عوض کرد (برخلاف لایسنس محدود V3). این حرکت باعث شد سایر لابراتوارهای چینی هم مجبور شوند گارد را باز کنند.
به نظر من، این مدل ثابت کرد که نوآوری دیگر در انحصار تیمهای چند هزار نفره نیست. یک تیم کوچک و متمرکز توانست استانداردها را جابجا کند.
خانواده Qwen 3: استاندارد جدید صنعت
واقعیت این است که Qwen جای Llama را به عنوان مدل Default برای Fine-tuning گرفت. الان Qwen 3 همه چیز را پوشش میدهد: از مدلهای Dense و MoE گرفته تا Vision و Omni.
تنوع سایز و قدرت Multilingual این مدل باعث شده اکثر پیادهسازیهای آکادمیک و پروداکشن روی این بیس انجام شود. اگر الان دارید پایپلاین جدید بالا میآورید، Qwen 3 انتخاب منطقیتری نسبت به Llama است.
مدل GPT-OSS: حرکت اجباری OpenAI
بالاخره OpenAI هم تسلیم فشار بازار شد و مدل باز داد. اما گول اسمش را نخورید. این مدل در General Knowledge و زبانهای غیرانگلیسی ضعیف است.
کاربرد اصلی آن در سیستمهای Agentic است. OpenAI سطوح مختلف "Thinking" را در این مدل پیاده کرده که برای تسکهای استدلالی عالی است، اما به عنوان یک مدل General purpose توصیه نمیشود.
معماریهای جدید و مدلهای خاص
انویدیا با Nemotron 2 نشان داد که دوران Transformer خالص رو به پایان است. معماری هیبرید Mamba2-Transformer در این مدل، سرعت Inference را در Contextهای طولانی به شدت افزایش داده.
برای پردازش صدا (STT)، مدل Parakeet 3 الان SOTA محسوب میشود و عملاً Whisper را در محیطهای لوکال (مخصوصا روی مکبوک) از نظر Latency و دقت شکست داده.
وضعیت کلی و Tier List مهندسی
در حال حاضر ردهبندی خانواده مدل های اوپن سورس به این صورت است:
فرانتیر (Frontier):
DeepSeek, Qwen, Moonshot AI (Kimi)
رقبای نزدیک:
Zhipu (GLM) , Minimax
قابل توجه:
Nvidia, Mistral, Google (Gemma 3)
در حاشیه:
Meta (Llama)
(بله، متا دیگر پیشرو نیست و آینده Llama مبهم است)
منبع:
interconnects.ai/p/2025-open-models-year-in-review
🛠 Join @LLMEngineers Community
سال ۲۰۲۵ سالی بود که "Open Model" از یک انتخاب برای حفظ حریم خصوصی، به انتخاب اول برای Performance تبدیل شد. شکاف بین مدلهای اختصاصی (Closed) و باز تقریبا از بین رفته. اگر هنوز روی استک ۲۰۲۴ و Llama 3 ماندهاید، عملاً دارید با تکنولوژی منسوخ کار میکنید.
اکوسیستم در ۱۲ ماه گذشته زیر و رو شد. در حالی که سال ۲۰۲۴ همه منتظر Llama بعدی بودند، سال ۲۰۲۵ با تسلط کامل DeepSeek و Qwen تمام شد.
تحلیل فنی و کاربردی برترینهای امسال:
مدل DeepSeek R1: نقطه عطف سال
اهمیت این مدل که ژانویه ۲۰۲۵ ریلیز شد، فقط در بنچمارکها نبود. تیم DeepSeek با انتشار این مدل تحت لایسنس MIT بازی را عوض کرد (برخلاف لایسنس محدود V3). این حرکت باعث شد سایر لابراتوارهای چینی هم مجبور شوند گارد را باز کنند.
به نظر من، این مدل ثابت کرد که نوآوری دیگر در انحصار تیمهای چند هزار نفره نیست. یک تیم کوچک و متمرکز توانست استانداردها را جابجا کند.
خانواده Qwen 3: استاندارد جدید صنعت
واقعیت این است که Qwen جای Llama را به عنوان مدل Default برای Fine-tuning گرفت. الان Qwen 3 همه چیز را پوشش میدهد: از مدلهای Dense و MoE گرفته تا Vision و Omni.
تنوع سایز و قدرت Multilingual این مدل باعث شده اکثر پیادهسازیهای آکادمیک و پروداکشن روی این بیس انجام شود. اگر الان دارید پایپلاین جدید بالا میآورید، Qwen 3 انتخاب منطقیتری نسبت به Llama است.
مدل GPT-OSS: حرکت اجباری OpenAI
بالاخره OpenAI هم تسلیم فشار بازار شد و مدل باز داد. اما گول اسمش را نخورید. این مدل در General Knowledge و زبانهای غیرانگلیسی ضعیف است.
کاربرد اصلی آن در سیستمهای Agentic است. OpenAI سطوح مختلف "Thinking" را در این مدل پیاده کرده که برای تسکهای استدلالی عالی است، اما به عنوان یک مدل General purpose توصیه نمیشود.
معماریهای جدید و مدلهای خاص
انویدیا با Nemotron 2 نشان داد که دوران Transformer خالص رو به پایان است. معماری هیبرید Mamba2-Transformer در این مدل، سرعت Inference را در Contextهای طولانی به شدت افزایش داده.
برای پردازش صدا (STT)، مدل Parakeet 3 الان SOTA محسوب میشود و عملاً Whisper را در محیطهای لوکال (مخصوصا روی مکبوک) از نظر Latency و دقت شکست داده.
وضعیت کلی و Tier List مهندسی
در حال حاضر ردهبندی خانواده مدل های اوپن سورس به این صورت است:
فرانتیر (Frontier):
DeepSeek, Qwen, Moonshot AI (Kimi)
رقبای نزدیک:
Zhipu (GLM) , Minimax
قابل توجه:
Nvidia, Mistral, Google (Gemma 3)
در حاشیه:
Meta (Llama)
(بله، متا دیگر پیشرو نیست و آینده Llama مبهم است)
منبع:
interconnects.ai/p/2025-open-models-year-in-review
🛠 Join @LLMEngineers Community
اگه خسته شدید از اینکه برای هر پرزنتیشن پول اشتراک سرویسهای تجاری مثل Gamma یا Beautiful AI بدید، یا دیتای شرکتتون حساسه و نمیتونید روی کلاود بفرستید، این ابزار دقیقاً همون چیزیه که لازم دارید.
پروژه Presenton یه جایگزین Open-Source و قدرتمنده که کل پایپلاین ساخت اسلاید رو میاره روی لوکال سیستم خودتون. معماری این ابزار طوری طراحی شده که هم با APIهای معروف مثل OpenAI و Anthropic کار میکنه و هم – که برای ما گیکها جذابتره – با Ollama کامل سینک میشه. یعنی عملاً میتونید بدون اینترنت و با مدلهای Gemma روی سیستم خودتون خروجی بگیرید.
نکته فنی جالبش اینه که تمپلیتها رو با HTML و Tailwind CSS هندل میکنه، یعنی دستتون برای شخصیسازی دیزاین کاملاً بازه. یکی از قابلیتهای کاربردیش که توی ابزارهای اوپنسورس کمتر میبینیم، امکان "Clone" کردن استایل هست؛ یعنی فایل PPTX شرکت رو آپلود میکنید، استایل و برندینگ رو استخراج میکنه و اسلایدهای جدید رو دقیقاً توی همون قالب جنریت میکنه.
برای ایمیجهای داخل اسلاید هم دستتون بازه؛ میتونید از gpt image یا nano banana استفاده کنید یا اگر میخواید رایگان در بیاد، وصلش کنید به Pexels و Pixabay یا حتی مدلهای تصویر ساز لوکال. خروجی نهایی هم PPTX و هم PDF تمیز تحویل میده.
دیپلوی کردنش هم با یه ایمیج Docker انجام میشه. کافیه متغیرهای محیطی (ENV vars) مربوط به مدل زبانی که میخواید (مثلاً OLLAMA_URL) رو ست کنید و تمام. اگر GPU دارید، حتماً کانتینر رو با دسترسی GPU ران کنید تا سرعت جنریت با مدلهای لوکال منطقی باشه.
به نظر من، برگ برنده اصلی این ابزار فقط رابط کاربریش نیست، بلکه API قدرتمندشه. شما میتونید این رو به عنوان یه میکروسرویس بالا بیارید، دیتای خام رو از دیتابیس بگیرید و پروسه ساخت گزارشهای هفتگی یا ماهانه رو کاملاً اتوماتیک کنید. ضمن اینکه پشتیبانیش از پروتکل جدید MCP (Model Context Protocol) نشون میده تیم توسعهدهندش تکنولوژی روز رو خوب میشناسه.
📃 گیتهاب پروژه:
https://github.com/presenton/presenton
📃 داکیومنتها:
https://docs.presenton.ai
🛠 Join @LLMEngineers Community
پروژه Presenton یه جایگزین Open-Source و قدرتمنده که کل پایپلاین ساخت اسلاید رو میاره روی لوکال سیستم خودتون. معماری این ابزار طوری طراحی شده که هم با APIهای معروف مثل OpenAI و Anthropic کار میکنه و هم – که برای ما گیکها جذابتره – با Ollama کامل سینک میشه. یعنی عملاً میتونید بدون اینترنت و با مدلهای Gemma روی سیستم خودتون خروجی بگیرید.
نکته فنی جالبش اینه که تمپلیتها رو با HTML و Tailwind CSS هندل میکنه، یعنی دستتون برای شخصیسازی دیزاین کاملاً بازه. یکی از قابلیتهای کاربردیش که توی ابزارهای اوپنسورس کمتر میبینیم، امکان "Clone" کردن استایل هست؛ یعنی فایل PPTX شرکت رو آپلود میکنید، استایل و برندینگ رو استخراج میکنه و اسلایدهای جدید رو دقیقاً توی همون قالب جنریت میکنه.
برای ایمیجهای داخل اسلاید هم دستتون بازه؛ میتونید از gpt image یا nano banana استفاده کنید یا اگر میخواید رایگان در بیاد، وصلش کنید به Pexels و Pixabay یا حتی مدلهای تصویر ساز لوکال. خروجی نهایی هم PPTX و هم PDF تمیز تحویل میده.
دیپلوی کردنش هم با یه ایمیج Docker انجام میشه. کافیه متغیرهای محیطی (ENV vars) مربوط به مدل زبانی که میخواید (مثلاً OLLAMA_URL) رو ست کنید و تمام. اگر GPU دارید، حتماً کانتینر رو با دسترسی GPU ران کنید تا سرعت جنریت با مدلهای لوکال منطقی باشه.
به نظر من، برگ برنده اصلی این ابزار فقط رابط کاربریش نیست، بلکه API قدرتمندشه. شما میتونید این رو به عنوان یه میکروسرویس بالا بیارید، دیتای خام رو از دیتابیس بگیرید و پروسه ساخت گزارشهای هفتگی یا ماهانه رو کاملاً اتوماتیک کنید. ضمن اینکه پشتیبانیش از پروتکل جدید MCP (Model Context Protocol) نشون میده تیم توسعهدهندش تکنولوژی روز رو خوب میشناسه.
📃 گیتهاب پروژه:
https://github.com/presenton/presenton
📃 داکیومنتها:
https://docs.presenton.ai
🛠 Join @LLMEngineers Community
GitHub
GitHub - presenton/presenton: Open-Source AI Presentation Generator and API (Gamma, Beautiful AI, Decktopus Alternative)
Open-Source AI Presentation Generator and API (Gamma, Beautiful AI, Decktopus Alternative) - presenton/presenton
Forwarded from FingerCoder | فینگرکدر
🧠✨ نشست تعاملی طراحی پرامپت
یک دورهمی آزاد برای فکر کردن، تجربه کردن و گفتگو درباره پرامپتنویسی
اگه به دنیای هوش مصنوعی علاقهمندی، با ابزارهایی مثل ChatGPT کار میکنی یا دوست داری یاد بگیری چطور بهتر و هوشمندانهتر با AI تعامل داشته باشی، این نشست دقیقاً برای توئه.
یه دورهمی تعاملی و گفتگومحوره که قراره توش:
💬 درباره پرامپتنویسی صحبت کنیم و تجربههامون رو به اشتراک بذاریم
🧪 پرامپتها رو با هم بسازیم، تست کنیم و بهترشون کنیم
🤝 از هم یاد بگیریم و تعامل واقعی داشته باشیم
✨ نگاهمون به استفاده از AI رو عمیقتر و کاربردیتر کنیم
یه عصر خودمونی، فکری و پرانرژی برای کسایی که دوست دارن فعالانه یاد بگیرن، سؤال بپرسن و تو گفتگو مشارکت کنن.
📍 مکان:خیابان مطهری شمالی ،بین کوچه ۱۷ و ۱۹،کافه اسپیرو
🕒 زمان: پنجشنبه، ساعت 15:30 تا 17:30
🔗 لینک ثبتنام:
https://evnd.co/c9i4A
اگه دوست داری پرامپتنویسی رو نه فقط یاد بگیری، بلکه تجربه کنی و دربارهش فکر کنی، این نشست رو از دست نده.
بیاین کنار هم بهتر سؤال بپرسیم، بهتر تعامل کنیم و هوشمندانهتر از AI استفاده کنیم 🤍🤖✨
🤍 با حمایت و میزبانی مجموعه «اسپیرو»
@fingercoder
یک دورهمی آزاد برای فکر کردن، تجربه کردن و گفتگو درباره پرامپتنویسی
اگه به دنیای هوش مصنوعی علاقهمندی، با ابزارهایی مثل ChatGPT کار میکنی یا دوست داری یاد بگیری چطور بهتر و هوشمندانهتر با AI تعامل داشته باشی، این نشست دقیقاً برای توئه.
یه دورهمی تعاملی و گفتگومحوره که قراره توش:
💬 درباره پرامپتنویسی صحبت کنیم و تجربههامون رو به اشتراک بذاریم
🧪 پرامپتها رو با هم بسازیم، تست کنیم و بهترشون کنیم
🤝 از هم یاد بگیریم و تعامل واقعی داشته باشیم
✨ نگاهمون به استفاده از AI رو عمیقتر و کاربردیتر کنیم
یه عصر خودمونی، فکری و پرانرژی برای کسایی که دوست دارن فعالانه یاد بگیرن، سؤال بپرسن و تو گفتگو مشارکت کنن.
📍 مکان:خیابان مطهری شمالی ،بین کوچه ۱۷ و ۱۹،کافه اسپیرو
🕒 زمان: پنجشنبه، ساعت 15:30 تا 17:30
🔗 لینک ثبتنام:
https://evnd.co/c9i4A
اگه دوست داری پرامپتنویسی رو نه فقط یاد بگیری، بلکه تجربه کنی و دربارهش فکر کنی، این نشست رو از دست نده.
بیاین کنار هم بهتر سؤال بپرسیم، بهتر تعامل کنیم و هوشمندانهتر از AI استفاده کنیم 🤍🤖✨
🤍 با حمایت و میزبانی مجموعه «اسپیرو»
@fingercoder
انتشار Gemini 3 Flash نشون داد که دیگه دوران مدلهای کوچیکی که فقط نسخهی ضعیف شدهی مدلهای بزرگ (Distilled) بودن تموم شده. این مدل عملاً یه Frontier-class محسوب میشه که توی خیلی از بنچمارکهای Reasoning، معلم خودش یعنی Gemini 3 Pro رو شکست داده. نکتهی طلایی این موفقیت، رویکرد Distillation Pretraining هست که تیم Google DeepMind با لیدری افرادی مثل Arnaud Autef پیاده کرده.
معماری Gemini 3 Flash بر پایهی تحقیقاتی بنا شده که Autef قبلاً توی اپل روی مدلهای Diffusion انجام داده بود. مقالهی TRACT (مخفف Transitive Closure Time-Distillation) مشکل اصلی تقطیر (Distillation) سنتی یعنی Objective degeneracy رو حل کرد. در متدهای قدیمی، وقتی دانش رو از معلم به شاگرد منتقل میکردی، خطاها روی هم جمع میشدن و خروجی نهایی تار (Blur) میشد. تکنیک Transitive Closure به شاگرد اجازه میده که چندین گام پردازشی معلم رو در یک حرکت "بپرونه" و همزمان با استفاده از یک Self-Teacher (EMA) پایداری آموزش رو حفظ کنه.
تکنولوژی Distillation Pretraining در این مدل یعنی برخلاف روال معمول که اول مدل رو میسازن و بعد دانش رو بهش تزریق میکنن، اینجا Loss تقطیر مستقیماً در فاز Pretraining ادغام شده. به نظر من این یعنی مدل از همون روز اول یاد میگیره چطوری مثل نسخهی Pro استدلال کنه، نه اینکه صرفاً ادای اون رو دربیاره. نتیجهش شده امتیاز ۷۸٪ روی SWE-bench Verified که حتی از Gemini 3 Pro با امتیاز ۷۶.۲٪ هم بالاتره. این یعنی شاگرد با حذف مسیرهای استدلالی اضافه، از معلمش بهینهتر و دقیقتر شده.
ویژگیهای عملیاتی Gemini 3 Flash برای ما دولوپرها چند مورد کلیدی داره:
پارامتر thinking_level به شما اجازه میده شدت تفکر مدل رو از Minimal تا High تنظیم کنید. این یعنی قابلیت Deep Think نسخههای سنگین، حالا با Latency بسیار پایین در دسترس هست.
تکنیک Context Forcing باعث شده حافظهی شاگرد و معلم در طول فرآیند تولید متن کاملاً همترازو (Align) بمونه تا از Hallucination که معمولاً در زنجیرههای طولانی Reasoning برای مدلهای کوچیک پیش میاد، جلوگیری بشه.
سرعت این مدل ۳ برابر بیشتر از Gemini 2.5 Pro هست در حالی که از نظر عمق فهم مطلب، باهاش برابری میکنه.
واقعیت اینه که استراتژی DeepMind از Scaling خام (فقط بزرگتر کردن مدل) به سمت "علم آموزش" (Science of Training) شیفت کرده. اونا با Gemini 3 Flash تونستن Pareto frontier رو جابجا کنن؛ یعنی رسیدن به سطح هوش GPT-5 با هزینه و پارامترهای خیلی کمتر. این یه برد بزرگ برای تیم پیشآموزش (Pretraining) به رهبری Vlad Feinberg هست که ثابت کردن فرمول درست تقطیر، مهمتر از تعداد GPUهاست.
به نظر من، Gemini 3 Flash پایان عصر مدلهای سنگین و کند برای کارهای روزمره است. وقتی میتونی Reasoning در سطح Pro رو با سرعت چت واقعی داشته باشی، دیگه دلیلی برای تحمل Latency مدلهای بزرگتر باقی نمیمونه.
📃 مقالهی TRACT
🛠 Join @LLMEngineers Community
معماری Gemini 3 Flash بر پایهی تحقیقاتی بنا شده که Autef قبلاً توی اپل روی مدلهای Diffusion انجام داده بود. مقالهی TRACT (مخفف Transitive Closure Time-Distillation) مشکل اصلی تقطیر (Distillation) سنتی یعنی Objective degeneracy رو حل کرد. در متدهای قدیمی، وقتی دانش رو از معلم به شاگرد منتقل میکردی، خطاها روی هم جمع میشدن و خروجی نهایی تار (Blur) میشد. تکنیک Transitive Closure به شاگرد اجازه میده که چندین گام پردازشی معلم رو در یک حرکت "بپرونه" و همزمان با استفاده از یک Self-Teacher (EMA) پایداری آموزش رو حفظ کنه.
تکنولوژی Distillation Pretraining در این مدل یعنی برخلاف روال معمول که اول مدل رو میسازن و بعد دانش رو بهش تزریق میکنن، اینجا Loss تقطیر مستقیماً در فاز Pretraining ادغام شده. به نظر من این یعنی مدل از همون روز اول یاد میگیره چطوری مثل نسخهی Pro استدلال کنه، نه اینکه صرفاً ادای اون رو دربیاره. نتیجهش شده امتیاز ۷۸٪ روی SWE-bench Verified که حتی از Gemini 3 Pro با امتیاز ۷۶.۲٪ هم بالاتره. این یعنی شاگرد با حذف مسیرهای استدلالی اضافه، از معلمش بهینهتر و دقیقتر شده.
ویژگیهای عملیاتی Gemini 3 Flash برای ما دولوپرها چند مورد کلیدی داره:
پارامتر thinking_level به شما اجازه میده شدت تفکر مدل رو از Minimal تا High تنظیم کنید. این یعنی قابلیت Deep Think نسخههای سنگین، حالا با Latency بسیار پایین در دسترس هست.
تکنیک Context Forcing باعث شده حافظهی شاگرد و معلم در طول فرآیند تولید متن کاملاً همترازو (Align) بمونه تا از Hallucination که معمولاً در زنجیرههای طولانی Reasoning برای مدلهای کوچیک پیش میاد، جلوگیری بشه.
سرعت این مدل ۳ برابر بیشتر از Gemini 2.5 Pro هست در حالی که از نظر عمق فهم مطلب، باهاش برابری میکنه.
واقعیت اینه که استراتژی DeepMind از Scaling خام (فقط بزرگتر کردن مدل) به سمت "علم آموزش" (Science of Training) شیفت کرده. اونا با Gemini 3 Flash تونستن Pareto frontier رو جابجا کنن؛ یعنی رسیدن به سطح هوش GPT-5 با هزینه و پارامترهای خیلی کمتر. این یه برد بزرگ برای تیم پیشآموزش (Pretraining) به رهبری Vlad Feinberg هست که ثابت کردن فرمول درست تقطیر، مهمتر از تعداد GPUهاست.
به نظر من، Gemini 3 Flash پایان عصر مدلهای سنگین و کند برای کارهای روزمره است. وقتی میتونی Reasoning در سطح Pro رو با سرعت چت واقعی داشته باشی، دیگه دلیلی برای تحمل Latency مدلهای بزرگتر باقی نمیمونه.
📃 مقالهی TRACT
🛠 Join @LLMEngineers Community
arXiv.org
TRACT: Denoising Diffusion Models with Transitive Closure Time-Distillation
Denoising Diffusion models have demonstrated their proficiency for generative sampling. However, generating good samples often requires many iterations. Consequently, techniques such as binary...
سال ۲۰۲۵ داره تموم میشه و اگه بخوایم کل امسال رو توی یه کلمه خلاصه کنیم، اون کلمه RLVR هست. کارپاتی (Andrej Karpathy) یه جمعبندی از سال ۲۰۲۵ نوشته که دقیقاً نشون میده چرا حسوحال مدلهای امسال (مثل OpenAI o3 و DeepSeek R1) با مدلهای قبلی فرق داره.
اینجا چکیده فنی و بدون حاشیه اتفاقات امسال رو براتون لیست کردم:
۱. تغییر پارادایم آموزش: ظهور RLVR
جدول زمانی آموزش LLMها به این شکل تغییر کرد:
سال ۲۰۲x: تمرکز روی Pre-training
سال ۲۰۲۲: تکنیک RLHF + PPO (دوران GPT-3.5)
سال ۲۰۲۳: بهینهسازی با LoRA SFT
سال ۲۰۲۴: تمرکز روی Mid-Training
سال ۲۰۲۵: جهش با RLVR + GRPO
تکنیک RLVR یا Reinforcement Learning from Verifiable Rewards بازی رو عوض کرد. برخلاف RLHF که روی "سلیقه انسان" استوار بود (که گرون و نادقیقه)، توی RLVR مدل رو توی محیطهایی که خروجی قابل تایید دارن (مثل ریاضی، کدنویسی و پازلهای منطقی) ول میکنن تا خودش استراتژی حل مسئله رو یاد بگیره.
نتیجه؟ مدلها یاد گرفتن "فکر کنن". اون چیزی که به اسم Reasoning Traces میبینیم، نتیجهی تلاش مدل برای ماکسیمایز کردن ریوارد در این محیطهای قابل تاییده. الان Scaling Law جدید روی "زمان فکر کردن" (Inference-time compute) تعریف میشه، نه فقط حجم دیتا.
۲. هوش دندانهدار (Jagged Intelligence)
ما با یه موجود بیولوژیک طرف نیستیم، با یه "روح احضار شده" طرفیم. هوش مدلهای ۲۰۲۵ به شدت نامتوازن هست.
توی حوزههایی که RLVR اعمال شده (ریاضی و کد)، مدلها نابغهن. اما توی حوزههایی که محیط Verifiable ندارن، هنوز میتونن مثل یه بچه دبستانی گیج بزنن یا با یه Jailbreak ساده فریب بخورن.
به نظر من، بنچمارکها توی ۲۰۲۵ رسماً بیارزش شدن. چون بنچمارکها ذاتاً محیطهای قابل تاییدن و مدلها ناخودآگاه (یا خودآگاه) روی اونها Overfit شدن. Goodhart's Law با تمام قدرت برقراره.
۳. لایه جدید نرمافزار: Vibe Coding و Cursor
سال ۲۰۲۵ سالی بود که "نوشتن کد" جای خودش رو به "توصیف رفتار" داد. کارپاتی اصطلاح Vibe Coding رو استفاده میکنه؛ یعنی شما با زبان طبیعی و حستون برنامه مینویسید و اصلا براتون مهم نیست زیر کاپوت چه کدی تولید شده.
اپلیکیشنهای یکبار مصرف (Ephemeral Apps) ترند شد. کدی که مینویسی تا یه باگ رو دیباگ کنی و بعد دور میریزی.
ابزارهایی مثل Cursor نشون دادن که لایه اپلیکیشن فقط "Wrap کردن API" نیست؛ بلکه Orchestration هوشمند، مدیریت Context و هندل کردن وابستگیهاست.
۴. ایجنتهای Localhost
با اومدن Claude Code، مفهوم ایجنت تغییر کرد. تا قبل از این فکر میکردیم ایجنتها قراره توی کانتینرهای ابری اجرا بشن، اما الان مشخص شد که "دسترسی و Context" مهمتر از قدرت پردازشیه.
اجرای ایجنت روی کامپیوتر خودت (Localhost) یعنی دسترسی به فایلها، ترمینال و محیط واقعی توسعهدهنده بدون تاخیر شبکه. این پارادایم خیلی منطقیتر از ایجنتهای ابریه.
۵. رابط کاربری Native
مدلهایی مثل Google Nano Banana نشون دادن که خروجی تکست، فرمت بهینه برای انسان نیست. ما دنبال تصویر، نمودار و UI هستیم. مدلهای جدید دارن یاد میگیرن که مستقیماً UI تولید کنن، نه اینکه تکست بدن و ما رندرش کنیم.
جمعبندی من:
ما هنوز توی فاز "پیدا کردن فرم فکتور" هستیم. مدلها همزمان هم خیلی باهوشتر از انتظارمون شدن (توی استدلال) و هم خیلی خنگتر (توی درک عمومی).
نکته کلیدی برای مهندسهای هوش مصنوعی اینه: تمرکزتون رو از روی Pre-training بردارید. الان بازی توی زمین Post-training، طراحی Reward Functionهای قابل اثبات و ارکستراسیون ایجنتهاست. کسی برنده است که بتونه این "هوش دندانهدار" رو توی یه سیستم قابل اطمینان کپسوله کنه.
📃 پست اصلی کارپاتی:
https://karpathy.bearblog.dev/year-in-review-2025/
🛠 Join @LLMEngineers Community
اینجا چکیده فنی و بدون حاشیه اتفاقات امسال رو براتون لیست کردم:
۱. تغییر پارادایم آموزش: ظهور RLVR
جدول زمانی آموزش LLMها به این شکل تغییر کرد:
سال ۲۰۲x: تمرکز روی Pre-training
سال ۲۰۲۲: تکنیک RLHF + PPO (دوران GPT-3.5)
سال ۲۰۲۳: بهینهسازی با LoRA SFT
سال ۲۰۲۴: تمرکز روی Mid-Training
سال ۲۰۲۵: جهش با RLVR + GRPO
تکنیک RLVR یا Reinforcement Learning from Verifiable Rewards بازی رو عوض کرد. برخلاف RLHF که روی "سلیقه انسان" استوار بود (که گرون و نادقیقه)، توی RLVR مدل رو توی محیطهایی که خروجی قابل تایید دارن (مثل ریاضی، کدنویسی و پازلهای منطقی) ول میکنن تا خودش استراتژی حل مسئله رو یاد بگیره.
نتیجه؟ مدلها یاد گرفتن "فکر کنن". اون چیزی که به اسم Reasoning Traces میبینیم، نتیجهی تلاش مدل برای ماکسیمایز کردن ریوارد در این محیطهای قابل تاییده. الان Scaling Law جدید روی "زمان فکر کردن" (Inference-time compute) تعریف میشه، نه فقط حجم دیتا.
۲. هوش دندانهدار (Jagged Intelligence)
ما با یه موجود بیولوژیک طرف نیستیم، با یه "روح احضار شده" طرفیم. هوش مدلهای ۲۰۲۵ به شدت نامتوازن هست.
توی حوزههایی که RLVR اعمال شده (ریاضی و کد)، مدلها نابغهن. اما توی حوزههایی که محیط Verifiable ندارن، هنوز میتونن مثل یه بچه دبستانی گیج بزنن یا با یه Jailbreak ساده فریب بخورن.
به نظر من، بنچمارکها توی ۲۰۲۵ رسماً بیارزش شدن. چون بنچمارکها ذاتاً محیطهای قابل تاییدن و مدلها ناخودآگاه (یا خودآگاه) روی اونها Overfit شدن. Goodhart's Law با تمام قدرت برقراره.
۳. لایه جدید نرمافزار: Vibe Coding و Cursor
سال ۲۰۲۵ سالی بود که "نوشتن کد" جای خودش رو به "توصیف رفتار" داد. کارپاتی اصطلاح Vibe Coding رو استفاده میکنه؛ یعنی شما با زبان طبیعی و حستون برنامه مینویسید و اصلا براتون مهم نیست زیر کاپوت چه کدی تولید شده.
اپلیکیشنهای یکبار مصرف (Ephemeral Apps) ترند شد. کدی که مینویسی تا یه باگ رو دیباگ کنی و بعد دور میریزی.
ابزارهایی مثل Cursor نشون دادن که لایه اپلیکیشن فقط "Wrap کردن API" نیست؛ بلکه Orchestration هوشمند، مدیریت Context و هندل کردن وابستگیهاست.
۴. ایجنتهای Localhost
با اومدن Claude Code، مفهوم ایجنت تغییر کرد. تا قبل از این فکر میکردیم ایجنتها قراره توی کانتینرهای ابری اجرا بشن، اما الان مشخص شد که "دسترسی و Context" مهمتر از قدرت پردازشیه.
اجرای ایجنت روی کامپیوتر خودت (Localhost) یعنی دسترسی به فایلها، ترمینال و محیط واقعی توسعهدهنده بدون تاخیر شبکه. این پارادایم خیلی منطقیتر از ایجنتهای ابریه.
۵. رابط کاربری Native
مدلهایی مثل Google Nano Banana نشون دادن که خروجی تکست، فرمت بهینه برای انسان نیست. ما دنبال تصویر، نمودار و UI هستیم. مدلهای جدید دارن یاد میگیرن که مستقیماً UI تولید کنن، نه اینکه تکست بدن و ما رندرش کنیم.
جمعبندی من:
ما هنوز توی فاز "پیدا کردن فرم فکتور" هستیم. مدلها همزمان هم خیلی باهوشتر از انتظارمون شدن (توی استدلال) و هم خیلی خنگتر (توی درک عمومی).
نکته کلیدی برای مهندسهای هوش مصنوعی اینه: تمرکزتون رو از روی Pre-training بردارید. الان بازی توی زمین Post-training، طراحی Reward Functionهای قابل اثبات و ارکستراسیون ایجنتهاست. کسی برنده است که بتونه این "هوش دندانهدار" رو توی یه سیستم قابل اطمینان کپسوله کنه.
📃 پست اصلی کارپاتی:
https://karpathy.bearblog.dev/year-in-review-2025/
🛠 Join @LLMEngineers Community
karpathy
2025 LLM Year in Review
2025 Year in Review of LLM paradigm changes
Forwarded from Farhad
سلام بچه ها من یک کانال دارم بحث های پیشرفته تئوری رو پوشش میدم. ممنون میشم حمایت کنید :
https://www.youtube.com/@AIResearchJourney
https://www.youtube.com/@AIResearchJourney
LLM Engineers
سلام بچه ها من یک کانال دارم بحث های پیشرفته تئوری رو پوشش میدم. ممنون میشم حمایت کنید : https://www.youtube.com/@AIResearchJourney
کانال یوتیوب دوستان کامیونیتی هستش
حمایت کنید ✌🏻
حمایت کنید ✌🏻