LLM Engineers – Telegram
LLM Engineers
1.87K subscribers
105 photos
6 videos
3 files
160 links
A highly technical blog tailored for LLM engineers.

Contact me:
linkedin.com/in/mshojaei77
Download Telegram
مدل‌های سری Mox که توسط تیم VANTA Research منتشر شدن، یه رویکرد مهندسی متفاوت رو نسبت به مفهوم "شخصیت" (Persona) در هوش مصنوعی نشون میدن. به جای اینکه شخصیت رو صرفاً یه لایه پرامپت‌نویسی ساده ببینن، اون رو به عنوان یک مشخصه فنی (Technical Spec) در لایه Fine-tuning پیاده‌سازی کردن. این مدل‌ها برای سناریوهایی طراحی شدن که شما به یک دستیار با "نظر مستقیم" و "توانایی مخالفت سازنده" نیاز دارید، نه فقط یه بات که با هر حرف کاربر موافقت می‌کنه.

مدل mox-small-1 که بر پایه OLMo 32B Instruct بنا شده، با استفاده از QLoRA روی ۱۸ هزار مکالمه دست‌چین شده تیون شده. نکته مهندسی اینجاست که دیتاست‌های مورد استفاده (شامل ۱۷ دیتاست مختلف) دقیقاً برای رفتارهایی مثل "عدم قطعیت کالیبره شده" (Calibrated Uncertainty) بهینه شدن. یعنی مدل یاد گرفته وقتی جواب سوالی رو نمی‌دونه، به جای توهم زدن یا پیچوندن جواب، مستقیماً اعلام کنه که نمی‌دونه. این سطح از صداقت توی مدل‌های RLHF شده‌ معمولی که فقط برای راضی نگه داشتن کاربر (User Preference) آموزش دیدن، به ندرت پیدا میشه.

مدل mox-tiny-1 که از بیس Llama 3.1 8B استفاده می‌کنه، با تکنیک LoRA تیون شده و کانتکست ۱۳۱ هزار توکنی رو ساپورت می‌کنه. ارائه فرمت‌های GGUF در کنار وزن‌های اصلی نشون میده که هدف، استفاده محلی و سریع (Local Inference) بوده. ۱۳۱ هزار توکن برای یک مدل ۸ میلیاردی، فضای کافی رو برای تحلیل داکیومنت‌های حجیم در کنار حفظ اون شخصیت منتقد و مستقیم فراهم می‌کنه.

به نظر من، حرکت VANTA Research برای انتشار مدل‌هایی که "جرئت مخالفت" دارن، یه واکنش درست به وضعیت فعلی مدل‌های هوش مصنوعیه که به خاطر ترس از ایمنی (Safety) بیش از حد، عملاً بی‌استفاده و بیش از حد مودب شدن. استفاده از OLMo به عنوان بیس مدل ۳۲ میلیاردی هم انتخاب هوشمندانه‌ای بوده؛ چون برخلاف بسیاری از مدل‌های دیگه، پشته آموزشی (Training Stack) شفاف‌تری داره و برای کارهای تحقیقاتی و توسعه سیستم‌های "ایمنی-محور" قابل اعتمادتره.

اگر دارید روی سیستم‌های تصمیم‌ یار (Decision Support Systems) کار می‌کنید، سری Mox به خاطر تمرکز روی "مخالفت سازنده" و "نظرات مستقیم"، ابزار بهتری نسبت به مدل‌های عمومی برای به چالش کشیدن فرضیات شما هستن. در واقع این مدل‌ها به درد کسایی می‌خورن که دنبال "حقیقت" هستن، نه لزوماً "تایید".

📃 مدل mox-small-1 در هاگینگ فیس:

https://huggingface.co/vanta-research/mox-small-1

📃 مدل mox-tiny-1 در هاگینگ فیس:

https://huggingface.co/vanta-research/mox-tiny-1

🛠 Join @LLMEngineers Community
🔥31👍1
مدل Voxtral Realtime از Mistral AI بالاخره اون شکافی که بین مدل‌های ASR آفلاین و سیستم‌های استریمینگ وجود داشت رو پر کرد. برخلاف اکثر مدل‌ها که صرفاً یه مدل آفلاین (مثل Whisper) رو با ترفند Windowing تبدیل به استریمینگ می‌کنن، این مدل از پایه برای پردازش در لحظه (End-to-end Streaming) طراحی شده. این یعنی مدل یاد گرفته که با جریان پیوسته صدا کار کنه، نه تکه‌های بریده شده.

معماری این مدل بر پایه Delayed Streams Modeling (DSM) بنا شده، اما با یه تغییر بزرگ: استفاده از یه Causal Audio Encoder جدید و Ada RMS-Norm. این یعنی انکودر مدل دیگه نگاه به آینده (Look-ahead) نداره و به صورت علیتی صدا رو پردازش می‌کنه. این کار باعث میشه شرطی‌سازی روی تاخیر (Delay Conditioning) خیلی دقیق‌تر انجام بشه و پایداری خروجی در لحظه حفظ بشه. استفاده از Ada RMS-Norm هم کمک کرده تا مدل با تغییرات ناگهانی در تاخیر شبکه یا ورودی، کیفیت خروجی رو از دست نده.

رسیدن به تأخیر ۴۸۰ میلی‌ثانیه در حالی که کیفیت خروجی با مدل‌های آفلاین سنگینی مثل Whisper برابری می‌کنه، یه دستاورد مهندسی جدی در سال ۲۰۲۶ محسوب میشه. این یعنی شما می‌تونید سیستم‌های Voice-to-Text با تاخیر زیر نیم ثانیه بسازید که عملاً خطایی ندارن. پشتیبانی از ۱۳ زبان مختلف در مرحله پیش‌آموزش هم نشون میده که مدل روی دیتای چندزبانه (Multilingual) به خوبی تعمیم پیدا کرده و صرفاً برای انگلیسی بهینه نشده.

به نظر من، بزرگترین نقطه قوت این انتشار، لایسنس Apache 2.0 و وزن‌های باز (Open Weights) مدل ۴ میلیاردی Mini هست. ما همیشه توی سیستم‌های Real-time با مشکل Train-inference mismatch و پرش‌های ناگهانی در متن خروجی مواجه بودیم، چون مدل‌های آفلاین برای دیدن کل جمله آموزش دیدن. Voxtral با رویکرد Natively Streaming این مشکل رو از ریشه حل کرده. اگه دارید روی Voice Agents یا سیستم‌های ترجمه همزمان کار می‌کنید، این مدل استاندارد جدید شماست.

واقعیت اینه که برای داشتن تجربه کاربری روون در صوت، تاخیر زیر ۵۰۰ میلی‌ثانیه حیاتیه. Mistral با این مدل نشون داد که میشه بدون فدا کردن دقت، به سرعت استریمینگ واقعی رسید. مدل ۴ میلیاردی به قدری سبک هست که بشه اون رو روی GPUهای معمولی یا حتی Edge به راحتی سرو کرد.

📃 مقاله فنی در arXiv:
https://arxiv.org/abs/2602.11298

📃 مخزن مدل در هاگینگ فیس:
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602

🛠 Join @LLMEngineers Community
3👍2
اکوسیستم صوتی Qwen3 با انتشار مدل‌های ASR و TTS، عملاً پازل ارتباط صوتی انسان و ماشین رو در لایه متن‌باز (Open-source) کامل کرد. این حرکت فراتر از انتشار چند وزن مدل ساده است؛ ما با یک پشته (Stack) کامل پردازش صوت طرف هستیم که برای استفاده در سیستم‌های Real-time و Agentic بهینه شده. برخلاف رویکردهای قدیمی که ASR و TTS رو جدا می‌دیدن، Qwen3 روی یکپارچگی و کاهش تأخیر (Latency) تمرکز کرده تا بشه تجربه‌هایی شبیه به GPT-4o رو به صورت محلی پیاده کرد.

مدل Qwen3-ASR با ظرفیت ۱.۷ میلیاردی، یک راهکار همه‌کاره برای شناسایی زبان (LID) و تبدیل گفتار به متن در ۵۲ زبان و گویش مختلفه. معماری این مدل طوری طراحی شده که همزمان از استنتاج استریمینگ (Streaming) و آفلاین پشتیبانی می‌کنه. چیزی که برای من به عنوان مهندس جذابه، انتشار Qwen3-ForcedAligner است. این ابزار با دقت بسیار بالا، زمان‌بندی (Timestamp) کلمات رو تا ۵ دقیقه صوت مداوم استخراج می‌کنه. برای پروژه‌هایی که نیاز به زیرنویس دقیق یا همگام‌سازی لب (Lip-sync) دارن، این ابزار یک جایگزین جدی و سریع برای مدل‌های سنگین‌تر محسوب میشه.

در بخش تولید صدا، Qwen3-TTS با قابلیت شبیه‌سازی ۳ ثانیه‌ای (3-second Voice Cloning) و کنترل از طریق دستورات متنی، استاندارد جدیدی رو تعریف کرده. نکته کلیدی در مهندسی این مدل، استفاده از معماری Dual-track LM است. استفاده از دو توکنایزر مختلف (۲۵ هرتز برای یکپارچگی معنایی و ۱۲ هرتز برای کاهش نرخ بیت) باعث شده که اولین بسته صوتی (First-packet) در کمتر از ۹۷ میلی‌ثانیه تولید بشه. این یعنی تأخیر در سیستم‌های پاسخگویی صوتی عملاً به صفر نزدیک شده. به نظر من، این سطح از بهینه‌سازی در توکنایزرها، تفاوت اصلی بین یک پروژه آزمایشگاهی و یک محصول آماده برای بازار (Market-ready) رو رقم میزنه.

ارائه این مدل‌ها تحت لایسنس Apache 2.0 و فراهم کردن تولکیت‌های استنتاجی مبتنی بر vLLM نشون میده که هدف، دموکراتیزه کردن تکنولوژی Voice-to-Voice بوده. شما الان می‌تونید با ترکیب Qwen3-ASR برای شنیدن و Qwen3-TTS برای حرف زدن، یک دستیار صوتی کامل بسازید که هم هویت صوتی کاربر رو در ۳ ثانیه کپی می‌کنه و هم با تأخیر زیر ۱۰۰ میلی‌ثانیه پاسخ میده.

به نظر من، ارزش واقعی این سری در مدل‌های کوچیک 0.6B نهفته است. این حجم کم پارامتر یعنی می‌تونید کل سیستم پردازش صوت رو روی لبه (Edge) یا کارت‌های گرافیک ارزان‌قیمت اجرا کنید، بدون اینکه نیاز به کلاسترهای سنگین داشته باشید. ترکیب Forced Aligner با مدل‌های TTS، یک خط تولید محتوای صوتی خودکار رو می‌سازه که قبلاً پیاده‌سازیش ماه‌ها زمان می‌برد.

📃 مقاله فنی Qwen3-ASR در arXiv:
https://arxiv.org/abs/2601.21337

📃 مخزن مدل ASR در هاگینگ فیس:
https://huggingface.co/Qwen/Qwen3-ASR-1.7B

📃 مقاله فنی Qwen3-TTS در arXiv:
https://arxiv.org/abs/2601.15621

📃 مخزن کد TTS در گیت‌هاب:
https://github.com/QwenLM/Qwen3-TTS

🛠 Join @LLMEngineers Community
3👍2
مدل Pocket-TTS از آزمایشگاه Kyutai یه حرکت جالب توی دنیای سنتز صداست که بر خلاف اکثر سیستم‌های فعلی، به جای استفاده از توکن‌های گسسته (Discrete Tokens)، بر پایه مفهوم "مدل‌سازی پیوسته صوت" (Continuous Audio Modeling) ساخته شده. مقاله فنی این تیم که نسخه سومش همین ژانویه ۲۰۲۶ منتشر شد، نشون میده که چطور میشه با استفاده از جریان‌های پیوسته صوتی، به خروجی‌هایی رسید که هم طبیعی‌تر هستن و هم آرتیفکت‌های کمتری دارن.

تکنولوژی CALM یا همان Continuous Audio Language Models، ستون فقرات این پروژه‌ست. ایده اصلی اینه که صوت رو به صورت یک جریان مداوم و بدون تکه‌تکه کردن (Quantization) به کدهای دیجیتال، مدل‌سازی کنن. این رویکرد باعث میشه لحن صدا (Prosody) و جزئیات ظریف انسانی خیلی بهتر حفظ بشه. نکته مهندسی ماجرا اینجاست که Kyutai موفق شده این تئوری سنگین رو در قالب Pocket-TTS به یه ابزار کاربردی و سبک تبدیل کنه که برای محدودیت‌های سخت‌افزاری واقعی طراحی شده.

تمرکز Pocket-TTS روی "قابلیت استفاده" (Deployability) است. در حالی که مدل‌های بزرگ TTS برای خروجی‌های استودیویی عالی هستن، اما برای استفاده در دستگاه‌های موبایل یا ایجنت‌هایی که نیاز به پاسخگویی در لحظه دارن، سنگین و کند محسوب میشن. این پروژه با ارائه کد و کانفیگ‌های بهینه در گیت‌هاب، هدفش اینه که سنتز صدای باکیفیت رو به محیط‌های با منابع محدود بیاره. به نظر من، این که یه آزمایشگاه تحقیقاتی مثل Kyutai به جای انتشار یه مدل غول‌آسا، روی "Pocket-sized" کردن تکنولوژی تمرکز کرده، نشون‌دهنده درک درستشون از نیاز بازار در سال ۲۰۲۶ هست.

واقعیت اینه که مدل‌سازی پیوسته صوت پتانسیل این رو داره که استاندارد طلایی TTS بشه، چون مشکل همیشگی "روباتیک بودن" صدا در سیستم‌های مبتنی بر Codec رو حل می‌کنه. اگه دارید روی اپلیکیشن‌هایی کار می‌کنید که نیاز به تعامل صوتی سریع و در عین حال باکیفیت دارن، Pocket-TTS یه گزینه سینیور و مهندسی‌شده‌ست که نباید ازش بگذرید.

📃 مقاله فنی Continuous Audio Language Models در arXiv:

https://arxiv.org/abs/2509.06926

📃 مخزن کد Pocket-TTS در گیت‌هاب:

https://github.com/kyutai/pocket-tts

🛠 Join @LLMEngineers Community
5
دنیای مدل‌های بینایی-زبانی (VLM) در شروع سال ۲۰۲۶ از مرحله "فقط توصیف تصویر" عبور کرده و مستقیماً وارد فاز استدلال بصری و خودکارسازی رابط کاربری (UI Automation) شده است. مدل‌هایی که اخیراً منتشر شدند، نشان می‌دهند که تمرکز مهندسی از مدل‌های غول‌آسا به سمت مدل‌های بهینه (زیر ۱۰ میلیارد پارامتر) با قابلیت فهم ویدیوهای طولانی و استخراج دقیق متن (OCR) تغییر کرده است.

مدل Qwen3-VL-8B-Instruct که در آخرین روزهای ۲۰۲۵ آپدیت شد، یک نقطه عطف برای ساخت "ایجنت‌های بصری" است. استفاده از مکانیزم Interleaved MRoPE به این مدل اجازه می‌دهد که داده‌های متن، تصویر و ویدیو را در کانتکست‌های طولانی بدون از دست دادن موقعیت‌سنجی (Position Encoding) پردازش کند. قابلیت "Time Anchor" در پاسخ‌های این مدل، یعنی مدل می‌تواند به ثانیه‌های دقیق در یک ویدیوی طولانی ارجاع دهد؛ این ویژگی برای مهندس‌هایی که روی سیستم‌های نظارتی یا تحلیل محتوا کار می‌کنند، یک ابزار کلیدی است. همچنین پشتیبانی از ۳۲ زبان در OCR و بهینه‌سازی برای تسک‌های Visual Agent (مثل کار با محیط GUI)، نشان می‌دهد که Qwen3-VL فراتر از یک مدل ساده، یک اپراتور بصری است.

استدلال چندوجهی (Multimodal Reasoning) در مدل‌های GLM-4.5V و GLM-4.1V Thinking به یک هدف آموزشی درجه اول تبدیل شده است. برخلاف مدل‌های قدیمی که فقط پیکسل‌ها را به کلمات تبدیل می‌کردند، این مدل‌ها یاد گرفته‌اند که بر اساس شواهد بصری "فکر" کنند. این یعنی مدل قبل از ارائه جواب، یک زنجیره استدلال داخلی (Chain of Thought) ایجاد می‌کند تا مطمئن شود خروجی با جزئیات تصویر مطابقت دارد.

مدل GLM-OCR یک رویکرد مهندسی هوشمندانه را برای حل مشکل کندی در پردازش اسناد سنگین پیش گرفته است. این مدل به جای یک پردازش خطی ساده، از پایپ‌لاین "Layout -> Parallel Recognize -> Merge" استفاده می‌کند. با استفاده از یک انکودر CogViT و یک دیکودر سبک ۰.۵ میلیاردی، این مدل می‌تواند نواحی مختلف سند را شناسایی کرده، آن‌ها را به صورت موازی بازخوانی کند و در نهایت خروجی Markdown تمیز تحویل دهد. استفاده از Loss اختصاصی MTP (پیش‌بینی چند توکنی) باعث شده که سرعت و دقت در بازسازی ساختار جداول و متون پیچیده به شدت بالا برود.

مدل LightOnOCR-2-1B نیز با استفاده از تکنیک RLVR (یادگیری تقویت‌شده با پاداش‌های قابل تایید)، استانداردهای جدیدی برای تبدیل تصاویر اسناد به متن تمیز تعریف کرده است. استفاده از RL در OCR به این معناست که مدل بر اساس "درستیِ قابل سنجش" خروجی (مثل مطابقت دقیق با متن اصلی سند) جریمه یا تشویق شده است. این رویکرد باعث کاهش توهم (Hallucination) در بازخوانی اعداد و کلمات خاص در اسناد رسمی و علمی می‌شود.

به نظر من، ما داریم به پایان دوران سیستم‌های OCR سنتی و سنگین (مثل Tesseract) نزدیک می‌شویم. وقتی مدل‌های ۱ تا ۸ میلیاردی می‌توانند با دقت انسانی اسناد را بفهمند، ساختار لایوت را حفظ کنند و حتی روی ویدیوها استدلال کنند، یعنی زیرساخت‌های هوش مصنوعی آماده جایگزینی با فرآیندهای دستی در مقیاس صنعتی هستند. برای مهندس‌ها، الان زمان استفاده از این مدل‌ها در قالب SGLang یا vLLM است تا سیستم‌های "سند‌-فهم" (Document-understanding) واقعی بسازند.

📃 مدل Qwen3-VL در هاگینگ فیس:
https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct

📃 مقاله فنی استدلال چندوجهی GLM:
https://arxiv.org/abs/2507.01006

📃 مخزن GLM-OCR برای پردازش اسناد:
https://github.com/zai-org/GLM-OCR

📃 مدل LightOnOCR-2-1B برای متون چندزبانه:
https://huggingface.co/lightonai/LightOnOCR-2-1B

🛠 Join @LLMEngineers Community
5
مدل‌های تولید تصویر و ویدیو در ابتدای سال ۲۰۲۶ از مرحله "فقط پیکسل ساختن" رد شدن و دارن روی دو جبهه متضاد اما مکمل حرکت می‌کنن: سرعت دیوانه‌وار برای مصرف‌کننده نهایی و کنترل‌پذیری عمیق برای مهندس‌ها. خانواده FLUX.2 [klein] با معماری Rectified Flow Transformer و استفاده از تکنیک Step Distillation، استانداردی رو تعریف کرده که تولید تصویر رو به زیر ۱ ثانیه رسونده. این مدل ۹ میلیاردی با استفاده از Qwen Text Embedder و خروجی FP8، نشون میده که بهینه‌سازی برای GPUهای معمولی (Consumer GPUs) اولویت اول تیم Black Forest Labs بوده. تقطیر مدل به ۴ مرحله (4-step) یعنی شما عملاً دارید Real-time تصویر می‌سازید، هرچند که برای کارهای سنگین‌تر، نسخه ۵۰ مرحله‌ای بیس هنوز مرجع اصلی کیفیته.

معماری Single-stream DiT در مدل Z-Image مسیر دیگه‌ای رو باز کرده. اینجا توکن‌های متنی و بصری در یک جریان واحد (Single-stream) با هم ترکیب میشن که باعث درک بهتر جزئیات متن در تصویر میشه. برخلاف مدل‌های تقطیر شده، نسخه بیس Z-Image بدون Distillation منتشر شده تا قابلیت CFG و استفاده از Negative Prompt به شکل کامل حفظ بشه. به نظر من، این حرکت برای مهندس‌هایی که دنبال Fine-tune کردن روی استایل‌های خاص هستن حیاتیه، چون مدل‌های تقطیر شده (Distilled) معمولاً انعطاف‌پذیری لازم برای یادگیری مفاهیم جدید رو ندارن و "پخته شده" به نظر می‌رسن.

آپدیت Qwen-Image-2512 روی نقاط ضعف کلاسیک مدل‌های نفوذی (Diffusion Models) یعنی رندر کردن متن (Typography) و رئالیسم انسانی تمرکز کرده. ارائه این مدل به صورت Diffusers-native یعنی زنجیره ابزارهای Python آماده پذیرش این مدل هستن و نیازی به بازنویسی اسکریپت‌های پیچیده استنتاج نیست. تمرکز روی جزئیات طبیعی نشون میده که رقابت از "ساختن تصویر کلی" به سمت "دقت در بافت" (Fine Detail) حرکت کرده و مدل‌ها دیگه توی کشیدن انگشت‌ها یا متون ریز کمتر سوتی میدن.

در حوزه ویدیو و مدل‌های جهان (World Models)، پروژه HY-WorldPlay از شرکت Tencent با انتشار کدهای آموزش و نسخه‌های بهینه شده، مسیر تعاملی کردن ویدیو رو هموار کرده. ارائه نسخه ۵ میلیاردی در کنار مدل ۸ میلیاردی نشون‌دهنده تلاش برای مدیریت VRAM در سیستم‌های محلیه. بهینه‌سازی‌های مهندسی مثل کوانتیزاسیون مستقیم در کد استنتاج، HY-WorldPlay رو از یه پروژه تحقیقاتی به یه ابزار کاربردی برای ساخت محیط‌های شبیه‌سازی شده و "Interactive Streaming" تبدیل کرده.

به نظر من، سال ۲۰۲۶ سالِ پیروزی مطلق DiT (Diffusion Transformers) بر معماری‌های قدیمی UNet هست. ترکیب Single-stream برای درک بهتر متن و تکنیک‌های Flow Matching برای سرعت بالاتر، داره فاصله بین تصور و خروجی رو به صفر می‌رسونه. اگه دنبال پایداری و کنترل هستید، Z-Image Base و اگه دنبال سرعت فضایی و دموهای لحظه‌ای هستید، FLUX.2 [klein] بهترین گزینه‌های روی میز هستن.

📃 مخزن FLUX.2 در گیت‌هاب:
https://github.com/black-forest-labs/flux2

📃 مدل Z-Image در هاگینگ فیس:
https://huggingface.co/Tongyi-MAI/Z-Image

📃 پروژه HY-WorldPlay در گیت‌هاب:
https://github.com/Tencent-Hunyuan/HY-WorldPlay

📃 مدل Qwen-Image-2512 در هاگینگ فیس:
https://huggingface.co/Qwen/Qwen-Image-2512

🛠 Join @LLMEngineers Community
4
نقشه راه هوش مصنوعی در ابتدای سال ۲۰۲۶ از "تئوری‌های معماری" فاصله گرفته و کاملاً وارد قلمرو "مهندسی سیستم" شده. مدل‌های جدید مثل Qwen3.5 و GLM-5 نشون دادن که جنگِ پارامترها جای خودش رو به جنگِ نرخ توکن (Throughput) و مدیریت حافظه داده. واقعیت اینه که داشتن یه مدل ۷۴۴ میلیاردی بدون زیرساخت استنتاج بهینه، عملاً بی‌استفاده‌ست.

معماری Sparse MoE حالا دیگه انتخاب اول برای اسکیل کردن مدل‌هاست. مدل Qwen3.5 با ۳۹۷ میلیارد پارامتر که فقط ۱۷ میلیاردش فعاله، ثابت کرد که میشه با ۵۱۲ اکسپرت به دقت مدل‌های متراکم رسید ولی با هزینه‌ای بسیار کمتر. استفاده از Gated Delta Networks و Hybrid Linear Attention توی این مدل‌ها، مشکل همیشگی حافظه در کانتکست‌های طولانی رو حل کرده. به نظر من، نکته طلایی این انتشارها Multi-Token Prediction (MTP) هست؛ تکنیکی که اجازه میده مدل در هر گام چندین توکن رو پیش‌بینی کنه و سرعت استنتاج رو تا ۱۹ برابر بالا ببره. این یعنی ایجنت‌های هوشمند دیگه نباید ثانیه‌ها منتظر جواب بمونن.

زیرساخت Slime نشون داد که RL (یادگیری تقویت‌شده) از یه مرحله فرعی در پس‌آموزش، به یه "سیستم توزیع‌شده سنگین" تبدیل شده. جدا کردن بخش تولید داده (Rollout) از بخش آموزش (Training) در Slime، اجازه میده که مدل‌های MoE غول‌آسا با پایداری بالا تیون بشن. این یعنی ما دیگه دنبال معماری جدید نیستیم، بلکه دنبال پایپ‌لاین‌های RL پایدارتری هستیم که بتونن رفتار ایجنت رو در سناریوهای طولانی اصلاح کنن.

صوت و OCR هم دارن به سمت "نیتیو" شدن حرکت می‌کنن. مدل‌هایی مثل Voxtral Realtime و Nemotron نشون دادن که دوران تکه‌تکه کردن صوت (Chunking) تموم شده. ما الان مدل‌های ASR با تاخیر زیر ۵۰۰ میلی‌ثانیه داریم که مستقیماً با انکودرهای علّی (Causal) آموزش دیدن. در بخش OCR هم مدل LightOnOCR ثابت کرد که دیدگاه VLM (مدل بینایی-زبانی) برای فهم اسناد، بسیار برتر از پایپ‌لاین‌های قدیمی تشخیص و بازشناسیه. تبدیل مستقیم تصویر سند به Markdown تمیز، حالا دیگه یک مسئله حل شده‌ست.

تولید ویدیو هم با تکنیک QVG و کوانتیزاسیون ۲ بیتی KV-cache وارد فاز عملیاتی شده. وقتی می‌تونید مصرف حافظه رو ۷ برابر کم کنید بدون اینکه کیفیت ویدیو نابود بشه، یعنی امکان اجرای مدل‌های جهان (World Models) روی کارت‌های گرافیک معمولی فراهم شده. به نظر من، تمرکز روی بهینه‌سازی KV-cache مهم‌ترین روند مهندسی در سال جاریه، چون کانتکست‌های یک میلیونی بدون این تکنیک‌ها عملاً VRAM رو منفجر می‌کنن.

وضعیت کانتکست طولانی هم روی ۲۶۲ هزار توکن تثبیت شده. مدل‌کارت‌ها دیگه فقط بنچمارک نمیدن، بلکه دستورالعمل‌های دقیق سرو کردن (Serving Recipes) رو منتشر می‌کنن که چطور با YaRN یا اسکیپ کردن بخش‌های بینایی، حافظه رو برای استدلال‌های سنگین آزاد نگه داریم.

در نهایت، ما از عصر "مدل‌های بزرگ" وارد عصر "سیستم‌های کارا" شدیم. اگه می‌خواید عقب نمونید، به جای خوندن مقالات معماری، روی یادگیری زیرساخت‌های استنتاج مثل vLLM، SGLang و فریم‌ورک‌های RL توزیع‌شده مثل Slime تمرکز کنید.

📃 گزارش فنی Qwen3.5 MoE:
https://qwenlm.github.io/blog/qwen3.5/

📃 زیرساخت آموزشی Slime:
https://github.com/THUDM/slime

📃 مقاله Voxtral Realtime:
https://arxiv.org/abs/2602.11298

📃 تکنیک کوانتیزاسیون QVG:
https://arxiv.org/abs/2602.04139

🛠 Join @LLMEngineers Community
🔥72
بنچمارک‌های عمومی هوش مصنوعی معمولاً برای زبان فارسی نیستن و اصلاً عمق فهم مدل رو نشون نمی‌دن. برای همین خودم دست‌به‌کار شدم و لیدربورد کنکور ۱۴۰۴ (نوبت اول) رو راه انداختم تا ببینم این مدل‌های متن‌باز واقعاً توی استدلال‌های پیچیده و زبان فارسی چند مرده حلاج‌ان. کنکور به خاطر ترکیب سوالات مفهومی، محاسباتی و تصاویر هندسی، عملاً سخت‌ترین تست برای سنجش Reasoning و Multimodal بودن یک مدله.

معماری MoE توی این تست ثابت کرد که پادشاه بلامنازع هست. مدل Qwen3-VL-235B با ۲۲ میلیارد پارامتر فعال، نه تنها در بخش متنی اول شد، بلکه توی بخش بینایی هم با اختلاف بقیه رو جا گذاشت. برای من به عنوان یه مهندس، رتبه سوم Qwen3-Next-80B جذاب‌تره؛ این مدل با فقط ۳ میلیارد پارامتر فعال (Active Parameters) تونسته مدل‌های غولی مثل Llama-3.1-70B رو شکست بده. این یعنی بهینه‌سازی معماری و کیفیت داده، خیلی بیشتر از تعداد خام پارامترها توی زبان فارسی تاثیر داره.

شکاف بین Text-only Score و Standard Score نشون‌دهنده یه حقیقت تلخه: مدل‌ها هنوز توی فهم تصاویر فارسی (OCR بصری و تحلیل نمودار) لنگ می‌زنن. وقتی سوال تصویری میشه، دقت اکثر مدل‌ها سقوط می‌کنه. اگه قصد دارید سیستم آموزشی یا ایجنتی بسازید که با داکیومنت‌های فارسی سر و کار داره، فعلاً باید روی خانواده Qwen3 حساب کنید. مدل Kimi-k2 هم نشون داد که توی استدلال متنی (Text Reasoning) فوق‌العاده‌ست، هرچند که توی بخش بینایی کلاً حضور نداره.

به نظر من، این لیدربورد نشون داد که عصر مدل‌های Dense تموم شده. اگر پروژه‌ای دارید که نیاز به فهم عمیق فارسی و استدلال داره، وقتتون رو روی مدل‌هایی که MoE نیستن تلف نکنید. این نتایج ثابت می‌کنه که "کارایی سیستم" (System Efficiency) و "تخصص اکسپرت‌ها" توی MoE، کلید حل پازل زبان‌های پیچیده‌ای مثل فارسیه.

🏆 لیدربورد کنکور ۱۴۰۴ در هاگینگ فیس:
https://huggingface.co/spaces/mshojaei77/konkur1404-llm-leaderboard

🛠 Join @LLMEngineers Community
20👍3
لیدربورد کنکور ۱۴۰۴ برای سنجش مدل‌های هوش مصنوعی روی دانش فارسی راه‌اندازی شد!

فقط مدل‌های اوپن سورس با قابلیت‌ پردازش متن (LLM) و پردازش تصویر (VLM) در این رقابت حضور دارند.

🏆 https://huggingface.co/spaces/mshojaei77/konkur1404-llm-leaderboard
8🎉1
LLM Engineers pinned «لیدربورد کنکور ۱۴۰۴ برای سنجش مدل‌های هوش مصنوعی روی دانش فارسی راه‌اندازی شد! فقط مدل‌های اوپن سورس با قابلیت‌ پردازش متن (LLM) و پردازش تصویر (VLM) در این رقابت حضور دارند. 🏆 https://huggingface.co/spaces/mshojaei77/konkur1404-llm-leaderboard»
بعد از لیدربورد کنکور، لازم بود یه بنچمارک جدی برای سنجش "روانیِ کلام" (Linguistic Fluency) داشته باشیم تا بفهمیم کدوم مدل مثل یه آدم حسابی فارسی حرف می‌زنه و کدوم یکی فقط کلمات رو پشت هم قطار می‌کنه. توی این لیدربورد که خودم طراحیش کردم، پارامترهایی مثل رعایت قواعد دستوری، لحن طبیعی (Naturalness) و اصطلاحات (Idiomatic) رو با داوری Gemini 2.5 Flash سنجیدم تا عمقِ فهم زبانی مدل‌ها مشخص بشه.

معماری MoE در مدل Qwen3-30B-A3B باز هم صدرنشین شد. این مدل با امتیاز ۴۲.۱ نشون داد که توی "پیروی از دستورات" (Instruction Following) و "حفظ کانتکست" فوق‌العاده عمل می‌کنه. با اینکه توی بخش گرامر از مدل‌های گوگل ضعیف‌تره، ولی توی خروجی نهایی، پکیج کامل‌تری برای بیزنس و چت‌بات‌های فارسی ارائه میده.

گوگل با Gemini 2.5 و خانواده Gemma 3 توی "گرامر" و "طبیعی بودن" (Naturalness) امتیازات بالایی گرفتن، اما توی "ایمنی" (Safety) و "پیروی از محدودیت‌های پرامپت" (Instruction Following) قافیه رو به Qwen و Saba باختن. این یه نکته سینیوریه: مدل‌های گوگل خیلی "کتابی" و تمیز حرف می‌زنن، اما وقتی بهشون دستور میدی که با یه لحن خاص یا محدودیت خاص بنویسن، انعطاف‌شون کمتر میشه.

به نظر من، اگه اولویت شما "لحن طبیعی" و "حفظ کانتکست" در مکالمات فارسیه، Qwen3 بهترین خروجی رو بهتون میده. گوگل برای ویراستاری و چک کردن گرامر عالیه، اما برای یه دیالوگِ روون که کاربر حس نکنه داره با ربات حرف می‌زنه، هنوز مدل‌های MoE و تیون‌شده روی دیتای فارسی جلوترن.


🏆 لیدربورد روانی کلام فارسی (Persian Linguistic Fluency):
https://huggingface.co/spaces/mshojaei77/Persian-linguistic-llm-leaderboard

🛠 Join @LLMEngineers Community
4👍3
2
معرفی سری Qwen 3.5 Medium

اگه دنبال اجرای مدل‌های سطح بالا روی سیستم خودتون هستید و از حجم‌های عجیب‌وغریب خسته شدید، تیم Qwen دیروز سری جدید Medium رو ریلیز کرد که بازی رو عوض کرده. شعار این سری "هوش بیشتر، محاسبات کمتر" هست و تمرکز کاملاً رفته روی معماری بهینه، کیفیت دیتا و RL سنگین برای ایجنت‌ها.

نکته جذاب ماجرا اینه که این مدل‌ها صرفاً متنی نیستن؛ به صورت Native قابلیت‌های Multimodal (تصویر و ویدیو) دارن و قابلیت Thinking Modeداخلشون تعبیه شده که می‌تونید روشن یا خاموشش کنید.

مدل‌های اصلی این خانواده:

مدل Qwen3.5-35B-A3B (MoE):
ستاره‌ی این ریلیز. کلاً ۳۵ میلیارد پارامتر داره اما برای هر توکن فقط ۳ میلیاردش فعال میشه.
به نظر من این مدل "Value King" جدید دنیای اپن‌سورسه. روی یه سیستم با ۲۴ گیگ رم (یا مک‌بوک) به راحتی اجرا میشه و طبق بنچمارک‌ها، مدل قبلی و غول‌پیکر Qwen3-235B رو شکست میده. خوراکِ کارهای لوکال و سیستم‌های با منابع محدوده.

مدل Qwen3.5-122B-A10B (MoE):
پل ارتباطی به مدل‌های Frontier. با ۱۲۲ میلیارد پارامتر (۱۰ میلیارد فعال)، فاصله‌ی کمی با مدل‌های بسته مثل GPT-5-mini داره، مخصوصاً توی سناریوهای پیچیده Agentic و Reasoning. اگر ستاپ Multi-GPU دارید، این گزینه برای پروداکشن عالیه.

مدل Qwen3.5-27B (Dense):
یه مدل کلاسیک و متراکم (Non-MoE). توی کارهای کدنویسی و Long-Context عملکرد عجیب و غریبی داره و گاهی حتی برادران MoE خودش رو هم میزنه. چون Dense هست، پایداری بیشتری توی Instruction Following داره.

چرا این ریلیز مهمه؟
همه مدل‌ها لایسنس Apache 2.0 دارن، تا ۱ میلیون توکن Context رو ساپورت می‌کنن و توی بنچمارک‌های Coding و Agentic، مدل‌های Closed-source مثل GPT-5-mini و Claude-Sonnet-4.5 رو به چالش کشیدن (و جاهایی شکست دادن). جامعه کاربری خیلی سریع براشون GGUF ساخته و روی ابزارهایی مثل vLLM و Llama.cpp بالا میان.

اگر توسعه‌دهنده هستید، الان وقتشه که کلاسترها رو بیخیال بشید و روی Edge Deviceها هوش واقعی رو تست کنید.

📃 لینک مدل‌ها در هاگینگ‌فیس:
https://huggingface.co/collections/Qwen/qwen35

🛠 Join @LLMEngineers Community
10👍4
تحلیل معماری Qwen 3.5: خداحافظی با Brute-Force Scaling

تیم Qwen با سری ۳.۵ نشون داد که دوران صرفاً اضافه کردن لایه و پارامتر تموم شده. زیر کاپوت این مدل‌ها تغییرات معماری سنگینی اتفاق افتاده که باعث شده مدل ۳۵ میلیاردی (با ۳ میلیارد پارامتر فعال) بتونه مدل ۲۳۵ میلیاردی نسل قبل رو توی جیبش بذاره. بیاید فنی بررسی کنیم.

نوآوری در معماری: Hybrid Attention
معماری این مدل‌ها دیگه Pure Transformer کلاسیک نیست. از ترکیب Gated DeltaNet و Gated Attention استفاده کردن.
بلوک‌ها به صورت ترکیبی چیده شدن (مثلاً توی 35B، پترن به صورت ۳ تا DeltaNet و بعد ۱ دونه Attention تکرار میشه).
اینکار باعث میشه سربار حافظه (KV Cache) توی Contextهای طولانی به شدت کاهش پیدا کنه و Throughput و درنتیجه سرعت پاسخگویی بره بالا، بدون اینکه دقت مدل توی Retrieval افت کنه.

مکانیزم Mixture-of-Experts (MoE)
در مدل‌های 35B و 122B از ۲۵۶ اکسپرت استفاده شده که برای هر توکن، ۸ اکسپرت روتینگ میشن + ۱ اکسپرت اشتراکی.
این یعنی Sparsity بسیار بالا. توی مدل 122B عملاً دارید با هزینه محاسباتی یه مدل ۱۰ میلیاردی، خروجی یه مدل ۱۰۰+ میلیاردی می‌گیرید. برخلاف مدل‌های قبلی مثل Next-80B، اینجا Routing بسیار هوشمندتر شده و Expertها تخصصی‌تر عمل می‌کنن.

قابلیت Multi-token Prediction (MTP)
مدل آموزش دیده که چند توکن آینده رو پیش‌بینی کنه، نه فقط یکی. این تکنیک هم سرعت Inference رو بالا میبره و هم توانایی Reasoning رو تقویت می‌کنه چون مدل مجبور میشه "جلوتر" رو ببینه.

پایپ‌لاین آموزشی: RL روی میلیون‌ها ایجنت
برخلاف روش‌های سنتی SFT، اینجا تمرکز روی RL مقیاس‌‌پذیر بوده. مدل‌ها توی محیط‌های شبیه‌سازی شده با میلیون‌ها ایجنت تعامل کردن.
این یعنی توانایی Tool Use، پلن‌چینی و Search توی این مدل‌ها "حفظیات" نیست، بلکه حاصل تعامل توی محیط‌های پیچیده است. به همین دلیله که توی بنچمارک‌هایی مثل BFCL و Tool-Use، مدل‌های Closed Source رو اذیت می‌کنن.

ویژن و Multimodal
از تکنیک Early-fusion استفاده شده. دیگه Vision Encoder جدا نیست که به مدل متنی چسبونده باشن؛ توکن‌های تصویری و ویدیویی از لایه‌های ابتدایی با متن ترکیب میشن. نتیجه‌ش میشه درک Native از ویدیو و تصاویر بدون از دست دادن جزئیات.

نکات دیپلوی (Production Notes):
برای پرفرمنس ماکزیمم، حتماً از SGLang یا vLLM استفاده کنید چون معماری Hybrid Attention و MTP رو کامل ساپورت می‌کنن.
برای Thinking Mode، دمای (Temperature) رو روی ۱.۰ و top_p رو روی ۰.۹۵ بذارید.
نسخه‌های GGUF (مثل IQ4_XS) روی سخت‌افزارهای محدود عملکرد پایداری دارن و Quality Degradation کمی نشون دادن.

به نظر من این سری، تعریف جدیدی از Efficiency Frontier هست و نشون میده که بهینه‌سازی معماری و کیفیت دیتا، خیلی مهم‌تر از تعداد پارامتر خام هست.

📃 داکیومنت فنی و بنچمارک‌ها:
https://qwenlm.github.io/blog/qwen3.5-medium/

🛠 Join @LLMEngineers Community
6
LLM Engineers
Photo
۱. پادشاهی روی کارت گرافیک‌های گیمینگ (Qwen3.5-35B-A3B)
این مدل به نظرم جذاب‌ترین بخش این ریلیز هست. معماری Mixture of Experts (MoE) اینجا شاهکار کرده.
نکته فنی: مدل سایز کلی 35B داره اما فقط حدود 3B پارامتر در لحظه (Active) فعال میشن.
کاربرد عملی: یعنی شما دانش یه مدل 35B رو دارید، اما سرعت Inference و تاخیر (Latency) در حد یه مدل 3B هست.
سخت‌افزار: این مدل راحت روی ۲۴ گیگ VRAM (مثل RTX 3090/4090) حتی با Quantization سبک بالا میاد. توی جدول MMLU-Pro نمره 84.5 گرفته که از GPT-5 mini (نسخه کلوزد) بالاتره. برای Agent هایی که روی لوکال ران می‌شن، این بهترین گزینست.

۲. مدل Dense برای کدنویسی (Qwen3.5-27B)
چرا وقتی MoE هست، هنوز Dense می‌سازن؟ جواب تو پایداریه.
• مدل 27B Dense توی بنچمارک SWE-bench Verified نمره 72.4 رو گرفته که از نسخه 35B MoE (با نمره 71.0) بالاتره.
تجربه من: برای تسک‌های Coding و Reasoning طولانی که Context Switching زیاد دارن، مدل‌های Dense هنوز Stableتر عمل می‌کنن و کمتر دچار Hallucination توی لاجیک‌های تو در تو میشن. اگه سیستم تک GPU دارید و کارتون فقط کده، این گزینه منطقی‌تریه.

۳. هیولای ورک‌استیشن (Qwen3.5-122B-A10B)
این مدل عملاً Bridge بین مدل‌های لوکال و Frontier Models (مثل Claude Sonnet 4.5) هست.
• با 122B پارامتر و 10B اکتیو، نیاز به ستاپ Multi-GPU داره (مثلاً دو تا A6000 یا ۴ تا 3090/4090).
• توی GPQA Diamond نمره 86.6 رو زده که تنه به تنه مدل‌های اختصاصی میزنه. برای کارهای Multimodal سنگین و Vision Reasoning پیچیده، این مدل الان سقفِ Open-Weights محسوب میشه.

۴. مقایسه با رقبا (GPT-5 mini & Claude)
طبق چارت‌ها، Qwen 3.5 توی اکثر بنچمارک‌ها (HMMT, MMMU) داره با فاصله کمی از Claude Sonnet 4.5 و GPT-oss-120b حرکت می‌کنه و گاهی جلو میزنه.
نکته ترسناک: فاصله بین مدل‌های Open و Closed (پولی) به حداقل رسیده. الان دیگه "دسترسی به مدل" مزیت نیست، "نحوه استفاده و Fine-tune" مزیت رقابتیه.

جمع‌بندی فنی:
به نظر من، دوران طلایی Local Agents شروع شده. وقتی می‌تونید روی لپ‌تاپ یا یه سرور خونگی مدلی ران کنید که Reasoning در سطح GPT-4o پارسال رو با سرعت ۱۰ برابر بهتون میده، یعنی معماری نرم‌افزارها باید عوض بشه. تمرکزتون رو بذارید روی Orchestration و Tool-use، چون خود مدل دیگه Bottleneck نیست.

اگه سیستم خونگی قوی دارید، نسخه 35B-A3B رو حتما تست کنید؛ تعادل عجیبی بین سرعت و شعور داره.

🛠 Join @LLMEngineers Community
🔥5