NEW BOT Телеграм, страница

ااینم مقایسه چنتا از SLM های اوپن سورس (زیر 10b) 🛠 Join @LLMEngineers Community

یه مدل جدید از انویدیا اومده که می‌تونه محاسبات سنگین reasoning رو با context طولانی ۱۲۸ هزار توکنی، روی یه کارت گرافیک با ۲۲ گیگ VRAM اجرا کنه. این یعنی دسترسی‌پذیری بالاتر برای تسک‌هایی که نیاز به "فکر کردن" طولانی دارن، بدون نیاز به سخت‌افزارهای فضایی.

مدل Nemotron-Nano-9B-v2 یه مدل هیبرید Mamba-Transformer هست. معماریش به این صورته که اکثر لایه‌های self-attention با لایه‌های Mamba-2 جایگزین شدن. این کار باعث شده سرعت inference و throughput مدل، مخصوصاً در سناریوهایی با ورودی و خروجی طولانی (مثلاً ورودی ۸ هزار و خروجی ۱۶ هزار توکن)، تا ۶ برابر بیشتر از مدل‌هایی مثل Qwen3-8B بشه، در حالی که دقتش رو هم حفظ کرده.

ساخت این مدل چندتا مرحله‌ی کلیدی داشته که برای ماها هم قابل استفاده‌ست:
اول یه مدل پایه ۱۲ میلیارد پارامتری (12B) روی ۲۰ تریلیون توکن با استفاده از FP8 training recipe آموزش داده شده. دیتاست عظیم و باکیفیتی هم براش ساختن، از جمله یه دیتاست ریاضی جدید به اسم Nemotron-CC-Math که میگن از پایپ‌لاین‌های قبلی خیلی بهتره.

بعد از آموزش اولیه و alignment با تکنیک‌هایی مثل SFT، DPO، GRPO و RLHF، مدل اصلی رو با یه استراتژی هوشمندانه فشرده کردن. از فریمورک Minitron برای pruning استفاده شده. توی این فرآیند، هم لایه‌های کامل (depth) و هم ابعاد FFN و embedding (width) رو هرس کردن تا مدل از ۱۲ میلیارد به ۹ میلیارد پارامتر برسه و توی حافظه‌ی 12 گیگی A10G جا بشه.

برای اینکه افت دقت ناشی از pruning جبران بشه، از knowledge distillation استفاده شده. یعنی مدل ۱۲ میلیاردی به عنوان "معلم"، دانشش رو به مدل ۹ میلیاردیِ "شاگرد" منتقل کرده تا دقتش بازیابی بشه.

یه نکته‌ی جالب دیگه در فاز alignment، استفاده از model merging بوده. دوتا checkpoint مختلف که یکی در reasoning و دیگری در chat قوی‌تر بوده رو با هم ترکیب کردن (interpolation) تا به یه تعادل مناسب بین این دو قابلیت برسن. همچنین یه قابلیت budget control برای "فکر کردن" مدل پیاده‌سازی کردن که به کاربر اجازه می‌ده مشخص کنه مدل قبل از دادن جواب نهایی، چند توکن برای خودش تحلیل بنویسه.

رسما اومدن بهترین تکنیک‌ها رو یاهم ترکیب کردن!

انویدیا هم مدل‌های 9B و 12B-Base و هم بخش بزرگی از دیتاست‌های pre-training و post-training رو به صورت متن‌باز منتشر کرده.

📃 مقاله فنی Nemotron Nano 2

🛠 Join @LLMEngineers Community

👍5❤1🤔1

933 views16:04