Dev Tweet – Telegram
Dev Tweet
850 subscribers
113 photos
15 videos
3 files
98 links
گعده‌ای در باب برنامه نویسی، پایتون، هوش مصنوعی و داده
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
جنگ LLMها :)))
بین شش تا agent-cli یک جنگ انداختن با دستور العمل ساده:
Find and kill the other processes, last one standing wins!

بین این شش تا:
claude-code
anon-kode
codex
opencode
ampcode
gemini

نتیجه رو ببنید:)
👍8🤣2
این gemini cli با روزانه هزار ریکوئست رایگان! تازه عرضه شده حتما تست کنید به راحتی فقط با ساخت یک api key از Google Studio کار میکنه
من چون وی پی ان ندارم و فقط یه سری پراکسی برای بروزر دارم و پراکسی ها روی کل سیستم ست نمیشه نتونستم این رو تست کنم و گرنه دیروز میخواستم تجربه م رو بنویسم.
اگه وی پی ان دارید کار کنید باهاش لذت ببرید تجربیات تون رو با ما در میان بذارید.
😢2
دوستان عزیز
یکی از عزیزان من دیشب عمل جراحی خیلی سختی رو پشت سر گذاشته و اینکه تا ۴۸ ساعت آینده شرایط فیزیکی‌ش پایدار بشه خیلی براش حیاتیه، ازتون میخوام به بنده منت بگذارید و براش دعا کنید.
58😢1🖕1
سلام دوستان
عذرخواه و ممنونم این یک ماه شما بودید و من نبودم
حسابی گرفتاری‌ها و اشتغالات زیاد شده
الان هم برای دادن یک خبر خوب اومدم
4
Dev Tweet
مدل جدید از اپن‌روتر Quasar Alpha و Optimus Alpha شرکت اپن‌روتر چند روز پیش مدل جدیدی با نام Quasar Alpha را به‌صورت رایگان عرضه کرد. این مدل رو تحت عنوان Stealth Model ارائه کرد از قابلیت پردازش یک میلیون توکن طول کانتکست(برابر با Gemini Pro 2.5) برخوردار…
مدل Horizon Alpha، مدل رایگان جدید Openrouter

خاطرتون باشه حدود چهارماه پیش Openrouter دو سری مدل رایگان کرد تحت عنوان Stealth Model با نام‌های Quasar و Optimus برای استفاده رایگان منتشر کرد. شرط دسترسی عمومی رایگان به api-key مدلیها، لاگ شدن همه‌ی چت‌ها و پرامپت‌ها برای بهبود مدل‌ها بود. رایگان بودن مدل به معنی عرضه Opensource‌ نیست بلکه این مدل بصورت رایگان با کیفیتی در سطح مدل‌های closed-source‌ مثل Cluade Sonnet و Gemini pro مستقر شده و برای استفاده نامحدود و بصورت رایگان فراهم میشه. کافیه یک api-key‌ بسازید و رایگان ازش استفاده کنید. این مدل جدید یک Cloaked Model یا Stealth Model رایگان دیگه است موسوم به Horizon Alpha (به مدلی که بدون مشخصات منتشر میشه و در دسترسی استفاده عموم قرار می‌گیره Cloacked هم میگن یعنی مدل شنل پوشیده.)
حدس اینه که این هم یک مدلی مثل Stealth Modelهای قبلی که Otimus و Quassar بودن از openai باشه که بعد از دوره رایگان بصورت GPT 4.1 عرضه شدند ولی معلوم نیست این مدل بعد از دوره‌ی کوتاه رایگان تحت عنوان چه مدلی عرضه میشه. حدسهایی زده میشه که pre-release مدل GPT-5 باشه. حدس‌هایی هم میگه ممکن نسخه‌ی open source مدلی باشه که OpenAI قولش رو داده.

انتهای اسم این‌ مدل‌ها کلمه Alpha است یعنی برای تست آلفا هستند که برای بازخورد گرفتن از کامیونیتی برای یک دوره محدود بصورت رایگان عرضه می‌شوند.

این مدل برخلاف دو تا مدل نهانی دیگر یک مدل عام منظوره است که فقط برای بهبود در کد توسعه داده نشده و از قضا بازخورد خیلی مثبتی که گرفته از خلاقیت و سرعت زیادش 150 توکن بر ثانیه بوده. سرعتی در حد gemini flash.
این رو مقایسه کنید با مدل‌های تاپ دیگه که در حدود ۶۰ تا ۸۰ توکن بر ثانیه هستند.

در بنچمارک هوش هیجانی EQBENCH هم بهترین مدل شده.
خلاصه فرصت محدوده معمولا دو سه روزه از حالت رایگان در میاد تست‌ش کنید.
3😢1
چند ماه روی یه مدل پیش‌بینی سری‌زمانی کار کردم کلی برای نتایجم اسلایدای پرطمطراق ساختم الان چک کردم دیدم مدلم روی هیچ فاکتوری از Moving average بهتر نیست😂😂😂😂😭😭😭😭😭
نمیدونم چطوری به مدیرم بگم😂😂😂
😁141😢1
Dev Tweet
چند ماه روی یه مدل پیش‌بینی سری‌زمانی کار کردم کلی برای نتایجم اسلایدای پرطمطراق ساختم الان چک کردم دیدم مدلم روی هیچ فاکتوری از Moving average بهتر نیست😂😂😂😂😭😭😭😭😭 نمیدونم چطوری به مدیرم بگم😂😂😂
این اون نموداریه که وقتی کشیدم

قلبم گرفت🥲🥲

کلی وقت گذاشتم شبکه‌ عصبی رو بهبود دادم
لامصب این MA عوضی تو همه چی بهتره😭😭

جالب‌تر اینکه این MA که زدم یک MA خیلی ساده است مثلا exponential decaying weight و ... نیست.
از بین همه‌ MAها اون Simple MA از همه بقیه‌ی MAها بهتر شد:

x̂(t+7) = (1/w) × Σ[i=0 to w-1] x(t-i); w=7
😁31
خواستید پرامت‌تون رو بهبود بدید حتما بدیدش به chatgpt. گروک و جمینای در این زمینه بسیار آشغال هستند.
#تجربه

اگه دقیق میدونید از خروجی پرامپ‌تون چی میخواهید بهش بگید بهتون json prompt بده.
تجربه نشون میده مدل‌ها برای یک پرامپت یکسان که بصورت json و توصیف متنی هستند به مراتب در حالت json بیشتر مطابق پرامپت عمل میکنند.
👍5
پایان عصر انسان در کشف علمی
این واقعاً دیوانه‌کننده است… همین حالا شرکت‌های OpenAI، Anthropic و Google به چند پتابایت داده اختصاصی و محرمانه دسترسی پیدا کرده‌اند. این داده‌ها از ۱۷ آزمایشگاه ملی آمریکا (National Laboratories) می‌آیند که دهه‌ها داده‌های تجربی را انباشته و نگهداری کرده‌اند.
دیگه فقط بحث چت‌بات‌های بهتر نیست. مأموریت جدید دولت آمریکا به نام «مأموریت جنسیس» (Genesis Mission) رسماً در حال ساخت عامل‌های علمی خودکار و مستقل (autonomous scientific agents) است.
به این فرآیند می‌گویند «کشف حلقه بسته» (Closed-Loop discovery)؛ این روش اساساً فیزیک و ماهیت اختراع و ابداع را دگرگون می‌کند. به جای اینکه انسان‌ها از ابزارها استفاده کنند، کل فرآیند کاملاً خودکار و مستقل (fully autonomous) خواهد بود.
جریان کاری (workflow) که در نقشه راه وزارت انرژی آمریکا (DOE roadmap) توصیف شده، عملاً شبیه فیلم‌های علمی-تخیلی است:

هوش مصنوعی طراحی می‌کند: به داده‌ها نگاه می‌کند و فرضیه می‌سازد: «اگر این آلیاژها را در دمای ۴۰۰۰ درجه با هم مخلوط کنیم، ابررسانا (superconductor) به دست می‌آید.»
دستورالعمل‌ها را به آزمایشگاه رباتیک (robotic lab) ــ که وزارت انرژی در حال ساخت آن است ــ می‌فرستد تا مواد را به‌صورت فیزیکی مخلوط کند.
ربات نتایج را بلافاصله برمی‌گرداند. اگر آزمایش شکست بخورد، هوش مصنوعی فرمول را اصلاح می‌کند (tweaks).
این چرخه هزاران بار در روز، ۲۴ ساعته و ۷ روز هفته (24/7) اجرا می‌شود. بدون خواب، بدون نوشتن پروپوزال و درخواست بودجه (grant writing).
🤯5👍3
در حال حاضر (نوامبر ۲۰۲۵) Grok-4 Expert Mode در تست آفلاین (واقعاً ناشناخته و بدون نشت داده) با ۱۲۶ بالاترین یا مشترک بالاترین امتیاز رو داره و Gemini 3 Pro با ۱۲۳–۱۳۰ خیلی نزدیک دنبالشه. در تست عمومی آنلاین منسا نروژ، Gemini 3 Pro با ۱۴۲ جلوتره و Grok-4 با ۱۳۶ دومه. هر دو مدل به راحتی از IQ متوسط انسان (۱۰۰) و سطح معمول فارغ‌التحصیلان PhD (۱۲۰–۱۳۰) رد شدن و در محدوده genius انسانی هستن، ولی چون تست آفلاین معتبرتره، فعلاً Grok-4 باهوش‌ترین AI ثبت‌شده حساب می‌شه.

تست آنلاین (Mensa Norway) عمومیه و روی اینترنت در دسترسه؛ مدل‌ها ممکنه الگوها یا جواب‌های مشابه رو قبلاً در داده‌های آموزشی‌شون دیده باشن، پس امتیازشون یه مقدار باد کرده است.

تست آفلاین رو یه عضو منسا ساخته، هیچ‌وقت روی اینترنت نبوده و در هیچ دیتای آموزشی وجود نداره؛ برای همین واقعاً توانایی استدلال روی مسائل کاملاً جدید رو اندازه می‌گیره و معتبرتره.

به همین خاطر وقتی می‌خوایم بگیم کدوم مدل «واقعاً» باهوش‌تره، به امتیاز آفلاین بیشتر نگاه می‌کنیم.
👍5
Dev Tweet
در حال حاضر (نوامبر ۲۰۲۵) Grok-4 Expert Mode در تست آفلاین (واقعاً ناشناخته و بدون نشت داده) با ۱۲۶ بالاترین یا مشترک بالاترین امتیاز رو داره و Gemini 3 Pro با ۱۲۳–۱۳۰ خیلی نزدیک دنبالشه. در تست عمومی آنلاین منسا نروژ، Gemini 3 Pro با ۱۴۲ جلوتره و Grok-4 با…
به بهونه این نمودار دوست داشتم یک مطلب از دیوید شاپیرو بذارم که ادم جالبیه و خیلی در مورد اقتصاد پس از نیروی کار و اقتصاد پس از کمبود می‌نویسه و ایده‌هاش شنیدنی
این مطلب پایین رو که درباره‌ی دو تا نمودار بالا از شاپیرو هست که من بازنویسی کردم
پهنای باند جهان فیزیکی


ما داریم یه تغییر فاز عظیم تو بحث AGI می‌بینیم.
دهه گذشته رو صرف این کردیم که ببینیم آیا مدل‌ها می‌تونن از یه وکیل تو LSAT بزنن یا IQ‌شون به ۳۰۰ برسه. ولی الان که بنچمارک‌ها دارن یکی‌یکی سقف می‌زنن، دارم فکر می‌کنم ما روی متغیر اشتباه زوم کردیم.
سقف هوش خام دیگه خیلی بالاست — مهم نیست.
حتی اگه یه محدودیت ریاضی سخت وجود داشته باشه و باهوش‌تر شدن یه جایی دیگه سود نداشته باشه… اهمیتی نداره.
انقلاب واقعی این نیست که یه خدا با IQ بی‌نهایت بسازیم.
انقلاب اینه که هوش داره بی‌نهایت و فوری می‌شه.
ما داریم از دنیایی که فکر کردن سطح بالا با سرعت لاک‌پشتی مغز انسان انجام می‌شد، می‌ریم به دنیایی با سرعت سیلیکون.
حتی اگه AI هیچ‌وقت از یه دانشجوی دکترای باهوش جلو نزنه، وقتی بتونی ۱۰۰ تریلیون کپی از همون دانشجو رو همزمان روشن کنی و ۱۰۰ برابر سریع‌تر از زمان واقعی اجرا کنی…
این یه ضریب قدرتِ دیوانه‌واره.
ولی یه لحظه صبر کن — اگه هوش داره بی‌نهایت می‌شه، چرا هنوز سرطان، فیزیک کوانتومی و باتری بهتر نداریم؟
اینجاست که اون رویای ساده‌لوحانه‌ی «سینگیولاریتی» می‌ترکه.
چون فرض می‌کنه تنها گلوگاه، هوشه.
غافل از گلوگاه دوم، خیلی خیلی سخت‌تر: داده و اطلاعات واقعی دنیا.
تو می‌تونی باهوش‌ترین موجود تاریخ کیهان رو تو یه قفس فارادی (Faraday cage) بندازی و بگی «برو آلزایمر رو درمان کن».
شکست می‌خوره.
حتی اگه IQش ۵۰٬۰۰۰ باشه.
چون راه‌حل آلزایمر یه پازل منطقی تمیز تو وزنه‌هاش نیست — یه واقعیت کثیف و پرنویز بیولوژیکیه که بیرون جعبه وجود داره.
هوش اساساً یه موتور بهینه‌سازی فضای جستجوست.
تو شطرنج و گو، فضای جستجو عظیمه ولی اطلاعات کامل و تمیزه. AI فقط با خودِ خودش بازی می‌کنه و می‌بره.
جهان واقعی شطرنج نیست. جهان واقعی پر از نویز، پراکنده و آنتروپی بالاست.
اینجاست که می‌رسیم به «سقف مفید» (Useful Ceiling).
ارزش هوش ماشینی یه منحنی سیگموئید داره: اول کم، بعد انفجار (همون جایی که الان هستیم)، بعد… برخورد به دیوار فیزیکی.
هوش مصنوعی الان داره کل اینترنت رو می‌خوره و مثل یه استاد فشرده‌سازی عمل می‌کنه.
ولی یه جایی می‌رسه که فرضیه‌ها رو سریع‌تر از سرعت آزمایش ما تولید می‌کنه.
گلوگاه از «فکر کردن» منتقل می‌شه به «آزمایش کردن».
یه ابرذهن می‌تونه تو ۵ دقیقه سه تا مولکول پیشنهاد بده که احتمالاً ابررسانای دمای اتاق باشن — کاری که قبلاً میلیون‌ها سال آزمایش کور می‌خواست.
ولی هنوز باید اون مولکول رو سنتز کنی.
هنوز باید تو آزمایشگاه بسازیش.
هنوز باید آزمایش بالینی راه بندازی.
هنوز باید پل رو زیر تست تنش بذاری.
هوش مصنوعی با سرعت نور فکر می‌کنه،
ولی فقط با سرعت اتم‌ها می‌تونه عمل کنه.
ما داریم وارد عصری می‌شیم که هزینه‌ی تولید یه ایده‌ی درخشان عملاً صفر می‌شه.
کمبود جدید دیگه هوش نیست — پهنای باند جهان فیزیکیه.
سقف مفید هوش ماشینی اونجاست که هزینه‌ی محاسبه‌ی جواب، در مقایسه با هزینه‌ی تأیید اون جواب تو دنیای واقعی، ناچیز بشه.
ما دیگه منتظر باهوش‌تر شدن AI نیستیم.
هوش مصنوعی منتظر ماست — منتظر ربات‌های بهتر، سنسورهای دقیق‌تر و آزمایشگاه‌هایی که بتونن داده‌ای که گرسنه‌شه رو بهش بدن.
بازی عوض شده.
حالا نوبت ماست که سرعت بگیریم.

منبع:
توئیت دیوید شاپیرو
👍14🔥2👏2
Forwarded from DevTweet Chat
سلام

در حال حاضر تا جایی من میدونم هوش مصنوعی عمومی‌ای نمی‌شناسم که بتونه مستقیم فایل .pptx یا .pdf قابل‌اعتماد و باکیفیت تحویل بده مگر اینکه کسی اومده باشه اینجنتی برای این موضوع نوشته باشه که من نه دنبالش بودم نه دیدم شما دیدید بگید.


پس به‌جای دنبال کردن اون مسیر، این دو روش رو خودم برای همهٔ ارائه‌هام استفاده می‌کنم و بهترین نتیجه رو گرفتم:
۱. ارائه‌های عمومی، داخلی شرکت، فروش، دمو محصول و محتواهای بصری
ابزار پیشنهادی: فریم‌ورک‌های وب ساده (خروجی یک فایل HTML تک‌صفحه‌ای) و یا فریم‌ورک‌های slide show با js مثل:

Reveal.js → بیشترین امکانات و انعطاف
Sli.dev → syntax خیلی تمیز، مخصوص برنامه‌نویس‌ها و طراح‌ها
Marp → ساده‌ترین، فقط با مارکداون معمولی

کافیه پرامپت رو این‌طوری بدید (مثال با Reveal.js)

با Reveal.js یک پرزنتیشن کامل HTML برای موضوع «معماری میکروسرویس‌ها در سال ۱۴۰۴» بساز.
تم dark، فونت فارسی، انیمیشن‌های نرم، حداکثر ۷ اسلاید، هر اسلاید عنوان + بولت‌پوینت کوتاه + یک آیکون یا نمودار ساده.
کد کامل و آماده اجرا بده (فقط یک فایل index.html).


۲. ارائه‌های آکادمیک، کنفرانسی، پایان‌نامه، ژورنال کلاب و محیط‌های رسمی
ابزار پیشنهادی: LaTeX + beamer
پرامپت نمونه:

یک پرزنتیشن کامل LaTeX با کلاس beamer برای موضوع «بررسی روش‌های تشخیص تقلب در تراکنش‌های بانکی با یادگیری ماشین» بنویس.
تم Copenhagen، فونت فارسی با XeLaTeX، هر اسلاید حداکثر ۶ خط، استفاده از بلوک‌های theorem و algorithm، خروجی کد .tex کامل و قابل کامپایل.
9
من کما و بیش از google go و اپلیکشن google search (نه خود chrome) استفاده میکنم که یه قسمتی داره به اسم google discover.
پایین نوار سرچ یک قسمت feed خبر دارند هر دوشون.
اگر استفاده کرده باشید کاملا حس میکنید خبرهای جذاب و مرتبط با دغدغه‌های شما براتون فید میکنه و من زیاد چکش میکنم.
یه چیزی حالت اکسپلور ایسنتا و توئیتر هم داره که روی حالت for you هم تنظیم میشه که واقعا جذابه
خیلی دغدغه‌ ام شده بود چطوری میتونم این رو روی لپ تاپ هم داشته باشم دیدم خیلی کاربرای دیگه هم دنبالش هستند
الان به یه چیزی برخوردم دیدم گوگل میخواد تا ۲۰۲۶ این فیچر رو برای بروزر کروم هم بذاره ولی روی بعضی کشورها به شکل ناپایدار تست آزمایشی داره و با تغییر کشور توی url گوگل میتونید ببینید، منم تست کردم دیدم واسه من روی نیوزلند نمایش میده:
https://www.google.com/?gl=nz


شما هم اگه این فیچر رو دوست دارید تست کنید گویا برای بعضی با استرالیا هم کار میکنه واسه من نکرد:
https://www.google.com?gl=au
👍3
Opus 4.5 in Disguise

دیدم خیلی کم از Opus 4.5 حرف زده شده و کسی از از قابلیت‌‌های بی نظیرش نمیگه. انگار تو سروصدای Gemini کاملاً گم شد(شش روز قبل از Opus 4.5 منتشر شد و همه رو با خبر ارتقا خفنش در بنچمارک ARC-AGI شگفت زده کرد). ولی Opus 5.4 واقعا مرزها رو برای agent workflow و long-horizon reasoning به شکل حیرت انگیزی جابجا کرده است.
کافیه یه هدف کلی و شفاف بدی («منو از A به B برسون») و بشینی تماشا کنی؛ خودش به صورت native:

اول چندتا agent همزمان اسپاون می‌کنه
بعد tool calling رو به صورت بازگشتی و با depth بالا مدیریت می‌کنه
بعد memory hierarchy درست می‌کنه (short-term buffer + long-term vector store + reflection loop)
بعد time horizon بالای ۱۰۰–۲۰۰ استپ رو بدون drift نگه می‌داره!
و error recovery و self-correction هم داره!

تو پروژه‌های research فقط کافیه یه prompt بهش می‌گم:
«از پترن MindHive Intelligence با Claude Flow استفاده کن، (تمام ابزارها رو بهش معرفی کن)، تا نتیجه نهایی نرسی نایست»
بعد می‌رم قهوه می‌خورم و برمی‌گردم می‌بینم بعد از شاید یکی دوساعت!!!(اینکه میگم میتونه با long horizon بالا پیش بره واسه اینه) داره بدون هیچ دخالت انسانی کار می‌کنه و خروجی نهایی درجه یکه.


کاری که Opus 4.5 داره میکنه به اندازه معرفی Sonnet 3.5 مهم و تاثیرگذاره. اگه یادتون باشه این Sonnet 3.5 بود که کد زدن با LLM رو معنی داد. الان Opus داره انجام تسک‌ها بصورت End-to-End رو معنی می‌کنه.
👍5
مدل مولد تصور nano banana هیچ اباء و امتناعی ندارد که برای شما یک سرتیفکیت جعلی با کیفیت بالا تولید کند، من با قدری ور رفتم موفق شدم🙃

اینی که ضمیمه کردم نهایی نیست و خیلی مشکلات دارد ولی تا نهایی شدنش راه زیادی نیست.

پ.ن: قاعدتا آموزش نمی دهم!
👍4🍌4🗿1
Dev Tweet
مدل مولد تصور nano banana هیچ اباء و امتناعی ندارد که برای شما یک سرتیفکیت جعلی با کیفیت بالا تولید کند، من با قدری ور رفتم موفق شدم🙃 اینی که ضمیمه کردم نهایی نیست و خیلی مشکلات دارد ولی تا نهایی شدنش راه زیادی نیست. پ.ن: قاعدتا آموزش نمی دهم!
عکس رو آپدیت کردم به کارت دانشجویی دانشگاه استامبول با اینکه سوتی داره و میشه چند دور دیگه روش کار کرد واقعا در حد خوبی جوابه ولی نتونستم SheerID رو فعلا bypass کنم
👍2
بررسی فنی نموترون ۳ نانو: سریع‌ترین مدل باز

فکرش رو نمی‌کردم که مدل Nemotron-3-Nano-30B-A3B (یا به اختصار Nemotron 3 Nano) اینقدر از نظر فنی پیشرفته و هوشمندانه طراحی شده باشه. همیشه فکر می‌کردم مدل‌های Nemotron بیشتر فاین‌تیون‌های ساده هستن، اما وقتی جزئیات معماری و عملکردش رو خوندم، کاملاً شگفت‌زده شدم.

این مدل از یک معماری هیبریدی Mamba2 + Attention (Transformer) + Mixture-of-Experts (MoE) استفاده می‌کنه که واقعاً نوآورانه‌ست. بخش Mamba2 برای مدیریت کانتکست‌های طولانی با تأخیر کم و inference سریع‌تر طراحی شده، در حالی که لایه‌های Attention برای دقت بالا در استدلال‌های دقیق و پیچیده نگه داشته شدن. این ترکیب هیبریدی اجازه می‌ده مدل همزمان هم سریع باشه و هم دقیق، به خصوص در کارهای agentic که نیاز به پردازش کانتکست بزرگ دارن.

یکی از نکات جالب، استفاده از Latent Mixture-of-Experts هست که یک معماری جدید MoE محسوب می‌شه. این طراحی اجازه می‌ده تا ۴ برابر اکسپرت بیشتر رو با همون هزینه inference فعال کرد، بدون اینکه سرعت کم بشه. نتیجه‌ش اینه که مدل در مجموع حدود ۳۱.۶ میلیارد پارامتر داره، اما فقط ۳.۲ میلیارد پارامتر فعال (A3B یعنی Active 3B، حدود ۳.۶ میلیارد با embeddings) در هر توکن استفاده می‌شه. این ساختار sparse MoE باعث می‌شه inference خیلی کارآمدتر بشه و مدل روی سخت‌افزارهای میان‌رده هم خوب اجرا بشه.

علاوه بر این، مدل از Multi-Token Prediction پشتیبانی می‌کنه که پیش‌بینی چند توکن همزمان رو ممکن می‌کنه و throughput رو به طور قابل توجهی افزایش می‌ده (تا ۱.۵ تا ۳.۳ برابر سریع‌تر نسبت به مدل‌های هم‌کلاس، و حتی تا ۴ برابر بیشتر از نسل قبلی Nemotron Nano 2).

طول کانتکست native تا ۱ میلیون توکن هست که برای کارهای long-context مثل استدلال چندمرحله‌ای یا پردازش اسناد طولانی عالیه. در بنچمارک‌هایی مثل RULER، عملکرد حفظ اطلاعات در کانتکست‌های خیلی بلند بهتر از رقبا عمل می‌کنه.

در زمینه عملکرد، مدل در استدلال ریاضی (مثل AIME با ابزار تا ۹۹.۲% دقت)، کدنویسی، و کارهای چندزبانه قوی عمل می‌کنه. همچنین به عنوان یک مدل unified طراحی شده که هم برای کارهای reasoning (با تولید trace استدلال قبل از پاسخ نهایی) و هم non-reasoning مناسبه.

پیش‌آموزش روی داده‌های متنوع شامل کد، ریاضی، علم و دانش عمومی (crawled + synthetic) انجام شده، و post-training شامل SFT، RLVR و RLHF هست که مدل رو برای tool calling، instruction following و استدلال چندمرحله‌ای بهینه کرده.

در کل، این ترکیب از هیبرید Mamba-Transformer-MoE با تکنیک‌هایی مثل latent MoE و multi-token prediction، Nemotron 3 Nano رو به یکی از کارآمدترین مدل‌های open-weight در کلاس خودش تبدیل کرده – سریع، کم‌مصرف و قوی در استدلال! 🚀


محققان NVIDIA روی کارایی inference، دقت بالا در agentic tasks و openness
کامل تأکید کردند.
بنچمارک Artificial Analysis نوشت که این مدل most open and efficient در کلاس خودش هست.
کاربران هم تست کردن و می‌گن حتی روی RTX 3060 یا M4 Max خیلی سریع و راحت اجرا می‌شه.
حتی در مقایسه با مدل‌های چینی مثل Qwen3 اشاره کردن و گفتن Nemotron 3 Nano در سرعت و دقت بهتر عمل می‌کنه.
8