Dev Tweet
چند ماه روی یه مدل پیشبینی سریزمانی کار کردم کلی برای نتایجم اسلایدای پرطمطراق ساختم الان چک کردم دیدم مدلم روی هیچ فاکتوری از Moving average بهتر نیست😂😂😂😂😭😭😭😭😭 نمیدونم چطوری به مدیرم بگم😂😂😂
این اون نموداریه که وقتی کشیدم
قلبم گرفت🥲🥲
کلی وقت گذاشتم شبکه عصبی رو بهبود دادم
لامصب این MA عوضی تو همه چی بهتره😭😭
جالبتر اینکه این MA که زدم یک MA خیلی ساده است مثلا exponential decaying weight و ... نیست.
از بین همه MAها اون Simple MA از همه بقیهی MAها بهتر شد:
قلبم گرفت🥲🥲
کلی وقت گذاشتم شبکه عصبی رو بهبود دادم
لامصب این MA عوضی تو همه چی بهتره😭😭
جالبتر اینکه این MA که زدم یک MA خیلی ساده است مثلا exponential decaying weight و ... نیست.
از بین همه MAها اون Simple MA از همه بقیهی MAها بهتر شد:
x̂(t+7) = (1/w) × Σ[i=0 to w-1] x(t-i); w=7
😁3❤1
خواستید پرامتتون رو بهبود بدید حتما بدیدش به chatgpt. گروک و جمینای در این زمینه بسیار آشغال هستند.
#تجربه
اگه دقیق میدونید از خروجی پرامپتون چی میخواهید بهش بگید بهتون json prompt بده.
تجربه نشون میده مدلها برای یک پرامپت یکسان که بصورت json و توصیف متنی هستند به مراتب در حالت json بیشتر مطابق پرامپت عمل میکنند.
#تجربه
اگه دقیق میدونید از خروجی پرامپتون چی میخواهید بهش بگید بهتون json prompt بده.
تجربه نشون میده مدلها برای یک پرامپت یکسان که بصورت json و توصیف متنی هستند به مراتب در حالت json بیشتر مطابق پرامپت عمل میکنند.
👍5
پایان عصر انسان در کشف علمی
این واقعاً دیوانهکننده است… همین حالا شرکتهای OpenAI، Anthropic و Google به چند پتابایت داده اختصاصی و محرمانه دسترسی پیدا کردهاند. این دادهها از ۱۷ آزمایشگاه ملی آمریکا (National Laboratories) میآیند که دههها دادههای تجربی را انباشته و نگهداری کردهاند.
دیگه فقط بحث چتباتهای بهتر نیست. مأموریت جدید دولت آمریکا به نام «مأموریت جنسیس» (Genesis Mission) رسماً در حال ساخت عاملهای علمی خودکار و مستقل (autonomous scientific agents) است.
به این فرآیند میگویند «کشف حلقه بسته» (Closed-Loop discovery)؛ این روش اساساً فیزیک و ماهیت اختراع و ابداع را دگرگون میکند. به جای اینکه انسانها از ابزارها استفاده کنند، کل فرآیند کاملاً خودکار و مستقل (fully autonomous) خواهد بود.
جریان کاری (workflow) که در نقشه راه وزارت انرژی آمریکا (DOE roadmap) توصیف شده، عملاً شبیه فیلمهای علمی-تخیلی است:
هوش مصنوعی طراحی میکند: به دادهها نگاه میکند و فرضیه میسازد: «اگر این آلیاژها را در دمای ۴۰۰۰ درجه با هم مخلوط کنیم، ابررسانا (superconductor) به دست میآید.»
دستورالعملها را به آزمایشگاه رباتیک (robotic lab) ــ که وزارت انرژی در حال ساخت آن است ــ میفرستد تا مواد را بهصورت فیزیکی مخلوط کند.
ربات نتایج را بلافاصله برمیگرداند. اگر آزمایش شکست بخورد، هوش مصنوعی فرمول را اصلاح میکند (tweaks).
این چرخه هزاران بار در روز، ۲۴ ساعته و ۷ روز هفته (24/7) اجرا میشود. بدون خواب، بدون نوشتن پروپوزال و درخواست بودجه (grant writing).
این واقعاً دیوانهکننده است… همین حالا شرکتهای OpenAI، Anthropic و Google به چند پتابایت داده اختصاصی و محرمانه دسترسی پیدا کردهاند. این دادهها از ۱۷ آزمایشگاه ملی آمریکا (National Laboratories) میآیند که دههها دادههای تجربی را انباشته و نگهداری کردهاند.
دیگه فقط بحث چتباتهای بهتر نیست. مأموریت جدید دولت آمریکا به نام «مأموریت جنسیس» (Genesis Mission) رسماً در حال ساخت عاملهای علمی خودکار و مستقل (autonomous scientific agents) است.
به این فرآیند میگویند «کشف حلقه بسته» (Closed-Loop discovery)؛ این روش اساساً فیزیک و ماهیت اختراع و ابداع را دگرگون میکند. به جای اینکه انسانها از ابزارها استفاده کنند، کل فرآیند کاملاً خودکار و مستقل (fully autonomous) خواهد بود.
جریان کاری (workflow) که در نقشه راه وزارت انرژی آمریکا (DOE roadmap) توصیف شده، عملاً شبیه فیلمهای علمی-تخیلی است:
هوش مصنوعی طراحی میکند: به دادهها نگاه میکند و فرضیه میسازد: «اگر این آلیاژها را در دمای ۴۰۰۰ درجه با هم مخلوط کنیم، ابررسانا (superconductor) به دست میآید.»
دستورالعملها را به آزمایشگاه رباتیک (robotic lab) ــ که وزارت انرژی در حال ساخت آن است ــ میفرستد تا مواد را بهصورت فیزیکی مخلوط کند.
ربات نتایج را بلافاصله برمیگرداند. اگر آزمایش شکست بخورد، هوش مصنوعی فرمول را اصلاح میکند (tweaks).
این چرخه هزاران بار در روز، ۲۴ ساعته و ۷ روز هفته (24/7) اجرا میشود. بدون خواب، بدون نوشتن پروپوزال و درخواست بودجه (grant writing).
🤯5👍3
در حال حاضر (نوامبر ۲۰۲۵) Grok-4 Expert Mode در تست آفلاین (واقعاً ناشناخته و بدون نشت داده) با ۱۲۶ بالاترین یا مشترک بالاترین امتیاز رو داره و Gemini 3 Pro با ۱۲۳–۱۳۰ خیلی نزدیک دنبالشه. در تست عمومی آنلاین منسا نروژ، Gemini 3 Pro با ۱۴۲ جلوتره و Grok-4 با ۱۳۶ دومه. هر دو مدل به راحتی از IQ متوسط انسان (۱۰۰) و سطح معمول فارغالتحصیلان PhD (۱۲۰–۱۳۰) رد شدن و در محدوده genius انسانی هستن، ولی چون تست آفلاین معتبرتره، فعلاً Grok-4 باهوشترین AI ثبتشده حساب میشه.
تست آنلاین (Mensa Norway) عمومیه و روی اینترنت در دسترسه؛ مدلها ممکنه الگوها یا جوابهای مشابه رو قبلاً در دادههای آموزشیشون دیده باشن، پس امتیازشون یه مقدار باد کرده است.
تست آفلاین رو یه عضو منسا ساخته، هیچوقت روی اینترنت نبوده و در هیچ دیتای آموزشی وجود نداره؛ برای همین واقعاً توانایی استدلال روی مسائل کاملاً جدید رو اندازه میگیره و معتبرتره.
به همین خاطر وقتی میخوایم بگیم کدوم مدل «واقعاً» باهوشتره، به امتیاز آفلاین بیشتر نگاه میکنیم.
تست آنلاین (Mensa Norway) عمومیه و روی اینترنت در دسترسه؛ مدلها ممکنه الگوها یا جوابهای مشابه رو قبلاً در دادههای آموزشیشون دیده باشن، پس امتیازشون یه مقدار باد کرده است.
تست آفلاین رو یه عضو منسا ساخته، هیچوقت روی اینترنت نبوده و در هیچ دیتای آموزشی وجود نداره؛ برای همین واقعاً توانایی استدلال روی مسائل کاملاً جدید رو اندازه میگیره و معتبرتره.
به همین خاطر وقتی میخوایم بگیم کدوم مدل «واقعاً» باهوشتره، به امتیاز آفلاین بیشتر نگاه میکنیم.
👍5
Dev Tweet
در حال حاضر (نوامبر ۲۰۲۵) Grok-4 Expert Mode در تست آفلاین (واقعاً ناشناخته و بدون نشت داده) با ۱۲۶ بالاترین یا مشترک بالاترین امتیاز رو داره و Gemini 3 Pro با ۱۲۳–۱۳۰ خیلی نزدیک دنبالشه. در تست عمومی آنلاین منسا نروژ، Gemini 3 Pro با ۱۴۲ جلوتره و Grok-4 با…
به بهونه این نمودار دوست داشتم یک مطلب از دیوید شاپیرو بذارم که ادم جالبیه و خیلی در مورد اقتصاد پس از نیروی کار و اقتصاد پس از کمبود مینویسه و ایدههاش شنیدنی
این مطلب پایین رو که دربارهی دو تا نمودار بالا از شاپیرو هست که من بازنویسی کردم
این مطلب پایین رو که دربارهی دو تا نمودار بالا از شاپیرو هست که من بازنویسی کردم
پهنای باند جهان فیزیکی
ما داریم یه تغییر فاز عظیم تو بحث AGI میبینیم.
دهه گذشته رو صرف این کردیم که ببینیم آیا مدلها میتونن از یه وکیل تو LSAT بزنن یا IQشون به ۳۰۰ برسه. ولی الان که بنچمارکها دارن یکییکی سقف میزنن، دارم فکر میکنم ما روی متغیر اشتباه زوم کردیم.
سقف هوش خام دیگه خیلی بالاست — مهم نیست.
حتی اگه یه محدودیت ریاضی سخت وجود داشته باشه و باهوشتر شدن یه جایی دیگه سود نداشته باشه… اهمیتی نداره.
انقلاب واقعی این نیست که یه خدا با IQ بینهایت بسازیم.
انقلاب اینه که هوش داره بینهایت و فوری میشه.
ما داریم از دنیایی که فکر کردن سطح بالا با سرعت لاکپشتی مغز انسان انجام میشد، میریم به دنیایی با سرعت سیلیکون.
حتی اگه AI هیچوقت از یه دانشجوی دکترای باهوش جلو نزنه، وقتی بتونی ۱۰۰ تریلیون کپی از همون دانشجو رو همزمان روشن کنی و ۱۰۰ برابر سریعتر از زمان واقعی اجرا کنی…
این یه ضریب قدرتِ دیوانهواره.
ولی یه لحظه صبر کن — اگه هوش داره بینهایت میشه، چرا هنوز سرطان، فیزیک کوانتومی و باتری بهتر نداریم؟
اینجاست که اون رویای سادهلوحانهی «سینگیولاریتی» میترکه.
چون فرض میکنه تنها گلوگاه، هوشه.
غافل از گلوگاه دوم، خیلی خیلی سختتر: داده و اطلاعات واقعی دنیا.
تو میتونی باهوشترین موجود تاریخ کیهان رو تو یه قفس فارادی (Faraday cage) بندازی و بگی «برو آلزایمر رو درمان کن».
شکست میخوره.
حتی اگه IQش ۵۰٬۰۰۰ باشه.
چون راهحل آلزایمر یه پازل منطقی تمیز تو وزنههاش نیست — یه واقعیت کثیف و پرنویز بیولوژیکیه که بیرون جعبه وجود داره.
هوش اساساً یه موتور بهینهسازی فضای جستجوست.
تو شطرنج و گو، فضای جستجو عظیمه ولی اطلاعات کامل و تمیزه. AI فقط با خودِ خودش بازی میکنه و میبره.
جهان واقعی شطرنج نیست. جهان واقعی پر از نویز، پراکنده و آنتروپی بالاست.
اینجاست که میرسیم به «سقف مفید» (Useful Ceiling).
ارزش هوش ماشینی یه منحنی سیگموئید داره: اول کم، بعد انفجار (همون جایی که الان هستیم)، بعد… برخورد به دیوار فیزیکی.
هوش مصنوعی الان داره کل اینترنت رو میخوره و مثل یه استاد فشردهسازی عمل میکنه.
ولی یه جایی میرسه که فرضیهها رو سریعتر از سرعت آزمایش ما تولید میکنه.
گلوگاه از «فکر کردن» منتقل میشه به «آزمایش کردن».
یه ابرذهن میتونه تو ۵ دقیقه سه تا مولکول پیشنهاد بده که احتمالاً ابررسانای دمای اتاق باشن — کاری که قبلاً میلیونها سال آزمایش کور میخواست.
ولی هنوز باید اون مولکول رو سنتز کنی.
هنوز باید تو آزمایشگاه بسازیش.
هنوز باید آزمایش بالینی راه بندازی.
هنوز باید پل رو زیر تست تنش بذاری.
هوش مصنوعی با سرعت نور فکر میکنه،
ولی فقط با سرعت اتمها میتونه عمل کنه.
ما داریم وارد عصری میشیم که هزینهی تولید یه ایدهی درخشان عملاً صفر میشه.
کمبود جدید دیگه هوش نیست — پهنای باند جهان فیزیکیه.
سقف مفید هوش ماشینی اونجاست که هزینهی محاسبهی جواب، در مقایسه با هزینهی تأیید اون جواب تو دنیای واقعی، ناچیز بشه.
ما دیگه منتظر باهوشتر شدن AI نیستیم.
هوش مصنوعی منتظر ماست — منتظر رباتهای بهتر، سنسورهای دقیقتر و آزمایشگاههایی که بتونن دادهای که گرسنهشه رو بهش بدن.
بازی عوض شده.
حالا نوبت ماست که سرعت بگیریم.
منبع:
توئیت دیوید شاپیرو
ما داریم یه تغییر فاز عظیم تو بحث AGI میبینیم.
دهه گذشته رو صرف این کردیم که ببینیم آیا مدلها میتونن از یه وکیل تو LSAT بزنن یا IQشون به ۳۰۰ برسه. ولی الان که بنچمارکها دارن یکییکی سقف میزنن، دارم فکر میکنم ما روی متغیر اشتباه زوم کردیم.
سقف هوش خام دیگه خیلی بالاست — مهم نیست.
حتی اگه یه محدودیت ریاضی سخت وجود داشته باشه و باهوشتر شدن یه جایی دیگه سود نداشته باشه… اهمیتی نداره.
انقلاب واقعی این نیست که یه خدا با IQ بینهایت بسازیم.
انقلاب اینه که هوش داره بینهایت و فوری میشه.
ما داریم از دنیایی که فکر کردن سطح بالا با سرعت لاکپشتی مغز انسان انجام میشد، میریم به دنیایی با سرعت سیلیکون.
حتی اگه AI هیچوقت از یه دانشجوی دکترای باهوش جلو نزنه، وقتی بتونی ۱۰۰ تریلیون کپی از همون دانشجو رو همزمان روشن کنی و ۱۰۰ برابر سریعتر از زمان واقعی اجرا کنی…
این یه ضریب قدرتِ دیوانهواره.
ولی یه لحظه صبر کن — اگه هوش داره بینهایت میشه، چرا هنوز سرطان، فیزیک کوانتومی و باتری بهتر نداریم؟
اینجاست که اون رویای سادهلوحانهی «سینگیولاریتی» میترکه.
چون فرض میکنه تنها گلوگاه، هوشه.
غافل از گلوگاه دوم، خیلی خیلی سختتر: داده و اطلاعات واقعی دنیا.
تو میتونی باهوشترین موجود تاریخ کیهان رو تو یه قفس فارادی (Faraday cage) بندازی و بگی «برو آلزایمر رو درمان کن».
شکست میخوره.
حتی اگه IQش ۵۰٬۰۰۰ باشه.
چون راهحل آلزایمر یه پازل منطقی تمیز تو وزنههاش نیست — یه واقعیت کثیف و پرنویز بیولوژیکیه که بیرون جعبه وجود داره.
هوش اساساً یه موتور بهینهسازی فضای جستجوست.
تو شطرنج و گو، فضای جستجو عظیمه ولی اطلاعات کامل و تمیزه. AI فقط با خودِ خودش بازی میکنه و میبره.
جهان واقعی شطرنج نیست. جهان واقعی پر از نویز، پراکنده و آنتروپی بالاست.
اینجاست که میرسیم به «سقف مفید» (Useful Ceiling).
ارزش هوش ماشینی یه منحنی سیگموئید داره: اول کم، بعد انفجار (همون جایی که الان هستیم)، بعد… برخورد به دیوار فیزیکی.
هوش مصنوعی الان داره کل اینترنت رو میخوره و مثل یه استاد فشردهسازی عمل میکنه.
ولی یه جایی میرسه که فرضیهها رو سریعتر از سرعت آزمایش ما تولید میکنه.
گلوگاه از «فکر کردن» منتقل میشه به «آزمایش کردن».
یه ابرذهن میتونه تو ۵ دقیقه سه تا مولکول پیشنهاد بده که احتمالاً ابررسانای دمای اتاق باشن — کاری که قبلاً میلیونها سال آزمایش کور میخواست.
ولی هنوز باید اون مولکول رو سنتز کنی.
هنوز باید تو آزمایشگاه بسازیش.
هنوز باید آزمایش بالینی راه بندازی.
هنوز باید پل رو زیر تست تنش بذاری.
هوش مصنوعی با سرعت نور فکر میکنه،
ولی فقط با سرعت اتمها میتونه عمل کنه.
ما داریم وارد عصری میشیم که هزینهی تولید یه ایدهی درخشان عملاً صفر میشه.
کمبود جدید دیگه هوش نیست — پهنای باند جهان فیزیکیه.
سقف مفید هوش ماشینی اونجاست که هزینهی محاسبهی جواب، در مقایسه با هزینهی تأیید اون جواب تو دنیای واقعی، ناچیز بشه.
ما دیگه منتظر باهوشتر شدن AI نیستیم.
هوش مصنوعی منتظر ماست — منتظر رباتهای بهتر، سنسورهای دقیقتر و آزمایشگاههایی که بتونن دادهای که گرسنهشه رو بهش بدن.
بازی عوض شده.
حالا نوبت ماست که سرعت بگیریم.
منبع:
توئیت دیوید شاپیرو
👍14🔥2👏2
Forwarded from DevTweet Chat
سلام
در حال حاضر تا جایی من میدونم هوش مصنوعی عمومیای نمیشناسم که بتونه مستقیم فایل .pptx یا .pdf قابلاعتماد و باکیفیت تحویل بده مگر اینکه کسی اومده باشه اینجنتی برای این موضوع نوشته باشه که من نه دنبالش بودم نه دیدم شما دیدید بگید.
پس بهجای دنبال کردن اون مسیر، این دو روش رو خودم برای همهٔ ارائههام استفاده میکنم و بهترین نتیجه رو گرفتم:
۱. ارائههای عمومی، داخلی شرکت، فروش، دمو محصول و محتواهای بصری
ابزار پیشنهادی: فریمورکهای وب ساده (خروجی یک فایل HTML تکصفحهای) و یا فریمورکهای slide show با js مثل:
Reveal.js → بیشترین امکانات و انعطاف
Sli.dev → syntax خیلی تمیز، مخصوص برنامهنویسها و طراحها
Marp → سادهترین، فقط با مارکداون معمولی
کافیه پرامپت رو اینطوری بدید (مثال با Reveal.js)
۲. ارائههای آکادمیک، کنفرانسی، پایاننامه، ژورنال کلاب و محیطهای رسمی
ابزار پیشنهادی: LaTeX + beamer
پرامپت نمونه:
در حال حاضر تا جایی من میدونم هوش مصنوعی عمومیای نمیشناسم که بتونه مستقیم فایل .pptx یا .pdf قابلاعتماد و باکیفیت تحویل بده مگر اینکه کسی اومده باشه اینجنتی برای این موضوع نوشته باشه که من نه دنبالش بودم نه دیدم شما دیدید بگید.
پس بهجای دنبال کردن اون مسیر، این دو روش رو خودم برای همهٔ ارائههام استفاده میکنم و بهترین نتیجه رو گرفتم:
۱. ارائههای عمومی، داخلی شرکت، فروش، دمو محصول و محتواهای بصری
ابزار پیشنهادی: فریمورکهای وب ساده (خروجی یک فایل HTML تکصفحهای) و یا فریمورکهای slide show با js مثل:
Reveal.js → بیشترین امکانات و انعطاف
Sli.dev → syntax خیلی تمیز، مخصوص برنامهنویسها و طراحها
Marp → سادهترین، فقط با مارکداون معمولی
کافیه پرامپت رو اینطوری بدید (مثال با Reveal.js)
با Reveal.js یک پرزنتیشن کامل HTML برای موضوع «معماری میکروسرویسها در سال ۱۴۰۴» بساز.
تم dark، فونت فارسی، انیمیشنهای نرم، حداکثر ۷ اسلاید، هر اسلاید عنوان + بولتپوینت کوتاه + یک آیکون یا نمودار ساده.
کد کامل و آماده اجرا بده (فقط یک فایل index.html).
۲. ارائههای آکادمیک، کنفرانسی، پایاننامه، ژورنال کلاب و محیطهای رسمی
ابزار پیشنهادی: LaTeX + beamer
پرامپت نمونه:
یک پرزنتیشن کامل LaTeX با کلاس beamer برای موضوع «بررسی روشهای تشخیص تقلب در تراکنشهای بانکی با یادگیری ماشین» بنویس.
تم Copenhagen، فونت فارسی با XeLaTeX، هر اسلاید حداکثر ۶ خط، استفاده از بلوکهای theorem و algorithm، خروجی کد .tex کامل و قابل کامپایل.
❤9
DevTweet Chat
سلام در حال حاضر تا جایی من میدونم هوش مصنوعی عمومیای نمیشناسم که بتونه مستقیم فایل .pptx یا .pdf قابلاعتماد و باکیفیت تحویل بده مگر اینکه کسی اومده باشه اینجنتی برای این موضوع نوشته باشه که من نه دنبالش بودم نه دیدم شما دیدید بگید. پس بهجای دنبال…
در جواب یکی از دوستان که در مورد ساختن اسلاید پرسیده بودند
❤4
من کما و بیش از google go و اپلیکشن google search (نه خود chrome) استفاده میکنم که یه قسمتی داره به اسم google discover.
پایین نوار سرچ یک قسمت feed خبر دارند هر دوشون.
اگر استفاده کرده باشید کاملا حس میکنید خبرهای جذاب و مرتبط با دغدغههای شما براتون فید میکنه و من زیاد چکش میکنم.
یه چیزی حالت اکسپلور ایسنتا و توئیتر هم داره که روی حالت for you هم تنظیم میشه که واقعا جذابه
خیلی دغدغه ام شده بود چطوری میتونم این رو روی لپ تاپ هم داشته باشم دیدم خیلی کاربرای دیگه هم دنبالش هستند
الان به یه چیزی برخوردم دیدم گوگل میخواد تا ۲۰۲۶ این فیچر رو برای بروزر کروم هم بذاره ولی روی بعضی کشورها به شکل ناپایدار تست آزمایشی داره و با تغییر کشور توی url گوگل میتونید ببینید، منم تست کردم دیدم واسه من روی نیوزلند نمایش میده:
https://www.google.com/?gl=nz
شما هم اگه این فیچر رو دوست دارید تست کنید گویا برای بعضی با استرالیا هم کار میکنه واسه من نکرد:
https://www.google.com?gl=au
پایین نوار سرچ یک قسمت feed خبر دارند هر دوشون.
اگر استفاده کرده باشید کاملا حس میکنید خبرهای جذاب و مرتبط با دغدغههای شما براتون فید میکنه و من زیاد چکش میکنم.
یه چیزی حالت اکسپلور ایسنتا و توئیتر هم داره که روی حالت for you هم تنظیم میشه که واقعا جذابه
خیلی دغدغه ام شده بود چطوری میتونم این رو روی لپ تاپ هم داشته باشم دیدم خیلی کاربرای دیگه هم دنبالش هستند
الان به یه چیزی برخوردم دیدم گوگل میخواد تا ۲۰۲۶ این فیچر رو برای بروزر کروم هم بذاره ولی روی بعضی کشورها به شکل ناپایدار تست آزمایشی داره و با تغییر کشور توی url گوگل میتونید ببینید، منم تست کردم دیدم واسه من روی نیوزلند نمایش میده:
https://www.google.com/?gl=nz
شما هم اگه این فیچر رو دوست دارید تست کنید گویا برای بعضی با استرالیا هم کار میکنه واسه من نکرد:
https://www.google.com?gl=au
👍3
Opus 4.5 in Disguise
دیدم خیلی کم از Opus 4.5 حرف زده شده و کسی از از قابلیتهای بی نظیرش نمیگه. انگار تو سروصدای Gemini کاملاً گم شد(شش روز قبل از Opus 4.5 منتشر شد و همه رو با خبر ارتقا خفنش در بنچمارک ARC-AGI شگفت زده کرد). ولی Opus 5.4 واقعا مرزها رو برای agent workflow و long-horizon reasoning به شکل حیرت انگیزی جابجا کرده است.
کافیه یه هدف کلی و شفاف بدی («منو از A به B برسون») و بشینی تماشا کنی؛ خودش به صورت native:
اول چندتا agent همزمان اسپاون میکنه
بعد tool calling رو به صورت بازگشتی و با depth بالا مدیریت میکنه
بعد memory hierarchy درست میکنه (short-term buffer + long-term vector store + reflection loop)
بعد time horizon بالای ۱۰۰–۲۰۰ استپ رو بدون drift نگه میداره!
و error recovery و self-correction هم داره!
تو پروژههای research فقط کافیه یه prompt بهش میگم:
«از پترن MindHive Intelligence با Claude Flow استفاده کن، (تمام ابزارها رو بهش معرفی کن)، تا نتیجه نهایی نرسی نایست»
بعد میرم قهوه میخورم و برمیگردم میبینم بعد از شاید یکی دوساعت!!!(اینکه میگم میتونه با long horizon بالا پیش بره واسه اینه) داره بدون هیچ دخالت انسانی کار میکنه و خروجی نهایی درجه یکه.
کاری که Opus 4.5 داره میکنه به اندازه معرفی Sonnet 3.5 مهم و تاثیرگذاره. اگه یادتون باشه این Sonnet 3.5 بود که کد زدن با LLM رو معنی داد. الان Opus داره انجام تسکها بصورت End-to-End رو معنی میکنه.
دیدم خیلی کم از Opus 4.5 حرف زده شده و کسی از از قابلیتهای بی نظیرش نمیگه. انگار تو سروصدای Gemini کاملاً گم شد(شش روز قبل از Opus 4.5 منتشر شد و همه رو با خبر ارتقا خفنش در بنچمارک ARC-AGI شگفت زده کرد). ولی Opus 5.4 واقعا مرزها رو برای agent workflow و long-horizon reasoning به شکل حیرت انگیزی جابجا کرده است.
کافیه یه هدف کلی و شفاف بدی («منو از A به B برسون») و بشینی تماشا کنی؛ خودش به صورت native:
اول چندتا agent همزمان اسپاون میکنه
بعد tool calling رو به صورت بازگشتی و با depth بالا مدیریت میکنه
بعد memory hierarchy درست میکنه (short-term buffer + long-term vector store + reflection loop)
بعد time horizon بالای ۱۰۰–۲۰۰ استپ رو بدون drift نگه میداره!
و error recovery و self-correction هم داره!
تو پروژههای research فقط کافیه یه prompt بهش میگم:
«از پترن MindHive Intelligence با Claude Flow استفاده کن، (تمام ابزارها رو بهش معرفی کن)، تا نتیجه نهایی نرسی نایست»
بعد میرم قهوه میخورم و برمیگردم میبینم بعد از شاید یکی دوساعت!!!(اینکه میگم میتونه با long horizon بالا پیش بره واسه اینه) داره بدون هیچ دخالت انسانی کار میکنه و خروجی نهایی درجه یکه.
کاری که Opus 4.5 داره میکنه به اندازه معرفی Sonnet 3.5 مهم و تاثیرگذاره. اگه یادتون باشه این Sonnet 3.5 بود که کد زدن با LLM رو معنی داد. الان Opus داره انجام تسکها بصورت End-to-End رو معنی میکنه.
👍5
Dev Tweet
مدل مولد تصور nano banana هیچ اباء و امتناعی ندارد که برای شما یک سرتیفکیت جعلی با کیفیت بالا تولید کند، من با قدری ور رفتم موفق شدم🙃 اینی که ضمیمه کردم نهایی نیست و خیلی مشکلات دارد ولی تا نهایی شدنش راه زیادی نیست. پ.ن: قاعدتا آموزش نمی دهم!
عکس رو آپدیت کردم به کارت دانشجویی دانشگاه استامبول با اینکه سوتی داره و میشه چند دور دیگه روش کار کرد واقعا در حد خوبی جوابه ولی نتونستم SheerID رو فعلا bypass کنم
👍2
بررسی فنی نموترون ۳ نانو: سریعترین مدل باز
فکرش رو نمیکردم که مدل Nemotron-3-Nano-30B-A3B (یا به اختصار Nemotron 3 Nano) اینقدر از نظر فنی پیشرفته و هوشمندانه طراحی شده باشه. همیشه فکر میکردم مدلهای Nemotron بیشتر فاینتیونهای ساده هستن، اما وقتی جزئیات معماری و عملکردش رو خوندم، کاملاً شگفتزده شدم.
این مدل از یک معماری هیبریدی Mamba2 + Attention (Transformer) + Mixture-of-Experts (MoE) استفاده میکنه که واقعاً نوآورانهست. بخش Mamba2 برای مدیریت کانتکستهای طولانی با تأخیر کم و inference سریعتر طراحی شده، در حالی که لایههای Attention برای دقت بالا در استدلالهای دقیق و پیچیده نگه داشته شدن. این ترکیب هیبریدی اجازه میده مدل همزمان هم سریع باشه و هم دقیق، به خصوص در کارهای agentic که نیاز به پردازش کانتکست بزرگ دارن.
یکی از نکات جالب، استفاده از Latent Mixture-of-Experts هست که یک معماری جدید MoE محسوب میشه. این طراحی اجازه میده تا ۴ برابر اکسپرت بیشتر رو با همون هزینه inference فعال کرد، بدون اینکه سرعت کم بشه. نتیجهش اینه که مدل در مجموع حدود ۳۱.۶ میلیارد پارامتر داره، اما فقط ۳.۲ میلیارد پارامتر فعال (A3B یعنی Active 3B، حدود ۳.۶ میلیارد با embeddings) در هر توکن استفاده میشه. این ساختار sparse MoE باعث میشه inference خیلی کارآمدتر بشه و مدل روی سختافزارهای میانرده هم خوب اجرا بشه.
علاوه بر این، مدل از Multi-Token Prediction پشتیبانی میکنه که پیشبینی چند توکن همزمان رو ممکن میکنه و throughput رو به طور قابل توجهی افزایش میده (تا ۱.۵ تا ۳.۳ برابر سریعتر نسبت به مدلهای همکلاس، و حتی تا ۴ برابر بیشتر از نسل قبلی Nemotron Nano 2).
طول کانتکست native تا ۱ میلیون توکن هست که برای کارهای long-context مثل استدلال چندمرحلهای یا پردازش اسناد طولانی عالیه. در بنچمارکهایی مثل RULER، عملکرد حفظ اطلاعات در کانتکستهای خیلی بلند بهتر از رقبا عمل میکنه.
در زمینه عملکرد، مدل در استدلال ریاضی (مثل AIME با ابزار تا ۹۹.۲% دقت)، کدنویسی، و کارهای چندزبانه قوی عمل میکنه. همچنین به عنوان یک مدل unified طراحی شده که هم برای کارهای reasoning (با تولید trace استدلال قبل از پاسخ نهایی) و هم non-reasoning مناسبه.
پیشآموزش روی دادههای متنوع شامل کد، ریاضی، علم و دانش عمومی (crawled + synthetic) انجام شده، و post-training شامل SFT، RLVR و RLHF هست که مدل رو برای tool calling، instruction following و استدلال چندمرحلهای بهینه کرده.
در کل، این ترکیب از هیبرید Mamba-Transformer-MoE با تکنیکهایی مثل latent MoE و multi-token prediction، Nemotron 3 Nano رو به یکی از کارآمدترین مدلهای open-weight در کلاس خودش تبدیل کرده – سریع، کممصرف و قوی در استدلال! 🚀
محققان NVIDIA روی کارایی inference، دقت بالا در agentic tasks و openness
کامل تأکید کردند.
بنچمارک Artificial Analysis نوشت که این مدل most open and efficient در کلاس خودش هست.
کاربران هم تست کردن و میگن حتی روی RTX 3060 یا M4 Max خیلی سریع و راحت اجرا میشه.
حتی در مقایسه با مدلهای چینی مثل Qwen3 اشاره کردن و گفتن Nemotron 3 Nano در سرعت و دقت بهتر عمل میکنه.
فکرش رو نمیکردم که مدل Nemotron-3-Nano-30B-A3B (یا به اختصار Nemotron 3 Nano) اینقدر از نظر فنی پیشرفته و هوشمندانه طراحی شده باشه. همیشه فکر میکردم مدلهای Nemotron بیشتر فاینتیونهای ساده هستن، اما وقتی جزئیات معماری و عملکردش رو خوندم، کاملاً شگفتزده شدم.
این مدل از یک معماری هیبریدی Mamba2 + Attention (Transformer) + Mixture-of-Experts (MoE) استفاده میکنه که واقعاً نوآورانهست. بخش Mamba2 برای مدیریت کانتکستهای طولانی با تأخیر کم و inference سریعتر طراحی شده، در حالی که لایههای Attention برای دقت بالا در استدلالهای دقیق و پیچیده نگه داشته شدن. این ترکیب هیبریدی اجازه میده مدل همزمان هم سریع باشه و هم دقیق، به خصوص در کارهای agentic که نیاز به پردازش کانتکست بزرگ دارن.
یکی از نکات جالب، استفاده از Latent Mixture-of-Experts هست که یک معماری جدید MoE محسوب میشه. این طراحی اجازه میده تا ۴ برابر اکسپرت بیشتر رو با همون هزینه inference فعال کرد، بدون اینکه سرعت کم بشه. نتیجهش اینه که مدل در مجموع حدود ۳۱.۶ میلیارد پارامتر داره، اما فقط ۳.۲ میلیارد پارامتر فعال (A3B یعنی Active 3B، حدود ۳.۶ میلیارد با embeddings) در هر توکن استفاده میشه. این ساختار sparse MoE باعث میشه inference خیلی کارآمدتر بشه و مدل روی سختافزارهای میانرده هم خوب اجرا بشه.
علاوه بر این، مدل از Multi-Token Prediction پشتیبانی میکنه که پیشبینی چند توکن همزمان رو ممکن میکنه و throughput رو به طور قابل توجهی افزایش میده (تا ۱.۵ تا ۳.۳ برابر سریعتر نسبت به مدلهای همکلاس، و حتی تا ۴ برابر بیشتر از نسل قبلی Nemotron Nano 2).
طول کانتکست native تا ۱ میلیون توکن هست که برای کارهای long-context مثل استدلال چندمرحلهای یا پردازش اسناد طولانی عالیه. در بنچمارکهایی مثل RULER، عملکرد حفظ اطلاعات در کانتکستهای خیلی بلند بهتر از رقبا عمل میکنه.
در زمینه عملکرد، مدل در استدلال ریاضی (مثل AIME با ابزار تا ۹۹.۲% دقت)، کدنویسی، و کارهای چندزبانه قوی عمل میکنه. همچنین به عنوان یک مدل unified طراحی شده که هم برای کارهای reasoning (با تولید trace استدلال قبل از پاسخ نهایی) و هم non-reasoning مناسبه.
پیشآموزش روی دادههای متنوع شامل کد، ریاضی، علم و دانش عمومی (crawled + synthetic) انجام شده، و post-training شامل SFT، RLVR و RLHF هست که مدل رو برای tool calling، instruction following و استدلال چندمرحلهای بهینه کرده.
در کل، این ترکیب از هیبرید Mamba-Transformer-MoE با تکنیکهایی مثل latent MoE و multi-token prediction، Nemotron 3 Nano رو به یکی از کارآمدترین مدلهای open-weight در کلاس خودش تبدیل کرده – سریع، کممصرف و قوی در استدلال! 🚀
محققان NVIDIA روی کارایی inference، دقت بالا در agentic tasks و openness
کامل تأکید کردند.
بنچمارک Artificial Analysis نوشت که این مدل most open and efficient در کلاس خودش هست.
کاربران هم تست کردن و میگن حتی روی RTX 3060 یا M4 Max خیلی سریع و راحت اجرا میشه.
حتی در مقایسه با مدلهای چینی مثل Qwen3 اشاره کردن و گفتن Nemotron 3 Nano در سرعت و دقت بهتر عمل میکنه.
❤8
Dev Tweet
بررسی فنی نموترون ۳ نانو: سریعترین مدل باز فکرش رو نمیکردم که مدل Nemotron-3-Nano-30B-A3B (یا به اختصار Nemotron 3 Nano) اینقدر از نظر فنی پیشرفته و هوشمندانه طراحی شده باشه. همیشه فکر میکردم مدلهای Nemotron بیشتر فاینتیونهای ساده هستن، اما وقتی جزئیات…
نمیدونم به خیلی خاص بودن و خیلی خیلی نواورانه بودن مدل نوترون ۳ تو این پست دقت کردید یا نه؟!
نمترون ۳ به عنوان مدلی که روی سیستم کاربر اجرا میشه یک میلیون کانتکست را ساپورت میکنه!!
بدون نیاز به تکنیکهای اضافی مثل RoPE scaling، مستقیماً تا ۱M توکن پشتیبانی میکنه!
برای اولین بار داره از فرمت ذخیرهسازی ۴ بیتی برای آموزش استفاده میکنه نه استنتاج!
حالا چیش مهمه؟ اینکه این اتفاق به مدد معماری Blackwell که سال قبل ارائه شده و با روش خاص پردازش ۴ بیتی تنسور NVFP4 ممکن شده. در این باره خیلی حرف میشه زد چون اگه این موفقیتها ادامه پیدا کنه اتفاقات خیلی متفاوتی در اقتصاد AI خواهد افتاد...
الان GPUهای سروری سریهای B و GB و روی سمت ورکستیشن خانواده RTX 50XX و چند مدل دیگه دارن با Blackwell عرضه میشن
این مدل در سطح بینظیری از openness هست که سابقه نداشته.
بیشتر مدلهای open-source فعلی فقط وزنها (weights) رو منتشر میکنن، اما دادههای آموزشی (datasets)، روشهای دقیق آموزش (recipes)، و ابزارهای post-training رو مخفی نگه میدارن.
ولی NVIDIA برای Nemotron 3:وزنهای مدل رو کامل باز منتشر کرده (روی Hugging Face و GitHub).
دادههای پیشآموزش (حدود ۱۰ تریلیون توکن synthetic + real data) رو باز گذاشته برای inspect، reuse یا repurposing.
دادههای reinforcement learning و محیطهای RL رو منتشر کرده.
ابزارهای open-source مثل NeMo Gym و NeMo RL برای ساخت محیطهای RL و customization.
تقریبا تنها مدل شناخته شدهای که معماریش رو تغییر زیادی داده و داره از ترکیب مامبا و ترنسفورمر استفاده میکنه
نمترون ۳ به عنوان مدلی که روی سیستم کاربر اجرا میشه یک میلیون کانتکست را ساپورت میکنه!!
بدون نیاز به تکنیکهای اضافی مثل RoPE scaling، مستقیماً تا ۱M توکن پشتیبانی میکنه!
برای اولین بار داره از فرمت ذخیرهسازی ۴ بیتی برای آموزش استفاده میکنه نه استنتاج!
حالا چیش مهمه؟ اینکه این اتفاق به مدد معماری Blackwell که سال قبل ارائه شده و با روش خاص پردازش ۴ بیتی تنسور NVFP4 ممکن شده. در این باره خیلی حرف میشه زد چون اگه این موفقیتها ادامه پیدا کنه اتفاقات خیلی متفاوتی در اقتصاد AI خواهد افتاد...
الان GPUهای سروری سریهای B و GB و روی سمت ورکستیشن خانواده RTX 50XX و چند مدل دیگه دارن با Blackwell عرضه میشن
این مدل در سطح بینظیری از openness هست که سابقه نداشته.
بیشتر مدلهای open-source فعلی فقط وزنها (weights) رو منتشر میکنن، اما دادههای آموزشی (datasets)، روشهای دقیق آموزش (recipes)، و ابزارهای post-training رو مخفی نگه میدارن.
ولی NVIDIA برای Nemotron 3:وزنهای مدل رو کامل باز منتشر کرده (روی Hugging Face و GitHub).
دادههای پیشآموزش (حدود ۱۰ تریلیون توکن synthetic + real data) رو باز گذاشته برای inspect، reuse یا repurposing.
دادههای reinforcement learning و محیطهای RL رو منتشر کرده.
ابزارهای open-source مثل NeMo Gym و NeMo RL برای ساخت محیطهای RL و customization.
تقریبا تنها مدل شناخته شدهای که معماریش رو تغییر زیادی داده و داره از ترکیب مامبا و ترنسفورمر استفاده میکنه
❤6
آینده هوش مصنوعی در فضا- بخش اول
ایده قرار دادن دیتاسنترها در مدار زمین برای آموزش مدلهای هوش مصنوعی، که به آن دیتاسنترهای مداری یا orbital data centers میگویند، از حدود سال ۲۰۲۳ شروع به شکلگیری کرد. در آن زمان، با رشد سریع هوش مصنوعی و پیشبینیهایی مبنی بر اینکه تا سال ۲۰۳۰، مصرف برق هوش مصنوعی ممکن است به ۸ درصد از کل برق جهانی برسد، کارشناسان شروع به فکر کردن به راهحلهای جایگزین برای دیتاسنترهای زمینی کردند. دیتاسنترهای زمینی با مشکلات زیادی مثل مصرف بالای انرژی، نیاز به آب برای خنکسازی و کمبود فضای فیزیکی روبرو بودند. ایده اصلی این بود که با قرار دادن سرورها و پردازندهها در فضا، از انرژی خورشیدی نامحدود استفاده شود، چون پنلهای خورشیدی در مدار زمین همیشه به نور خورشید دسترسی دارند و هیچ چرخه شب و روزی وجود ندارد. علاوه بر این، در خلأ فضا، خنکسازی طبیعی از طریق تابش حرارتی (radiative cooling) انجام میشود، یعنی گرمای تولیدشده توسط پردازندهها مستقیماً به فضای سرد کیهان تابیده میشود و نیازی به سیستمهای خنککننده پیچیده و پرمصرف مثل فنها یا آب نیست. اما چالشهای فنی بزرگی هم وجود داشت، مثل تابش کیهانی (cosmic radiation) که میتواند باعث خطاهای بیت (bit flips) در حافظه و پردازندهها شود، بنابراین نیاز به سختافزارهای مقاوم در برابر radiation بود. همچنین، انتقال داده بین زمین و مدار با تأخیر (latency) حدود ۱۰۰ تا ۵۰۰ میلیثانیه همراه است که برای برخی کاربردها مشکلساز است، مگر اینکه از لینکهای لیزری یا رادیویی پیشرفته استفاده شود. در اواخر ۲۰۲۳، شرکتهایی مثل Blue Origin با پروژه Blue Ring شروع به بحث در مورد پلتفرمهای فضایی با قابلیت محاسباتی مقاوم کردند، اما هنوز تمرکز روی آموزش هوش مصنوعی نبود و بیشتر جنبه مفهومی داشت.
در سال ۲۰۲۴، این ایده وارد مرحله عملیتری شد و استارتآپهایی برای پیگیری آن تأسیس شدند. شرکت Lumen Orbit در ژانویه ۲۰۲۴ توسط Philip Johnston و همکارانش راهاندازی شد و به عنوان اولین شرکت اختصاصی برای ساخت دیتاسنترهای مداری با پردازندههای GPU شناخته شد. این شرکت بخشی از برنامه Y Combinator (YC S24) بود و روی استفاده از GPUهای قدرتمند مثل Nvidia H100 تمرکز کرد، که این GPUها توان پردازشی بالایی دارند (حدود ۴ پتافلاپس در دقت FP8 برای وظایف هوش مصنوعی). Lumen Orbit یک white paper با عنوان "Why we should train AI in space" منتشر کرد که توضیح میداد چطور قرار دادن دیتاسنترها در مدار پایین زمین (LEO، حدود ۵۰۰ کیلومتری سطح زمین) میتواند هزینه انرژی را تا ۱۰ برابر کاهش دهد. از نظر فنی، در مدار LEO، پنلهای خورشیدی میتوانند انرژی مداوم تولید کنند و خنکسازی radiative اجازه میدهد دیتاسنترها بدون مصرف آب یا برق اضافی برای cooling کار کنند. اما چالشها شامل هزینه بالای پرتاب (که با موشکهای reusable مثل Falcon 9 اسپیسایکس در حال کاهش بود)، نیاز به error correction برای مقابله با تابش کیهانی، و مدیریت تأخیر داده بود. در طول سال، بحثها در مورد کمبود دیتاسنترهای زمینی به دلیل تقاضای hyperscalerها (شرکتهای بزرگ مثل گوگل و آمازون) افزایش یافت و این زمینه را برای ایده فضایی فراهم کرد. Lumen Orbit حمایتهایی از Nvidia دریافت کرد و شروع به طراحی satelliteهایی کرد که بتوانند inference (اجرا مدلهای آماده) و training (آموزش مدلها) را در فضا انجام دهند.
ایده قرار دادن دیتاسنترها در مدار زمین برای آموزش مدلهای هوش مصنوعی، که به آن دیتاسنترهای مداری یا orbital data centers میگویند، از حدود سال ۲۰۲۳ شروع به شکلگیری کرد. در آن زمان، با رشد سریع هوش مصنوعی و پیشبینیهایی مبنی بر اینکه تا سال ۲۰۳۰، مصرف برق هوش مصنوعی ممکن است به ۸ درصد از کل برق جهانی برسد، کارشناسان شروع به فکر کردن به راهحلهای جایگزین برای دیتاسنترهای زمینی کردند. دیتاسنترهای زمینی با مشکلات زیادی مثل مصرف بالای انرژی، نیاز به آب برای خنکسازی و کمبود فضای فیزیکی روبرو بودند. ایده اصلی این بود که با قرار دادن سرورها و پردازندهها در فضا، از انرژی خورشیدی نامحدود استفاده شود، چون پنلهای خورشیدی در مدار زمین همیشه به نور خورشید دسترسی دارند و هیچ چرخه شب و روزی وجود ندارد. علاوه بر این، در خلأ فضا، خنکسازی طبیعی از طریق تابش حرارتی (radiative cooling) انجام میشود، یعنی گرمای تولیدشده توسط پردازندهها مستقیماً به فضای سرد کیهان تابیده میشود و نیازی به سیستمهای خنککننده پیچیده و پرمصرف مثل فنها یا آب نیست. اما چالشهای فنی بزرگی هم وجود داشت، مثل تابش کیهانی (cosmic radiation) که میتواند باعث خطاهای بیت (bit flips) در حافظه و پردازندهها شود، بنابراین نیاز به سختافزارهای مقاوم در برابر radiation بود. همچنین، انتقال داده بین زمین و مدار با تأخیر (latency) حدود ۱۰۰ تا ۵۰۰ میلیثانیه همراه است که برای برخی کاربردها مشکلساز است، مگر اینکه از لینکهای لیزری یا رادیویی پیشرفته استفاده شود. در اواخر ۲۰۲۳، شرکتهایی مثل Blue Origin با پروژه Blue Ring شروع به بحث در مورد پلتفرمهای فضایی با قابلیت محاسباتی مقاوم کردند، اما هنوز تمرکز روی آموزش هوش مصنوعی نبود و بیشتر جنبه مفهومی داشت.
در سال ۲۰۲۴، این ایده وارد مرحله عملیتری شد و استارتآپهایی برای پیگیری آن تأسیس شدند. شرکت Lumen Orbit در ژانویه ۲۰۲۴ توسط Philip Johnston و همکارانش راهاندازی شد و به عنوان اولین شرکت اختصاصی برای ساخت دیتاسنترهای مداری با پردازندههای GPU شناخته شد. این شرکت بخشی از برنامه Y Combinator (YC S24) بود و روی استفاده از GPUهای قدرتمند مثل Nvidia H100 تمرکز کرد، که این GPUها توان پردازشی بالایی دارند (حدود ۴ پتافلاپس در دقت FP8 برای وظایف هوش مصنوعی). Lumen Orbit یک white paper با عنوان "Why we should train AI in space" منتشر کرد که توضیح میداد چطور قرار دادن دیتاسنترها در مدار پایین زمین (LEO، حدود ۵۰۰ کیلومتری سطح زمین) میتواند هزینه انرژی را تا ۱۰ برابر کاهش دهد. از نظر فنی، در مدار LEO، پنلهای خورشیدی میتوانند انرژی مداوم تولید کنند و خنکسازی radiative اجازه میدهد دیتاسنترها بدون مصرف آب یا برق اضافی برای cooling کار کنند. اما چالشها شامل هزینه بالای پرتاب (که با موشکهای reusable مثل Falcon 9 اسپیسایکس در حال کاهش بود)، نیاز به error correction برای مقابله با تابش کیهانی، و مدیریت تأخیر داده بود. در طول سال، بحثها در مورد کمبود دیتاسنترهای زمینی به دلیل تقاضای hyperscalerها (شرکتهای بزرگ مثل گوگل و آمازون) افزایش یافت و این زمینه را برای ایده فضایی فراهم کرد. Lumen Orbit حمایتهایی از Nvidia دریافت کرد و شروع به طراحی satelliteهایی کرد که بتوانند inference (اجرا مدلهای آماده) و training (آموزش مدلها) را در فضا انجام دهند.
❤3
آینده هوش مصنوعی در فضا- بخش دوم
اوایل سال ۲۰۲۵، پیشرفتها سرعت گرفت و Lumen Orbit به Starcloud تغییر نام داد تا برند بهتری داشته باشد و ۱۰ میلیون دلار سرمایه جدید جذب کرد. این تغییر نام همراه با حمایت رسمی Nvidia بود، که بخشی از برنامه Nvidia Inception برای استارتآپها است. Starcloud شروع به برنامهریزی برای پرتاب satellite کرد و برآورد کرد که بازار دیتاسنترهای مداری تا ۲۰۳۵ میتواند به ۳۹ میلیارد دلار برسد. از نظر فنی، تمرکز روی سختیسازی GPUها بود، یعنی استفاده از تکنیکهایی مثل shielding و نرمافزارهای error-correcting برای جلوگیری از اختلال تابش کیهانی. در اکتبر ۲۰۲۵، Starcloud جزئیات بیشتری از برنامههایش منتشر کرد، از جمله اینکه satelliteهایشان از پنلهای خورشیدی بزرگ برای تأمین انرژی استفاده میکنند و میتوانند مدلهای کوچک هوش مصنوعی را آموزش دهند. سپس در نوامبر ۲۰۲۵، نقطه عطفی رخ داد: پرتاب Starcloud-1 با موشک Falcon 9 اسپیسایکس. این satellite کوچک (حدود ۶۰ کیلوگرم) اولین بار یک Nvidia H100 را به مدار برد، که ۱۰۰ برابر قدرتمندتر از هر GPU قبلی در فضا بود. Starcloud-1 برای آزمایش inference و fine-tuning طراحی شده بود، یعنی میتوانست مدلهای موجود را اجرا کند یا آنها را با دادههای جدید تنظیم کند. انرژی کاملاً از خورشید تأمین میشد و خنکسازی radiative اجازه میداد GPU بدون overheating کار کند، هرچند در خلأ هیچ convection (جریان هوا) وجود ندارد و همه چیز به تابش وابسته است.
در دسامبر ۲۰۲۵، که وضعیت فعلی تا تاریخ ۱۶ دسامبر است، Starcloud دستاورد بزرگی اعلام کرد: آموزش اولین مدل زبانی بزرگ (LLM) در فضا. روی Starcloud-1، آنها مدل open-source Gemma از گوگل (که نسخه کوچکتر و کارآمد Gemini است) را fine-tune کردند و حتی نسخهای از Gemini را اجرا کردند. این اولین بار بود که training واقعی در مدار انجام میشد، هرچند در مقیاس کوچک با یک GPU. جزئیات فنی نشان میدهد که satellite در مدار LEO قرار دارد، انرژی از پنلهای خورشیدی بدون محدودیت میآید، و خنکسازی radiative گرمای H100 را مدیریت میکند. یکی از تستها، ارسال پیام "Greetings, Earthlings" از مدل در فضا به زمین بود. مزایا شامل کاهش ردپای کربن (بدون مصرف آب یا برق زمینی)، انرژی تقریباً رایگان، و پتانسیل برای constellationهای بزرگ (صدها satellite که مثل یک دیتاسنتر بزرگ کار کنند). اما چالشها هنوز باقی هستند: تابش کیهانی نیاز به error correction مداوم دارد، تأخیر داده برای کاربردهای real-time مشکل است، و هزینه پرتاب با پیشرفت Starship اسپیسایکس در حال بهبود است. Starcloud برنامه دارد تا اکتبر ۲۰۲۶ satellite بعدی با GPUهای پیشرفتهتر پرتاب کند و حتی به سمت یک پلتفرم ۵ گیگاواتی با پنلهای خورشیدی ۴ کیلومتری حرکت کند. این پیشرفت رقابت را با شرکتهایی مثل Lonestar (دیتاسنتر روی ماه)، Google (با پروژه Suncatcher)، و Blue Origin افزایش داده و نشان میدهد که آینده محاسبات هوش مصنوعی ممکن است واقعاً در فضا باشد.
اوایل سال ۲۰۲۵، پیشرفتها سرعت گرفت و Lumen Orbit به Starcloud تغییر نام داد تا برند بهتری داشته باشد و ۱۰ میلیون دلار سرمایه جدید جذب کرد. این تغییر نام همراه با حمایت رسمی Nvidia بود، که بخشی از برنامه Nvidia Inception برای استارتآپها است. Starcloud شروع به برنامهریزی برای پرتاب satellite کرد و برآورد کرد که بازار دیتاسنترهای مداری تا ۲۰۳۵ میتواند به ۳۹ میلیارد دلار برسد. از نظر فنی، تمرکز روی سختیسازی GPUها بود، یعنی استفاده از تکنیکهایی مثل shielding و نرمافزارهای error-correcting برای جلوگیری از اختلال تابش کیهانی. در اکتبر ۲۰۲۵، Starcloud جزئیات بیشتری از برنامههایش منتشر کرد، از جمله اینکه satelliteهایشان از پنلهای خورشیدی بزرگ برای تأمین انرژی استفاده میکنند و میتوانند مدلهای کوچک هوش مصنوعی را آموزش دهند. سپس در نوامبر ۲۰۲۵، نقطه عطفی رخ داد: پرتاب Starcloud-1 با موشک Falcon 9 اسپیسایکس. این satellite کوچک (حدود ۶۰ کیلوگرم) اولین بار یک Nvidia H100 را به مدار برد، که ۱۰۰ برابر قدرتمندتر از هر GPU قبلی در فضا بود. Starcloud-1 برای آزمایش inference و fine-tuning طراحی شده بود، یعنی میتوانست مدلهای موجود را اجرا کند یا آنها را با دادههای جدید تنظیم کند. انرژی کاملاً از خورشید تأمین میشد و خنکسازی radiative اجازه میداد GPU بدون overheating کار کند، هرچند در خلأ هیچ convection (جریان هوا) وجود ندارد و همه چیز به تابش وابسته است.
در دسامبر ۲۰۲۵، که وضعیت فعلی تا تاریخ ۱۶ دسامبر است، Starcloud دستاورد بزرگی اعلام کرد: آموزش اولین مدل زبانی بزرگ (LLM) در فضا. روی Starcloud-1، آنها مدل open-source Gemma از گوگل (که نسخه کوچکتر و کارآمد Gemini است) را fine-tune کردند و حتی نسخهای از Gemini را اجرا کردند. این اولین بار بود که training واقعی در مدار انجام میشد، هرچند در مقیاس کوچک با یک GPU. جزئیات فنی نشان میدهد که satellite در مدار LEO قرار دارد، انرژی از پنلهای خورشیدی بدون محدودیت میآید، و خنکسازی radiative گرمای H100 را مدیریت میکند. یکی از تستها، ارسال پیام "Greetings, Earthlings" از مدل در فضا به زمین بود. مزایا شامل کاهش ردپای کربن (بدون مصرف آب یا برق زمینی)، انرژی تقریباً رایگان، و پتانسیل برای constellationهای بزرگ (صدها satellite که مثل یک دیتاسنتر بزرگ کار کنند). اما چالشها هنوز باقی هستند: تابش کیهانی نیاز به error correction مداوم دارد، تأخیر داده برای کاربردهای real-time مشکل است، و هزینه پرتاب با پیشرفت Starship اسپیسایکس در حال بهبود است. Starcloud برنامه دارد تا اکتبر ۲۰۲۶ satellite بعدی با GPUهای پیشرفتهتر پرتاب کند و حتی به سمت یک پلتفرم ۵ گیگاواتی با پنلهای خورشیدی ۴ کیلومتری حرکت کند. این پیشرفت رقابت را با شرکتهایی مثل Lonestar (دیتاسنتر روی ماه)، Google (با پروژه Suncatcher)، و Blue Origin افزایش داده و نشان میدهد که آینده محاسبات هوش مصنوعی ممکن است واقعاً در فضا باشد.
👍6
Dev Tweet
آیا از Antigravity گوگل استفاده میکنید؟
تا هنوز Antigravity پولی نشده و سقف رایگان آن کاهش پیدا نکرده سعی کنید از Antigravity استفاده کنید گوگل تقریبا در بخش ابزارهای توسعه مبتنی بر Agent نتونسته بود رقابت معناداری با OpenAI با Codex و Anthropic با CC بکنه و Gemini-CLI هم واقعا در برابر این دو ابزار تعریفی نداشت قبلا هم که Jule رو عرضه کرده بود و خیلی اقبالی نداشت. الان میخواد با این Agentic IDE در بازار ابزارهای توسعه جا باز کنه.
مثلا این کاربر فقط به antigravity گفته که برای من یک بروزر به زبان Go بنویس و بعد از چند ساعت بدون دخالت انسانی با مدل Opus 4.5یک بروزر بهش تحویل داده!
اما به بهانهای antigravity یک نکته!
حالا چرا برای خیلی تسکها ما نمیتونیم اینقدر خوب نتیجه بگیرم؟ آیا واقعا تونسته این جواب رو به صورت one-go از opus و antigravity بگیره یا داره ایمپرشن میگیره؟
جواب اینه که واقعا ممکنه، چون ما برنامههای جدیدی تعریف میکنیم و در تعریف این برنامههایی که میخوایم وایب-کد کنیم ضعف داریم و دقیق تعریف نمیکنیم. چه اینکه بد پرامپت مینویسیم چه اینکه اصلا خوب تعریف مسالهمان را نمیدانیم. اما بروزر کاملا یک چیز خوش تعریف و دقیق است و ایجنت بهتر از ما میداند باید چه چیزی را تعریف کند.
اگر همین بروزر که نرم افزار فوق العاده پیچیدهای هست را یک شخص شروع به تعریف کند جز یک خروجی آشغال و درپیت نخواهد داشت.
مثلا این کاربر فقط به antigravity گفته که برای من یک بروزر به زبان Go بنویس و بعد از چند ساعت بدون دخالت انسانی با مدل Opus 4.5یک بروزر بهش تحویل داده!
اما به بهانهای antigravity یک نکته!
حالا چرا برای خیلی تسکها ما نمیتونیم اینقدر خوب نتیجه بگیرم؟ آیا واقعا تونسته این جواب رو به صورت one-go از opus و antigravity بگیره یا داره ایمپرشن میگیره؟
جواب اینه که واقعا ممکنه، چون ما برنامههای جدیدی تعریف میکنیم و در تعریف این برنامههایی که میخوایم وایب-کد کنیم ضعف داریم و دقیق تعریف نمیکنیم. چه اینکه بد پرامپت مینویسیم چه اینکه اصلا خوب تعریف مسالهمان را نمیدانیم. اما بروزر کاملا یک چیز خوش تعریف و دقیق است و ایجنت بهتر از ما میداند باید چه چیزی را تعریف کند.
اگر همین بروزر که نرم افزار فوق العاده پیچیدهای هست را یک شخص شروع به تعریف کند جز یک خروجی آشغال و درپیت نخواهد داشت.
X (formerly Twitter)
Dmytro Krasun (@DmytroKrasun) on X
It is so hard for me to recover from the recent jump in AI coding capabilities.
To cope and feel safe, I decided to ask Claude Opus 4.5 (Cursor) to build a browser in Go on macOS, and I want it native. And in one prompt.
I am afraid... it is going to…
To cope and feel safe, I decided to ask Claude Opus 4.5 (Cursor) to build a browser in Go on macOS, and I want it native. And in one prompt.
I am afraid... it is going to…