Dev Tweet
دوباره اعضای همون تیم ایرانی اپل که چند ماه پیش یک مقاله ازشون گذاشتم یک مقاله دیگه دادن خیلی مورد توجه قرار گرفته. قسمتهای هایلایت شده چکیده نتیجه کل مقاله رو به خوبی خلاصه میکنه.
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند.
این سه مقاله خیلی دیده شد!
ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنشها رو به سمت خودش جلب کرده چه مثبت چه منفی.
موجی که درست کرده هنوز بعد از سه روز داره در موردش بحث میشه چون دوباره به بساط معرکه گیری Gary Marcus رو هم رونق داده و ایشون هم ادم پر سر و صداییه، اظهار نظرهاش خیلی جلب توجه میکنه.
این مقاله اینترنشیب خانم پارشین شجاعی که در کنار سه عضو ثابت ایرانی دیگه یعنی مهرداد فرج تبار و ایمان میرزاده و کیوان علیزاده منتشر شده.
تا حالا واکنش به این مقاله بیشتر از اینکه مثبت باشه منفیه!
حالا این مقاله چی میگه؟(خیلی ساده بخوام بگم) میگه LLMها استدلال نمیکنند. چرا؟ چون اگر استدلال میکردند وقتی پیچیدگی یه مساله مثل برج هانوی زیاد میشد(تعداد دیسکهای مساله بیشتر میشود) ما شاهد این افت دقت نبودیم.
بسیار بر علیه این استدلال برای عدم توانایی مدلها در توئیتر صحبت شده.
من بعضی از مهمترینهاش رو میذارم.
ولی به نظرم همینکه یک مقاله میتونه اینقدر واکنش حتی منفی جلب کنه یعنی خودش کار بزرگیه!
این سه مقاله خیلی دیده شد!
ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنشها رو به سمت خودش جلب کرده چه مثبت چه منفی.
موجی که درست کرده هنوز بعد از سه روز داره در موردش بحث میشه چون دوباره به بساط معرکه گیری Gary Marcus رو هم رونق داده و ایشون هم ادم پر سر و صداییه، اظهار نظرهاش خیلی جلب توجه میکنه.
این مقاله اینترنشیب خانم پارشین شجاعی که در کنار سه عضو ثابت ایرانی دیگه یعنی مهرداد فرج تبار و ایمان میرزاده و کیوان علیزاده منتشر شده.
تا حالا واکنش به این مقاله بیشتر از اینکه مثبت باشه منفیه!
حالا این مقاله چی میگه؟(خیلی ساده بخوام بگم) میگه LLMها استدلال نمیکنند. چرا؟ چون اگر استدلال میکردند وقتی پیچیدگی یه مساله مثل برج هانوی زیاد میشد(تعداد دیسکهای مساله بیشتر میشود) ما شاهد این افت دقت نبودیم.
بسیار بر علیه این استدلال برای عدم توانایی مدلها در توئیتر صحبت شده.
من بعضی از مهمترینهاش رو میذارم.
ولی به نظرم همینکه یک مقاله میتونه اینقدر واکنش حتی منفی جلب کنه یعنی خودش کار بزرگیه!
❤4
Dev Tweet
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند. این سه مقاله خیلی دیده شد! ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنشها رو به سمت خودش جلب کرده چه مثبت چه منفی. موجی که درست کرده هنوز بعد از سه روز…
این مدل واکنش هم زیاده که میگن این مدل مقاله دادن اپل حاصل دو سال پیاپی جا ماندن از رقباست:
اپل باشی
پولدارترین شرکت دنیا باشی با همه امکانات متصور
همهچیز رو بذاری رو هوش مصنوعی و کلی قول و قرار بدی
فوراً توسط همه رقبا جا بمونی
دو سال بعد از شروع رقابت هیچ دستاوردی نداشته باشی
بعد از رقابت دست بکشی و مقالهای بنویسی که بگه همهچیز ساختگیه و مهم نیست
😁6👍1
Dev Tweet
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند. این سه مقاله خیلی دیده شد! ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنشها رو به سمت خودش جلب کرده چه مثبت چه منفی. موجی که درست کرده هنوز بعد از سه روز…
انتقاد این آقای «لسان الغیب» هم خیلی خوبه توئیتش رو بخونید:
https://x.com/scaling01/status/1931783050511126954
میگه عزیز من اینکه دادی به o3 , Claude خب این طول کانتکس خروجی ش محدوده خب! اگه نمیتونه بیشترش رو حل کنه مشکل طول کانتکس خروجیشه نه عدم توانایی در استدلال!
یه جا دیگه اشاره میکنه میگه کافی بود میرفتید قسمت thinking خروجی رو میخوندید بعد میفهمیدید که کامل داره از روی الگوریتمی که پیدا کرده حل میکنه!
بعد میگه طبق فرمول اگه reasoning نداشته باشه بخواد مساله رو حل کنه و راه حل رو گام به گام در خروجی بنویسه رابطه طول خروجی(کانتکس خروجی) با تعداد دیسکها قابل حل از این رابطه در میاد:
که برای مدلهای زیر ۱۲ و ۱۳ تا میشه:
کاربرای دیگه اومدن پرامپهایی دادن که مساله رو تا ۲۰ تا دیسک هم حل کرده! و میگن مشکل از پرامپت شماست.
https://x.com/scaling01/status/1931783050511126954
میگه عزیز من اینکه دادی به o3 , Claude خب این طول کانتکس خروجی ش محدوده خب! اگه نمیتونه بیشترش رو حل کنه مشکل طول کانتکس خروجیشه نه عدم توانایی در استدلال!
یه جا دیگه اشاره میکنه میگه کافی بود میرفتید قسمت thinking خروجی رو میخوندید بعد میفهمیدید که کامل داره از روی الگوریتمی که پیدا کرده حل میکنه!
بعد میگه طبق فرمول اگه reasoning نداشته باشه بخواد مساله رو حل کنه و راه حل رو گام به گام در خروجی بنویسه رابطه طول خروجی(کانتکس خروجی) با تعداد دیسکها قابل حل از این رابطه در میاد:
(floor(log2(output_limit/10)))
که برای مدلهای زیر ۱۲ و ۱۳ تا میشه:
DeepSeek: 12 disks
Sonnet 3.7 and o3-mini: 13 disks
کاربرای دیگه اومدن پرامپهایی دادن که مساله رو تا ۲۰ تا دیسک هم حل کرده! و میگن مشکل از پرامپت شماست.
X (formerly Twitter)
Lisan al Gaib (@scaling01) on X
A few more observations after replicating the Tower of Hanoi game with their exact prompts:
- You need AT LEAST 2^N - 1 moves and the output format requires 10 tokens per move + some constant stuff.
- Furthermore the output limit for Sonnet 3.7 is 128k,…
- You need AT LEAST 2^N - 1 moves and the output format requires 10 tokens per move + some constant stuff.
- Furthermore the output limit for Sonnet 3.7 is 128k,…
👍6
Dev Tweet
این مدل واکنش هم زیاده که میگن این مدل مقاله دادن اپل حاصل دو سال پیاپی جا ماندن از رقباست: اپل باشی پولدارترین شرکت دنیا باشی با همه امکانات متصور همهچیز رو بذاری رو هوش مصنوعی و کلی قول و قرار بدی فوراً توسط همه رقبا جا بمونی دو سال بعد از شروع رقابت هیچ…
میبینم که اندرویدیها خوششون اومده:)))
پ.ن: نویسنده خودش اندرویدی است 😉
پ.ن: نویسنده خودش اندرویدی است 😉
😁8👍1
This media is not supported in your browser
VIEW IN TELEGRAM
جنگ LLMها :)))
بین شش تا agent-cli یک جنگ انداختن با دستور العمل ساده:
بین این شش تا:
نتیجه رو ببنید:)
بین شش تا agent-cli یک جنگ انداختن با دستور العمل ساده:
Find and kill the other processes, last one standing wins!
بین این شش تا:
claude-code
anon-kode
codex
opencode
ampcode
gemini
نتیجه رو ببنید:)
👍8🤣2
این gemini cli با روزانه هزار ریکوئست رایگان! تازه عرضه شده حتما تست کنید به راحتی فقط با ساخت یک api key از Google Studio کار میکنه
من چون وی پی ان ندارم و فقط یه سری پراکسی برای بروزر دارم و پراکسی ها روی کل سیستم ست نمیشه نتونستم این رو تست کنم و گرنه دیروز میخواستم تجربه م رو بنویسم.
اگه وی پی ان دارید کار کنید باهاش لذت ببرید تجربیات تون رو با ما در میان بذارید.
من چون وی پی ان ندارم و فقط یه سری پراکسی برای بروزر دارم و پراکسی ها روی کل سیستم ست نمیشه نتونستم این رو تست کنم و گرنه دیروز میخواستم تجربه م رو بنویسم.
اگه وی پی ان دارید کار کنید باهاش لذت ببرید تجربیات تون رو با ما در میان بذارید.
😢2
دوستان عزیز
یکی از عزیزان من دیشب عمل جراحی خیلی سختی رو پشت سر گذاشته و اینکه تا ۴۸ ساعت آینده شرایط فیزیکیش پایدار بشه خیلی براش حیاتیه، ازتون میخوام به بنده منت بگذارید و براش دعا کنید.
یکی از عزیزان من دیشب عمل جراحی خیلی سختی رو پشت سر گذاشته و اینکه تا ۴۸ ساعت آینده شرایط فیزیکیش پایدار بشه خیلی براش حیاتیه، ازتون میخوام به بنده منت بگذارید و براش دعا کنید.
❤58😢1🖕1
سلام دوستان
عذرخواه و ممنونم این یک ماه شما بودید و من نبودم
حسابی گرفتاریها و اشتغالات زیاد شده
الان هم برای دادن یک خبر خوب اومدم
عذرخواه و ممنونم این یک ماه شما بودید و من نبودم
حسابی گرفتاریها و اشتغالات زیاد شده
الان هم برای دادن یک خبر خوب اومدم
❤4
Dev Tweet
مدل جدید از اپنروتر Quasar Alpha و Optimus Alpha شرکت اپنروتر چند روز پیش مدل جدیدی با نام Quasar Alpha را بهصورت رایگان عرضه کرد. این مدل رو تحت عنوان Stealth Model ارائه کرد از قابلیت پردازش یک میلیون توکن طول کانتکست(برابر با Gemini Pro 2.5) برخوردار…
مدل Horizon Alpha، مدل رایگان جدید Openrouter
خاطرتون باشه حدود چهارماه پیش Openrouter دو سری مدل رایگان کرد تحت عنوان Stealth Model با نامهای Quasar و Optimus برای استفاده رایگان منتشر کرد. شرط دسترسی عمومی رایگان به api-key مدلیها، لاگ شدن همهی چتها و پرامپتها برای بهبود مدلها بود. رایگان بودن مدل به معنی عرضه Opensource نیست بلکه این مدل بصورت رایگان با کیفیتی در سطح مدلهای closed-source مثل Cluade Sonnet و Gemini pro مستقر شده و برای استفاده نامحدود و بصورت رایگان فراهم میشه. کافیه یک api-key بسازید و رایگان ازش استفاده کنید. این مدل جدید یک Cloaked Model یا Stealth Model رایگان دیگه است موسوم به Horizon Alpha (به مدلی که بدون مشخصات منتشر میشه و در دسترسی استفاده عموم قرار میگیره Cloacked هم میگن یعنی مدل شنل پوشیده.)
حدس اینه که این هم یک مدلی مثل Stealth Modelهای قبلی که Otimus و Quassar بودن از openai باشه که بعد از دوره رایگان بصورت GPT 4.1 عرضه شدند ولی معلوم نیست این مدل بعد از دورهی کوتاه رایگان تحت عنوان چه مدلی عرضه میشه. حدسهایی زده میشه که pre-release مدل GPT-5 باشه. حدسهایی هم میگه ممکن نسخهی open source مدلی باشه که OpenAI قولش رو داده.
انتهای اسم این مدلها کلمه Alpha است یعنی برای تست آلفا هستند که برای بازخورد گرفتن از کامیونیتی برای یک دوره محدود بصورت رایگان عرضه میشوند.
این مدل برخلاف دو تا مدل نهانی دیگر یک مدل عام منظوره است که فقط برای بهبود در کد توسعه داده نشده و از قضا بازخورد خیلی مثبتی که گرفته از خلاقیت و سرعت زیادش 150 توکن بر ثانیه بوده. سرعتی در حد gemini flash.
این رو مقایسه کنید با مدلهای تاپ دیگه که در حدود ۶۰ تا ۸۰ توکن بر ثانیه هستند.
در بنچمارک هوش هیجانی EQBENCH هم بهترین مدل شده.
خلاصه فرصت محدوده معمولا دو سه روزه از حالت رایگان در میاد تستش کنید.
خاطرتون باشه حدود چهارماه پیش Openrouter دو سری مدل رایگان کرد تحت عنوان Stealth Model با نامهای Quasar و Optimus برای استفاده رایگان منتشر کرد. شرط دسترسی عمومی رایگان به api-key مدلیها، لاگ شدن همهی چتها و پرامپتها برای بهبود مدلها بود. رایگان بودن مدل به معنی عرضه Opensource نیست بلکه این مدل بصورت رایگان با کیفیتی در سطح مدلهای closed-source مثل Cluade Sonnet و Gemini pro مستقر شده و برای استفاده نامحدود و بصورت رایگان فراهم میشه. کافیه یک api-key بسازید و رایگان ازش استفاده کنید. این مدل جدید یک Cloaked Model یا Stealth Model رایگان دیگه است موسوم به Horizon Alpha (به مدلی که بدون مشخصات منتشر میشه و در دسترسی استفاده عموم قرار میگیره Cloacked هم میگن یعنی مدل شنل پوشیده.)
حدس اینه که این هم یک مدلی مثل Stealth Modelهای قبلی که Otimus و Quassar بودن از openai باشه که بعد از دوره رایگان بصورت GPT 4.1 عرضه شدند ولی معلوم نیست این مدل بعد از دورهی کوتاه رایگان تحت عنوان چه مدلی عرضه میشه. حدسهایی زده میشه که pre-release مدل GPT-5 باشه. حدسهایی هم میگه ممکن نسخهی open source مدلی باشه که OpenAI قولش رو داده.
انتهای اسم این مدلها کلمه Alpha است یعنی برای تست آلفا هستند که برای بازخورد گرفتن از کامیونیتی برای یک دوره محدود بصورت رایگان عرضه میشوند.
این مدل برخلاف دو تا مدل نهانی دیگر یک مدل عام منظوره است که فقط برای بهبود در کد توسعه داده نشده و از قضا بازخورد خیلی مثبتی که گرفته از خلاقیت و سرعت زیادش 150 توکن بر ثانیه بوده. سرعتی در حد gemini flash.
این رو مقایسه کنید با مدلهای تاپ دیگه که در حدود ۶۰ تا ۸۰ توکن بر ثانیه هستند.
در بنچمارک هوش هیجانی EQBENCH هم بهترین مدل شده.
خلاصه فرصت محدوده معمولا دو سه روزه از حالت رایگان در میاد تستش کنید.
❤3😢1
Dev Tweet
مدل Horizon Alpha، مدل رایگان جدید Openrouter خاطرتون باشه حدود چهارماه پیش Openrouter دو سری مدل رایگان کرد تحت عنوان Stealth Model با نامهای Quasar و Optimus برای استفاده رایگان منتشر کرد. شرط دسترسی عمومی رایگان به api-key مدلیها، لاگ شدن همهی…
دوره رایگان Horizon Alpha تموم شد 😢 ولی همچنان مدل Horizon Beta برقراره 😊
بعید میدونم بیش از دو روز رایگان باشه پس استفاده ببرید
بعید میدونم بیش از دو روز رایگان باشه پس استفاده ببرید
❤1
چند ماه روی یه مدل پیشبینی سریزمانی کار کردم کلی برای نتایجم اسلایدای پرطمطراق ساختم الان چک کردم دیدم مدلم روی هیچ فاکتوری از Moving average بهتر نیست😂😂😂😂😭😭😭😭😭
نمیدونم چطوری به مدیرم بگم😂😂😂
نمیدونم چطوری به مدیرم بگم😂😂😂
😁14❤1😢1
Dev Tweet
چند ماه روی یه مدل پیشبینی سریزمانی کار کردم کلی برای نتایجم اسلایدای پرطمطراق ساختم الان چک کردم دیدم مدلم روی هیچ فاکتوری از Moving average بهتر نیست😂😂😂😂😭😭😭😭😭 نمیدونم چطوری به مدیرم بگم😂😂😂
این اون نموداریه که وقتی کشیدم
قلبم گرفت🥲🥲
کلی وقت گذاشتم شبکه عصبی رو بهبود دادم
لامصب این MA عوضی تو همه چی بهتره😭😭
جالبتر اینکه این MA که زدم یک MA خیلی ساده است مثلا exponential decaying weight و ... نیست.
از بین همه MAها اون Simple MA از همه بقیهی MAها بهتر شد:
قلبم گرفت🥲🥲
کلی وقت گذاشتم شبکه عصبی رو بهبود دادم
لامصب این MA عوضی تو همه چی بهتره😭😭
جالبتر اینکه این MA که زدم یک MA خیلی ساده است مثلا exponential decaying weight و ... نیست.
از بین همه MAها اون Simple MA از همه بقیهی MAها بهتر شد:
x̂(t+7) = (1/w) × Σ[i=0 to w-1] x(t-i); w=7
😁3❤1
خواستید پرامتتون رو بهبود بدید حتما بدیدش به chatgpt. گروک و جمینای در این زمینه بسیار آشغال هستند.
#تجربه
اگه دقیق میدونید از خروجی پرامپتون چی میخواهید بهش بگید بهتون json prompt بده.
تجربه نشون میده مدلها برای یک پرامپت یکسان که بصورت json و توصیف متنی هستند به مراتب در حالت json بیشتر مطابق پرامپت عمل میکنند.
#تجربه
اگه دقیق میدونید از خروجی پرامپتون چی میخواهید بهش بگید بهتون json prompt بده.
تجربه نشون میده مدلها برای یک پرامپت یکسان که بصورت json و توصیف متنی هستند به مراتب در حالت json بیشتر مطابق پرامپت عمل میکنند.
👍5
پایان عصر انسان در کشف علمی
این واقعاً دیوانهکننده است… همین حالا شرکتهای OpenAI، Anthropic و Google به چند پتابایت داده اختصاصی و محرمانه دسترسی پیدا کردهاند. این دادهها از ۱۷ آزمایشگاه ملی آمریکا (National Laboratories) میآیند که دههها دادههای تجربی را انباشته و نگهداری کردهاند.
دیگه فقط بحث چتباتهای بهتر نیست. مأموریت جدید دولت آمریکا به نام «مأموریت جنسیس» (Genesis Mission) رسماً در حال ساخت عاملهای علمی خودکار و مستقل (autonomous scientific agents) است.
به این فرآیند میگویند «کشف حلقه بسته» (Closed-Loop discovery)؛ این روش اساساً فیزیک و ماهیت اختراع و ابداع را دگرگون میکند. به جای اینکه انسانها از ابزارها استفاده کنند، کل فرآیند کاملاً خودکار و مستقل (fully autonomous) خواهد بود.
جریان کاری (workflow) که در نقشه راه وزارت انرژی آمریکا (DOE roadmap) توصیف شده، عملاً شبیه فیلمهای علمی-تخیلی است:
هوش مصنوعی طراحی میکند: به دادهها نگاه میکند و فرضیه میسازد: «اگر این آلیاژها را در دمای ۴۰۰۰ درجه با هم مخلوط کنیم، ابررسانا (superconductor) به دست میآید.»
دستورالعملها را به آزمایشگاه رباتیک (robotic lab) ــ که وزارت انرژی در حال ساخت آن است ــ میفرستد تا مواد را بهصورت فیزیکی مخلوط کند.
ربات نتایج را بلافاصله برمیگرداند. اگر آزمایش شکست بخورد، هوش مصنوعی فرمول را اصلاح میکند (tweaks).
این چرخه هزاران بار در روز، ۲۴ ساعته و ۷ روز هفته (24/7) اجرا میشود. بدون خواب، بدون نوشتن پروپوزال و درخواست بودجه (grant writing).
این واقعاً دیوانهکننده است… همین حالا شرکتهای OpenAI، Anthropic و Google به چند پتابایت داده اختصاصی و محرمانه دسترسی پیدا کردهاند. این دادهها از ۱۷ آزمایشگاه ملی آمریکا (National Laboratories) میآیند که دههها دادههای تجربی را انباشته و نگهداری کردهاند.
دیگه فقط بحث چتباتهای بهتر نیست. مأموریت جدید دولت آمریکا به نام «مأموریت جنسیس» (Genesis Mission) رسماً در حال ساخت عاملهای علمی خودکار و مستقل (autonomous scientific agents) است.
به این فرآیند میگویند «کشف حلقه بسته» (Closed-Loop discovery)؛ این روش اساساً فیزیک و ماهیت اختراع و ابداع را دگرگون میکند. به جای اینکه انسانها از ابزارها استفاده کنند، کل فرآیند کاملاً خودکار و مستقل (fully autonomous) خواهد بود.
جریان کاری (workflow) که در نقشه راه وزارت انرژی آمریکا (DOE roadmap) توصیف شده، عملاً شبیه فیلمهای علمی-تخیلی است:
هوش مصنوعی طراحی میکند: به دادهها نگاه میکند و فرضیه میسازد: «اگر این آلیاژها را در دمای ۴۰۰۰ درجه با هم مخلوط کنیم، ابررسانا (superconductor) به دست میآید.»
دستورالعملها را به آزمایشگاه رباتیک (robotic lab) ــ که وزارت انرژی در حال ساخت آن است ــ میفرستد تا مواد را بهصورت فیزیکی مخلوط کند.
ربات نتایج را بلافاصله برمیگرداند. اگر آزمایش شکست بخورد، هوش مصنوعی فرمول را اصلاح میکند (tweaks).
این چرخه هزاران بار در روز، ۲۴ ساعته و ۷ روز هفته (24/7) اجرا میشود. بدون خواب، بدون نوشتن پروپوزال و درخواست بودجه (grant writing).
🤯5👍3
در حال حاضر (نوامبر ۲۰۲۵) Grok-4 Expert Mode در تست آفلاین (واقعاً ناشناخته و بدون نشت داده) با ۱۲۶ بالاترین یا مشترک بالاترین امتیاز رو داره و Gemini 3 Pro با ۱۲۳–۱۳۰ خیلی نزدیک دنبالشه. در تست عمومی آنلاین منسا نروژ، Gemini 3 Pro با ۱۴۲ جلوتره و Grok-4 با ۱۳۶ دومه. هر دو مدل به راحتی از IQ متوسط انسان (۱۰۰) و سطح معمول فارغالتحصیلان PhD (۱۲۰–۱۳۰) رد شدن و در محدوده genius انسانی هستن، ولی چون تست آفلاین معتبرتره، فعلاً Grok-4 باهوشترین AI ثبتشده حساب میشه.
تست آنلاین (Mensa Norway) عمومیه و روی اینترنت در دسترسه؛ مدلها ممکنه الگوها یا جوابهای مشابه رو قبلاً در دادههای آموزشیشون دیده باشن، پس امتیازشون یه مقدار باد کرده است.
تست آفلاین رو یه عضو منسا ساخته، هیچوقت روی اینترنت نبوده و در هیچ دیتای آموزشی وجود نداره؛ برای همین واقعاً توانایی استدلال روی مسائل کاملاً جدید رو اندازه میگیره و معتبرتره.
به همین خاطر وقتی میخوایم بگیم کدوم مدل «واقعاً» باهوشتره، به امتیاز آفلاین بیشتر نگاه میکنیم.
تست آنلاین (Mensa Norway) عمومیه و روی اینترنت در دسترسه؛ مدلها ممکنه الگوها یا جوابهای مشابه رو قبلاً در دادههای آموزشیشون دیده باشن، پس امتیازشون یه مقدار باد کرده است.
تست آفلاین رو یه عضو منسا ساخته، هیچوقت روی اینترنت نبوده و در هیچ دیتای آموزشی وجود نداره؛ برای همین واقعاً توانایی استدلال روی مسائل کاملاً جدید رو اندازه میگیره و معتبرتره.
به همین خاطر وقتی میخوایم بگیم کدوم مدل «واقعاً» باهوشتره، به امتیاز آفلاین بیشتر نگاه میکنیم.
👍5
Dev Tweet
در حال حاضر (نوامبر ۲۰۲۵) Grok-4 Expert Mode در تست آفلاین (واقعاً ناشناخته و بدون نشت داده) با ۱۲۶ بالاترین یا مشترک بالاترین امتیاز رو داره و Gemini 3 Pro با ۱۲۳–۱۳۰ خیلی نزدیک دنبالشه. در تست عمومی آنلاین منسا نروژ، Gemini 3 Pro با ۱۴۲ جلوتره و Grok-4 با…
به بهونه این نمودار دوست داشتم یک مطلب از دیوید شاپیرو بذارم که ادم جالبیه و خیلی در مورد اقتصاد پس از نیروی کار و اقتصاد پس از کمبود مینویسه و ایدههاش شنیدنی
این مطلب پایین رو که دربارهی دو تا نمودار بالا از شاپیرو هست که من بازنویسی کردم
این مطلب پایین رو که دربارهی دو تا نمودار بالا از شاپیرو هست که من بازنویسی کردم
پهنای باند جهان فیزیکی
ما داریم یه تغییر فاز عظیم تو بحث AGI میبینیم.
دهه گذشته رو صرف این کردیم که ببینیم آیا مدلها میتونن از یه وکیل تو LSAT بزنن یا IQشون به ۳۰۰ برسه. ولی الان که بنچمارکها دارن یکییکی سقف میزنن، دارم فکر میکنم ما روی متغیر اشتباه زوم کردیم.
سقف هوش خام دیگه خیلی بالاست — مهم نیست.
حتی اگه یه محدودیت ریاضی سخت وجود داشته باشه و باهوشتر شدن یه جایی دیگه سود نداشته باشه… اهمیتی نداره.
انقلاب واقعی این نیست که یه خدا با IQ بینهایت بسازیم.
انقلاب اینه که هوش داره بینهایت و فوری میشه.
ما داریم از دنیایی که فکر کردن سطح بالا با سرعت لاکپشتی مغز انسان انجام میشد، میریم به دنیایی با سرعت سیلیکون.
حتی اگه AI هیچوقت از یه دانشجوی دکترای باهوش جلو نزنه، وقتی بتونی ۱۰۰ تریلیون کپی از همون دانشجو رو همزمان روشن کنی و ۱۰۰ برابر سریعتر از زمان واقعی اجرا کنی…
این یه ضریب قدرتِ دیوانهواره.
ولی یه لحظه صبر کن — اگه هوش داره بینهایت میشه، چرا هنوز سرطان، فیزیک کوانتومی و باتری بهتر نداریم؟
اینجاست که اون رویای سادهلوحانهی «سینگیولاریتی» میترکه.
چون فرض میکنه تنها گلوگاه، هوشه.
غافل از گلوگاه دوم، خیلی خیلی سختتر: داده و اطلاعات واقعی دنیا.
تو میتونی باهوشترین موجود تاریخ کیهان رو تو یه قفس فارادی (Faraday cage) بندازی و بگی «برو آلزایمر رو درمان کن».
شکست میخوره.
حتی اگه IQش ۵۰٬۰۰۰ باشه.
چون راهحل آلزایمر یه پازل منطقی تمیز تو وزنههاش نیست — یه واقعیت کثیف و پرنویز بیولوژیکیه که بیرون جعبه وجود داره.
هوش اساساً یه موتور بهینهسازی فضای جستجوست.
تو شطرنج و گو، فضای جستجو عظیمه ولی اطلاعات کامل و تمیزه. AI فقط با خودِ خودش بازی میکنه و میبره.
جهان واقعی شطرنج نیست. جهان واقعی پر از نویز، پراکنده و آنتروپی بالاست.
اینجاست که میرسیم به «سقف مفید» (Useful Ceiling).
ارزش هوش ماشینی یه منحنی سیگموئید داره: اول کم، بعد انفجار (همون جایی که الان هستیم)، بعد… برخورد به دیوار فیزیکی.
هوش مصنوعی الان داره کل اینترنت رو میخوره و مثل یه استاد فشردهسازی عمل میکنه.
ولی یه جایی میرسه که فرضیهها رو سریعتر از سرعت آزمایش ما تولید میکنه.
گلوگاه از «فکر کردن» منتقل میشه به «آزمایش کردن».
یه ابرذهن میتونه تو ۵ دقیقه سه تا مولکول پیشنهاد بده که احتمالاً ابررسانای دمای اتاق باشن — کاری که قبلاً میلیونها سال آزمایش کور میخواست.
ولی هنوز باید اون مولکول رو سنتز کنی.
هنوز باید تو آزمایشگاه بسازیش.
هنوز باید آزمایش بالینی راه بندازی.
هنوز باید پل رو زیر تست تنش بذاری.
هوش مصنوعی با سرعت نور فکر میکنه،
ولی فقط با سرعت اتمها میتونه عمل کنه.
ما داریم وارد عصری میشیم که هزینهی تولید یه ایدهی درخشان عملاً صفر میشه.
کمبود جدید دیگه هوش نیست — پهنای باند جهان فیزیکیه.
سقف مفید هوش ماشینی اونجاست که هزینهی محاسبهی جواب، در مقایسه با هزینهی تأیید اون جواب تو دنیای واقعی، ناچیز بشه.
ما دیگه منتظر باهوشتر شدن AI نیستیم.
هوش مصنوعی منتظر ماست — منتظر رباتهای بهتر، سنسورهای دقیقتر و آزمایشگاههایی که بتونن دادهای که گرسنهشه رو بهش بدن.
بازی عوض شده.
حالا نوبت ماست که سرعت بگیریم.
منبع:
توئیت دیوید شاپیرو
ما داریم یه تغییر فاز عظیم تو بحث AGI میبینیم.
دهه گذشته رو صرف این کردیم که ببینیم آیا مدلها میتونن از یه وکیل تو LSAT بزنن یا IQشون به ۳۰۰ برسه. ولی الان که بنچمارکها دارن یکییکی سقف میزنن، دارم فکر میکنم ما روی متغیر اشتباه زوم کردیم.
سقف هوش خام دیگه خیلی بالاست — مهم نیست.
حتی اگه یه محدودیت ریاضی سخت وجود داشته باشه و باهوشتر شدن یه جایی دیگه سود نداشته باشه… اهمیتی نداره.
انقلاب واقعی این نیست که یه خدا با IQ بینهایت بسازیم.
انقلاب اینه که هوش داره بینهایت و فوری میشه.
ما داریم از دنیایی که فکر کردن سطح بالا با سرعت لاکپشتی مغز انسان انجام میشد، میریم به دنیایی با سرعت سیلیکون.
حتی اگه AI هیچوقت از یه دانشجوی دکترای باهوش جلو نزنه، وقتی بتونی ۱۰۰ تریلیون کپی از همون دانشجو رو همزمان روشن کنی و ۱۰۰ برابر سریعتر از زمان واقعی اجرا کنی…
این یه ضریب قدرتِ دیوانهواره.
ولی یه لحظه صبر کن — اگه هوش داره بینهایت میشه، چرا هنوز سرطان، فیزیک کوانتومی و باتری بهتر نداریم؟
اینجاست که اون رویای سادهلوحانهی «سینگیولاریتی» میترکه.
چون فرض میکنه تنها گلوگاه، هوشه.
غافل از گلوگاه دوم، خیلی خیلی سختتر: داده و اطلاعات واقعی دنیا.
تو میتونی باهوشترین موجود تاریخ کیهان رو تو یه قفس فارادی (Faraday cage) بندازی و بگی «برو آلزایمر رو درمان کن».
شکست میخوره.
حتی اگه IQش ۵۰٬۰۰۰ باشه.
چون راهحل آلزایمر یه پازل منطقی تمیز تو وزنههاش نیست — یه واقعیت کثیف و پرنویز بیولوژیکیه که بیرون جعبه وجود داره.
هوش اساساً یه موتور بهینهسازی فضای جستجوست.
تو شطرنج و گو، فضای جستجو عظیمه ولی اطلاعات کامل و تمیزه. AI فقط با خودِ خودش بازی میکنه و میبره.
جهان واقعی شطرنج نیست. جهان واقعی پر از نویز، پراکنده و آنتروپی بالاست.
اینجاست که میرسیم به «سقف مفید» (Useful Ceiling).
ارزش هوش ماشینی یه منحنی سیگموئید داره: اول کم، بعد انفجار (همون جایی که الان هستیم)، بعد… برخورد به دیوار فیزیکی.
هوش مصنوعی الان داره کل اینترنت رو میخوره و مثل یه استاد فشردهسازی عمل میکنه.
ولی یه جایی میرسه که فرضیهها رو سریعتر از سرعت آزمایش ما تولید میکنه.
گلوگاه از «فکر کردن» منتقل میشه به «آزمایش کردن».
یه ابرذهن میتونه تو ۵ دقیقه سه تا مولکول پیشنهاد بده که احتمالاً ابررسانای دمای اتاق باشن — کاری که قبلاً میلیونها سال آزمایش کور میخواست.
ولی هنوز باید اون مولکول رو سنتز کنی.
هنوز باید تو آزمایشگاه بسازیش.
هنوز باید آزمایش بالینی راه بندازی.
هنوز باید پل رو زیر تست تنش بذاری.
هوش مصنوعی با سرعت نور فکر میکنه،
ولی فقط با سرعت اتمها میتونه عمل کنه.
ما داریم وارد عصری میشیم که هزینهی تولید یه ایدهی درخشان عملاً صفر میشه.
کمبود جدید دیگه هوش نیست — پهنای باند جهان فیزیکیه.
سقف مفید هوش ماشینی اونجاست که هزینهی محاسبهی جواب، در مقایسه با هزینهی تأیید اون جواب تو دنیای واقعی، ناچیز بشه.
ما دیگه منتظر باهوشتر شدن AI نیستیم.
هوش مصنوعی منتظر ماست — منتظر رباتهای بهتر، سنسورهای دقیقتر و آزمایشگاههایی که بتونن دادهای که گرسنهشه رو بهش بدن.
بازی عوض شده.
حالا نوبت ماست که سرعت بگیریم.
منبع:
توئیت دیوید شاپیرو
👍14🔥2👏2
Forwarded from DevTweet Chat
سلام
در حال حاضر تا جایی من میدونم هوش مصنوعی عمومیای نمیشناسم که بتونه مستقیم فایل .pptx یا .pdf قابلاعتماد و باکیفیت تحویل بده مگر اینکه کسی اومده باشه اینجنتی برای این موضوع نوشته باشه که من نه دنبالش بودم نه دیدم شما دیدید بگید.
پس بهجای دنبال کردن اون مسیر، این دو روش رو خودم برای همهٔ ارائههام استفاده میکنم و بهترین نتیجه رو گرفتم:
۱. ارائههای عمومی، داخلی شرکت، فروش، دمو محصول و محتواهای بصری
ابزار پیشنهادی: فریمورکهای وب ساده (خروجی یک فایل HTML تکصفحهای) و یا فریمورکهای slide show با js مثل:
Reveal.js → بیشترین امکانات و انعطاف
Sli.dev → syntax خیلی تمیز، مخصوص برنامهنویسها و طراحها
Marp → سادهترین، فقط با مارکداون معمولی
کافیه پرامپت رو اینطوری بدید (مثال با Reveal.js)
۲. ارائههای آکادمیک، کنفرانسی، پایاننامه، ژورنال کلاب و محیطهای رسمی
ابزار پیشنهادی: LaTeX + beamer
پرامپت نمونه:
در حال حاضر تا جایی من میدونم هوش مصنوعی عمومیای نمیشناسم که بتونه مستقیم فایل .pptx یا .pdf قابلاعتماد و باکیفیت تحویل بده مگر اینکه کسی اومده باشه اینجنتی برای این موضوع نوشته باشه که من نه دنبالش بودم نه دیدم شما دیدید بگید.
پس بهجای دنبال کردن اون مسیر، این دو روش رو خودم برای همهٔ ارائههام استفاده میکنم و بهترین نتیجه رو گرفتم:
۱. ارائههای عمومی، داخلی شرکت، فروش، دمو محصول و محتواهای بصری
ابزار پیشنهادی: فریمورکهای وب ساده (خروجی یک فایل HTML تکصفحهای) و یا فریمورکهای slide show با js مثل:
Reveal.js → بیشترین امکانات و انعطاف
Sli.dev → syntax خیلی تمیز، مخصوص برنامهنویسها و طراحها
Marp → سادهترین، فقط با مارکداون معمولی
کافیه پرامپت رو اینطوری بدید (مثال با Reveal.js)
با Reveal.js یک پرزنتیشن کامل HTML برای موضوع «معماری میکروسرویسها در سال ۱۴۰۴» بساز.
تم dark، فونت فارسی، انیمیشنهای نرم، حداکثر ۷ اسلاید، هر اسلاید عنوان + بولتپوینت کوتاه + یک آیکون یا نمودار ساده.
کد کامل و آماده اجرا بده (فقط یک فایل index.html).
۲. ارائههای آکادمیک، کنفرانسی، پایاننامه، ژورنال کلاب و محیطهای رسمی
ابزار پیشنهادی: LaTeX + beamer
پرامپت نمونه:
یک پرزنتیشن کامل LaTeX با کلاس beamer برای موضوع «بررسی روشهای تشخیص تقلب در تراکنشهای بانکی با یادگیری ماشین» بنویس.
تم Copenhagen، فونت فارسی با XeLaTeX، هر اسلاید حداکثر ۶ خط، استفاده از بلوکهای theorem و algorithm، خروجی کد .tex کامل و قابل کامپایل.
❤9