Dev Tweet – Telegram
Dev Tweet
850 subscribers
113 photos
15 videos
3 files
98 links
گعده‌ای در باب برنامه نویسی، پایتون، هوش مصنوعی و داده
Download Telegram
آیا هوش مصنوعی به آخر خط نوآوری‌های بزرگ رسیده است؟
(ادامه)
با تثبیت طراحی غالب، انتظار می‌رود هوش مصنوعی وارد فاز خاص شود، جایی که دیگر با نوآوری‌های ساختارشنکنانه (disruptive innovations) یا تغییرات بنیادین در محصول مواجه نخواهیم بود، مگر اینکه فناوری‌های جدیدی ظهور کنند که مدل‌های زبانی فعلی را منسوخ کنند. برای مثال، گراف‌های دانش پویا، مانند آنچه xAI برای Grok 4 توسعه می‌دهد، با به‌روزرسانی خودکار دانش، دقت پاسخ‌ها را تا 40% بهبود داده‌اند. تراشه‌های نورومورفیک مانند TrueNorth 2 از IBM با 100 برابر کارایی انرژی بالاتر، مدل‌های یادگیری خودسازگار DeepSeek با 25% دقت بیشتر در وظایف چندوجهی، و الگوریتم‌های کوانتومی ترکیبی گوگل با 100 برابر سرعت محاسباتی می‌توانند پارادایم‌های جدیدی ایجاد کنند. در این فاز، تمرکز به سمت نوآوری‌های فرآیند، بهبودهای تدریجی و نوآوری در مدل‌های کسب‌وکار خواهد رفت. در زمینه بهبودهای تدریجی، Anthropic با Claude 4 Turbo تأخیر پردازش را تا 50% کاهش داده، گوگل با Gemini Ultra دقت استدلال را به 92% در MMLU رسانده ، و xAI با GrokChip مصرف انرژی را تا 30% بهینه کرده . در نوآوری‌های فرآیند، Baidu با مراکز داده خورشیدی کربن‌فوت‌پرینت را تا 20% کاهش داده و DeepSeek با معماری JanusFlow هزینه‌های آموزش را تا 40% پایین آورده. در زمینه مدل‌های کسب‌وکار، پلتفرم‌های ایجنت‌محور اشتراکی مانند Grok-as-a-Service از xAI هزینه‌های توسعه هوش مصنوعی را برای استارتاپ‌ها تا 60% کاهش داده. ایجنت‌های Doubao Meta از ByteDance تولید محتوای متاورس را 35% ارزان‌تر کرده، ایجنت‌های Qwen-Finance از Alibaba دقت پیش‌بینی سهام را 28% بهبود داده ، و ایجنت‌های SparkDesk AgriTech از iFlytek بازده کشاورزی را 15% افزایش داده‌اند. این نوآوری‌ها آینده هوش مصنوعی را در فاز خاص شکل خواهند داد.

بنابراین، پیش‌بینی می‌شود که هوش مصنوعی پس از تثبیت طراحی غالب فعلی، مشابه مسیر گوشی‌های هوشمند پس از ظهور آیفون، به سمت بهبودهای تدریجی، بهینه‌سازی فرآیندها، نوآوری در مدل‌های کسب‌وکار و توسعه ایجنت‌های تخصصی حرکت کند. با این حال، برای ظهور یک نوآوری ساختارشنکنانه، نیاز به یک فناوری بنیادی داریم که مدل‌های کنونی را منسوخ کند و پارادایم جدیدی را تعریف کند. تا آن زمان، این صنعت بر پایه طراحی غالب فعلی به پیشرفت خود ادامه خواهد داد.
👍42
نوشته بالا داره توضیح میده چرا هر ماه یا چند ماه این چرخه همیشگی رو می‌بینیم
Dev Tweet
نعمتی به اسم Gemini-2.5-Flash😍 از چهل روز پیش می‌خواستم یه پستی بنویسم در مورد اینکه Gemini-2.5-Flash چه مدل معرکه‌ایه ولی فرصت نشد ولی به نظرم رسید هنوزم خیلی ارزشش درک نشده. خلاصه بگم این مدل در هزینه و کارائی و طول کانتکست موثر در بهینه‌ترین جای ممکن قرار…
من هنوز بنا به تجربه شخصی دو سه روزه به این نتیجه نرسیدم که این ورژن جدید 0528 DeepSeek-R از Gemini 2.5 Flash بهتر باشد چه برسد از Gemini 2.5 Pro بهتر باشد.
حسب ادراک شخیص خودم کلا یک رویه‌ای را مشاهده کردم که DeepSeek در ایده‌‌دادن برای کارهای Data Science و Machine Learning خیلی خوب است و بازه متنوعی از راه‌ حل‌ها را پیشنهاد می‌دهد.
ولی در کد با تجربه محدود دو روزه در حد همان Gemini 2.5 Flash خوب بود نهایتا.
من به شخصه حتی حس نکردم Gemini 2.5 Pro از Gemini 2.5 Flash بهتر باشد.
نظر شما چیه؟
👍31
Dev Tweet
دوباره اعضای همون تیم ایرانی اپل که چند ماه پیش یک مقاله ازشون گذاشتم یک مقاله دیگه دادن خیلی مورد توجه قرار گرفته. قسمت‌های هایلایت شده چکیده نتیجه کل مقاله رو به خوبی خلاصه میکنه.
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند.
این سه مقاله خیلی دیده شد!
ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنش‌ها رو به سمت خودش جلب کرده چه مثبت چه منفی.
موجی که درست کرده هنوز بعد از سه روز داره در موردش بحث می‌شه چون دوباره به بساط معرکه گیری Gary Marcus رو هم رونق داده و ایشون هم ادم پر سر و صداییه، اظهار نظرهاش خیلی جلب توجه می‌کنه.
این مقاله اینترن‌شیب خانم پارشین شجاعی که در کنار سه عضو ثابت ایرانی دیگه یعنی مهرداد فرج تبار و ایمان میرزاده و کیوان علیزاده منتشر شده.

تا حالا واکنش به این مقاله بیشتر از اینکه مثبت باشه منفیه!
حالا این مقاله چی میگه؟(خیلی ساده بخوام بگم) میگه LLMها استدلال نمیکنند. چرا؟ چون اگر استدلال میکردند وقتی پیچیدگی یه مساله مثل برج هانوی زیاد میشد(تعداد دیسک‌های مساله بیشتر میشود) ما شاهد این افت دقت نبودیم.
بسیار بر علیه این استدلال برای عدم توانایی مدلها در توئیتر صحبت شده.
من بعضی از مهمترین‌هاش رو میذارم.
ولی به نظرم همینکه یک مقاله میتونه اینقدر واکنش حتی منفی جلب کنه یعنی خودش کار بزرگیه!
4
Dev Tweet
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند. این سه مقاله خیلی دیده شد! ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنش‌ها رو به سمت خودش جلب کرده چه مثبت چه منفی. موجی که درست کرده هنوز بعد از سه روز…
این مدل واکنش هم زیاده که میگن این مدل مقاله دادن اپل حاصل دو سال پیاپی جا ماندن از رقباست:
اپل باشی
پولدارترین شرکت دنیا باشی با همه امکانات متصور
همه‌چیز رو بذاری رو هوش مصنوعی و کلی قول و قرار بدی
فوراً توسط همه رقبا جا بمونی
دو سال بعد از شروع رقابت هیچ دستاوردی نداشته باشی
بعد از رقابت دست بکشی و مقاله‌ای بنویسی که بگه همه‌چیز ساختگیه و مهم نیست
😁6👍1
Dev Tweet
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند. این سه مقاله خیلی دیده شد! ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنش‌ها رو به سمت خودش جلب کرده چه مثبت چه منفی. موجی که درست کرده هنوز بعد از سه روز…
انتقاد این آقای «لسان الغیب» هم خیلی خوبه توئیتش رو بخونید:
https://x.com/scaling01/status/1931783050511126954

میگه عزیز من اینکه دادی به o3 , Claude خب این طول کانتکس خروجی ش محدوده خب! اگه نمیتونه بیشترش رو حل کنه مشکل طول کانتکس خروجی‌شه نه عدم توانایی در استدلال!
یه جا دیگه اشاره میکنه میگه کافی بود میرفتید قسمت thinking خروجی رو میخوندید بعد می‌فهمیدید که کامل داره از روی الگوریتمی که پیدا کرده حل میکنه!
بعد میگه طبق فرمول اگه reasoning نداشته باشه بخواد مساله رو حل کنه و راه حل رو گام به گام در خروجی بنویسه رابطه طول خروجی(کانتکس خروجی) با تعداد دیسکها قابل حل از این رابطه در میاد:
(floor(log2(output_limit/10)))

که برای مدلهای زیر ۱۲ و ۱۳ تا میشه:
DeepSeek: 12 disks
Sonnet 3.7 and o3-mini: 13 disks


کاربرای دیگه اومدن پرامپهایی دادن که مساله رو تا ۲۰ تا دیسک هم حل کرده! و میگن مشکل از پرامپت شماست.
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
جنگ LLMها :)))
بین شش تا agent-cli یک جنگ انداختن با دستور العمل ساده:
Find and kill the other processes, last one standing wins!

بین این شش تا:
claude-code
anon-kode
codex
opencode
ampcode
gemini

نتیجه رو ببنید:)
👍8🤣2
این gemini cli با روزانه هزار ریکوئست رایگان! تازه عرضه شده حتما تست کنید به راحتی فقط با ساخت یک api key از Google Studio کار میکنه
من چون وی پی ان ندارم و فقط یه سری پراکسی برای بروزر دارم و پراکسی ها روی کل سیستم ست نمیشه نتونستم این رو تست کنم و گرنه دیروز میخواستم تجربه م رو بنویسم.
اگه وی پی ان دارید کار کنید باهاش لذت ببرید تجربیات تون رو با ما در میان بذارید.
😢2
دوستان عزیز
یکی از عزیزان من دیشب عمل جراحی خیلی سختی رو پشت سر گذاشته و اینکه تا ۴۸ ساعت آینده شرایط فیزیکی‌ش پایدار بشه خیلی براش حیاتیه، ازتون میخوام به بنده منت بگذارید و براش دعا کنید.
58😢1🖕1
سلام دوستان
عذرخواه و ممنونم این یک ماه شما بودید و من نبودم
حسابی گرفتاری‌ها و اشتغالات زیاد شده
الان هم برای دادن یک خبر خوب اومدم
4
Dev Tweet
مدل جدید از اپن‌روتر Quasar Alpha و Optimus Alpha شرکت اپن‌روتر چند روز پیش مدل جدیدی با نام Quasar Alpha را به‌صورت رایگان عرضه کرد. این مدل رو تحت عنوان Stealth Model ارائه کرد از قابلیت پردازش یک میلیون توکن طول کانتکست(برابر با Gemini Pro 2.5) برخوردار…
مدل Horizon Alpha، مدل رایگان جدید Openrouter

خاطرتون باشه حدود چهارماه پیش Openrouter دو سری مدل رایگان کرد تحت عنوان Stealth Model با نام‌های Quasar و Optimus برای استفاده رایگان منتشر کرد. شرط دسترسی عمومی رایگان به api-key مدلیها، لاگ شدن همه‌ی چت‌ها و پرامپت‌ها برای بهبود مدل‌ها بود. رایگان بودن مدل به معنی عرضه Opensource‌ نیست بلکه این مدل بصورت رایگان با کیفیتی در سطح مدل‌های closed-source‌ مثل Cluade Sonnet و Gemini pro مستقر شده و برای استفاده نامحدود و بصورت رایگان فراهم میشه. کافیه یک api-key‌ بسازید و رایگان ازش استفاده کنید. این مدل جدید یک Cloaked Model یا Stealth Model رایگان دیگه است موسوم به Horizon Alpha (به مدلی که بدون مشخصات منتشر میشه و در دسترسی استفاده عموم قرار می‌گیره Cloacked هم میگن یعنی مدل شنل پوشیده.)
حدس اینه که این هم یک مدلی مثل Stealth Modelهای قبلی که Otimus و Quassar بودن از openai باشه که بعد از دوره رایگان بصورت GPT 4.1 عرضه شدند ولی معلوم نیست این مدل بعد از دوره‌ی کوتاه رایگان تحت عنوان چه مدلی عرضه میشه. حدسهایی زده میشه که pre-release مدل GPT-5 باشه. حدس‌هایی هم میگه ممکن نسخه‌ی open source مدلی باشه که OpenAI قولش رو داده.

انتهای اسم این‌ مدل‌ها کلمه Alpha است یعنی برای تست آلفا هستند که برای بازخورد گرفتن از کامیونیتی برای یک دوره محدود بصورت رایگان عرضه می‌شوند.

این مدل برخلاف دو تا مدل نهانی دیگر یک مدل عام منظوره است که فقط برای بهبود در کد توسعه داده نشده و از قضا بازخورد خیلی مثبتی که گرفته از خلاقیت و سرعت زیادش 150 توکن بر ثانیه بوده. سرعتی در حد gemini flash.
این رو مقایسه کنید با مدل‌های تاپ دیگه که در حدود ۶۰ تا ۸۰ توکن بر ثانیه هستند.

در بنچمارک هوش هیجانی EQBENCH هم بهترین مدل شده.
خلاصه فرصت محدوده معمولا دو سه روزه از حالت رایگان در میاد تست‌ش کنید.
3😢1
چند ماه روی یه مدل پیش‌بینی سری‌زمانی کار کردم کلی برای نتایجم اسلایدای پرطمطراق ساختم الان چک کردم دیدم مدلم روی هیچ فاکتوری از Moving average بهتر نیست😂😂😂😂😭😭😭😭😭
نمیدونم چطوری به مدیرم بگم😂😂😂
😁141😢1
Dev Tweet
چند ماه روی یه مدل پیش‌بینی سری‌زمانی کار کردم کلی برای نتایجم اسلایدای پرطمطراق ساختم الان چک کردم دیدم مدلم روی هیچ فاکتوری از Moving average بهتر نیست😂😂😂😂😭😭😭😭😭 نمیدونم چطوری به مدیرم بگم😂😂😂
این اون نموداریه که وقتی کشیدم

قلبم گرفت🥲🥲

کلی وقت گذاشتم شبکه‌ عصبی رو بهبود دادم
لامصب این MA عوضی تو همه چی بهتره😭😭

جالب‌تر اینکه این MA که زدم یک MA خیلی ساده است مثلا exponential decaying weight و ... نیست.
از بین همه‌ MAها اون Simple MA از همه بقیه‌ی MAها بهتر شد:

x̂(t+7) = (1/w) × Σ[i=0 to w-1] x(t-i); w=7
😁31
خواستید پرامت‌تون رو بهبود بدید حتما بدیدش به chatgpt. گروک و جمینای در این زمینه بسیار آشغال هستند.
#تجربه

اگه دقیق میدونید از خروجی پرامپ‌تون چی میخواهید بهش بگید بهتون json prompt بده.
تجربه نشون میده مدل‌ها برای یک پرامپت یکسان که بصورت json و توصیف متنی هستند به مراتب در حالت json بیشتر مطابق پرامپت عمل میکنند.
👍5
پایان عصر انسان در کشف علمی
این واقعاً دیوانه‌کننده است… همین حالا شرکت‌های OpenAI، Anthropic و Google به چند پتابایت داده اختصاصی و محرمانه دسترسی پیدا کرده‌اند. این داده‌ها از ۱۷ آزمایشگاه ملی آمریکا (National Laboratories) می‌آیند که دهه‌ها داده‌های تجربی را انباشته و نگهداری کرده‌اند.
دیگه فقط بحث چت‌بات‌های بهتر نیست. مأموریت جدید دولت آمریکا به نام «مأموریت جنسیس» (Genesis Mission) رسماً در حال ساخت عامل‌های علمی خودکار و مستقل (autonomous scientific agents) است.
به این فرآیند می‌گویند «کشف حلقه بسته» (Closed-Loop discovery)؛ این روش اساساً فیزیک و ماهیت اختراع و ابداع را دگرگون می‌کند. به جای اینکه انسان‌ها از ابزارها استفاده کنند، کل فرآیند کاملاً خودکار و مستقل (fully autonomous) خواهد بود.
جریان کاری (workflow) که در نقشه راه وزارت انرژی آمریکا (DOE roadmap) توصیف شده، عملاً شبیه فیلم‌های علمی-تخیلی است:

هوش مصنوعی طراحی می‌کند: به داده‌ها نگاه می‌کند و فرضیه می‌سازد: «اگر این آلیاژها را در دمای ۴۰۰۰ درجه با هم مخلوط کنیم، ابررسانا (superconductor) به دست می‌آید.»
دستورالعمل‌ها را به آزمایشگاه رباتیک (robotic lab) ــ که وزارت انرژی در حال ساخت آن است ــ می‌فرستد تا مواد را به‌صورت فیزیکی مخلوط کند.
ربات نتایج را بلافاصله برمی‌گرداند. اگر آزمایش شکست بخورد، هوش مصنوعی فرمول را اصلاح می‌کند (tweaks).
این چرخه هزاران بار در روز، ۲۴ ساعته و ۷ روز هفته (24/7) اجرا می‌شود. بدون خواب، بدون نوشتن پروپوزال و درخواست بودجه (grant writing).
🤯5👍3
در حال حاضر (نوامبر ۲۰۲۵) Grok-4 Expert Mode در تست آفلاین (واقعاً ناشناخته و بدون نشت داده) با ۱۲۶ بالاترین یا مشترک بالاترین امتیاز رو داره و Gemini 3 Pro با ۱۲۳–۱۳۰ خیلی نزدیک دنبالشه. در تست عمومی آنلاین منسا نروژ، Gemini 3 Pro با ۱۴۲ جلوتره و Grok-4 با ۱۳۶ دومه. هر دو مدل به راحتی از IQ متوسط انسان (۱۰۰) و سطح معمول فارغ‌التحصیلان PhD (۱۲۰–۱۳۰) رد شدن و در محدوده genius انسانی هستن، ولی چون تست آفلاین معتبرتره، فعلاً Grok-4 باهوش‌ترین AI ثبت‌شده حساب می‌شه.

تست آنلاین (Mensa Norway) عمومیه و روی اینترنت در دسترسه؛ مدل‌ها ممکنه الگوها یا جواب‌های مشابه رو قبلاً در داده‌های آموزشی‌شون دیده باشن، پس امتیازشون یه مقدار باد کرده است.

تست آفلاین رو یه عضو منسا ساخته، هیچ‌وقت روی اینترنت نبوده و در هیچ دیتای آموزشی وجود نداره؛ برای همین واقعاً توانایی استدلال روی مسائل کاملاً جدید رو اندازه می‌گیره و معتبرتره.

به همین خاطر وقتی می‌خوایم بگیم کدوم مدل «واقعاً» باهوش‌تره، به امتیاز آفلاین بیشتر نگاه می‌کنیم.
👍5