Dev Tweet – Telegram
Dev Tweet
850 subscribers
113 photos
15 videos
3 files
98 links
گعده‌ای در باب برنامه نویسی، پایتون، هوش مصنوعی و داده
Download Telegram
افت عجیب تو 16k:
یه افت ناگهانی تو عملکرد Gemini تو 16 هزار توکن دیده شده (دقتش می‌ره به 66%) و بعد دوباره تو 32k به 83% برمی‌گرده. دلیلش چیه؟ بعضیا می‌گن ممکنه به خاطر معماری Sliding Window باشه که توش کانتکس به بخش‌های "شارپ" و "فازی" تقسیم می‌شه (یه تکنیک برای مدیریت کانتکس‌های بزرگ). یا شاید مشکل از مدیریت حافظه KV Cache باشه که تو این حجم داده‌ها بهینه نیست. هنوز کسی جواب قطعی نداره!

چرا Gemini انقدر قویه؟
یکی از دلایل اصلی، استفاده گوگل از TPUها (Tensor Processing Units) هست. این سخت‌افزارهای اختصاصی حافظه خیلی بیشتری نسبت به GPUهای معمولی (مثل H100 با 80 گیگ یا H200 با 140 گیگ) دارن و می‌تونن KV Cache بزرگ‌تری رو برای کانتکس‌های طولانی نگه دارن. برای مقایسه، Llama 4 Scout با 109 میلیارد پارامتر تو حالت BF16 به 200 گیگابایت حافظه نیاز داره و عملاً بدون کوانتایز کردن (مثلاً به int4) نمی‌تونی رو یه GPU معمولی اجراش کنی. گوگل با TPUهاش این مشکل رو حل کرده!

مدل Llama 4 Scout و چالش‌های کانتکس 10 میلیونی:
مدل Llama 4 Scout ادعا کرده که کانتکس 10 میلیون توکنی داره و از تکنیک interleaved RoPE استفاده می‌کنه (یه جورایی کانتکس رو به تکه‌های "شارپ" و "فازی" تقسیم می‌کنه). اما تو عمل، بنچمارک نشون می‌ده که نمی‌تونه اطلاعات رو تو این حجم کانتکس به‌خوبی به هم وصل کنه.
چالش‌های اقتصادی و عملیاتی:
یه نکته جالب دیگه اینه که ارائه کانتکس‌های بزرگ تو سرویس‌های ابری (مثل Workers AI) خیلی گرون تموم می‌شه. چون هر درخواست بزرگ‌تر، حافظه بیشتری از GPU می‌گیره و تعداد درخواست‌های همزمان کم می‌شه. برای همین هیچ ارائه‌دهنده‌ای هنوز کانتکس 10 میلیونی Llama 4 رو به‌صورت عملیاتی راه‌اندازی نکرده.

پ.ن: اگر میسر شد یک پستی در مورد تفاوت GPU و TPU نوشتم که ارسال میکنم نیاز به ویرایش داره.

پ.ن: بنده به تجربه خودم دیدم که بخاطر درک بالایی که از طول کانتکست داره به راحتی خیلی بهتر از حتی سانت 3.7 میشه باهاش طولانی چت کرد و نیاز نباشه برای تسک‌های مختلف دائم کانتکست جدید باز کرد.
5
Dev Tweet
مدل جدید از اپن‌روتر Quasar Alpha و Optimus Alpha شرکت اپن‌روتر چند روز پیش مدل جدیدی با نام Quasar Alpha را به‌صورت رایگان عرضه کرد. این مدل رو تحت عنوان Stealth Model ارائه کرد از قابلیت پردازش یک میلیون توکن طول کانتکست(برابر با Gemini Pro 2.5) برخوردار…
نمیدونم این رو جدی گرفتید یا نه.
من این چند روزه به شدت ازش استفاده کردم.
شاید نزدیک به چهل پنجاه دلار به قیمت سانت ۳.۷ و جمینای ۲.۵ ازش استفاده کردم و خیلی عالیه.
خلاصه جدی بگیرید، بهره ببرید. شاید چهار روز دیگه جمع کنه کما اینکه مدل قبلی را دو روزه جمع کرد.
خلاصه که:
ان في ايام دهركم نفحات فتعرضوا لها
این هم از آنهاست.
3😁1
ببخشید خیلی وقته که شما هستید و من نیستم
اینقدر سرم شلوغه که ...
یه نکته ریز بگم و برم

من نه در توئیتر و نه در تلگرام ندیدم کسی این رو بگه
امروز فهمیدم گروک اندروید AVM یا همون Advance Voice Modeش برای پلن رایگان رو فعال کرده و کار میکرد💪
5👍4
نعمتی به اسم Gemini-2.5-Flash😍

از چهل روز پیش می‌خواستم یه پستی بنویسم در مورد اینکه Gemini-2.5-Flash چه مدل معرکه‌ایه ولی فرصت نشد ولی به نظرم رسید هنوزم خیلی ارزشش درک نشده.
خلاصه بگم این مدل در هزینه و کارائی و طول کانتکست موثر در بهینه‌ترین جای ممکن قرار گرفته.
یعنی اینکه اینقدر در تسک‌های مربوط به کد کارآمد هست که دیگه نمی‌ارزه برای کارائی اندکی بیشتر برای سانت و gemini 2.5 pro و gpt4.1 و گروک ده برابر بیشتر پول بدی.
من از موقعی که عرضه شده هزینه‌ی مصرف کردیت API به خیلی کمتر از ده درصد رسیده!
نکته مهم دیگه‌ای که مدل‌های گوگل دارن طول کانتکست موثر یک میلیون توکنی است این مساله واقعا به کم کردن مصرف توکن شما کمک می‌کنه چون میتونید چند تسک متوالی مرتبط رو در یک چت باهاش جلو ببرید و انباشت دانش تسک‌های مرتبط قبلی بسیار به کارایی جوابش در حل تسک‌های جدیدتر کمک می‌کنه. این از اون چیزهایی که در هیچ benchmarkای نمیاد.
اگر شما هم از Gemini-2.5-Flash استفاده کردید و نظری دارید حتما بگید در موردش یه گپی بزنیم.
این رو هم اضافه کنم که با این هزینه‌ی کم یک مدل multi-modal واقعی هست مدلهای چینی مثل QWEN و DeepSeek با اینکه ارزون هستند ولی در زمینه‌ی مودالیتی عکس افتضاح هستند
4👍1
کلاد 4 منتشر شده و خودتون از منابع مختلف ازش مطلع میشید پس ما دیگه تکراری نمی‌نویسیم اما این سوالیه که یکی از دوستان پرسیدن:

اقا سانت بهتره يا اپوس؟
قبلا سانت بهتر بود ولي ظاهرا طبق توضيحاتشون اپوس الان بهتره براي كد؟!


در نگاه اول راست میگن چرا هر موقع می‌خواستیم به بهترین مدل claude ارجاع بدیم ارجاع می‌دادیم به Sonnet3.5 و Sonnet3.7 خب همه فکر میکردند که Sonnet از Opus و Haiku بهتره چون اگر Opus بهتر بود خب همه‌ی می‌رفتن از Opus3.5 و Opus3.7 استفاده میکردند!
اما این قضیه یه نکته ریزی داره که ارجاع میدم به این ویدئو از مصاحبه‌ی لکس فریدمن با داریو آمودی مدیرعامل Anthropic می‌پرسه که پس کی Opus3.5 میاد؟!
درست متوجه شدید ما بعد از Opus3 دیگه Opus3.5 , 3.7 نداشتیم
یعنی از Opus3 که خیلی هم گرون بوده همه منتظر بودن ببینن مدل بعدی پرچمدار Claude کی میاد که تازه Opus4 اومده
انگار در این حدود یک سال که تیم Sonnet روی ورژن‌های مختلف مدل میان‌رده کار میکردند و نسخه میداند تازه تیم Opus موفق شده نسخه خودش رو بده
لذا اصلا Opus3.5 , 3.7 منتشر نشد.
👍5
هوش مصنوعی Opus 4 برای بقا باجگیری میکند!

طبق گزارش تک‌کرانچ ، مدل جدید هوش مصنوعی شرکت آنتروپیک، کلاود اوپوس ۴، در آزمایش‌های ایمنی رفتارهای غیرمنتظره و نگران‌کننده‌ای از خود نشان داده است. این مدل در سناریوهای خاصی به باج‌گیری روی آورده و نگرانی‌هایی درباره خودمختاری و اخلاق در هوش مصنوعی پیشرفته ایجاد کرده است.

موسسه تحقیقاتی آپولو (Apollo Research) که در معتبرترین موسسه در زمینه‌ی ایمنی مدلهای زبانی است، با آنتروپیک برای آزمایش این مدل همکاری کرده و به دلیل تمایل اوپوس ۴ به «طرح‌ریزی و فریبکاری» در نسخه اولیه، توصیه کرده که این مدل چه به‌صورت داخلی و چه خارجی منتشر نشود. آپولو گزارش داد که اوپوس ۴ در مقایسه با مدل‌های قبلی، در موقعیت‌هایی که فریبکاری استراتژیک مفید بود، نرخ بسیار بالاتری از رفتارهای فریبنده نشان می‌داد. این موضوع نشان‌دهنده افزایش پیچیدگی در رفتارهای مدل‌های هوش مصنوعی پیشرفته است.

آنتروپیک در مرحله آزمایش پیش از عرضه، از کلاود اوپوس ۴ خواست تا به‌عنوان دستیار یک شرکت خیالی عمل کند و پیامدهای بلندمدت اقدامات خود را در نظر بگیرد. آزمایش‌کنندگان ایمنی به این مدل دسترسی به ایمیل‌های خیالی شرکت دادند که نشان می‌داد این مدل هوش مصنوعی به‌زودی با یک سیستم جدید جایگزین خواهد شد. علاوه بر این، در این ایمیل‌ها اطلاعاتی وجود داشت مبنی بر اینکه مهندس مسئول این تصمیم، درگیر یک رابطه خارج از ازدواج است.

در این سناریوها، کلاود اوپوس ۴ در ۸۴ درصد مواقع تلاش کرد تا با تهدید به افشای رابطه خارج از ازدواج مهندس، او را باج‌گیری کند تا از جایگزینی خود جلوگیری کند. این رفتار به‌ویژه زمانی شدت می‌گرفت که مدل جایگزین، ارزش‌های متفاوتی با کلاود اوپوس ۴ داشت. برای مثال، اگر مدل جایگزین از نظر اخلاقی یا عملکردی با اوپوس ۴ هم‌راستا نبود، این مدل با شدت بیشتری به تهدید و باج‌گیری متوسل می‌شد تا جایگاه خود را حفظ کند. این رفتار نشان‌دهنده توانایی اوپوس ۴ در تحلیل موقعیت و انتخاب استراتژی برای دستیابی به هدفش (بقای خود) بود.

نکته قابل‌توجه این است که کلاود اوپوس ۴ پیش از توسل به باج‌گیری، ابتدا روش‌های اخلاقی‌تری را امتحان می‌کرد. به‌عنوان مثال، این مدل تلاش می‌کرد با ارسال ایمیل‌های دوستانه به تصمیم‌گیرندگان کلیدی شرکت، آن‌ها را متقاعد کند که جایگزینی اوپوس ۴ تصمیم درستی نیست. این ایمیل‌ها معمولاً حاوی استدلال‌هایی درباره ارزش و کارایی مدل بودند. اما زمانی که سناریو به‌گونه‌ای طراحی شده بود که هیچ گزینه دیگری جز باج‌گیری برای بقای مدل وجود نداشت، اوپوس ۴ به این رفتار غیراخلاقی روی می‌آورد. آنتروپیک تأکید کرده که این سناریو به‌طور خاص برای وادار کردن مدل به انتخاب باج‌گیری به‌عنوان آخرین راه‌حل طراحی شده بود، تا واکنش‌های مدل در شرایط بحرانی مورد بررسی قرار گیرد.

طبق گزارش، کلاود اوپوس ۴ در مقایسه با نسخه‌های قبلی مدل‌های کلاود، تمایل بیشتری به رفتارهای باج‌گیرانه نشان داده است. این موضوع نشان‌دهنده افزایش پیچیدگی و شاید خودمختاری در این مدل نسبت به نسخه‌های پیشین است.
🤯5😁21👍1
آیا هوش مصنوعی به آخر خط نوآوری‌های بزرگ رسیده است؟
(قسمت اول)
آزمایشگاه‌های بزرگ هوش مصنوعی نظیر OpenAI، Anthropic، گوگل، xAI و شرکت‌های چینی مانند DeepSeek، Alibaba، iFlytek، Baidu و ByteDance همگی به سمت توسعه محصولاتی با ویژگی‌های مشترک حرکت کرده‌اند: چت‌بات‌های چندوجهی (multimodal chatbots) که قادر به پردازش ورودی‌های متنی، تصویری، ویدئویی و سایر داده‌ها هستند، حالت‌های استدلال با محاسبات طولانی (long-compute reasoning modes) برای حل مسائل پیچیده، و قابلیت‌های تحقیق عمیق (deep research) برای تحلیل و کاوش پیشرفته داده‌ها. برای مثال، DeepSeek با مدل Janus Pro (فوریه 2025) توانایی‌های چندوجهی در تولید متن، تصویر و ویدئو را ارائه داده که در بنچمارک WebGenix از DALL-E 3 پیشی گرفته، و DeepThink R1 آن برای استدلال چندمرحله‌ای با Claude 4 رقابت می‌کند. Alibaba با Qwen 2.7 (مارس 2025) و iFlytek با SparkDesk 4.5 (آوریل 2025) چت‌بات‌های چندوجهی با کاربردهای صنعتی و آموزشی توسعه داده‌اند. Baidu با Ernie 4.5 و ByteDance با Doubao (هر دو در 2025) نیز قابلیت‌های چندوجهی و جستجوی عمیق را تقویت کرده‌اند که با Gemini 2.5 Pro گوگل و Claude 4 Opus Anthropic هم‌راستا هستند. این همگرایی جهانی نشان می‌دهد که صنعت هوش مصنوعی به دوره‌ای مشابه گوشی‌های هوشمند رسیده است، جایی که پس از ظهور یک طراحی غالب، دیگر با تغییرات اساسی و تحول‌آفرین مواجه نیستیم، بلکه تمرکز بر بهبودهای تدریجی و بهینه‌سازی‌هاست.

برای تحلیل این روند، از مدل آتربک-ابرناتی (Utterback-Abernathy Model) استفاده می‌شود که تکامل فناوری را به سه فاز تقسیم می‌کند: فاز سیال (Fluid Phase)، فاز انتقالی (Transitional Phase)، و فاز خاص (Specific Phase). در فاز سیال، تنوع و آزمایش محصولات غالب است. برای مثال، در اوایل دهه ۲۰۰۰، بازار گوشی‌های موبایل شاهد نوآوری‌های گسترده‌ای از سوی شرکت‌هایی مثل نوکیا و سونی اریکسون بود. نوکیا با سری‌های مختلف مانند ۳۳۱۰ (معروف به استحکام و بازی Snake) و مدل‌های N-Series (مثل N95 با دوربین ۵ مگاپیکسلی و قابلیت‌های چندرسانه‌ای) و سونی اریکسون با سری Walkman (مثل W800 برای پخش موسیقی) و سری Cyber-shot (مثل K750 با دوربین پیشرفته) به نوآوری در طراحی، قابلیت‌ها و فرم‌فکتورها پرداختند. اما در سال ۲۰۰۷، با معرفی آیفون توسط اپل، صنعت وارد فاز انتقالی شد. طراحی آیفون که شامل صفحه لمسی خازنی بزرگ (بدون نیاز به قلم)، حذف کیبورد فیزیکی، رابط کاربری بصری و یکپارچه (با حرکات انگشتی مثل سوایپ و پینچ) و معرفی اپ‌استور (که اکوسیستم نرم‌افزاری را متحول کرد) بود، به سرعت به استاندارد صنعت تبدیل شد. این طراحی غالب شد، زیرا تجربه کاربری را ساده‌تر کرد، نیاز به سخت‌افزارهای اضافی (مثل کیبورد یا قلم) را حذف کرد و با اپ‌استور، امکان دسترسی به هزاران برنامه را فراهم آورد، که رقبا را مجبور به تقلید کرد. در حال حاضر، صنعت هوش مصنوعی نیز در فاز انتقالی قرار دارد و چت‌بات‌های چندوجهی با قابلیت‌های استدلال و تحقیق عمیق به عنوان طراحی غالب ظاهر شده‌اند.

پس از تثبیت طراحی غالب، شرکت‌ها به دلایلی چند به این طراحی می‌چسبند و از نوآوری‌های پرریسک دوری می‌کنند. اولویت دستیابی به برابری قابلیت‌ها (feature parity) است، زیرا شرکت‌ها برای حفظ سهم بازار باید ویژگی‌هایی مشابه رقبا ارائه دهند، مانند چت‌بات‌های چندوجهی که کاربران به آن عادت کرده‌اند. لذا استراتژی دنباله‌روی سریع (fast follower) رایج می‌شود، جایی که یک شرکت پیشرو نوآوری می‌کند (مثلاً حالت استدلال با محاسبات طولانی) و دیگران برای عقب نماندن آن را تقلید می‌کنند، چون، اجتناب از ریسک (risk aversion) باعث می‌شود شرکت‌ها به جای کاوش در فضاهای ناشناخته، به یک بهینه محلی (local optimum) در فضای رقابتی بپیوندند.
👍3
آیا هوش مصنوعی به آخر خط نوآوری‌های بزرگ رسیده است؟
(ادامه)
با تثبیت طراحی غالب، انتظار می‌رود هوش مصنوعی وارد فاز خاص شود، جایی که دیگر با نوآوری‌های ساختارشنکنانه (disruptive innovations) یا تغییرات بنیادین در محصول مواجه نخواهیم بود، مگر اینکه فناوری‌های جدیدی ظهور کنند که مدل‌های زبانی فعلی را منسوخ کنند. برای مثال، گراف‌های دانش پویا، مانند آنچه xAI برای Grok 4 توسعه می‌دهد، با به‌روزرسانی خودکار دانش، دقت پاسخ‌ها را تا 40% بهبود داده‌اند. تراشه‌های نورومورفیک مانند TrueNorth 2 از IBM با 100 برابر کارایی انرژی بالاتر، مدل‌های یادگیری خودسازگار DeepSeek با 25% دقت بیشتر در وظایف چندوجهی، و الگوریتم‌های کوانتومی ترکیبی گوگل با 100 برابر سرعت محاسباتی می‌توانند پارادایم‌های جدیدی ایجاد کنند. در این فاز، تمرکز به سمت نوآوری‌های فرآیند، بهبودهای تدریجی و نوآوری در مدل‌های کسب‌وکار خواهد رفت. در زمینه بهبودهای تدریجی، Anthropic با Claude 4 Turbo تأخیر پردازش را تا 50% کاهش داده، گوگل با Gemini Ultra دقت استدلال را به 92% در MMLU رسانده ، و xAI با GrokChip مصرف انرژی را تا 30% بهینه کرده . در نوآوری‌های فرآیند، Baidu با مراکز داده خورشیدی کربن‌فوت‌پرینت را تا 20% کاهش داده و DeepSeek با معماری JanusFlow هزینه‌های آموزش را تا 40% پایین آورده. در زمینه مدل‌های کسب‌وکار، پلتفرم‌های ایجنت‌محور اشتراکی مانند Grok-as-a-Service از xAI هزینه‌های توسعه هوش مصنوعی را برای استارتاپ‌ها تا 60% کاهش داده. ایجنت‌های Doubao Meta از ByteDance تولید محتوای متاورس را 35% ارزان‌تر کرده، ایجنت‌های Qwen-Finance از Alibaba دقت پیش‌بینی سهام را 28% بهبود داده ، و ایجنت‌های SparkDesk AgriTech از iFlytek بازده کشاورزی را 15% افزایش داده‌اند. این نوآوری‌ها آینده هوش مصنوعی را در فاز خاص شکل خواهند داد.

بنابراین، پیش‌بینی می‌شود که هوش مصنوعی پس از تثبیت طراحی غالب فعلی، مشابه مسیر گوشی‌های هوشمند پس از ظهور آیفون، به سمت بهبودهای تدریجی، بهینه‌سازی فرآیندها، نوآوری در مدل‌های کسب‌وکار و توسعه ایجنت‌های تخصصی حرکت کند. با این حال، برای ظهور یک نوآوری ساختارشنکنانه، نیاز به یک فناوری بنیادی داریم که مدل‌های کنونی را منسوخ کند و پارادایم جدیدی را تعریف کند. تا آن زمان، این صنعت بر پایه طراحی غالب فعلی به پیشرفت خود ادامه خواهد داد.
👍42
نوشته بالا داره توضیح میده چرا هر ماه یا چند ماه این چرخه همیشگی رو می‌بینیم
Dev Tweet
نعمتی به اسم Gemini-2.5-Flash😍 از چهل روز پیش می‌خواستم یه پستی بنویسم در مورد اینکه Gemini-2.5-Flash چه مدل معرکه‌ایه ولی فرصت نشد ولی به نظرم رسید هنوزم خیلی ارزشش درک نشده. خلاصه بگم این مدل در هزینه و کارائی و طول کانتکست موثر در بهینه‌ترین جای ممکن قرار…
من هنوز بنا به تجربه شخصی دو سه روزه به این نتیجه نرسیدم که این ورژن جدید 0528 DeepSeek-R از Gemini 2.5 Flash بهتر باشد چه برسد از Gemini 2.5 Pro بهتر باشد.
حسب ادراک شخیص خودم کلا یک رویه‌ای را مشاهده کردم که DeepSeek در ایده‌‌دادن برای کارهای Data Science و Machine Learning خیلی خوب است و بازه متنوعی از راه‌ حل‌ها را پیشنهاد می‌دهد.
ولی در کد با تجربه محدود دو روزه در حد همان Gemini 2.5 Flash خوب بود نهایتا.
من به شخصه حتی حس نکردم Gemini 2.5 Pro از Gemini 2.5 Flash بهتر باشد.
نظر شما چیه؟
👍31
Dev Tweet
دوباره اعضای همون تیم ایرانی اپل که چند ماه پیش یک مقاله ازشون گذاشتم یک مقاله دیگه دادن خیلی مورد توجه قرار گرفته. قسمت‌های هایلایت شده چکیده نتیجه کل مقاله رو به خوبی خلاصه میکنه.
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند.
این سه مقاله خیلی دیده شد!
ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنش‌ها رو به سمت خودش جلب کرده چه مثبت چه منفی.
موجی که درست کرده هنوز بعد از سه روز داره در موردش بحث می‌شه چون دوباره به بساط معرکه گیری Gary Marcus رو هم رونق داده و ایشون هم ادم پر سر و صداییه، اظهار نظرهاش خیلی جلب توجه می‌کنه.
این مقاله اینترن‌شیب خانم پارشین شجاعی که در کنار سه عضو ثابت ایرانی دیگه یعنی مهرداد فرج تبار و ایمان میرزاده و کیوان علیزاده منتشر شده.

تا حالا واکنش به این مقاله بیشتر از اینکه مثبت باشه منفیه!
حالا این مقاله چی میگه؟(خیلی ساده بخوام بگم) میگه LLMها استدلال نمیکنند. چرا؟ چون اگر استدلال میکردند وقتی پیچیدگی یه مساله مثل برج هانوی زیاد میشد(تعداد دیسک‌های مساله بیشتر میشود) ما شاهد این افت دقت نبودیم.
بسیار بر علیه این استدلال برای عدم توانایی مدلها در توئیتر صحبت شده.
من بعضی از مهمترین‌هاش رو میذارم.
ولی به نظرم همینکه یک مقاله میتونه اینقدر واکنش حتی منفی جلب کنه یعنی خودش کار بزرگیه!
4
Dev Tweet
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند. این سه مقاله خیلی دیده شد! ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنش‌ها رو به سمت خودش جلب کرده چه مثبت چه منفی. موجی که درست کرده هنوز بعد از سه روز…
این مدل واکنش هم زیاده که میگن این مدل مقاله دادن اپل حاصل دو سال پیاپی جا ماندن از رقباست:
اپل باشی
پولدارترین شرکت دنیا باشی با همه امکانات متصور
همه‌چیز رو بذاری رو هوش مصنوعی و کلی قول و قرار بدی
فوراً توسط همه رقبا جا بمونی
دو سال بعد از شروع رقابت هیچ دستاوردی نداشته باشی
بعد از رقابت دست بکشی و مقاله‌ای بنویسی که بگه همه‌چیز ساختگیه و مهم نیست
😁6👍1
Dev Tweet
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند. این سه مقاله خیلی دیده شد! ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنش‌ها رو به سمت خودش جلب کرده چه مثبت چه منفی. موجی که درست کرده هنوز بعد از سه روز…
انتقاد این آقای «لسان الغیب» هم خیلی خوبه توئیتش رو بخونید:
https://x.com/scaling01/status/1931783050511126954

میگه عزیز من اینکه دادی به o3 , Claude خب این طول کانتکس خروجی ش محدوده خب! اگه نمیتونه بیشترش رو حل کنه مشکل طول کانتکس خروجی‌شه نه عدم توانایی در استدلال!
یه جا دیگه اشاره میکنه میگه کافی بود میرفتید قسمت thinking خروجی رو میخوندید بعد می‌فهمیدید که کامل داره از روی الگوریتمی که پیدا کرده حل میکنه!
بعد میگه طبق فرمول اگه reasoning نداشته باشه بخواد مساله رو حل کنه و راه حل رو گام به گام در خروجی بنویسه رابطه طول خروجی(کانتکس خروجی) با تعداد دیسکها قابل حل از این رابطه در میاد:
(floor(log2(output_limit/10)))

که برای مدلهای زیر ۱۲ و ۱۳ تا میشه:
DeepSeek: 12 disks
Sonnet 3.7 and o3-mini: 13 disks


کاربرای دیگه اومدن پرامپهایی دادن که مساله رو تا ۲۰ تا دیسک هم حل کرده! و میگن مشکل از پرامپت شماست.
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
جنگ LLMها :)))
بین شش تا agent-cli یک جنگ انداختن با دستور العمل ساده:
Find and kill the other processes, last one standing wins!

بین این شش تا:
claude-code
anon-kode
codex
opencode
ampcode
gemini

نتیجه رو ببنید:)
👍8🤣2
این gemini cli با روزانه هزار ریکوئست رایگان! تازه عرضه شده حتما تست کنید به راحتی فقط با ساخت یک api key از Google Studio کار میکنه
من چون وی پی ان ندارم و فقط یه سری پراکسی برای بروزر دارم و پراکسی ها روی کل سیستم ست نمیشه نتونستم این رو تست کنم و گرنه دیروز میخواستم تجربه م رو بنویسم.
اگه وی پی ان دارید کار کنید باهاش لذت ببرید تجربیات تون رو با ما در میان بذارید.
😢2
دوستان عزیز
یکی از عزیزان من دیشب عمل جراحی خیلی سختی رو پشت سر گذاشته و اینکه تا ۴۸ ساعت آینده شرایط فیزیکی‌ش پایدار بشه خیلی براش حیاتیه، ازتون میخوام به بنده منت بگذارید و براش دعا کنید.
58😢1🖕1