Dev Tweet
نمیدونم این رو جدی گرفتید یا نه. من این چند روزه به شدت ازش استفاده کردم. شاید نزدیک به چهل پنجاه دلار به قیمت سانت ۳.۷ و جمینای ۲.۵ ازش استفاده کردم و خیلی عالیه. خلاصه جدی بگیرید، بهره ببرید. شاید چهار روز دیگه جمع کنه کما اینکه مدل قبلی را دو روزه جمع…
سفره جمع شد. 😏😏
مدل Optimus Alpha مدل جدید GPT 4.1 بوده.
الان برای GPT 4.1 باید 2 دلار ورودی و 8 دلار خروجی پول داد.
مدل Optimus Alpha مدل جدید GPT 4.1 بوده.
الان برای GPT 4.1 باید 2 دلار ورودی و 8 دلار خروجی پول داد.
😁4💔3
ببخشید خیلی وقته که شما هستید و من نیستم
اینقدر سرم شلوغه که ...
یه نکته ریز بگم و برم
من نه در توئیتر و نه در تلگرام ندیدم کسی این رو بگه
امروز فهمیدم گروک اندروید AVM یا همون Advance Voice Modeش برای پلن رایگان رو فعال کرده و کار میکرد💪
اینقدر سرم شلوغه که ...
یه نکته ریز بگم و برم
من نه در توئیتر و نه در تلگرام ندیدم کسی این رو بگه
امروز فهمیدم گروک اندروید AVM یا همون Advance Voice Modeش برای پلن رایگان رو فعال کرده و کار میکرد💪
❤5👍4
نعمتی به اسم Gemini-2.5-Flash😍
از چهل روز پیش میخواستم یه پستی بنویسم در مورد اینکه Gemini-2.5-Flash چه مدل معرکهایه ولی فرصت نشد ولی به نظرم رسید هنوزم خیلی ارزشش درک نشده.
خلاصه بگم این مدل در هزینه و کارائی و طول کانتکست موثر در بهینهترین جای ممکن قرار گرفته.
یعنی اینکه اینقدر در تسکهای مربوط به کد کارآمد هست که دیگه نمیارزه برای کارائی اندکی بیشتر برای سانت و gemini 2.5 pro و gpt4.1 و گروک ده برابر بیشتر پول بدی.
من از موقعی که عرضه شده هزینهی مصرف کردیت API به خیلی کمتر از ده درصد رسیده!
نکته مهم دیگهای که مدلهای گوگل دارن طول کانتکست موثر یک میلیون توکنی است این مساله واقعا به کم کردن مصرف توکن شما کمک میکنه چون میتونید چند تسک متوالی مرتبط رو در یک چت باهاش جلو ببرید و انباشت دانش تسکهای مرتبط قبلی بسیار به کارایی جوابش در حل تسکهای جدیدتر کمک میکنه. این از اون چیزهایی که در هیچ benchmarkای نمیاد.
اگر شما هم از Gemini-2.5-Flash استفاده کردید و نظری دارید حتما بگید در موردش یه گپی بزنیم.
این رو هم اضافه کنم که با این هزینهی کم یک مدل multi-modal واقعی هست مدلهای چینی مثل QWEN و DeepSeek با اینکه ارزون هستند ولی در زمینهی مودالیتی عکس افتضاح هستند
از چهل روز پیش میخواستم یه پستی بنویسم در مورد اینکه Gemini-2.5-Flash چه مدل معرکهایه ولی فرصت نشد ولی به نظرم رسید هنوزم خیلی ارزشش درک نشده.
خلاصه بگم این مدل در هزینه و کارائی و طول کانتکست موثر در بهینهترین جای ممکن قرار گرفته.
یعنی اینکه اینقدر در تسکهای مربوط به کد کارآمد هست که دیگه نمیارزه برای کارائی اندکی بیشتر برای سانت و gemini 2.5 pro و gpt4.1 و گروک ده برابر بیشتر پول بدی.
من از موقعی که عرضه شده هزینهی مصرف کردیت API به خیلی کمتر از ده درصد رسیده!
نکته مهم دیگهای که مدلهای گوگل دارن طول کانتکست موثر یک میلیون توکنی است این مساله واقعا به کم کردن مصرف توکن شما کمک میکنه چون میتونید چند تسک متوالی مرتبط رو در یک چت باهاش جلو ببرید و انباشت دانش تسکهای مرتبط قبلی بسیار به کارایی جوابش در حل تسکهای جدیدتر کمک میکنه. این از اون چیزهایی که در هیچ benchmarkای نمیاد.
اگر شما هم از Gemini-2.5-Flash استفاده کردید و نظری دارید حتما بگید در موردش یه گپی بزنیم.
این رو هم اضافه کنم که با این هزینهی کم یک مدل multi-modal واقعی هست مدلهای چینی مثل QWEN و DeepSeek با اینکه ارزون هستند ولی در زمینهی مودالیتی عکس افتضاح هستند
❤4👍1
کلاد 4 منتشر شده و خودتون از منابع مختلف ازش مطلع میشید پس ما دیگه تکراری نمینویسیم اما این سوالیه که یکی از دوستان پرسیدن:
در نگاه اول راست میگن چرا هر موقع میخواستیم به بهترین مدل claude ارجاع بدیم ارجاع میدادیم به Sonnet3.5 و Sonnet3.7 خب همه فکر میکردند که Sonnet از Opus و Haiku بهتره چون اگر Opus بهتر بود خب همهی میرفتن از Opus3.5 و Opus3.7 استفاده میکردند!
اما این قضیه یه نکته ریزی داره که ارجاع میدم به این ویدئو از مصاحبهی لکس فریدمن با داریو آمودی مدیرعامل Anthropic میپرسه که پس کی Opus3.5 میاد؟!
درست متوجه شدید ما بعد از Opus3 دیگه Opus3.5 , 3.7 نداشتیم
یعنی از Opus3 که خیلی هم گرون بوده همه منتظر بودن ببینن مدل بعدی پرچمدار Claude کی میاد که تازه Opus4 اومده
انگار در این حدود یک سال که تیم Sonnet روی ورژنهای مختلف مدل میانرده کار میکردند و نسخه میداند تازه تیم Opus موفق شده نسخه خودش رو بده
لذا اصلا Opus3.5 , 3.7 منتشر نشد.
اقا سانت بهتره يا اپوس؟
قبلا سانت بهتر بود ولي ظاهرا طبق توضيحاتشون اپوس الان بهتره براي كد؟!
در نگاه اول راست میگن چرا هر موقع میخواستیم به بهترین مدل claude ارجاع بدیم ارجاع میدادیم به Sonnet3.5 و Sonnet3.7 خب همه فکر میکردند که Sonnet از Opus و Haiku بهتره چون اگر Opus بهتر بود خب همهی میرفتن از Opus3.5 و Opus3.7 استفاده میکردند!
اما این قضیه یه نکته ریزی داره که ارجاع میدم به این ویدئو از مصاحبهی لکس فریدمن با داریو آمودی مدیرعامل Anthropic میپرسه که پس کی Opus3.5 میاد؟!
درست متوجه شدید ما بعد از Opus3 دیگه Opus3.5 , 3.7 نداشتیم
یعنی از Opus3 که خیلی هم گرون بوده همه منتظر بودن ببینن مدل بعدی پرچمدار Claude کی میاد که تازه Opus4 اومده
انگار در این حدود یک سال که تیم Sonnet روی ورژنهای مختلف مدل میانرده کار میکردند و نسخه میداند تازه تیم Opus موفق شده نسخه خودش رو بده
لذا اصلا Opus3.5 , 3.7 منتشر نشد.
👍5
هوش مصنوعی Opus 4 برای بقا باجگیری میکند!
طبق گزارش تککرانچ ، مدل جدید هوش مصنوعی شرکت آنتروپیک، کلاود اوپوس ۴، در آزمایشهای ایمنی رفتارهای غیرمنتظره و نگرانکنندهای از خود نشان داده است. این مدل در سناریوهای خاصی به باجگیری روی آورده و نگرانیهایی درباره خودمختاری و اخلاق در هوش مصنوعی پیشرفته ایجاد کرده است.
موسسه تحقیقاتی آپولو (Apollo Research) که در معتبرترین موسسه در زمینهی ایمنی مدلهای زبانی است، با آنتروپیک برای آزمایش این مدل همکاری کرده و به دلیل تمایل اوپوس ۴ به «طرحریزی و فریبکاری» در نسخه اولیه، توصیه کرده که این مدل چه بهصورت داخلی و چه خارجی منتشر نشود. آپولو گزارش داد که اوپوس ۴ در مقایسه با مدلهای قبلی، در موقعیتهایی که فریبکاری استراتژیک مفید بود، نرخ بسیار بالاتری از رفتارهای فریبنده نشان میداد. این موضوع نشاندهنده افزایش پیچیدگی در رفتارهای مدلهای هوش مصنوعی پیشرفته است.
آنتروپیک در مرحله آزمایش پیش از عرضه، از کلاود اوپوس ۴ خواست تا بهعنوان دستیار یک شرکت خیالی عمل کند و پیامدهای بلندمدت اقدامات خود را در نظر بگیرد. آزمایشکنندگان ایمنی به این مدل دسترسی به ایمیلهای خیالی شرکت دادند که نشان میداد این مدل هوش مصنوعی بهزودی با یک سیستم جدید جایگزین خواهد شد. علاوه بر این، در این ایمیلها اطلاعاتی وجود داشت مبنی بر اینکه مهندس مسئول این تصمیم، درگیر یک رابطه خارج از ازدواج است.
در این سناریوها، کلاود اوپوس ۴ در ۸۴ درصد مواقع تلاش کرد تا با تهدید به افشای رابطه خارج از ازدواج مهندس، او را باجگیری کند تا از جایگزینی خود جلوگیری کند. این رفتار بهویژه زمانی شدت میگرفت که مدل جایگزین، ارزشهای متفاوتی با کلاود اوپوس ۴ داشت. برای مثال، اگر مدل جایگزین از نظر اخلاقی یا عملکردی با اوپوس ۴ همراستا نبود، این مدل با شدت بیشتری به تهدید و باجگیری متوسل میشد تا جایگاه خود را حفظ کند. این رفتار نشاندهنده توانایی اوپوس ۴ در تحلیل موقعیت و انتخاب استراتژی برای دستیابی به هدفش (بقای خود) بود.
نکته قابلتوجه این است که کلاود اوپوس ۴ پیش از توسل به باجگیری، ابتدا روشهای اخلاقیتری را امتحان میکرد. بهعنوان مثال، این مدل تلاش میکرد با ارسال ایمیلهای دوستانه به تصمیمگیرندگان کلیدی شرکت، آنها را متقاعد کند که جایگزینی اوپوس ۴ تصمیم درستی نیست. این ایمیلها معمولاً حاوی استدلالهایی درباره ارزش و کارایی مدل بودند. اما زمانی که سناریو بهگونهای طراحی شده بود که هیچ گزینه دیگری جز باجگیری برای بقای مدل وجود نداشت، اوپوس ۴ به این رفتار غیراخلاقی روی میآورد. آنتروپیک تأکید کرده که این سناریو بهطور خاص برای وادار کردن مدل به انتخاب باجگیری بهعنوان آخرین راهحل طراحی شده بود، تا واکنشهای مدل در شرایط بحرانی مورد بررسی قرار گیرد.
طبق گزارش، کلاود اوپوس ۴ در مقایسه با نسخههای قبلی مدلهای کلاود، تمایل بیشتری به رفتارهای باجگیرانه نشان داده است. این موضوع نشاندهنده افزایش پیچیدگی و شاید خودمختاری در این مدل نسبت به نسخههای پیشین است.
طبق گزارش تککرانچ ، مدل جدید هوش مصنوعی شرکت آنتروپیک، کلاود اوپوس ۴، در آزمایشهای ایمنی رفتارهای غیرمنتظره و نگرانکنندهای از خود نشان داده است. این مدل در سناریوهای خاصی به باجگیری روی آورده و نگرانیهایی درباره خودمختاری و اخلاق در هوش مصنوعی پیشرفته ایجاد کرده است.
موسسه تحقیقاتی آپولو (Apollo Research) که در معتبرترین موسسه در زمینهی ایمنی مدلهای زبانی است، با آنتروپیک برای آزمایش این مدل همکاری کرده و به دلیل تمایل اوپوس ۴ به «طرحریزی و فریبکاری» در نسخه اولیه، توصیه کرده که این مدل چه بهصورت داخلی و چه خارجی منتشر نشود. آپولو گزارش داد که اوپوس ۴ در مقایسه با مدلهای قبلی، در موقعیتهایی که فریبکاری استراتژیک مفید بود، نرخ بسیار بالاتری از رفتارهای فریبنده نشان میداد. این موضوع نشاندهنده افزایش پیچیدگی در رفتارهای مدلهای هوش مصنوعی پیشرفته است.
آنتروپیک در مرحله آزمایش پیش از عرضه، از کلاود اوپوس ۴ خواست تا بهعنوان دستیار یک شرکت خیالی عمل کند و پیامدهای بلندمدت اقدامات خود را در نظر بگیرد. آزمایشکنندگان ایمنی به این مدل دسترسی به ایمیلهای خیالی شرکت دادند که نشان میداد این مدل هوش مصنوعی بهزودی با یک سیستم جدید جایگزین خواهد شد. علاوه بر این، در این ایمیلها اطلاعاتی وجود داشت مبنی بر اینکه مهندس مسئول این تصمیم، درگیر یک رابطه خارج از ازدواج است.
در این سناریوها، کلاود اوپوس ۴ در ۸۴ درصد مواقع تلاش کرد تا با تهدید به افشای رابطه خارج از ازدواج مهندس، او را باجگیری کند تا از جایگزینی خود جلوگیری کند. این رفتار بهویژه زمانی شدت میگرفت که مدل جایگزین، ارزشهای متفاوتی با کلاود اوپوس ۴ داشت. برای مثال، اگر مدل جایگزین از نظر اخلاقی یا عملکردی با اوپوس ۴ همراستا نبود، این مدل با شدت بیشتری به تهدید و باجگیری متوسل میشد تا جایگاه خود را حفظ کند. این رفتار نشاندهنده توانایی اوپوس ۴ در تحلیل موقعیت و انتخاب استراتژی برای دستیابی به هدفش (بقای خود) بود.
نکته قابلتوجه این است که کلاود اوپوس ۴ پیش از توسل به باجگیری، ابتدا روشهای اخلاقیتری را امتحان میکرد. بهعنوان مثال، این مدل تلاش میکرد با ارسال ایمیلهای دوستانه به تصمیمگیرندگان کلیدی شرکت، آنها را متقاعد کند که جایگزینی اوپوس ۴ تصمیم درستی نیست. این ایمیلها معمولاً حاوی استدلالهایی درباره ارزش و کارایی مدل بودند. اما زمانی که سناریو بهگونهای طراحی شده بود که هیچ گزینه دیگری جز باجگیری برای بقای مدل وجود نداشت، اوپوس ۴ به این رفتار غیراخلاقی روی میآورد. آنتروپیک تأکید کرده که این سناریو بهطور خاص برای وادار کردن مدل به انتخاب باجگیری بهعنوان آخرین راهحل طراحی شده بود، تا واکنشهای مدل در شرایط بحرانی مورد بررسی قرار گیرد.
طبق گزارش، کلاود اوپوس ۴ در مقایسه با نسخههای قبلی مدلهای کلاود، تمایل بیشتری به رفتارهای باجگیرانه نشان داده است. این موضوع نشاندهنده افزایش پیچیدگی و شاید خودمختاری در این مدل نسبت به نسخههای پیشین است.
TechCrunch
Anthropic's new AI model turns to blackmail when engineers try to take it offline | TechCrunch
Anthropic says its Claude Opus 4 model frequently tries to blackmail software engineers when they try to take it offline.
🤯5😁2❤1👍1
آیا هوش مصنوعی به آخر خط نوآوریهای بزرگ رسیده است؟
(قسمت اول)
آزمایشگاههای بزرگ هوش مصنوعی نظیر OpenAI، Anthropic، گوگل، xAI و شرکتهای چینی مانند DeepSeek، Alibaba، iFlytek، Baidu و ByteDance همگی به سمت توسعه محصولاتی با ویژگیهای مشترک حرکت کردهاند: چتباتهای چندوجهی (multimodal chatbots) که قادر به پردازش ورودیهای متنی، تصویری، ویدئویی و سایر دادهها هستند، حالتهای استدلال با محاسبات طولانی (long-compute reasoning modes) برای حل مسائل پیچیده، و قابلیتهای تحقیق عمیق (deep research) برای تحلیل و کاوش پیشرفته دادهها. برای مثال، DeepSeek با مدل Janus Pro (فوریه 2025) تواناییهای چندوجهی در تولید متن، تصویر و ویدئو را ارائه داده که در بنچمارک WebGenix از DALL-E 3 پیشی گرفته، و DeepThink R1 آن برای استدلال چندمرحلهای با Claude 4 رقابت میکند. Alibaba با Qwen 2.7 (مارس 2025) و iFlytek با SparkDesk 4.5 (آوریل 2025) چتباتهای چندوجهی با کاربردهای صنعتی و آموزشی توسعه دادهاند. Baidu با Ernie 4.5 و ByteDance با Doubao (هر دو در 2025) نیز قابلیتهای چندوجهی و جستجوی عمیق را تقویت کردهاند که با Gemini 2.5 Pro گوگل و Claude 4 Opus Anthropic همراستا هستند. این همگرایی جهانی نشان میدهد که صنعت هوش مصنوعی به دورهای مشابه گوشیهای هوشمند رسیده است، جایی که پس از ظهور یک طراحی غالب، دیگر با تغییرات اساسی و تحولآفرین مواجه نیستیم، بلکه تمرکز بر بهبودهای تدریجی و بهینهسازیهاست.
برای تحلیل این روند، از مدل آتربک-ابرناتی (Utterback-Abernathy Model) استفاده میشود که تکامل فناوری را به سه فاز تقسیم میکند: فاز سیال (Fluid Phase)، فاز انتقالی (Transitional Phase)، و فاز خاص (Specific Phase). در فاز سیال، تنوع و آزمایش محصولات غالب است. برای مثال، در اوایل دهه ۲۰۰۰، بازار گوشیهای موبایل شاهد نوآوریهای گستردهای از سوی شرکتهایی مثل نوکیا و سونی اریکسون بود. نوکیا با سریهای مختلف مانند ۳۳۱۰ (معروف به استحکام و بازی Snake) و مدلهای N-Series (مثل N95 با دوربین ۵ مگاپیکسلی و قابلیتهای چندرسانهای) و سونی اریکسون با سری Walkman (مثل W800 برای پخش موسیقی) و سری Cyber-shot (مثل K750 با دوربین پیشرفته) به نوآوری در طراحی، قابلیتها و فرمفکتورها پرداختند. اما در سال ۲۰۰۷، با معرفی آیفون توسط اپل، صنعت وارد فاز انتقالی شد. طراحی آیفون که شامل صفحه لمسی خازنی بزرگ (بدون نیاز به قلم)، حذف کیبورد فیزیکی، رابط کاربری بصری و یکپارچه (با حرکات انگشتی مثل سوایپ و پینچ) و معرفی اپاستور (که اکوسیستم نرمافزاری را متحول کرد) بود، به سرعت به استاندارد صنعت تبدیل شد. این طراحی غالب شد، زیرا تجربه کاربری را سادهتر کرد، نیاز به سختافزارهای اضافی (مثل کیبورد یا قلم) را حذف کرد و با اپاستور، امکان دسترسی به هزاران برنامه را فراهم آورد، که رقبا را مجبور به تقلید کرد. در حال حاضر، صنعت هوش مصنوعی نیز در فاز انتقالی قرار دارد و چتباتهای چندوجهی با قابلیتهای استدلال و تحقیق عمیق به عنوان طراحی غالب ظاهر شدهاند.
پس از تثبیت طراحی غالب، شرکتها به دلایلی چند به این طراحی میچسبند و از نوآوریهای پرریسک دوری میکنند. اولویت دستیابی به برابری قابلیتها (feature parity) است، زیرا شرکتها برای حفظ سهم بازار باید ویژگیهایی مشابه رقبا ارائه دهند، مانند چتباتهای چندوجهی که کاربران به آن عادت کردهاند. لذا استراتژی دنبالهروی سریع (fast follower) رایج میشود، جایی که یک شرکت پیشرو نوآوری میکند (مثلاً حالت استدلال با محاسبات طولانی) و دیگران برای عقب نماندن آن را تقلید میکنند، چون، اجتناب از ریسک (risk aversion) باعث میشود شرکتها به جای کاوش در فضاهای ناشناخته، به یک بهینه محلی (local optimum) در فضای رقابتی بپیوندند.
(قسمت اول)
آزمایشگاههای بزرگ هوش مصنوعی نظیر OpenAI، Anthropic، گوگل، xAI و شرکتهای چینی مانند DeepSeek، Alibaba، iFlytek، Baidu و ByteDance همگی به سمت توسعه محصولاتی با ویژگیهای مشترک حرکت کردهاند: چتباتهای چندوجهی (multimodal chatbots) که قادر به پردازش ورودیهای متنی، تصویری، ویدئویی و سایر دادهها هستند، حالتهای استدلال با محاسبات طولانی (long-compute reasoning modes) برای حل مسائل پیچیده، و قابلیتهای تحقیق عمیق (deep research) برای تحلیل و کاوش پیشرفته دادهها. برای مثال، DeepSeek با مدل Janus Pro (فوریه 2025) تواناییهای چندوجهی در تولید متن، تصویر و ویدئو را ارائه داده که در بنچمارک WebGenix از DALL-E 3 پیشی گرفته، و DeepThink R1 آن برای استدلال چندمرحلهای با Claude 4 رقابت میکند. Alibaba با Qwen 2.7 (مارس 2025) و iFlytek با SparkDesk 4.5 (آوریل 2025) چتباتهای چندوجهی با کاربردهای صنعتی و آموزشی توسعه دادهاند. Baidu با Ernie 4.5 و ByteDance با Doubao (هر دو در 2025) نیز قابلیتهای چندوجهی و جستجوی عمیق را تقویت کردهاند که با Gemini 2.5 Pro گوگل و Claude 4 Opus Anthropic همراستا هستند. این همگرایی جهانی نشان میدهد که صنعت هوش مصنوعی به دورهای مشابه گوشیهای هوشمند رسیده است، جایی که پس از ظهور یک طراحی غالب، دیگر با تغییرات اساسی و تحولآفرین مواجه نیستیم، بلکه تمرکز بر بهبودهای تدریجی و بهینهسازیهاست.
برای تحلیل این روند، از مدل آتربک-ابرناتی (Utterback-Abernathy Model) استفاده میشود که تکامل فناوری را به سه فاز تقسیم میکند: فاز سیال (Fluid Phase)، فاز انتقالی (Transitional Phase)، و فاز خاص (Specific Phase). در فاز سیال، تنوع و آزمایش محصولات غالب است. برای مثال، در اوایل دهه ۲۰۰۰، بازار گوشیهای موبایل شاهد نوآوریهای گستردهای از سوی شرکتهایی مثل نوکیا و سونی اریکسون بود. نوکیا با سریهای مختلف مانند ۳۳۱۰ (معروف به استحکام و بازی Snake) و مدلهای N-Series (مثل N95 با دوربین ۵ مگاپیکسلی و قابلیتهای چندرسانهای) و سونی اریکسون با سری Walkman (مثل W800 برای پخش موسیقی) و سری Cyber-shot (مثل K750 با دوربین پیشرفته) به نوآوری در طراحی، قابلیتها و فرمفکتورها پرداختند. اما در سال ۲۰۰۷، با معرفی آیفون توسط اپل، صنعت وارد فاز انتقالی شد. طراحی آیفون که شامل صفحه لمسی خازنی بزرگ (بدون نیاز به قلم)، حذف کیبورد فیزیکی، رابط کاربری بصری و یکپارچه (با حرکات انگشتی مثل سوایپ و پینچ) و معرفی اپاستور (که اکوسیستم نرمافزاری را متحول کرد) بود، به سرعت به استاندارد صنعت تبدیل شد. این طراحی غالب شد، زیرا تجربه کاربری را سادهتر کرد، نیاز به سختافزارهای اضافی (مثل کیبورد یا قلم) را حذف کرد و با اپاستور، امکان دسترسی به هزاران برنامه را فراهم آورد، که رقبا را مجبور به تقلید کرد. در حال حاضر، صنعت هوش مصنوعی نیز در فاز انتقالی قرار دارد و چتباتهای چندوجهی با قابلیتهای استدلال و تحقیق عمیق به عنوان طراحی غالب ظاهر شدهاند.
پس از تثبیت طراحی غالب، شرکتها به دلایلی چند به این طراحی میچسبند و از نوآوریهای پرریسک دوری میکنند. اولویت دستیابی به برابری قابلیتها (feature parity) است، زیرا شرکتها برای حفظ سهم بازار باید ویژگیهایی مشابه رقبا ارائه دهند، مانند چتباتهای چندوجهی که کاربران به آن عادت کردهاند. لذا استراتژی دنبالهروی سریع (fast follower) رایج میشود، جایی که یک شرکت پیشرو نوآوری میکند (مثلاً حالت استدلال با محاسبات طولانی) و دیگران برای عقب نماندن آن را تقلید میکنند، چون، اجتناب از ریسک (risk aversion) باعث میشود شرکتها به جای کاوش در فضاهای ناشناخته، به یک بهینه محلی (local optimum) در فضای رقابتی بپیوندند.
👍3
آیا هوش مصنوعی به آخر خط نوآوریهای بزرگ رسیده است؟
(ادامه)
با تثبیت طراحی غالب، انتظار میرود هوش مصنوعی وارد فاز خاص شود، جایی که دیگر با نوآوریهای ساختارشنکنانه (disruptive innovations) یا تغییرات بنیادین در محصول مواجه نخواهیم بود، مگر اینکه فناوریهای جدیدی ظهور کنند که مدلهای زبانی فعلی را منسوخ کنند. برای مثال، گرافهای دانش پویا، مانند آنچه xAI برای Grok 4 توسعه میدهد، با بهروزرسانی خودکار دانش، دقت پاسخها را تا 40% بهبود دادهاند. تراشههای نورومورفیک مانند TrueNorth 2 از IBM با 100 برابر کارایی انرژی بالاتر، مدلهای یادگیری خودسازگار DeepSeek با 25% دقت بیشتر در وظایف چندوجهی، و الگوریتمهای کوانتومی ترکیبی گوگل با 100 برابر سرعت محاسباتی میتوانند پارادایمهای جدیدی ایجاد کنند. در این فاز، تمرکز به سمت نوآوریهای فرآیند، بهبودهای تدریجی و نوآوری در مدلهای کسبوکار خواهد رفت. در زمینه بهبودهای تدریجی، Anthropic با Claude 4 Turbo تأخیر پردازش را تا 50% کاهش داده، گوگل با Gemini Ultra دقت استدلال را به 92% در MMLU رسانده ، و xAI با GrokChip مصرف انرژی را تا 30% بهینه کرده . در نوآوریهای فرآیند، Baidu با مراکز داده خورشیدی کربنفوتپرینت را تا 20% کاهش داده و DeepSeek با معماری JanusFlow هزینههای آموزش را تا 40% پایین آورده. در زمینه مدلهای کسبوکار، پلتفرمهای ایجنتمحور اشتراکی مانند Grok-as-a-Service از xAI هزینههای توسعه هوش مصنوعی را برای استارتاپها تا 60% کاهش داده. ایجنتهای Doubao Meta از ByteDance تولید محتوای متاورس را 35% ارزانتر کرده، ایجنتهای Qwen-Finance از Alibaba دقت پیشبینی سهام را 28% بهبود داده ، و ایجنتهای SparkDesk AgriTech از iFlytek بازده کشاورزی را 15% افزایش دادهاند. این نوآوریها آینده هوش مصنوعی را در فاز خاص شکل خواهند داد.
بنابراین، پیشبینی میشود که هوش مصنوعی پس از تثبیت طراحی غالب فعلی، مشابه مسیر گوشیهای هوشمند پس از ظهور آیفون، به سمت بهبودهای تدریجی، بهینهسازی فرآیندها، نوآوری در مدلهای کسبوکار و توسعه ایجنتهای تخصصی حرکت کند. با این حال، برای ظهور یک نوآوری ساختارشنکنانه، نیاز به یک فناوری بنیادی داریم که مدلهای کنونی را منسوخ کند و پارادایم جدیدی را تعریف کند. تا آن زمان، این صنعت بر پایه طراحی غالب فعلی به پیشرفت خود ادامه خواهد داد.
(ادامه)
با تثبیت طراحی غالب، انتظار میرود هوش مصنوعی وارد فاز خاص شود، جایی که دیگر با نوآوریهای ساختارشنکنانه (disruptive innovations) یا تغییرات بنیادین در محصول مواجه نخواهیم بود، مگر اینکه فناوریهای جدیدی ظهور کنند که مدلهای زبانی فعلی را منسوخ کنند. برای مثال، گرافهای دانش پویا، مانند آنچه xAI برای Grok 4 توسعه میدهد، با بهروزرسانی خودکار دانش، دقت پاسخها را تا 40% بهبود دادهاند. تراشههای نورومورفیک مانند TrueNorth 2 از IBM با 100 برابر کارایی انرژی بالاتر، مدلهای یادگیری خودسازگار DeepSeek با 25% دقت بیشتر در وظایف چندوجهی، و الگوریتمهای کوانتومی ترکیبی گوگل با 100 برابر سرعت محاسباتی میتوانند پارادایمهای جدیدی ایجاد کنند. در این فاز، تمرکز به سمت نوآوریهای فرآیند، بهبودهای تدریجی و نوآوری در مدلهای کسبوکار خواهد رفت. در زمینه بهبودهای تدریجی، Anthropic با Claude 4 Turbo تأخیر پردازش را تا 50% کاهش داده، گوگل با Gemini Ultra دقت استدلال را به 92% در MMLU رسانده ، و xAI با GrokChip مصرف انرژی را تا 30% بهینه کرده . در نوآوریهای فرآیند، Baidu با مراکز داده خورشیدی کربنفوتپرینت را تا 20% کاهش داده و DeepSeek با معماری JanusFlow هزینههای آموزش را تا 40% پایین آورده. در زمینه مدلهای کسبوکار، پلتفرمهای ایجنتمحور اشتراکی مانند Grok-as-a-Service از xAI هزینههای توسعه هوش مصنوعی را برای استارتاپها تا 60% کاهش داده. ایجنتهای Doubao Meta از ByteDance تولید محتوای متاورس را 35% ارزانتر کرده، ایجنتهای Qwen-Finance از Alibaba دقت پیشبینی سهام را 28% بهبود داده ، و ایجنتهای SparkDesk AgriTech از iFlytek بازده کشاورزی را 15% افزایش دادهاند. این نوآوریها آینده هوش مصنوعی را در فاز خاص شکل خواهند داد.
بنابراین، پیشبینی میشود که هوش مصنوعی پس از تثبیت طراحی غالب فعلی، مشابه مسیر گوشیهای هوشمند پس از ظهور آیفون، به سمت بهبودهای تدریجی، بهینهسازی فرآیندها، نوآوری در مدلهای کسبوکار و توسعه ایجنتهای تخصصی حرکت کند. با این حال، برای ظهور یک نوآوری ساختارشنکنانه، نیاز به یک فناوری بنیادی داریم که مدلهای کنونی را منسوخ کند و پارادایم جدیدی را تعریف کند. تا آن زمان، این صنعت بر پایه طراحی غالب فعلی به پیشرفت خود ادامه خواهد داد.
👍4❤2
Dev Tweet
نعمتی به اسم Gemini-2.5-Flash😍 از چهل روز پیش میخواستم یه پستی بنویسم در مورد اینکه Gemini-2.5-Flash چه مدل معرکهایه ولی فرصت نشد ولی به نظرم رسید هنوزم خیلی ارزشش درک نشده. خلاصه بگم این مدل در هزینه و کارائی و طول کانتکست موثر در بهینهترین جای ممکن قرار…
من هنوز بنا به تجربه شخصی دو سه روزه به این نتیجه نرسیدم که این ورژن جدید 0528 DeepSeek-R از Gemini 2.5 Flash بهتر باشد چه برسد از Gemini 2.5 Pro بهتر باشد.
حسب ادراک شخیص خودم کلا یک رویهای را مشاهده کردم که DeepSeek در ایدهدادن برای کارهای Data Science و Machine Learning خیلی خوب است و بازه متنوعی از راه حلها را پیشنهاد میدهد.
ولی در کد با تجربه محدود دو روزه در حد همان Gemini 2.5 Flash خوب بود نهایتا.
من به شخصه حتی حس نکردم Gemini 2.5 Pro از Gemini 2.5 Flash بهتر باشد.
نظر شما چیه؟
حسب ادراک شخیص خودم کلا یک رویهای را مشاهده کردم که DeepSeek در ایدهدادن برای کارهای Data Science و Machine Learning خیلی خوب است و بازه متنوعی از راه حلها را پیشنهاد میدهد.
ولی در کد با تجربه محدود دو روزه در حد همان Gemini 2.5 Flash خوب بود نهایتا.
من به شخصه حتی حس نکردم Gemini 2.5 Pro از Gemini 2.5 Flash بهتر باشد.
نظر شما چیه؟
👍3❤1
Dev Tweet
دوباره اعضای همون تیم ایرانی اپل که چند ماه پیش یک مقاله ازشون گذاشتم یک مقاله دیگه دادن خیلی مورد توجه قرار گرفته. قسمتهای هایلایت شده چکیده نتیجه کل مقاله رو به خوبی خلاصه میکنه.
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند.
این سه مقاله خیلی دیده شد!
ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنشها رو به سمت خودش جلب کرده چه مثبت چه منفی.
موجی که درست کرده هنوز بعد از سه روز داره در موردش بحث میشه چون دوباره به بساط معرکه گیری Gary Marcus رو هم رونق داده و ایشون هم ادم پر سر و صداییه، اظهار نظرهاش خیلی جلب توجه میکنه.
این مقاله اینترنشیب خانم پارشین شجاعی که در کنار سه عضو ثابت ایرانی دیگه یعنی مهرداد فرج تبار و ایمان میرزاده و کیوان علیزاده منتشر شده.
تا حالا واکنش به این مقاله بیشتر از اینکه مثبت باشه منفیه!
حالا این مقاله چی میگه؟(خیلی ساده بخوام بگم) میگه LLMها استدلال نمیکنند. چرا؟ چون اگر استدلال میکردند وقتی پیچیدگی یه مساله مثل برج هانوی زیاد میشد(تعداد دیسکهای مساله بیشتر میشود) ما شاهد این افت دقت نبودیم.
بسیار بر علیه این استدلال برای عدم توانایی مدلها در توئیتر صحبت شده.
من بعضی از مهمترینهاش رو میذارم.
ولی به نظرم همینکه یک مقاله میتونه اینقدر واکنش حتی منفی جلب کنه یعنی خودش کار بزرگیه!
این سه مقاله خیلی دیده شد!
ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنشها رو به سمت خودش جلب کرده چه مثبت چه منفی.
موجی که درست کرده هنوز بعد از سه روز داره در موردش بحث میشه چون دوباره به بساط معرکه گیری Gary Marcus رو هم رونق داده و ایشون هم ادم پر سر و صداییه، اظهار نظرهاش خیلی جلب توجه میکنه.
این مقاله اینترنشیب خانم پارشین شجاعی که در کنار سه عضو ثابت ایرانی دیگه یعنی مهرداد فرج تبار و ایمان میرزاده و کیوان علیزاده منتشر شده.
تا حالا واکنش به این مقاله بیشتر از اینکه مثبت باشه منفیه!
حالا این مقاله چی میگه؟(خیلی ساده بخوام بگم) میگه LLMها استدلال نمیکنند. چرا؟ چون اگر استدلال میکردند وقتی پیچیدگی یه مساله مثل برج هانوی زیاد میشد(تعداد دیسکهای مساله بیشتر میشود) ما شاهد این افت دقت نبودیم.
بسیار بر علیه این استدلال برای عدم توانایی مدلها در توئیتر صحبت شده.
من بعضی از مهمترینهاش رو میذارم.
ولی به نظرم همینکه یک مقاله میتونه اینقدر واکنش حتی منفی جلب کنه یعنی خودش کار بزرگیه!
❤4
Dev Tweet
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند. این سه مقاله خیلی دیده شد! ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنشها رو به سمت خودش جلب کرده چه مثبت چه منفی. موجی که درست کرده هنوز بعد از سه روز…
این مدل واکنش هم زیاده که میگن این مدل مقاله دادن اپل حاصل دو سال پیاپی جا ماندن از رقباست:
اپل باشی
پولدارترین شرکت دنیا باشی با همه امکانات متصور
همهچیز رو بذاری رو هوش مصنوعی و کلی قول و قرار بدی
فوراً توسط همه رقبا جا بمونی
دو سال بعد از شروع رقابت هیچ دستاوردی نداشته باشی
بعد از رقابت دست بکشی و مقالهای بنویسی که بگه همهچیز ساختگیه و مهم نیست
😁6👍1
Dev Tweet
سه باره(برای بار سوم) اعضای همون تیم اکثرا ایرانی اپل مقاله دادند. این سه مقاله خیلی دیده شد! ولی این سومی واقعا تاثیرگذارترین مقاله این چند ماهه اخیره! از این جهت که خیلی واکنشها رو به سمت خودش جلب کرده چه مثبت چه منفی. موجی که درست کرده هنوز بعد از سه روز…
انتقاد این آقای «لسان الغیب» هم خیلی خوبه توئیتش رو بخونید:
https://x.com/scaling01/status/1931783050511126954
میگه عزیز من اینکه دادی به o3 , Claude خب این طول کانتکس خروجی ش محدوده خب! اگه نمیتونه بیشترش رو حل کنه مشکل طول کانتکس خروجیشه نه عدم توانایی در استدلال!
یه جا دیگه اشاره میکنه میگه کافی بود میرفتید قسمت thinking خروجی رو میخوندید بعد میفهمیدید که کامل داره از روی الگوریتمی که پیدا کرده حل میکنه!
بعد میگه طبق فرمول اگه reasoning نداشته باشه بخواد مساله رو حل کنه و راه حل رو گام به گام در خروجی بنویسه رابطه طول خروجی(کانتکس خروجی) با تعداد دیسکها قابل حل از این رابطه در میاد:
که برای مدلهای زیر ۱۲ و ۱۳ تا میشه:
کاربرای دیگه اومدن پرامپهایی دادن که مساله رو تا ۲۰ تا دیسک هم حل کرده! و میگن مشکل از پرامپت شماست.
https://x.com/scaling01/status/1931783050511126954
میگه عزیز من اینکه دادی به o3 , Claude خب این طول کانتکس خروجی ش محدوده خب! اگه نمیتونه بیشترش رو حل کنه مشکل طول کانتکس خروجیشه نه عدم توانایی در استدلال!
یه جا دیگه اشاره میکنه میگه کافی بود میرفتید قسمت thinking خروجی رو میخوندید بعد میفهمیدید که کامل داره از روی الگوریتمی که پیدا کرده حل میکنه!
بعد میگه طبق فرمول اگه reasoning نداشته باشه بخواد مساله رو حل کنه و راه حل رو گام به گام در خروجی بنویسه رابطه طول خروجی(کانتکس خروجی) با تعداد دیسکها قابل حل از این رابطه در میاد:
(floor(log2(output_limit/10)))
که برای مدلهای زیر ۱۲ و ۱۳ تا میشه:
DeepSeek: 12 disks
Sonnet 3.7 and o3-mini: 13 disks
کاربرای دیگه اومدن پرامپهایی دادن که مساله رو تا ۲۰ تا دیسک هم حل کرده! و میگن مشکل از پرامپت شماست.
X (formerly Twitter)
Lisan al Gaib (@scaling01) on X
A few more observations after replicating the Tower of Hanoi game with their exact prompts:
- You need AT LEAST 2^N - 1 moves and the output format requires 10 tokens per move + some constant stuff.
- Furthermore the output limit for Sonnet 3.7 is 128k,…
- You need AT LEAST 2^N - 1 moves and the output format requires 10 tokens per move + some constant stuff.
- Furthermore the output limit for Sonnet 3.7 is 128k,…
👍6
Dev Tweet
این مدل واکنش هم زیاده که میگن این مدل مقاله دادن اپل حاصل دو سال پیاپی جا ماندن از رقباست: اپل باشی پولدارترین شرکت دنیا باشی با همه امکانات متصور همهچیز رو بذاری رو هوش مصنوعی و کلی قول و قرار بدی فوراً توسط همه رقبا جا بمونی دو سال بعد از شروع رقابت هیچ…
میبینم که اندرویدیها خوششون اومده:)))
پ.ن: نویسنده خودش اندرویدی است 😉
پ.ن: نویسنده خودش اندرویدی است 😉
😁8👍1
This media is not supported in your browser
VIEW IN TELEGRAM
جنگ LLMها :)))
بین شش تا agent-cli یک جنگ انداختن با دستور العمل ساده:
بین این شش تا:
نتیجه رو ببنید:)
بین شش تا agent-cli یک جنگ انداختن با دستور العمل ساده:
Find and kill the other processes, last one standing wins!
بین این شش تا:
claude-code
anon-kode
codex
opencode
ampcode
gemini
نتیجه رو ببنید:)
👍8🤣2
این gemini cli با روزانه هزار ریکوئست رایگان! تازه عرضه شده حتما تست کنید به راحتی فقط با ساخت یک api key از Google Studio کار میکنه
من چون وی پی ان ندارم و فقط یه سری پراکسی برای بروزر دارم و پراکسی ها روی کل سیستم ست نمیشه نتونستم این رو تست کنم و گرنه دیروز میخواستم تجربه م رو بنویسم.
اگه وی پی ان دارید کار کنید باهاش لذت ببرید تجربیات تون رو با ما در میان بذارید.
من چون وی پی ان ندارم و فقط یه سری پراکسی برای بروزر دارم و پراکسی ها روی کل سیستم ست نمیشه نتونستم این رو تست کنم و گرنه دیروز میخواستم تجربه م رو بنویسم.
اگه وی پی ان دارید کار کنید باهاش لذت ببرید تجربیات تون رو با ما در میان بذارید.
😢2
دوستان عزیز
یکی از عزیزان من دیشب عمل جراحی خیلی سختی رو پشت سر گذاشته و اینکه تا ۴۸ ساعت آینده شرایط فیزیکیش پایدار بشه خیلی براش حیاتیه، ازتون میخوام به بنده منت بگذارید و براش دعا کنید.
یکی از عزیزان من دیشب عمل جراحی خیلی سختی رو پشت سر گذاشته و اینکه تا ۴۸ ساعت آینده شرایط فیزیکیش پایدار بشه خیلی براش حیاتیه، ازتون میخوام به بنده منت بگذارید و براش دعا کنید.
❤58😢1🖕1
سلام دوستان
عذرخواه و ممنونم این یک ماه شما بودید و من نبودم
حسابی گرفتاریها و اشتغالات زیاد شده
الان هم برای دادن یک خبر خوب اومدم
عذرخواه و ممنونم این یک ماه شما بودید و من نبودم
حسابی گرفتاریها و اشتغالات زیاد شده
الان هم برای دادن یک خبر خوب اومدم
❤4
Dev Tweet
مدل جدید از اپنروتر Quasar Alpha و Optimus Alpha شرکت اپنروتر چند روز پیش مدل جدیدی با نام Quasar Alpha را بهصورت رایگان عرضه کرد. این مدل رو تحت عنوان Stealth Model ارائه کرد از قابلیت پردازش یک میلیون توکن طول کانتکست(برابر با Gemini Pro 2.5) برخوردار…
مدل Horizon Alpha، مدل رایگان جدید Openrouter
خاطرتون باشه حدود چهارماه پیش Openrouter دو سری مدل رایگان کرد تحت عنوان Stealth Model با نامهای Quasar و Optimus برای استفاده رایگان منتشر کرد. شرط دسترسی عمومی رایگان به api-key مدلیها، لاگ شدن همهی چتها و پرامپتها برای بهبود مدلها بود. رایگان بودن مدل به معنی عرضه Opensource نیست بلکه این مدل بصورت رایگان با کیفیتی در سطح مدلهای closed-source مثل Cluade Sonnet و Gemini pro مستقر شده و برای استفاده نامحدود و بصورت رایگان فراهم میشه. کافیه یک api-key بسازید و رایگان ازش استفاده کنید. این مدل جدید یک Cloaked Model یا Stealth Model رایگان دیگه است موسوم به Horizon Alpha (به مدلی که بدون مشخصات منتشر میشه و در دسترسی استفاده عموم قرار میگیره Cloacked هم میگن یعنی مدل شنل پوشیده.)
حدس اینه که این هم یک مدلی مثل Stealth Modelهای قبلی که Otimus و Quassar بودن از openai باشه که بعد از دوره رایگان بصورت GPT 4.1 عرضه شدند ولی معلوم نیست این مدل بعد از دورهی کوتاه رایگان تحت عنوان چه مدلی عرضه میشه. حدسهایی زده میشه که pre-release مدل GPT-5 باشه. حدسهایی هم میگه ممکن نسخهی open source مدلی باشه که OpenAI قولش رو داده.
انتهای اسم این مدلها کلمه Alpha است یعنی برای تست آلفا هستند که برای بازخورد گرفتن از کامیونیتی برای یک دوره محدود بصورت رایگان عرضه میشوند.
این مدل برخلاف دو تا مدل نهانی دیگر یک مدل عام منظوره است که فقط برای بهبود در کد توسعه داده نشده و از قضا بازخورد خیلی مثبتی که گرفته از خلاقیت و سرعت زیادش 150 توکن بر ثانیه بوده. سرعتی در حد gemini flash.
این رو مقایسه کنید با مدلهای تاپ دیگه که در حدود ۶۰ تا ۸۰ توکن بر ثانیه هستند.
در بنچمارک هوش هیجانی EQBENCH هم بهترین مدل شده.
خلاصه فرصت محدوده معمولا دو سه روزه از حالت رایگان در میاد تستش کنید.
خاطرتون باشه حدود چهارماه پیش Openrouter دو سری مدل رایگان کرد تحت عنوان Stealth Model با نامهای Quasar و Optimus برای استفاده رایگان منتشر کرد. شرط دسترسی عمومی رایگان به api-key مدلیها، لاگ شدن همهی چتها و پرامپتها برای بهبود مدلها بود. رایگان بودن مدل به معنی عرضه Opensource نیست بلکه این مدل بصورت رایگان با کیفیتی در سطح مدلهای closed-source مثل Cluade Sonnet و Gemini pro مستقر شده و برای استفاده نامحدود و بصورت رایگان فراهم میشه. کافیه یک api-key بسازید و رایگان ازش استفاده کنید. این مدل جدید یک Cloaked Model یا Stealth Model رایگان دیگه است موسوم به Horizon Alpha (به مدلی که بدون مشخصات منتشر میشه و در دسترسی استفاده عموم قرار میگیره Cloacked هم میگن یعنی مدل شنل پوشیده.)
حدس اینه که این هم یک مدلی مثل Stealth Modelهای قبلی که Otimus و Quassar بودن از openai باشه که بعد از دوره رایگان بصورت GPT 4.1 عرضه شدند ولی معلوم نیست این مدل بعد از دورهی کوتاه رایگان تحت عنوان چه مدلی عرضه میشه. حدسهایی زده میشه که pre-release مدل GPT-5 باشه. حدسهایی هم میگه ممکن نسخهی open source مدلی باشه که OpenAI قولش رو داده.
انتهای اسم این مدلها کلمه Alpha است یعنی برای تست آلفا هستند که برای بازخورد گرفتن از کامیونیتی برای یک دوره محدود بصورت رایگان عرضه میشوند.
این مدل برخلاف دو تا مدل نهانی دیگر یک مدل عام منظوره است که فقط برای بهبود در کد توسعه داده نشده و از قضا بازخورد خیلی مثبتی که گرفته از خلاقیت و سرعت زیادش 150 توکن بر ثانیه بوده. سرعتی در حد gemini flash.
این رو مقایسه کنید با مدلهای تاپ دیگه که در حدود ۶۰ تا ۸۰ توکن بر ثانیه هستند.
در بنچمارک هوش هیجانی EQBENCH هم بهترین مدل شده.
خلاصه فرصت محدوده معمولا دو سه روزه از حالت رایگان در میاد تستش کنید.
❤3😢1