امروز OpenAI مدل جدید GPT-4.5 رو معرفی کرده! این مدل قراره سریعتر، دقیقتر و هوشمندتر باشه. بهبودهایی توی فهم زبان، تولید متن و حتی کدنویسی داره.
مدل GPT-4.5 یه سری بهبود مهم داره که کار باهاش رو راحتتر و قویتر میکنه:
✅ سرعت بیشتر – جوابها رو سریعتر میده و عملکرد بهتری داره.
✅ دقت بالاتر – متنهاش منطقیتر و کماشتباهتر شدن.
✅ بهبود فهم کد – بهتر کدنویسی میکنه و اشکالیابی دقیقتری داره.
✅ پشتیبانی از متنهای پیچیدهتر – محتوای علمی و فنی رو بهتر میفهمه.
✅ تعامل طبیعیتر – جوابهاش روانتر و شبیه مکالمه انسانی شده.
برای جزئیات بیشتر، این سند رو ببینید:
📄
https://cdn.openai.com/gpt-4-5-system-card.pdf
مدل GPT-4.5 یه سری بهبود مهم داره که کار باهاش رو راحتتر و قویتر میکنه:
✅ سرعت بیشتر – جوابها رو سریعتر میده و عملکرد بهتری داره.
✅ دقت بالاتر – متنهاش منطقیتر و کماشتباهتر شدن.
✅ بهبود فهم کد – بهتر کدنویسی میکنه و اشکالیابی دقیقتری داره.
✅ پشتیبانی از متنهای پیچیدهتر – محتوای علمی و فنی رو بهتر میفهمه.
✅ تعامل طبیعیتر – جوابهاش روانتر و شبیه مکالمه انسانی شده.
برای جزئیات بیشتر، این سند رو ببینید:
📄
https://cdn.openai.com/gpt-4-5-system-card.pdf
👍17🤔1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Mercury
اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد!
نکته جالب اینجاست که این مدل، همه توکن ها (کلمات یا بخش های کلمات) رو یکجا تولید و سپس بهینه میکنه، برخلاف مدلهای مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید می کنن.
مدل منتشر شده در حالی که تا ۱۰ برابر سریع تر از مدلهای پیشرفته و بهینهشده برای سرعت مانند "GPT-4o Mini" و "Claude 3.5 Haiku" اجرا میشه که عملکردی کاملا مشابه اونها داره. این بدان معناست که شما میتونید از همان سطح کیفیت و دقت، اما با سرعتی بسیار بالاتر بهرهمند شین.
علاوه بر این، این مدل به سرعتی بیش از ۱۰۰۰ توکن در ثانیه بر روی پردازنده های گرافیکی "NVIDIA H100" دست پیدا کرده. این سرعت فوقالعاده، امکان تولید متنهای طولانی و پیچیده رو در کمترین زمان ممکن فراهم میکنن.
نکته قابل توجه اینه که این سرعت بالا، بدون نیاز به استفاده از تراشه های تخصصی بدست اومده. به عبارت دیگه، شما میتونید با استفاده از سخت افزارهای استاندارد، از قدرت و سرعت بینظیر مدلهای "Mercury Coder" بهرهمند شین.
https://www.inceptionlabs.ai/news
اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد!
نکته جالب اینجاست که این مدل، همه توکن ها (کلمات یا بخش های کلمات) رو یکجا تولید و سپس بهینه میکنه، برخلاف مدلهای مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید می کنن.
مدل منتشر شده در حالی که تا ۱۰ برابر سریع تر از مدلهای پیشرفته و بهینهشده برای سرعت مانند "GPT-4o Mini" و "Claude 3.5 Haiku" اجرا میشه که عملکردی کاملا مشابه اونها داره. این بدان معناست که شما میتونید از همان سطح کیفیت و دقت، اما با سرعتی بسیار بالاتر بهرهمند شین.
علاوه بر این، این مدل به سرعتی بیش از ۱۰۰۰ توکن در ثانیه بر روی پردازنده های گرافیکی "NVIDIA H100" دست پیدا کرده. این سرعت فوقالعاده، امکان تولید متنهای طولانی و پیچیده رو در کمترین زمان ممکن فراهم میکنن.
نکته قابل توجه اینه که این سرعت بالا، بدون نیاز به استفاده از تراشه های تخصصی بدست اومده. به عبارت دیگه، شما میتونید با استفاده از سخت افزارهای استاندارد، از قدرت و سرعت بینظیر مدلهای "Mercury Coder" بهرهمند شین.
https://www.inceptionlabs.ai/news
👍17😱5👌2🔥1
Tensorflow(@CVision)
Mercury اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد! نکته جالب اینجاست که این مدل، همه توکن ها (کلمات یا بخش های کلمات) رو یکجا تولید و سپس بهینه میکنه، برخلاف مدلهای مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید…
بیشتر مدلهای زبانی بزرگی که تا کنون دیدیم (LLMs)، از نظر روش مدل سازی اصلی، تقریباً شبیه به هم هستن و همشون به صورت Autoregression آموزش داده میشن، یعنی کلمات رو از چپ به راست پیش بینی میکنن.
روش Diffusion متفاوته، از چپ به راست حرکت نمیکنه، بلکه همه چیز رو یکجا تولید میکنه. شما با نویز شروع و به تدریج نویز رو حذف میکنین تا به یک جریان از کلمات برسین.
بیشتر ابزارهای هوش مصنوعی تولید تصویر و ویدیو، در واقع با همین روش کار میکنن و از روش Diffusion استفاده میکنن، نه Autoregression.
به عنوان مثال، مدلهایی مانند DALL-E، Stable Diffusion و Midjourney از این روش برای تولید تصاویر واقع گرایانه و خلاقانه استفاده میکنن.
قبلاً تلاش هایی برای استفاده از این متد برای تولید متن شده بود اما به شکل تجاری هیچ کدوم مورد استفاده قرار نگرفته بودن، این اولین استفاده تجاری هست و موفقیت اون تاثیر بسزایی در آینده مدل های زبانی خواهد داشت
روش Diffusion متفاوته، از چپ به راست حرکت نمیکنه، بلکه همه چیز رو یکجا تولید میکنه. شما با نویز شروع و به تدریج نویز رو حذف میکنین تا به یک جریان از کلمات برسین.
بیشتر ابزارهای هوش مصنوعی تولید تصویر و ویدیو، در واقع با همین روش کار میکنن و از روش Diffusion استفاده میکنن، نه Autoregression.
به عنوان مثال، مدلهایی مانند DALL-E، Stable Diffusion و Midjourney از این روش برای تولید تصاویر واقع گرایانه و خلاقانه استفاده میکنن.
قبلاً تلاش هایی برای استفاده از این متد برای تولید متن شده بود اما به شکل تجاری هیچ کدوم مورد استفاده قرار نگرفته بودن، این اولین استفاده تجاری هست و موفقیت اون تاثیر بسزایی در آینده مدل های زبانی خواهد داشت
👍26👌6
This media is not supported in your browser
VIEW IN TELEGRAM
یکی از دلایل موفقیت DeepSeek، به غیر از بهینه سازی و کارهای نوآورانه ای که انجام داد تصمیم این شرکت در انتشار کد این معماری بود.
حالا علی بابا با استفاده از همین رویکرد (اوپن سورس کردن) در زمینهی نرم افزارهای هوش مصنوعی، سعی داره که با ارائه سرویس تبدیل متن به ویدئو به نام Wan 2.1، رقبای بزرگی مثل Sora از OpenAI رو به چالش بکشه.
این شرکت مدل هوش مصنوعی تبدیل متن به ویدئو به نام Wan 2.1 را معرفی کرده که به صورت اوپن سورس عرضه شده. این مدل به کاربران امکان میده تا با استفاده از ورودیهای متنی، تصویری و حتی ویدئویی، ویدئوهایی با کیفیت سینمایی ایجاد کنن و نسبت به مدل های متن بسته عملکرد قابل توجهی داره.
حالا علی بابا با استفاده از همین رویکرد (اوپن سورس کردن) در زمینهی نرم افزارهای هوش مصنوعی، سعی داره که با ارائه سرویس تبدیل متن به ویدئو به نام Wan 2.1، رقبای بزرگی مثل Sora از OpenAI رو به چالش بکشه.
این شرکت مدل هوش مصنوعی تبدیل متن به ویدئو به نام Wan 2.1 را معرفی کرده که به صورت اوپن سورس عرضه شده. این مدل به کاربران امکان میده تا با استفاده از ورودیهای متنی، تصویری و حتی ویدئویی، ویدئوهایی با کیفیت سینمایی ایجاد کنن و نسبت به مدل های متن بسته عملکرد قابل توجهی داره.
🔥11👍3❤1
این مدل قادره حرکات پیچیدهای مانند چرخشهای دینامیک، تغییرات سریع صحنه و حرکات نرم دوربین رو تولید کنه. علاوه بر این، توانایی شبیهسازی فیزیک واقعی و تعاملات طبیعی اشیا رو داراست و از ویرایش دقیق با استفاده از تصاویر و ویدئوهای مرجع پشتیبانی میکنه. همچنین Wan 2.1 امکان تولید افکتهای سینمایی، جلوههای متنوع و حتی افزودن متن به ویدئوها به زبانهای چینی و انگلیسی رو نیز فراهم میکنه.
یکی از مزیتهای برجسته این مدل، دسترسی رایگان و امکان اجرا بر روی سختافزارهای مصرفی با استفاده از نسخههای کوچکتر آن هست که نیاز به منابع گرانقیمت رو برطرف میکنه
https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
یکی از مزیتهای برجسته این مدل، دسترسی رایگان و امکان اجرا بر روی سختافزارهای مصرفی با استفاده از نسخههای کوچکتر آن هست که نیاز به منابع گرانقیمت رو برطرف میکنه
https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
huggingface.co
Wan-AI/Wan2.1-T2V-14B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍8
قدرتهای کلیدی Claude 3.7 در دنیای کدنویسی 💻
مدل جدید Claude 3.7 Sonnet به performance فوقالعادهای در SWE-bench Verified دست پیدا کرده که توانایی مدلهای هوش مصنوعی رو در حل مشکلات نرمافزاری دنیای واقعی ارزیابی میکنه.
نقاط قوت:
کار با codebaseهای پیچیده و درک عمیق ساختار پروژهها
دستیابی به performance فوقالعاده در SWE-bench Verified (حل مشکلات واقعی نرمافزاری)
برنامهریزی تغییرات کد و مدیریت updateها
تولید کد production-ready با خطای کمتر
قابلیتهای test-driven development
ابزار Claude Code:
جستجو و خواندن کد
ویرایش فایلها
نوشتن و اجرای testها
کار با GitHub (commit و push)
استفاده از command line
شناسایی و رفع build errorها
البته برای کد نویسی و استفاده در محیط پروژه رایگان نیست...
https://www.anthropic.com/news/claude-3-7-sonnet
مدل جدید Claude 3.7 Sonnet به performance فوقالعادهای در SWE-bench Verified دست پیدا کرده که توانایی مدلهای هوش مصنوعی رو در حل مشکلات نرمافزاری دنیای واقعی ارزیابی میکنه.
نقاط قوت:
کار با codebaseهای پیچیده و درک عمیق ساختار پروژهها
دستیابی به performance فوقالعاده در SWE-bench Verified (حل مشکلات واقعی نرمافزاری)
برنامهریزی تغییرات کد و مدیریت updateها
تولید کد production-ready با خطای کمتر
قابلیتهای test-driven development
ابزار Claude Code:
جستجو و خواندن کد
ویرایش فایلها
نوشتن و اجرای testها
کار با GitHub (commit و push)
استفاده از command line
شناسایی و رفع build errorها
البته برای کد نویسی و استفاده در محیط پروژه رایگان نیست...
https://www.anthropic.com/news/claude-3-7-sonnet
👍4🔥1🙏1
Tensorflow(@CVision)
قدرتهای کلیدی Claude 3.7 در دنیای کدنویسی 💻 مدل جدید Claude 3.7 Sonnet به performance فوقالعادهای در SWE-bench Verified دست پیدا کرده که توانایی مدلهای هوش مصنوعی رو در حل مشکلات نرمافزاری دنیای واقعی ارزیابی میکنه. نقاط قوت: کار با codebaseهای…
This media is not supported in your browser
VIEW IN TELEGRAM
این ویدیوی یوتیوب از کانال فایرشیپ، مدل جدید Claude 3.7 Sonnet از شرکت آنتروپیک رو بررسی میکنه و قابلیتهای پیشرفته برنامهنویسی و ابزار جدید Claude Code CLI رو نشون میده.
این بررسی به پتانسیل این مدل برای خودکارسازی کارهای کدنویسی و حتی جایگزینی برنامهنویسها اشاره میکنه،
در حالی که به مشکلات احتمالی مثل هزینه، احتمال کپیبرداری و خرابیهای غیرمنتظره در سناریوهای پیچیده هم اشاره داره.
ویدیو عملکرد Claude 3.7 رو در چالشهای مختلف کدنویسی نشون میده و اون رو با مدلهای هوش مصنوعی دیگه مقایسه میکنه و در نهایت نقاط قوت و ضعفش رو در کاربردهای دنیای واقعی نشون میده.
این بررسی به پتانسیل این مدل برای خودکارسازی کارهای کدنویسی و حتی جایگزینی برنامهنویسها اشاره میکنه،
در حالی که به مشکلات احتمالی مثل هزینه، احتمال کپیبرداری و خرابیهای غیرمنتظره در سناریوهای پیچیده هم اشاره داره.
ویدیو عملکرد Claude 3.7 رو در چالشهای مختلف کدنویسی نشون میده و اون رو با مدلهای هوش مصنوعی دیگه مقایسه میکنه و در نهایت نقاط قوت و ضعفش رو در کاربردهای دنیای واقعی نشون میده.
👍4❤1🙏1
Audio
مدلهای تبدیل متن به گفتار (TTS) امروزی معمولاً صدایی خنثی و بدون احساس تولید میکنن که پس از گذشت زمان جذابیت خودشون رو از دست میدن. این موضوع باعث میشه تعامل با اونها خستهکننده شه.
برای رفع این مشکل، تیم Sesame مدل «Conversational Speech Model» یا CSM را معرفی کرده که بهصورت یک مدل چند وجهی، هم متن و هم اطلاعات صوتی (از طریق توکنهای صوتی) رو همزمان پردازش میکنه.
توکن های معنایی برای درک کلی محتوا و ویژگیهای زبانی
توکن های صوتی برای بازسازی جزئیات دقیق صدا مانند لحن و هویت گوینده
کیفت خروجی تولیدی به جرات میشه گفت از advanced voice چت جی پی تی بالاتره!
امیدواریم این مدل به زودی بصورت متن باز منتشر شه تا بتونیم با دیتای فارسی آموزشش بدیم!(در فایل نمونه کمی با طرفداران استقلال شوخی کردیم)
لینک دمو:
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
برای رفع این مشکل، تیم Sesame مدل «Conversational Speech Model» یا CSM را معرفی کرده که بهصورت یک مدل چند وجهی، هم متن و هم اطلاعات صوتی (از طریق توکنهای صوتی) رو همزمان پردازش میکنه.
توکن های معنایی برای درک کلی محتوا و ویژگیهای زبانی
توکن های صوتی برای بازسازی جزئیات دقیق صدا مانند لحن و هویت گوینده
کیفت خروجی تولیدی به جرات میشه گفت از advanced voice چت جی پی تی بالاتره!
امیدواریم این مدل به زودی بصورت متن باز منتشر شه تا بتونیم با دیتای فارسی آموزشش بدیم!(در فایل نمونه کمی با طرفداران استقلال شوخی کردیم)
لینک دمو:
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
👍10
Great set of new lectures on all things LLMs, reasoning, and advanced LLM-based agents and techniques.
https://www.youtube.com/playlist?list=PLS01nW3RtgorL3AW8REU9nGkzhvtn6Egn
https://www.youtube.com/playlist?list=PLS01nW3RtgorL3AW8REU9nGkzhvtn6Egn
👍3
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 1 از 4
سلام به زنجیره پیشنویس (Chain-of-Draft)
برای حل مشکل تأخیر در استدلال مدلهای زبانی بزرگ، این پژوهش زنجیره پیشنویس (CoD) را معرفی میکند.
زنجیره پیشنویس (CoD) یک راهبرد prompt دهی جدید است که استدلالهای میانی طولانی را به شدت کاهش میدهد در حالی که عملکرد قوی را حفظ میکند.
https://x.com/omarsar0/status/1895135560634900762/photo/1
سلام به زنجیره پیشنویس (Chain-of-Draft)
برای حل مشکل تأخیر در استدلال مدلهای زبانی بزرگ، این پژوهش زنجیره پیشنویس (CoD) را معرفی میکند.
زنجیره پیشنویس (CoD) یک راهبرد prompt دهی جدید است که استدلالهای میانی طولانی را به شدت کاهش میدهد در حالی که عملکرد قوی را حفظ میکند.
https://x.com/omarsar0/status/1895135560634900762/photo/1
👍10
Tensorflow(@CVision)
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 1 از 4 سلام به زنجیره پیشنویس (Chain-of-Draft) برای حل مشکل تأخیر در استدلال مدلهای زبانی بزرگ، این پژوهش زنجیره پیشنویس (CoD) را معرفی میکند. زنجیره پیشنویس (CoD) یک راهبرد prompt دهی جدید است که استدلالهای…
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 2 از 4
به جای خروجیهای طولانی گامبهگام CoT، روش CoD از مدل میخواهد برای هر مرحله استدلال، نشانههای مختصر و پر اطلاعات تولید کند.
این روش تا ۸۰ درصد نشانههای کمتری در هر پاسخ تولید میکند، در حالی که دقت را در بنچ مارکهای ریاضی، دانش عمومی و سایر معیارها حفظ میکند.
به جای خروجیهای طولانی گامبهگام CoT، روش CoD از مدل میخواهد برای هر مرحله استدلال، نشانههای مختصر و پر اطلاعات تولید کند.
این روش تا ۸۰ درصد نشانههای کمتری در هر پاسخ تولید میکند، در حالی که دقت را در بنچ مارکهای ریاضی، دانش عمومی و سایر معیارها حفظ میکند.
👍9
Tensorflow(@CVision)
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 2 از 4 به جای خروجیهای طولانی گامبهگام CoT، روش CoD از مدل میخواهد برای هر مرحله استدلال، نشانههای مختصر و پر اطلاعات تولید کند. این روش تا ۸۰ درصد نشانههای کمتری در هر پاسخ تولید میکند، در حالی که دقت…
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 3 از 4
تأخیر کم، دقت بالا
در مسائل ریاضی GSM8k، روش CoD به دقت ۹۱ درصدی با ۸۰ درصد کاهش نشانه نسبت به CoT دست یافت. همچنین در وظایفی مانند درک تاریخ/ورزش و استدلال پرتاب سکه، عملکردی برابر یا بهتر از CoT داشت و به طور قابل توجهی زمان و هزینه استنتاج را کاهش داد.
تأخیر کم، دقت بالا
در مسائل ریاضی GSM8k، روش CoD به دقت ۹۱ درصدی با ۸۰ درصد کاهش نشانه نسبت به CoT دست یافت. همچنین در وظایفی مانند درک تاریخ/ورزش و استدلال پرتاب سکه، عملکردی برابر یا بهتر از CoT داشت و به طور قابل توجهی زمان و هزینه استنتاج را کاهش داد.
👍6
Tensorflow(@CVision)
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 3 از 4 تأخیر کم، دقت بالا در مسائل ریاضی GSM8k، روش CoD به دقت ۹۱ درصدی با ۸۰ درصد کاهش نشانه نسبت به CoT دست یافت. همچنین در وظایفی مانند درک تاریخ/ورزش و استدلال پرتاب سکه، عملکردی برابر یا بهتر از CoT داشت…
خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 4 از 4
انعطافپذیر و قابل تفسیر
با وجود کلمات کمتر، CoD منطق اصلی را قابل مشاهده نگه میدارد، مشابه روشی که انسانها به جای توضیحات کامل، نکات کلیدی را یادداشت میکنند. این کار قابلیت تفسیر برای اشکالزدایی را حفظ میکند و اطمینان میدهد که مدل به استدلال “پنهان” نهفته متکی نیست.
Chain of Draft: Thinking Faster by Writing Less
https://arxiv.org/abs/2502.18600
انعطافپذیر و قابل تفسیر
با وجود کلمات کمتر، CoD منطق اصلی را قابل مشاهده نگه میدارد، مشابه روشی که انسانها به جای توضیحات کامل، نکات کلیدی را یادداشت میکنند. این کار قابلیت تفسیر برای اشکالزدایی را حفظ میکند و اطمینان میدهد که مدل به استدلال “پنهان” نهفته متکی نیست.
Chain of Draft: Thinking Faster by Writing Less
https://arxiv.org/abs/2502.18600
👍7
سم آلتمن میگوید OpenAI با کمبود GPU مواجه شده است - عرضه GPT-4.5 به دلیل کمبود قدرت پردازشی به تعویق افتاد
https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-has-run-out-of-gpus-says-sam-altman-gpt-4-5-rollout-delayed-due-to-lack-of-processing-power
جدیدترین مدل خود، GPT-4.5 را منتشر کرده است. با این حال، در حال حاضر فقط برای مشترکین Pro که ماهانه ۲۰۰ دلار پرداخت میکنند، در دسترس است. سم آلتمن، مدیرعامل این شرکت، در X (سابقاً توییتر) اعلام کرد که مجبور شدهاند انتشار مدل را به صورت تدریجی انجام دهند زیرا “…ما رشد زیادی داشتهایم و GPUهایمان تمام شده است.” او سپس اضافه کرد: “هفته آینده دهها هزار GPU اضافه خواهیم کرد و آن را برای سطح Plus نیز عرضه خواهیم کرد.” بنابراین، حتی اگر ماهانه فقط ۲۰ دلار به OpenAI پرداخت میکنید، برای دسترسی به پیشرفتهترین مدل آن مجبور نخواهید بود مدت زیادی منتظر بمانید.
https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-has-run-out-of-gpus-says-sam-altman-gpt-4-5-rollout-delayed-due-to-lack-of-processing-power
جدیدترین مدل خود، GPT-4.5 را منتشر کرده است. با این حال، در حال حاضر فقط برای مشترکین Pro که ماهانه ۲۰۰ دلار پرداخت میکنند، در دسترس است. سم آلتمن، مدیرعامل این شرکت، در X (سابقاً توییتر) اعلام کرد که مجبور شدهاند انتشار مدل را به صورت تدریجی انجام دهند زیرا “…ما رشد زیادی داشتهایم و GPUهایمان تمام شده است.” او سپس اضافه کرد: “هفته آینده دهها هزار GPU اضافه خواهیم کرد و آن را برای سطح Plus نیز عرضه خواهیم کرد.” بنابراین، حتی اگر ماهانه فقط ۲۰ دلار به OpenAI پرداخت میکنید، برای دسترسی به پیشرفتهترین مدل آن مجبور نخواهید بود مدت زیادی منتظر بمانید.
Tom's Hardware
OpenAI has run out of GPUs, says Sam Altman — GPT-4.5 rollout delayed
Tens of thousands of GPUs will arrive next week.
👍8😱3
Tensorflow(@CVision)
سم آلتمن میگوید OpenAI با کمبود GPU مواجه شده است - عرضه GPT-4.5 به دلیل کمبود قدرت پردازشی به تعویق افتاد https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-has-run-out-of-gpus-says-sam-altman-gpt-4-5-rollout-delayed-due-to-lack-of…
سم آلتمن قبلا هم به این موضع اشاره کرده بود که OpenAI به لحاظ حاشیه سود در مضیقه قرار داره جا داره یه نگاه به مدل درآمدی deepseek بندازیم!
بیایم عملکرد و هزینههای سرویس استنتاج مدلهای DeepSeek-V3 و R1 مورد بررسی قرار بدیم، تحلیلی شامل بررسی سختافزار، بهرهوری، هزینهها، درآمد و حاشیه سود این سرویس در یک بازه ۲۴ ساعته و ببینیم چند چنده ؟
دیپ سیک از کارتهای گرافیک H800 برای ارائه خدمات استنتاج استفاده میکنه که به دلیل عملکرد بالاش، انتخاب مناسبی برای پردازش مدل های بزرگ زبانی محسوب میشه. نکات کلیدی مربوط به زیر ساخت و محاسبات به شرح زیره:
تمامی محاسبات متریک و ارسال دادهها از FP8 استفاده میکنه، که باعث بهینه سازی سرعت پردازش و کاهش نیاز به حافظه میشه
محاسبات اصلی MLA (Matrix Learning Accelerator) و ارسال داده های ترکیبی بر پایه BF16 اجرا میشن، که دقت مناسبی در برابر FP8 ارائه میده
برای مدیریت بار، در ساعات پر ترافیک تعداد نود های استنتاج افزایش یافته و در ساعات کم بار بخشی از منابع به تحقیق و آموزش اختصاص داده میشه.
ادامه داره ...
بیایم عملکرد و هزینههای سرویس استنتاج مدلهای DeepSeek-V3 و R1 مورد بررسی قرار بدیم، تحلیلی شامل بررسی سختافزار، بهرهوری، هزینهها، درآمد و حاشیه سود این سرویس در یک بازه ۲۴ ساعته و ببینیم چند چنده ؟
دیپ سیک از کارتهای گرافیک H800 برای ارائه خدمات استنتاج استفاده میکنه که به دلیل عملکرد بالاش، انتخاب مناسبی برای پردازش مدل های بزرگ زبانی محسوب میشه. نکات کلیدی مربوط به زیر ساخت و محاسبات به شرح زیره:
تمامی محاسبات متریک و ارسال دادهها از FP8 استفاده میکنه، که باعث بهینه سازی سرعت پردازش و کاهش نیاز به حافظه میشه
محاسبات اصلی MLA (Matrix Learning Accelerator) و ارسال داده های ترکیبی بر پایه BF16 اجرا میشن، که دقت مناسبی در برابر FP8 ارائه میده
برای مدیریت بار، در ساعات پر ترافیک تعداد نود های استنتاج افزایش یافته و در ساعات کم بار بخشی از منابع به تحقیق و آموزش اختصاص داده میشه.
ادامه داره ...
1👍14❤1
Tensorflow(@CVision)
سم آلتمن قبلا هم به این موضع اشاره کرده بود که OpenAI به لحاظ حاشیه سود در مضیقه قرار داره جا داره یه نگاه به مدل درآمدی deepseek بندازیم! بیایم عملکرد و هزینههای سرویس استنتاج مدلهای DeepSeek-V3 و R1 مورد بررسی قرار بدیم، تحلیلی شامل بررسی سختافزار، بهرهوری،…
بازه ۲۴ ساعت رو در نظر بگیریم:
بیشترین تعداد نود مشغول: ۲۷۸ نود (هر نود دارای ۸ کارت H800 هست)
میانگین استفاده از نودها: ۲۲۶.۷۵ نود در هر لحظه
هزینه اجاره سختافزار: با فرض ۲ دلار در ساعت برای هر GPU، هزینه کل برابر با ۸۷,۰۷۲ دلار در روزه
این آمار نشون میده که DeepSeek بهطور مؤثری از منابع سختافزاری استفاده کرده و با کاهش نودها در زمانهای کمبار، هزینه ها رو مدیریت می کنه.
تعداد کل توکنهای ورودی: ۶۰۸ میلیارد توکن
از این مقدار، ۵۶.۳٪ (۳۴۲ میلیارد توکن) در کش دیسک (on-disk KV cache) پردازش شده که نشون دهنده استفاده مؤثر از کش برای کاهش هزینههای پردازشه!
تعداد کل توکنهای خروجی: ۱۶۸ میلیارد توکن
سرعت تولید خروجی: ۲۰ تا ۲۲ توکن در ثانیه
میانگین طول KV cache برای هر توکن خروجی: ۴,۹۸۹ توکن
توان پردازشی هر نود H800:
در مرحله prefill (ورودی اولیه): ۷۳.۷ هزار توکن در ثانیه (با احتساب کش)
در مرحله decoding (تولید خروجی): ۱۴.۸ هزار توکن در ثانیه
این دادهها نشون میدن که مدل DeepSeek-V3/R1 توان پردازش بسیار بالایی داره و با بهینهسازی کش، بهره وری پردازش رو افزایش داده!
ادامه داره...
بیشترین تعداد نود مشغول: ۲۷۸ نود (هر نود دارای ۸ کارت H800 هست)
میانگین استفاده از نودها: ۲۲۶.۷۵ نود در هر لحظه
هزینه اجاره سختافزار: با فرض ۲ دلار در ساعت برای هر GPU، هزینه کل برابر با ۸۷,۰۷۲ دلار در روزه
این آمار نشون میده که DeepSeek بهطور مؤثری از منابع سختافزاری استفاده کرده و با کاهش نودها در زمانهای کمبار، هزینه ها رو مدیریت می کنه.
تعداد کل توکنهای ورودی: ۶۰۸ میلیارد توکن
از این مقدار، ۵۶.۳٪ (۳۴۲ میلیارد توکن) در کش دیسک (on-disk KV cache) پردازش شده که نشون دهنده استفاده مؤثر از کش برای کاهش هزینههای پردازشه!
تعداد کل توکنهای خروجی: ۱۶۸ میلیارد توکن
سرعت تولید خروجی: ۲۰ تا ۲۲ توکن در ثانیه
میانگین طول KV cache برای هر توکن خروجی: ۴,۹۸۹ توکن
توان پردازشی هر نود H800:
در مرحله prefill (ورودی اولیه): ۷۳.۷ هزار توکن در ثانیه (با احتساب کش)
در مرحله decoding (تولید خروجی): ۱۴.۸ هزار توکن در ثانیه
این دادهها نشون میدن که مدل DeepSeek-V3/R1 توان پردازش بسیار بالایی داره و با بهینهسازی کش، بهره وری پردازش رو افزایش داده!
ادامه داره...
👍11❤1
Tensorflow(@CVision)
بازه ۲۴ ساعت رو در نظر بگیریم: بیشترین تعداد نود مشغول: ۲۷۸ نود (هر نود دارای ۸ کارت H800 هست) میانگین استفاده از نودها: ۲۲۶.۷۵ نود در هر لحظه هزینه اجاره سختافزار: با فرض ۲ دلار در ساعت برای هر GPU، هزینه کل برابر با ۸۷,۰۷۲ دلار در روزه این آمار نشون…
حاشیه سود نشون میده مدل اقتصادی این سرویس بسیار سودآوره
https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md
https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md
👍8
این مقاله یه روش جدید برای استدلال در مدل های زبانی به نام (Atom of Thoughts - AoT) معرفی کرده، که نیاز به اطلاعات تاریخی رو کاهش میده و استدلال رو موثرتر و کارآمدتر میکنه. این روش میتونه به عنوان یه افزونه در مدل های دیگه نیز استفاده شه و در آزمایش ها نتایج بهتری از روش های پیشین داشته.
استدلال اغلب با شکستن مسئله به قطعات کوچکتر و قابل مدیریت تر به دست میاد. این قطعات کوچکتر، که توی این مقاله "پرسشهای فرعی" نامیده میشن، باید دو ویژگی مهم داشته باشند:
اول Self-contained: هر پرسش فرعی باید به تنهایی قابل درک و بررسی باشه، بدون نیاز به دانش گسترده از تاریخچه کل مسئله.
دوم Verifiable: پاسخ به هر پرسش فرعی باید قابل بررسی و اثبات باشه، به طوری که بشه از صحت گام های استدلال اطمینان حاصل کرد.
مثلا فرض کنید با مسیله "چرا آب در زمستان یخ میزنه؟" رو برو میشین. برای جواب دادن به این سؤال، مغزمون خود به خود سوال به چند زیر سوال ساده تر میشکنه:
دمای انجماد آب چنده؟
دمای هوا در زمستان معمولا چقدره؟
چی باعث میشه آب در دمای پایین یخ بزنه؟
حالا اگه این زیرسؤال ها رو جداگانه حل کنیم، راحت تر و دقیق تر به جواب اصلی می رسیم، بدون اینکه اطلاعات اضافی یا بی ربط توی ذهن جمع شه. این کاریه که این روش انجام میده.
از یه دید دیگه این روش به زنجیره مارکوف خیلی نزدیکه، توی فرایند مارکوف حالت بعدی سیستم فقط به حالت فعلی اون وابسته هست و نه به تاریخچه حالات قبلی. پرسشهای فرعی در روش atom of thoughs نیز به همین شکل "بیحافظه" هستن.
به عبارت دیگه، برای حل یک پرسش فرعی، ما عمدتا به اطلاعات موجود در حالت فعلی استدلال (یعنی خود پرسش فرعی) توجه می کنیم و نه لزوما به مسیر پر پیچ و خم استدلالی که تا اینجا طی شده، کاری که روش های استدلال کنونی انجام میدن و نیاز به منابع محاسباتی رو به صورت چشمگیری افزایش میدن.
https://arxiv.org/abs/2502.12018
کد:
https://github.com/qixucen/atom
استدلال اغلب با شکستن مسئله به قطعات کوچکتر و قابل مدیریت تر به دست میاد. این قطعات کوچکتر، که توی این مقاله "پرسشهای فرعی" نامیده میشن، باید دو ویژگی مهم داشته باشند:
اول Self-contained: هر پرسش فرعی باید به تنهایی قابل درک و بررسی باشه، بدون نیاز به دانش گسترده از تاریخچه کل مسئله.
دوم Verifiable: پاسخ به هر پرسش فرعی باید قابل بررسی و اثبات باشه، به طوری که بشه از صحت گام های استدلال اطمینان حاصل کرد.
مثلا فرض کنید با مسیله "چرا آب در زمستان یخ میزنه؟" رو برو میشین. برای جواب دادن به این سؤال، مغزمون خود به خود سوال به چند زیر سوال ساده تر میشکنه:
دمای انجماد آب چنده؟
دمای هوا در زمستان معمولا چقدره؟
چی باعث میشه آب در دمای پایین یخ بزنه؟
حالا اگه این زیرسؤال ها رو جداگانه حل کنیم، راحت تر و دقیق تر به جواب اصلی می رسیم، بدون اینکه اطلاعات اضافی یا بی ربط توی ذهن جمع شه. این کاریه که این روش انجام میده.
از یه دید دیگه این روش به زنجیره مارکوف خیلی نزدیکه، توی فرایند مارکوف حالت بعدی سیستم فقط به حالت فعلی اون وابسته هست و نه به تاریخچه حالات قبلی. پرسشهای فرعی در روش atom of thoughs نیز به همین شکل "بیحافظه" هستن.
به عبارت دیگه، برای حل یک پرسش فرعی، ما عمدتا به اطلاعات موجود در حالت فعلی استدلال (یعنی خود پرسش فرعی) توجه می کنیم و نه لزوما به مسیر پر پیچ و خم استدلالی که تا اینجا طی شده، کاری که روش های استدلال کنونی انجام میدن و نیاز به منابع محاسباتی رو به صورت چشمگیری افزایش میدن.
https://arxiv.org/abs/2502.12018
کد:
https://github.com/qixucen/atom
arXiv.org
Atom of Thoughts for Markov LLM Test-Time Scaling
Large Language Models (LLMs) achieve superior performance through training-time scaling, and test-time scaling further enhances their capabilities by conducting effective reasoning during...
👍7❤1
ویدیوهای ضبط شده (به همراه اسلایدها) کورس Introduction to Flow Matching and Diffusion Models دانشگاه MIT به صورت رایگان در یوتیوب قرار گرفت
✅ Flow and Diffusion Models
✅ Constructing a Training Target
✅ Training Flow and Diffusion Models
✅ Building an Image Generator
✅ Generative Robotics
✅ Generative Protein Design
https://diffusion.csail.mit.edu/
✅ Flow and Diffusion Models
✅ Constructing a Training Target
✅ Training Flow and Diffusion Models
✅ Building an Image Generator
✅ Generative Robotics
✅ Generative Protein Design
https://diffusion.csail.mit.edu/
YouTube
MIT 6.S184: Flow Matching and Diffusion Models - Lecture 01 - Generative AI with SDEs
Lecture notes: https://diffusion.csail.mit.edu/docs/lecture-notes.pdf
Slides: https://diffusion.csail.mit.edu/docs/slides_lecture_1.pdf
Course website: https://diffusion.csail.mit.edu/2025/index.html
Code exercises: https://diffusion.csail.mit.edu/2025/index.html…
Slides: https://diffusion.csail.mit.edu/docs/slides_lecture_1.pdf
Course website: https://diffusion.csail.mit.edu/2025/index.html
Code exercises: https://diffusion.csail.mit.edu/2025/index.html…
❤4👍2
audio (3).wav
16 MB
مقاله DiffRhythm محدودیت های روشهای فعلی تولید موسیقی مانند تولید جداگانه آواز و آهنگ، نیاز به معماری های پیچیده چند مرحله ای، سرعت پایین و ساخت قطعات کوتاه رو برطرف می کنه.
این مدل با استفاده از معماری Latent Diffusion، قادره آهنگ های کامل (تا ۴ دقیقه و ۴۵ ثانیه) رو تنها در ۱۰ ثانیه تولید کنه و همزمان هر دو بخش آواز و آهنگ رو با کیفیت بالا و حفظ هوشمندی ساختاری بسازه.
در مقایسه با روشهای مبتنی بر مدل های زبانی که کند هستن، DiffRhythm با ساختار non-autoregressive، سرعت استنتاج رو به طور چشمگیری افزایش میده. همچنین، نیاز به داده های پیچیده یا پیش پردازش های وقتگیر رو حذف کرده و تنها با دریافت متن اشعار و یه نشانه سبک موسیقی (مثل پاپ یا راک)، فرآیند تولید رو آغاز میکنه.
به عنوان یه مدل متن باز کیفیت موزیک های تولیدی واقعا بالاست !
مقاله :
https://arxiv.org/abs/2503.01183
کد:
https://github.com/ASLP-lab/DiffRhythm
دمو:
https://huggingface.co/spaces/ASLP-lab/DiffRhythm
این مدل با استفاده از معماری Latent Diffusion، قادره آهنگ های کامل (تا ۴ دقیقه و ۴۵ ثانیه) رو تنها در ۱۰ ثانیه تولید کنه و همزمان هر دو بخش آواز و آهنگ رو با کیفیت بالا و حفظ هوشمندی ساختاری بسازه.
در مقایسه با روشهای مبتنی بر مدل های زبانی که کند هستن، DiffRhythm با ساختار non-autoregressive، سرعت استنتاج رو به طور چشمگیری افزایش میده. همچنین، نیاز به داده های پیچیده یا پیش پردازش های وقتگیر رو حذف کرده و تنها با دریافت متن اشعار و یه نشانه سبک موسیقی (مثل پاپ یا راک)، فرآیند تولید رو آغاز میکنه.
به عنوان یه مدل متن باز کیفیت موزیک های تولیدی واقعا بالاست !
مقاله :
https://arxiv.org/abs/2503.01183
کد:
https://github.com/ASLP-lab/DiffRhythm
دمو:
https://huggingface.co/spaces/ASLP-lab/DiffRhythm
👍6
در مدلهای MoE سنتی، پردازش داده ها به صورت موازی و مستقل انجام میشه، اما این روش باعث مصرف بالای حافظه و کاهش ارتباط بین متخصصان (Experts) میشه.
این مقاله جدید با عنوان Chain-of-Experts (CoE) به معرفی یک روش جدید برای بهبود مدلهای Mixture-of-Experts می پردازه.
این مدل با جایگزینی ساختار موازی با یه مکانیزم تکراری و سریالی، ارتباط بین متخصصان رو برقرار میکنه.
در این روش، خروجی یک متخصص به ورودی متخصص بعدی منتقل میشه، که نتیجش این میشه که مدل از اطلاعات پردازش شده در مراحل قبل استفاده کنه. این کار نه تنها باعث بهبود دقت مدل، بلکه انعطافپذیری انتخاب متخصصان رو 823 برابر افزایش میده.
یکی از مهم ترین دستاوردهای CoE کاهش مصرف حافظه بین 17.6٪ تا 42٪ هست، چون دیگه نیازی به ذخیره سازی و پردازش همزمان تمام خروجی های متخصصان به صورت مستقل نیست.
این مقاله جدید با عنوان Chain-of-Experts (CoE) به معرفی یک روش جدید برای بهبود مدلهای Mixture-of-Experts می پردازه.
این مدل با جایگزینی ساختار موازی با یه مکانیزم تکراری و سریالی، ارتباط بین متخصصان رو برقرار میکنه.
در این روش، خروجی یک متخصص به ورودی متخصص بعدی منتقل میشه، که نتیجش این میشه که مدل از اطلاعات پردازش شده در مراحل قبل استفاده کنه. این کار نه تنها باعث بهبود دقت مدل، بلکه انعطافپذیری انتخاب متخصصان رو 823 برابر افزایش میده.
یکی از مهم ترین دستاوردهای CoE کاهش مصرف حافظه بین 17.6٪ تا 42٪ هست، چون دیگه نیازی به ذخیره سازی و پردازش همزمان تمام خروجی های متخصصان به صورت مستقل نیست.
👍11