NEW BOT Телеграм, страница

Tensorflow(@CVision)

امروز OpenAI مدل جدید GPT-4.5 رو معرفی کرده! این مدل قراره سریع‌تر، دقیق‌تر و هوشمندتر باشه. بهبودهایی توی فهم زبان، تولید متن و حتی کدنویسی داره.

مدل GPT-4.5 یه سری بهبود مهم داره که کار باهاش رو راحت‌تر و قوی‌تر می‌کنه:

✅ سرعت بیشتر – جواب‌ها رو سریع‌تر می‌ده و عملکرد بهتری داره.
✅ دقت بالاتر – متن‌هاش منطقی‌تر و کم‌اشتباه‌تر شدن.
✅ بهبود فهم کد – بهتر کدنویسی می‌کنه و اشکال‌یابی دقیق‌تری داره.
✅ پشتیبانی از متن‌های پیچیده‌تر – محتوای علمی و فنی رو بهتر می‌فهمه.
✅ تعامل طبیعی‌تر – جواب‌هاش روان‌تر و شبیه مکالمه انسانی شده.

برای جزئیات بیشتر، این سند رو ببینید:

📄
https://cdn.openai.com/gpt-4-5-system-card.pdf

👍17🤔1💯1

3.14K viewsedited 20:10

Tensorflow(@CVision)

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

Mercury
اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد!

نکته جالب اینجاست که این مدل، همه توکن‌ ها (کلمات یا بخش‌ های کلمات) رو یکجا تولید و سپس بهینه می‌کنه، برخلاف مدل‌های مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید می‌ کنن.

مدل منتشر شده در حالی که تا ۱۰ برابر سریع‌ تر از مدل‌های پیشرفته و بهینه‌شده برای سرعت مانند "GPT-4o Mini" و "Claude 3.5 Haiku" اجرا میشه که عملکردی کاملا مشابه اونها داره. این بدان معناست که شما میتونید از همان سطح کیفیت و دقت، اما با سرعتی بسیار بالاتر بهره‌مند شین.

علاوه بر این، این مدل به سرعتی بیش از ۱۰۰۰ توکن در ثانیه بر روی پردازنده‌ های گرافیکی "NVIDIA H100" دست پیدا کرده. این سرعت فوق‌العاده، امکان تولید متن‌های طولانی و پیچیده رو در کمترین زمان ممکن فراهم میکنن.

نکته قابل توجه اینه که این سرعت بالا، بدون نیاز به استفاده از تراشه‌ های تخصصی بدست اومده. به عبارت دیگه، شما میتونید با استفاده از سخت‌ افزارهای استاندارد، از قدرت و سرعت بی‌نظیر مدل‌های "Mercury Coder" بهره‌مند شین.

https://www.inceptionlabs.ai/news

👍17😱5👌2🔥1

3.63K viewsAlister☄️, edited 04:44

Tensorflow(@CVision)

بیشتر مدل‌های زبانی بزرگی که تا کنون دیدیم (LLMs)، از نظر روش مدل‌ سازی اصلی، تقریباً شبیه به هم هستن و همشون به صورت Autoregression آموزش داده میشن، یعنی کلمات رو از چپ به راست پیش‌ بینی میکنن.

روش Diffusion متفاوته، از چپ به راست حرکت نمی‌کنه، بلکه همه چیز رو یکجا تولید میکنه. شما با نویز شروع و به تدریج نویز رو حذف میکنین تا به یک جریان از کلمات برسین.

بیشتر ابزارهای هوش مصنوعی تولید تصویر و ویدیو، در واقع با همین روش کار میکنن و از روش Diffusion استفاده میکنن، نه Autoregression.

به عنوان مثال، مدل‌هایی مانند DALL-E، Stable Diffusion و Midjourney از این روش برای تولید تصاویر واقع‌ گرایانه و خلاقانه استفاده میکنن.

قبلاً تلاش هایی برای استفاده از این متد برای تولید متن شده بود اما به شکل تجاری هیچ کدوم مورد استفاده قرار نگرفته بودن، این اولین استفاده تجاری هست و موفقیت اون تاثیر بسزایی در آینده مدل های زبانی خواهد داشت

👍26👌6

2.82K viewsAlister☄️, 05:01

Tensorflow(@CVision)

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

یکی از دلایل موفقیت DeepSeek، به غیر از بهینه سازی و کارهای نوآورانه ای که انجام داد تصمیم این شرکت در انتشار کد این معماری بود.

حالا علی‌ بابا با استفاده از همین رویکرد (اوپن سورس کردن) در زمینه‌ی نرم‌ افزارهای هوش مصنوعی، سعی داره که با ارائه‌ سرویس تبدیل متن به ویدئو به نام Wan 2.1، رقبای بزرگی مثل Sora از OpenAI رو به چالش بکشه.

این شرکت مدل هوش مصنوعی تبدیل متن به ویدئو به نام Wan 2.1 را معرفی کرده که به صورت اوپن سورس عرضه شده. این مدل به کاربران امکان میده تا با استفاده از ورودی‌های متنی، تصویری و حتی ویدئویی، ویدئوهایی با کیفیت سینمایی ایجاد کنن و نسبت به مدل های متن بسته عملکرد قابل توجهی داره.

🔥11👍3❤1

2.56K viewsAlister☄️, 06:55

Tensorflow(@CVision)

این مدل قادره حرکات پیچیده‌ای مانند چرخش‌های دینامیک، تغییرات سریع صحنه و حرکات نرم دوربین رو تولید کنه. علاوه بر این، توانایی شبیه‌سازی فیزیک واقعی و تعاملات طبیعی اشیا رو داراست و از ویرایش دقیق با استفاده از تصاویر و ویدئوهای مرجع پشتیبانی می‌کنه. همچنین Wan 2.1 امکان تولید افکت‌های سینمایی، جلوه‌های متنوع و حتی افزودن متن به ویدئوها به زبان‌های چینی و انگلیسی رو نیز فراهم میکنه.

یکی از مزیت‌های برجسته این مدل، دسترسی رایگان و امکان اجرا بر روی سخت‌افزارهای مصرفی با استفاده از نسخه‌های کوچکتر آن هست که نیاز به منابع گران‌قیمت رو برطرف می‌کنه

https://huggingface.co/Wan-AI/Wan2.1-T2V-14B

huggingface.co

Wan-AI/Wan2.1-T2V-14B · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍8

2.7K viewsAlister☄️, 06:56

Tensorflow(@CVision)

قدرت‌های کلیدی Claude 3.7 در دنیای کدنویسی 💻

مدل جدید Claude 3.7 Sonnet به performance فوق‌العاده‌ای در SWE-bench Verified دست پیدا کرده که توانایی مدل‌های هوش مصنوعی رو در حل مشکلات نرم‌افزاری دنیای واقعی ارزیابی می‌کنه.

نقاط قوت:

کار با codebase‌های پیچیده و درک عمیق ساختار پروژه‌ها
دستیابی به performance فوق‌العاده در SWE-bench Verified (حل مشکلات واقعی نرم‌افزاری)
برنامه‌ریزی تغییرات کد و مدیریت update‌ها
تولید کد production-ready با خطای کمتر
قابلیت‌های test-driven development

ابزار Claude Code:

جستجو و خواندن کد
ویرایش فایل‌ها
نوشتن و اجرای test‌ها
کار با GitHub (commit و push)
استفاده از command line
شناسایی و رفع build error‌ها

البته برای کد نویسی و استفاده در محیط پروژه رایگان نیست...
https://www.anthropic.com/news/claude-3-7-sonnet

👍4🔥1🙏1

3.01K viewsedited 15:04

Tensorflow(@CVision)

قدرت‌های کلیدی Claude 3.7 در دنیای کدنویسی 💻 مدل جدید Claude 3.7 Sonnet به performance فوق‌العاده‌ای در SWE-bench Verified دست پیدا کرده که توانایی مدل‌های هوش مصنوعی رو در حل مشکلات نرم‌افزاری دنیای واقعی ارزیابی می‌کنه. نقاط قوت: کار با codebase‌های…

3:54

This media is not supported in your browser

VIEW IN TELEGRAM

این ویدیوی یوتیوب از کانال فایرشیپ، مدل جدید Claude 3.7 Sonnet از شرکت آنتروپیک رو بررسی میکنه و قابلیت‌های پیشرفته برنامه‌نویسی و ابزار جدید Claude Code CLI رو نشون میده.

این بررسی به پتانسیل این مدل برای خودکارسازی کارهای کدنویسی و حتی جایگزینی برنامه‌نویس‌ها اشاره میکنه،
در حالی که به مشکلات احتمالی مثل هزینه، احتمال کپی‌برداری و خرابی‌های غیرمنتظره در سناریوهای پیچیده هم اشاره داره.

ویدیو عملکرد Claude 3.7 رو در چالش‌های مختلف کدنویسی نشون میده و اون رو با مدل‌های هوش مصنوعی دیگه مقایسه میکنه و در نهایت نقاط قوت و ضعفش رو در کاربردهای دنیای واقعی نشون میده.

👍4❤1🙏1

2.66K viewsedited 15:20

Tensorflow(@CVision)

Audio

مدل‌های تبدیل متن به گفتار (TTS) امروزی معمولاً صدایی خنثی و بدون احساس تولید میکنن که پس از گذشت زمان جذابیت خودشون رو از دست میدن. این موضوع باعث میشه تعامل با اونها خسته‌کننده شه.

برای رفع این مشکل، تیم Sesame مدل «Conversational Speech Model» یا CSM را معرفی کرده که به‌صورت یک مدل چند وجهی، هم متن و هم اطلاعات صوتی (از طریق توکن‌های صوتی) رو همزمان پردازش می‌کنه.

توکن‌ های معنایی برای درک کلی محتوا و ویژگی‌های زبانی

توکن‌ های صوتی برای بازسازی جزئیات دقیق صدا مانند لحن و هویت گوینده

کیفت خروجی تولیدی به جرات میشه گفت از advanced voice چت جی پی تی بالاتره!

امیدواریم این مدل به زودی بصورت متن باز منتشر شه تا بتونیم با دیتای فارسی آموزشش بدیم!(در فایل نمونه کمی با طرفداران استقلال شوخی کردیم)

لینک دمو:

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

👍10

2.87K viewsAlister☄️, 17:24

Tensorflow(@CVision)

Great set of new lectures on all things LLMs, reasoning, and advanced LLM-based agents and techniques.

https://www.youtube.com/playlist?list=PLS01nW3RtgorL3AW8REU9nGkzhvtn6Egn

👍3

2.47K views19:33

Tensorflow(@CVision)

خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 1 از 4

سلام به زنجیره پیش‌نویس (Chain-of-Draft)

برای حل مشکل تأخیر در استدلال مدل‌های زبانی بزرگ، این پژوهش زنجیره پیش‌نویس (CoD) را معرفی می‌کند.

زنجیره پیش‌نویس (CoD) یک راهبرد prompt دهی جدید است که استدلال‌های میانی طولانی را به شدت کاهش می‌دهد در حالی که عملکرد قوی را حفظ می‌کند.

https://x.com/omarsar0/status/1895135560634900762/photo/1

👍10

2.45K viewsedited 19:34

Tensorflow(@CVision)

خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 1 از 4 سلام به زنجیره پیش‌نویس (Chain-of-Draft) برای حل مشکل تأخیر در استدلال مدل‌های زبانی بزرگ، این پژوهش زنجیره پیش‌نویس (CoD) را معرفی می‌کند. زنجیره پیش‌نویس (CoD) یک راهبرد prompt دهی جدید است که استدلال‌های…

خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 2 از 4

به جای خروجی‌های طولانی گام‌به‌گام CoT، روش CoD از مدل می‌خواهد برای هر مرحله استدلال، نشانه‌های مختصر و پر اطلاعات تولید کند.

این روش تا ۸۰ درصد نشانه‌های کمتری در هر پاسخ تولید می‌کند، در حالی که دقت را در بنچ مارکهای ریاضی، دانش عمومی و سایر معیارها حفظ می‌کند.

👍9

2.86K viewsedited 19:36

Tensorflow(@CVision)

خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 2 از 4 به جای خروجی‌های طولانی گام‌به‌گام CoT، روش CoD از مدل می‌خواهد برای هر مرحله استدلال، نشانه‌های مختصر و پر اطلاعات تولید کند. این روش تا ۸۰ درصد نشانه‌های کمتری در هر پاسخ تولید می‌کند، در حالی که دقت…

خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 3 از 4
تأخیر کم، دقت بالا

در مسائل ریاضی GSM8k، روش CoD به دقت ۹۱ درصدی با ۸۰ درصد کاهش نشانه نسبت به CoT دست یافت. همچنین در وظایفی مانند درک تاریخ/ورزش و استدلال پرتاب سکه، عملکردی برابر یا بهتر از CoT داشت و به طور قابل توجهی زمان و هزینه استنتاج را کاهش داد.

👍6

3.09K viewsedited 19:37

Tensorflow(@CVision)

خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 3 از 4 تأخیر کم، دقت بالا در مسائل ریاضی GSM8k، روش CoD به دقت ۹۱ درصدی با ۸۰ درصد کاهش نشانه نسبت به CoT دست یافت. همچنین در وظایفی مانند درک تاریخ/ورزش و استدلال پرتاب سکه، عملکردی برابر یا بهتر از CoT داشت…

خداحافظی با زنجیره فکر (Chain-of-Thought) - بخش 4 از 4

انعطاف‌پذیر و قابل تفسیر

با وجود کلمات کمتر، CoD منطق اصلی را قابل مشاهده نگه می‌دارد، مشابه روشی که انسان‌ها به جای توضیحات کامل، نکات کلیدی را یادداشت می‌کنند. این کار قابلیت تفسیر برای اشکال‌زدایی را حفظ می‌کند و اطمینان می‌دهد که مدل به استدلال “پنهان” نهفته متکی نیست.

Chain of Draft: Thinking Faster by Writing Less
https://arxiv.org/abs/2502.18600

👍7

3.23K viewsedited 19:38

Tensorflow(@CVision)

سم آلتمن می‌گوید OpenAI با کمبود GPU مواجه شده است - عرضه GPT-4.5 به دلیل کمبود قدرت پردازشی به تعویق افتاد
https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-has-run-out-of-gpus-says-sam-altman-gpt-4-5-rollout-delayed-due-to-lack-of-processing-power

جدیدترین مدل خود، GPT-4.5 را منتشر کرده است. با این حال، در حال حاضر فقط برای مشترکین Pro که ماهانه ۲۰۰ دلار پرداخت می‌کنند، در دسترس است. سم آلتمن، مدیرعامل این شرکت، در X (سابقاً توییتر) اعلام کرد که مجبور شده‌اند انتشار مدل را به صورت تدریجی انجام دهند زیرا “…ما رشد زیادی داشته‌ایم و GPUهایمان تمام شده است.” او سپس اضافه کرد: “هفته آینده ده‌ها هزار GPU اضافه خواهیم کرد و آن را برای سطح Plus نیز عرضه خواهیم کرد.” بنابراین، حتی اگر ماهانه فقط ۲۰ دلار به OpenAI پرداخت می‌کنید، برای دسترسی به پیشرفته‌ترین مدل آن مجبور نخواهید بود مدت زیادی منتظر بمانید.

Tom's Hardware

OpenAI has run out of GPUs, says Sam Altman — GPT-4.5 rollout delayed

Tens of thousands of GPUs will arrive next week.

👍8😱3

2.92K views05:24

Tensorflow(@CVision)

سم آلتمن می‌گوید OpenAI با کمبود GPU مواجه شده است - عرضه GPT-4.5 به دلیل کمبود قدرت پردازشی به تعویق افتاد https://www.tomshardware.com/tech-industry/artificial-intelligence/openai-has-run-out-of-gpus-says-sam-altman-gpt-4-5-rollout-delayed-due-to-lack-of…

سم آلتمن قبلا هم به این موضع اشاره کرده بود که OpenAI به لحاظ حاشیه سود در مضیقه قرار داره جا داره یه نگاه به مدل درآمدی deepseek بندازیم!

بیایم عملکرد و هزینه‌های سرویس استنتاج مدل‌های DeepSeek-V3 و R1 مورد بررسی قرار بدیم، تحلیلی شامل بررسی سخت‌افزار، بهره‌وری، هزینه‌ها، درآمد و حاشیه سود این سرویس در یک بازه ۲۴ ساعته و ببینیم چند چنده ؟

دیپ سیک از کارت‌های گرافیک H800 برای ارائه خدمات استنتاج استفاده می‌کنه که به دلیل عملکرد بالاش، انتخاب مناسبی برای پردازش مدل‌ های بزرگ زبانی محسوب میشه. نکات کلیدی مربوط به زیر ساخت و محاسبات به شرح زیره:

تمامی محاسبات متریک و ارسال داده‌ها از FP8 استفاده میکنه، که باعث بهینه‌ سازی سرعت پردازش و کاهش نیاز به حافظه میشه

محاسبات اصلی MLA (Matrix Learning Accelerator) و ارسال داده‌ های ترکیبی بر پایه BF16 اجرا میشن، که دقت مناسبی در برابر FP8 ارائه میده

برای مدیریت بار، در ساعات پر ترافیک تعداد نود های استنتاج افزایش یافته و در ساعات کم‌ بار بخشی از منابع به تحقیق و آموزش اختصاص داده میشه.

ادامه داره ...

1👍14❤1

2.8K viewsAlister☄️, edited 05:55

Tensorflow(@CVision)

بازه ۲۴ ساعت رو در نظر بگیریم:

بیشترین تعداد نود مشغول: ۲۷۸ نود (هر نود دارای ۸ کارت H800 هست)

میانگین استفاده از نودها: ۲۲۶.۷۵ نود در هر لحظه

هزینه اجاره سخت‌افزار: با فرض ۲ دلار در ساعت برای هر GPU، هزینه کل برابر با ۸۷,۰۷۲ دلار در روزه

این آمار نشون میده که DeepSeek به‌طور مؤثری از منابع سخت‌افزاری استفاده کرده و با کاهش نودها در زمان‌های کم‌بار، هزینه‌ ها رو مدیریت می‌ کنه.

تعداد کل توکن‌های ورودی: ۶۰۸ میلیارد توکن
از این مقدار، ۵۶.۳٪ (۳۴۲ میلیارد توکن) در کش دیسک (on-disk KV cache) پردازش شده که نشون دهنده استفاده مؤثر از کش برای کاهش هزینه‌های پردازشه!

تعداد کل توکن‌های خروجی: ۱۶۸ میلیارد توکن

سرعت تولید خروجی: ۲۰ تا ۲۲ توکن در ثانیه

میانگین طول KV cache برای هر توکن خروجی: ۴,۹۸۹ توکن

توان پردازشی هر نود H800:
در مرحله prefill (ورودی اولیه): ۷۳.۷ هزار توکن در ثانیه (با احتساب کش)

در مرحله decoding (تولید خروجی): ۱۴.۸ هزار توکن در ثانیه

این داده‌ها نشون میدن که مدل DeepSeek-V3/R1 توان پردازش بسیار بالایی داره و با بهینه‌سازی کش، بهره‌ وری پردازش رو افزایش داده!

ادامه داره...

👍11❤1

3.17K viewsAlister☄️, 06:01

Tensorflow(@CVision)

حاشیه سود نشون میده مدل اقتصادی این سرویس بسیار سودآوره

https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

👍8

3.5K viewsAlister☄️, edited 06:06

Tensorflow(@CVision)

این مقاله یه روش جدید برای استدلال در مدل های زبانی به نام (Atom of Thoughts - AoT) معرفی کرده، که نیاز به اطلاعات تاریخی رو کاهش میده و استدلال رو موثرتر و کارآمدتر میکنه. این روش میتونه به‌ عنوان یه افزونه در مدل‌ های دیگه نیز استفاده شه و در آزمایش‌ ها نتایج بهتری از روش‌ های پیشین داشته.

استدلال اغلب با شکستن مسئله به قطعات کوچکتر و قابل مدیریت‌ تر به دست میاد. این قطعات کوچکتر، که توی این مقاله "پرسش‌های فرعی" نامیده میشن، باید دو ویژگی مهم داشته باشند:

اول Self-contained: هر پرسش فرعی باید به تنهایی قابل درک و بررسی باشه، بدون نیاز به دانش گسترده از تاریخچه کل مسئله.

دوم Verifiable: پاسخ به هر پرسش فرعی باید قابل بررسی و اثبات باشه، به طوری که بشه از صحت گام‌ های استدلال اطمینان حاصل کرد.

مثلا فرض کنید با مسیله "چرا آب در زمستان یخ می‌زنه؟" رو برو میشین. برای جواب دادن به این سؤال، مغزمون خود به‌ خود سوال به چند زیر سوال ساده‌ تر می‌شکنه:

دمای انجماد آب چنده؟

دمای هوا در زمستان معمولا چقدره؟

چی باعث می‌شه آب در دمای پایین یخ بزنه؟

حالا اگه این زیرسؤال‌ ها رو جداگانه حل کنیم، راحت‌ تر و دقیق‌ تر به جواب اصلی می‌ رسیم، بدون اینکه اطلاعات اضافی یا بی‌ ربط توی ذهن جمع شه. این کاریه که این روش انجام میده.

از یه دید دیگه این روش به زنجیره مارکوف خیلی نزدیکه، توی فرایند مارکوف حالت بعدی سیستم فقط به حالت فعلی اون وابسته هست و نه به تاریخچه حالات قبلی. پرسش‌های فرعی در روش atom of thoughs نیز به همین شکل "بی‌حافظه" هستن.

به عبارت دیگه، برای حل یک پرسش فرعی، ما عمدتا به اطلاعات موجود در حالت فعلی استدلال (یعنی خود پرسش فرعی) توجه می‌ کنیم و نه لزوما به مسیر پر پیچ و خم استدلالی که تا اینجا طی شده، کاری که روش های استدلال کنونی انجام میدن و نیاز به منابع محاسباتی رو به صورت چشمگیری افزایش میدن.

https://arxiv.org/abs/2502.12018

کد:

https://github.com/qixucen/atom

arXiv.org

Atom of Thoughts for Markov LLM Test-Time Scaling

Large Language Models (LLMs) achieve superior performance through training-time scaling, and test-time scaling further enhances their capabilities by conducting effective reasoning during...

👍7❤1

3.34K viewsAlister☄️, edited 13:56

Tensorflow(@CVision)

ویدیوهای ضبط شده (به همراه اسلایدها) کورس Introduction to Flow Matching and Diffusion Models دانشگاه MIT به صورت رایگان در یوتیوب قرار گرفت

✅ Flow and Diffusion Models

✅ Constructing a Training Target

✅ Training Flow and Diffusion Models

✅ Building an Image Generator

✅ Generative Robotics

✅ Generative Protein Design

https://diffusion.csail.mit.edu/

YouTube

MIT 6.S184: Flow Matching and Diffusion Models - Lecture 01 - Generative AI with SDEs

Lecture notes: https://diffusion.csail.mit.edu/docs/lecture-notes.pdf
Slides: https://diffusion.csail.mit.edu/docs/slides_lecture_1.pdf
Course website: https://diffusion.csail.mit.edu/2025/index.html
Code exercises: https://diffusion.csail.mit.edu/2025/index.html…

❤4👍2

3.83K viewsAlister☄️, 14:35

Tensorflow(@CVision)

audio (3).wav

16 MB

مقاله DiffRhythm محدودیت های روشهای فعلی تولید موسیقی مانند تولید جداگانه آواز و آهنگ، نیاز به معماری های پیچیده چند مرحله ای، سرعت پایین و ساخت قطعات کوتاه رو برطرف می کنه.

این مدل با استفاده از معماری Latent Diffusion، قادره آهنگ های کامل (تا ۴ دقیقه و ۴۵ ثانیه) رو تنها در ۱۰ ثانیه تولید کنه و همزمان هر دو بخش آواز و آهنگ رو با کیفیت بالا و حفظ هوشمندی ساختاری بسازه.

در مقایسه با روشهای مبتنی بر مدل های زبانی که کند هستن، DiffRhythm با ساختار non-autoregressive، سرعت استنتاج رو به طور چشمگیری افزایش میده. همچنین، نیاز به داده های پیچیده یا پیش پردازش های وقتگیر رو حذف کرده و تنها با دریافت متن اشعار و یه نشانه سبک موسیقی (مثل پاپ یا راک)، فرآیند تولید رو آغاز میکنه.

به عنوان یه مدل متن باز کیفیت موزیک های تولیدی واقعا بالاست !

مقاله :
https://arxiv.org/abs/2503.01183

کد:
https://github.com/ASLP-lab/DiffRhythm

دمو:

https://huggingface.co/spaces/ASLP-lab/DiffRhythm

👍6

3.24K viewsAlister☄️, edited 13:25

Tensorflow(@CVision)

در مدل‌های MoE سنتی، پردازش داده‌ ها به‌ صورت موازی و مستقل انجام میشه، اما این روش باعث مصرف بالای حافظه و کاهش ارتباط بین متخصصان (Experts) میشه.

این مقاله جدید با عنوان Chain-of-Experts (CoE) به معرفی یک روش جدید برای بهبود مدل‌های Mixture-of-Experts می پردازه.

این مدل با جایگزینی ساختار موازی با یه مکانیزم تکراری و سریالی، ارتباط بین متخصصان رو برقرار میکنه.

در این روش، خروجی یک متخصص به ورودی متخصص بعدی منتقل میشه، که نتیجش این میشه که مدل از اطلاعات پردازش‌ شده در مراحل قبل استفاده کنه. این کار نه تنها باعث بهبود دقت مدل، بلکه انعطاف‌پذیری انتخاب متخصصان رو 823 برابر افزایش میده.

یکی از مهم‌ ترین دستاوردهای CoE کاهش مصرف حافظه بین 17.6٪ تا 42٪ هست، چون دیگه نیازی به ذخیره‌ سازی و پردازش همزمان تمام خروجی‌ های متخصصان به صورت مستقل نیست.

👍11

3.17K viewsAlister☄️, 16:52

About

Blog

Apps

Platform