این تحقیق فوقالعاده از متا، که دست به همکاری با مرکز باسکی شناخت، مغز و زبان زده، قدم بزرگی توی راه ارتباط مستقیم بین مغز و نوشتار برداشته.
ماجرا از این قراره که ۳۵ نفر داوطلب توی مرکز BCBL شرکت کردن. وقتی این افراد داشتند جملات رو تایپ میکردن، فعالیتهای مغزشون با استفاده از دستگاههای MEG و EEG ضبط میشد.
پژوهشگران با استفاده از هوش مصنوعی تلاش کردن تا از این سیگنالهای مغزی، جملات رو دوباره بسازن؛ به طرز حیرتآوری تونستن تا ۸۰ درصد از حروف رو درست تشخیص بدن، یعنی عملکردش دو برابر سیستمهای EEG معمولی بوده!
این دستاورد، ادامه کارهای قبلی متا توی کشف راز ادراک تصاویر و صدا از مغزه و حالا دیگه به مرحله تولید جملات رسیده. موفقیت این پروژه در های تازهای رو برای واسط های مغز و کامپیوتر باز کرده.
https://gigazine.net/gsc_news/en/20250210-ai-decode-language-from-brain/
ماجرا از این قراره که ۳۵ نفر داوطلب توی مرکز BCBL شرکت کردن. وقتی این افراد داشتند جملات رو تایپ میکردن، فعالیتهای مغزشون با استفاده از دستگاههای MEG و EEG ضبط میشد.
پژوهشگران با استفاده از هوش مصنوعی تلاش کردن تا از این سیگنالهای مغزی، جملات رو دوباره بسازن؛ به طرز حیرتآوری تونستن تا ۸۰ درصد از حروف رو درست تشخیص بدن، یعنی عملکردش دو برابر سیستمهای EEG معمولی بوده!
این دستاورد، ادامه کارهای قبلی متا توی کشف راز ادراک تصاویر و صدا از مغزه و حالا دیگه به مرحله تولید جملات رسیده. موفقیت این پروژه در های تازهای رو برای واسط های مغز و کامپیوتر باز کرده.
https://gigazine.net/gsc_news/en/20250210-ai-decode-language-from-brain/
GIGAZINE
Meta announces technology that uses AI and non-invasive magnetic scanners to predict input text from brainwaves with up to 80%…
The news blog specialized in Japanese culture, odd news, gadgets and all other funny stuffs. Updated everyday.
👍24❤5
هم اکنون لایو استریم انتشار Grok 3
بنچ مارک ها
https://www.youtube.com/live/pHe-IUWrJXs?si=nNyrbHjBg5I6p_bM
بنچ مارک ها
https://www.youtube.com/live/pHe-IUWrJXs?si=nNyrbHjBg5I6p_bM
👍11❤1
مقاله جدید از Deepseek
مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن.
استراتژی سلسله مراتبی معرفی شده محاسبات رو بطور قابل توجهی سریع تر انجام میده، مثلاً در پردازش توالیهای 64 هزار توکنی، سرعت تا 11.6 برابر افزایش پیدا میکنه.
از نظر اندازه، این مدل از یک ساختار ترانسفورمر 27 میلیارد پارامتری استفاده میکنه که به کمک معماری Mixture-of-Experts (MoE) تنها حدود 3 میلیارد پارامتر به صورت فعال در هر محاسبه شرکت میکنن.
https://arxiv.org/abs/2502.11089
مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن.
استراتژی سلسله مراتبی معرفی شده محاسبات رو بطور قابل توجهی سریع تر انجام میده، مثلاً در پردازش توالیهای 64 هزار توکنی، سرعت تا 11.6 برابر افزایش پیدا میکنه.
از نظر اندازه، این مدل از یک ساختار ترانسفورمر 27 میلیارد پارامتری استفاده میکنه که به کمک معماری Mixture-of-Experts (MoE) تنها حدود 3 میلیارد پارامتر به صورت فعال در هر محاسبه شرکت میکنن.
https://arxiv.org/abs/2502.11089
arXiv.org
Native Sparse Attention: Hardware-Aligned and Natively Trainable...
Long-context modeling is crucial for next-generation language models, yet the high computational cost of standard attention mechanisms poses significant computational challenges. Sparse attention...
👍15🔥10❤1⚡1
Tensorflow(@CVision)
مقاله جدید از Deepseek مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن. استراتژی سلسله مراتبی معرفی شده محاسبات رو بطور قابل توجهی…
بیاین یه نگاه کلی به مقاله داشته باشیم، همونطور که واقف هستین در مدل های LLMs، مکانیزم اصلی "توجه" یا attention به صورت یکپارچه عمل میکنه.
به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات قبلی در همان متن توجه میکنه. این ساز و کار به مدل این امکان رو میده تا روابط پیچیده بین کلمات را در طول متن درک کنه و به اصطلاح "زمینه" یا context رو به شکل مؤثری لحاظ کنه. درک زمینه به مدل کمک میکنه تا معنای دقیق کلمات در جملات و پاراگراف ها رو تشخیص بده و پاسخ های مرتبط تری تولید کنه.
با وجود مزایای زیادش monolithic attention از نظر محاسباتی بسیار پرهزینه و سنگیه. این مسئله به ویژه در پردازش متون طولانی تر خودش رو نشان میده. با افزایش طول متن، حجم محاسبات مورد نیاز برای monolithic attention به شکل تصاعدی افزایش پیدا میکنه. این محدودیت محاسباتی، مانعی جدی بر سر راه توسعه مدل های زبانی بزرگ تر و کارآمدتر محسوب میشه.
ادامه دارد ...
به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات قبلی در همان متن توجه میکنه. این ساز و کار به مدل این امکان رو میده تا روابط پیچیده بین کلمات را در طول متن درک کنه و به اصطلاح "زمینه" یا context رو به شکل مؤثری لحاظ کنه. درک زمینه به مدل کمک میکنه تا معنای دقیق کلمات در جملات و پاراگراف ها رو تشخیص بده و پاسخ های مرتبط تری تولید کنه.
با وجود مزایای زیادش monolithic attention از نظر محاسباتی بسیار پرهزینه و سنگیه. این مسئله به ویژه در پردازش متون طولانی تر خودش رو نشان میده. با افزایش طول متن، حجم محاسبات مورد نیاز برای monolithic attention به شکل تصاعدی افزایش پیدا میکنه. این محدودیت محاسباتی، مانعی جدی بر سر راه توسعه مدل های زبانی بزرگ تر و کارآمدتر محسوب میشه.
ادامه دارد ...
👍7❤4
Tensorflow(@CVision)
بیاین یه نگاه کلی به مقاله داشته باشیم، همونطور که واقف هستین در مدل های LLMs، مکانیزم اصلی "توجه" یا attention به صورت یکپارچه عمل میکنه. به عبارتی در این رویکرد monolithic attention، هنگام پردازش هر کلمه یا token در یه متن، مدل زبانی به تمامی کلمات…
برای رفع این چالش، تیم Deepseek مکانیزم attention رو به سه بخش مجزا تقسیم میکنه. هدف اصلی این تقسیم بندی، افزایش کارایی محاسباتی و در عین حال حفظ سطح بالای دقت مدل هست:
استفاده از Sliding Window برای درک زمینه محلی (Local Context)
زمینه محلی یا local context به محدوده کوچکی از متن اشاره داره که مستقیما کلمه یا توکن های مورد پردازش رو احاطه میکنه.
به عبارت دیگه، این بخش، توکن های همسایه و نزدیک به کلمه فعلی رو شامل میشه. به عنوان مثال، در جمله «دیروز به پارک رفتم و با دوستانم بازی کردم»، زمینه محلی" برای کلمه «رفتم» میتونه شامل کلمات «دیروز به پارک» و «و با دوستانم» باشه. این کلمات همسایه، اطلاعات مهمی در مورد نقش و معنای کلمه «رفتم» در جمله ارایه میدن.
در این معماری Sliding Window در این بلوک از مکانیزم Attention، مدل زبانی به جای بررسی کل متن، تنها بر روی یه "پنجره" کوچک از توکن های اطراف کلمه در حال پردازش تمرکز میکنه. این "پنجره" مثل یه ذره بین متحرک عمل میکنه که در هر گام، بخش محدودی از متن رو زیر نظر میگیره.
با محدود کردن دامنه توجه به این "پنجره" کوچک، حجم محاسبات به شکل چشمگیری کاهش پیدا میکنه، چون مدل دیگه مجبور نیست برای پردازش هر کلمه، کل متن رو به طور کامل بررسی کنه.
مزیت اصلی sliding window در این معماری فراهم شدن امکان پردازش سریع تر و کارآمد تر متن هست، به ویژه برای درک روابط معنایی نزدیک بین کلمات مجاور. این روش برای درک ساختار جملات و روابط محلی کلمات بسیار موثره.
ادامه دارد...
استفاده از Sliding Window برای درک زمینه محلی (Local Context)
زمینه محلی یا local context به محدوده کوچکی از متن اشاره داره که مستقیما کلمه یا توکن های مورد پردازش رو احاطه میکنه.
به عبارت دیگه، این بخش، توکن های همسایه و نزدیک به کلمه فعلی رو شامل میشه. به عنوان مثال، در جمله «دیروز به پارک رفتم و با دوستانم بازی کردم»، زمینه محلی" برای کلمه «رفتم» میتونه شامل کلمات «دیروز به پارک» و «و با دوستانم» باشه. این کلمات همسایه، اطلاعات مهمی در مورد نقش و معنای کلمه «رفتم» در جمله ارایه میدن.
در این معماری Sliding Window در این بلوک از مکانیزم Attention، مدل زبانی به جای بررسی کل متن، تنها بر روی یه "پنجره" کوچک از توکن های اطراف کلمه در حال پردازش تمرکز میکنه. این "پنجره" مثل یه ذره بین متحرک عمل میکنه که در هر گام، بخش محدودی از متن رو زیر نظر میگیره.
با محدود کردن دامنه توجه به این "پنجره" کوچک، حجم محاسبات به شکل چشمگیری کاهش پیدا میکنه، چون مدل دیگه مجبور نیست برای پردازش هر کلمه، کل متن رو به طور کامل بررسی کنه.
مزیت اصلی sliding window در این معماری فراهم شدن امکان پردازش سریع تر و کارآمد تر متن هست، به ویژه برای درک روابط معنایی نزدیک بین کلمات مجاور. این روش برای درک ساختار جملات و روابط محلی کلمات بسیار موثره.
ادامه دارد...
👌4❤3👍2
Tensorflow(@CVision)
برای رفع این چالش، تیم Deepseek مکانیزم attention رو به سه بخش مجزا تقسیم میکنه. هدف اصلی این تقسیم بندی، افزایش کارایی محاسباتی و در عین حال حفظ سطح بالای دقت مدل هست: استفاده از Sliding Window برای درک زمینه محلی (Local Context) زمینه محلی یا local…
استفاده از Compressed Attention Blocks
برای درک زمینه کلی (Global Context)
از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش های مختلف متن و اطلاعاتی که در سراسر متن پراکنده شدن، اشاره داره.
در این بخش، کل "توالی Attention" که در واقع نشون دهنده تمام بخشهای متن هست و مدل به اونها توجه میکنه به بلوکهای کوچک تری تقسیم میشن.
سپس این بلوک های کوچک تر تحت فرآیند "فشردهسازی" قرار میگیرن. این فرآیند "فشردهسازی" میتونه با استفاده از تکنیک های مختلفی انجام شه، اما هدف اصلی اون، کاهش حجم اطلاعات و در عین حال حفظ اطلاعات کلیدی و مهمه. به این ترتیب، مدل میتونه به شکل خلاصه تری از "زمینه کلی" متن آگاه شه.
انتخاب بلوکهای برتر Top-N Blocks
پس از اعمال "فشردهسازی" ، مدل بلوک های فشرده شده رو ارزیابی میکنه و تعداد محدودی "N" از بلوک هایی که به بیشترین ارتباط و اهمیت رو برای کلمه فعلی دارند، انتخاب میکنه.
عدد "N" معمولا کوچک در نظر گرفته میشه و تعداد بلوکهای انتخابی رو تعیین میکنه. این مرحله مانند یک فیلتر عمل میکنه که بخشهای مهم تر متن رو برای بررسی دقیقتر جدا میکنه.
مرحله نهایی، مدل مکانیسم توجه معمولی رو فقط بر روی این "N" بلوک برتر اعمال میکنه. منظور از توجه معمولی در اینجا به مکانیزم attention سنتی اشاره داره که در روشهای قبلی استفاده میشد. با این تفاوت که در این روش، "توجه معمولی فقط بر روی بخشهای گزینش شده و مهم متن اعمال میشه، نه کل متن.
compressed attention
به مدل امکان میده تا با نگاهی سریع و اجمالی به کل متن، "زمینه کل" رو درک کنه و سپس بخشهای مهم تر رو برای بررسی دقیق تر و عمیق تر انتخاب کنه. این روش، تعادلی بین سرعت و دقت در پردازش متون طولانی ایجاد میکنه.
ادامه دارد ...
برای درک زمینه کلی (Global Context)
از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش های مختلف متن و اطلاعاتی که در سراسر متن پراکنده شدن، اشاره داره.
در این بخش، کل "توالی Attention" که در واقع نشون دهنده تمام بخشهای متن هست و مدل به اونها توجه میکنه به بلوکهای کوچک تری تقسیم میشن.
سپس این بلوک های کوچک تر تحت فرآیند "فشردهسازی" قرار میگیرن. این فرآیند "فشردهسازی" میتونه با استفاده از تکنیک های مختلفی انجام شه، اما هدف اصلی اون، کاهش حجم اطلاعات و در عین حال حفظ اطلاعات کلیدی و مهمه. به این ترتیب، مدل میتونه به شکل خلاصه تری از "زمینه کلی" متن آگاه شه.
انتخاب بلوکهای برتر Top-N Blocks
پس از اعمال "فشردهسازی" ، مدل بلوک های فشرده شده رو ارزیابی میکنه و تعداد محدودی "N" از بلوک هایی که به بیشترین ارتباط و اهمیت رو برای کلمه فعلی دارند، انتخاب میکنه.
عدد "N" معمولا کوچک در نظر گرفته میشه و تعداد بلوکهای انتخابی رو تعیین میکنه. این مرحله مانند یک فیلتر عمل میکنه که بخشهای مهم تر متن رو برای بررسی دقیقتر جدا میکنه.
مرحله نهایی، مدل مکانیسم توجه معمولی رو فقط بر روی این "N" بلوک برتر اعمال میکنه. منظور از توجه معمولی در اینجا به مکانیزم attention سنتی اشاره داره که در روشهای قبلی استفاده میشد. با این تفاوت که در این روش، "توجه معمولی فقط بر روی بخشهای گزینش شده و مهم متن اعمال میشه، نه کل متن.
compressed attention
به مدل امکان میده تا با نگاهی سریع و اجمالی به کل متن، "زمینه کل" رو درک کنه و سپس بخشهای مهم تر رو برای بررسی دقیق تر و عمیق تر انتخاب کنه. این روش، تعادلی بین سرعت و دقت در پردازش متون طولانی ایجاد میکنه.
ادامه دارد ...
❤3👌3👍1
Tensorflow(@CVision)
استفاده از Compressed Attention Blocks برای درک زمینه کلی (Global Context) از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش های مختلف متن و اطلاعاتی که…
Normal Fine-Grained Selection
این بلوک نهایی، مرحله بررسی موشکافانه و دقیق تر بخش های مهم متن هست که در بلوک compressed attention انتخاب شدن. به عبارت دیگه این مرحله، مرحله پالایش نهایی هست که بر روی بخش های کلیدی متن تمرکز میکنه.
اما ایده کلی تقسیم مکانیزم attention به بخش های مختلف برای افزایش کارایی محاسباتی، فی نفسه ایده کاملا جدیدی نیست و قبلا کار تقریبا مشابهی از مایکروسافت داشتیم (مقاله زیر):
https://arxiv.org/abs/2410.13276
اما از دو بعد نوآورانه هستش:
اول از بعد بهینه سازی سختافزاری:
در این معماری مکانیسم توجه به طور خاص برای سخت افزارهای ویژه بهینه سازی شده، بدین معنی که محاسبات مربوط به این سه بلوک میتونن به شکل بسیار موثرتر و سریع تر بر روی سخت افزار انجام شن. این بهینه سازی سخت افزاری نقش بسیار حیاتی در افزایش سرعت و کارایی کلی این روش ایفا میکنه.
بعد دوم قابلیت Pretraining هست.
در متد های قبلی قابلیت sparse attention به صورت post training به مدل ها اضافه میشد به عبارتی ابتدا یک مدل زبانی با مکانیزم monolithic attention آموزش داده میشد، و بعد روشهای sparse attention به منظور کاهش بار محاسباتی به اون افزوده میشد و در اغلب اوقات باعث کاهش کارایی مدل میشد.
اما در این مقاله امکان pretrain از ابتدا وجود داره. این بدان معناست که مدل زبانی از همان ابتدای فرآیند آموزش، با این مکانیزم سه-بلوکه attention آموزش میبینن.
این رویکرد باعث میشه که مدل به صورت ذاتی با این روش کارآمد attention سازگار شده و از مشکلات افت دقت که در روشهای post-training رایج بود، جلوگیری بشه.
در واقع، از نظر تئوری با به کارگیری این روش دیگه نیازی به فدا کردن دقت در ازای افزایش سرعت و کارایی نیست
این بلوک نهایی، مرحله بررسی موشکافانه و دقیق تر بخش های مهم متن هست که در بلوک compressed attention انتخاب شدن. به عبارت دیگه این مرحله، مرحله پالایش نهایی هست که بر روی بخش های کلیدی متن تمرکز میکنه.
اما ایده کلی تقسیم مکانیزم attention به بخش های مختلف برای افزایش کارایی محاسباتی، فی نفسه ایده کاملا جدیدی نیست و قبلا کار تقریبا مشابهی از مایکروسافت داشتیم (مقاله زیر):
https://arxiv.org/abs/2410.13276
اما از دو بعد نوآورانه هستش:
اول از بعد بهینه سازی سختافزاری:
در این معماری مکانیسم توجه به طور خاص برای سخت افزارهای ویژه بهینه سازی شده، بدین معنی که محاسبات مربوط به این سه بلوک میتونن به شکل بسیار موثرتر و سریع تر بر روی سخت افزار انجام شن. این بهینه سازی سخت افزاری نقش بسیار حیاتی در افزایش سرعت و کارایی کلی این روش ایفا میکنه.
بعد دوم قابلیت Pretraining هست.
در متد های قبلی قابلیت sparse attention به صورت post training به مدل ها اضافه میشد به عبارتی ابتدا یک مدل زبانی با مکانیزم monolithic attention آموزش داده میشد، و بعد روشهای sparse attention به منظور کاهش بار محاسباتی به اون افزوده میشد و در اغلب اوقات باعث کاهش کارایی مدل میشد.
اما در این مقاله امکان pretrain از ابتدا وجود داره. این بدان معناست که مدل زبانی از همان ابتدای فرآیند آموزش، با این مکانیزم سه-بلوکه attention آموزش میبینن.
این رویکرد باعث میشه که مدل به صورت ذاتی با این روش کارآمد attention سازگار شده و از مشکلات افت دقت که در روشهای post-training رایج بود، جلوگیری بشه.
در واقع، از نظر تئوری با به کارگیری این روش دیگه نیازی به فدا کردن دقت در ازای افزایش سرعت و کارایی نیست
arXiv.org
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs
Attention is the cornerstone of modern Large Language Models (LLMs). Yet its quadratic complexity hinders efficiency and scalability, especially for long-context processing. A promising approach...
👍9
Tensorflow(@CVision)
سوال اینجاست که چرا OpenAI به قسمت موتور های جستجو ورود کرده ؟ شاید بهتر باشه آخرین صورتهای مالی گوگل رو بررسی کنیم در تاریخ ۲۴ جولای، شرکت مادر گوگل یعنی آلفابت گزارش مالی سه ماهه دوم سال ۲۰۲۴ خود را منتشر کرد. بخش اعظم درآمد گوگل از موتور جستجو هست. در…
نمیدونم چقدر به موضوع انرژی های نامحدود علاقه مندین، اما از اونجا که این موضوع ارتباط مستقیمی با هوش مصنوعی داره و یکی از چالش های بزرگ این حوزه هست امشب کمی دربارش می نویسم.
پیشرفت های روزافزون هوش مصنوعی نیاز ما رو به منبع انرژی بیش از پیش افزایش داده، و انرژی به عنوان یکی از گلوگاه های مهم این حوزه و سایر حوزه ها همواره مطرح بوده، مخصوصا انرژی های پاک و ارزان قیمت که قبلاً اینجا کمی بهش پرداختیم و آه....
شرکت های بزرگی مثل گوگل سرمایه گذاری عظیمی روی این حوزه انجام دادن، مثل توافق انرژی هستهای پاک اون با شرکت Kairos Power.
https://blog.google/outreach-initiatives/sustainability/google-kairos-power-nuclear-energy-agreement/
راهکارهای هسته ای، منبعی پاک و شبانه روزی از انرژی هستن که میتونن به ما در تامین مطمئن تقاضای برق با انرژی بدون کربن در هر ساعت از هر روز کمک کنن. در آینده نزدیک پیشبرد این منابع انرژی در مشارکت نزدیک با جوامع محلی، به سرعت کربن زدایی شبکههای برق در سراسر جهان رو تسریع خواهد داد.
ادامه دارد...
پیشرفت های روزافزون هوش مصنوعی نیاز ما رو به منبع انرژی بیش از پیش افزایش داده، و انرژی به عنوان یکی از گلوگاه های مهم این حوزه و سایر حوزه ها همواره مطرح بوده، مخصوصا انرژی های پاک و ارزان قیمت که قبلاً اینجا کمی بهش پرداختیم و آه....
شرکت های بزرگی مثل گوگل سرمایه گذاری عظیمی روی این حوزه انجام دادن، مثل توافق انرژی هستهای پاک اون با شرکت Kairos Power.
https://blog.google/outreach-initiatives/sustainability/google-kairos-power-nuclear-energy-agreement/
راهکارهای هسته ای، منبعی پاک و شبانه روزی از انرژی هستن که میتونن به ما در تامین مطمئن تقاضای برق با انرژی بدون کربن در هر ساعت از هر روز کمک کنن. در آینده نزدیک پیشبرد این منابع انرژی در مشارکت نزدیک با جوامع محلی، به سرعت کربن زدایی شبکههای برق در سراسر جهان رو تسریع خواهد داد.
ادامه دارد...
Google
New nuclear clean energy agreement with Kairos Power
Google’s first nuclear energy deal is a step toward helping the world decarbonize through investments in advanced clean energy technologies.
👍9
Tensorflow(@CVision)
نمیدونم چقدر به موضوع انرژی های نامحدود علاقه مندین، اما از اونجا که این موضوع ارتباط مستقیمی با هوش مصنوعی داره و یکی از چالش های بزرگ این حوزه هست امشب کمی دربارش می نویسم. پیشرفت های روزافزون هوش مصنوعی نیاز ما رو به منبع انرژی بیش از پیش افزایش داده،…
همجوشی هستهای به عنوان دروازهای به سوی دستیابی به منبعی تقریبا نامحدود از انرژی محسوب میشه، انرژی که اگر بشه اون رو کنترل کرد، میتونه پاسخگوی نیازهای رو به رشد ما در حوزه هوش مصنوعی باشه.
اما مشکل اساسی در این مسیر، توانایی ایجاد و حفظ یک حالت پلاسما با دماهای بسیار بالا هست. پلاسما طبیعتی آشوبناک و ناپایدار داره.
دانشمندان سالها در تلاش برای مهار پلاسما و استخراج انرژی از دل اون وقت گذاشتن، اما این تلاش ما آدما ریشه تاریخی داره.
این ماجرا از داستان پرومتئوس از دزدیدن آتش از خدایان شروع میشه تا تلاش امروزی ما برای کنترل نیرو هایی که در قلب ستارگان میسوزن، ادامه داره، که نشون دهنده اشتیاق بی پایان به کشف، تسخیر و بهره برداری از رازهای طبیعته.
پلاسما ذاتا یه محیط آشوبناک و ناپایداره، به دلیل حرکت سریع یون ها و الکترون ها، پلاسما تمایل داره به سرعت از میدان مغناطیسی فرار کنه.
ادامه دارد...
اما مشکل اساسی در این مسیر، توانایی ایجاد و حفظ یک حالت پلاسما با دماهای بسیار بالا هست. پلاسما طبیعتی آشوبناک و ناپایدار داره.
دانشمندان سالها در تلاش برای مهار پلاسما و استخراج انرژی از دل اون وقت گذاشتن، اما این تلاش ما آدما ریشه تاریخی داره.
این ماجرا از داستان پرومتئوس از دزدیدن آتش از خدایان شروع میشه تا تلاش امروزی ما برای کنترل نیرو هایی که در قلب ستارگان میسوزن، ادامه داره، که نشون دهنده اشتیاق بی پایان به کشف، تسخیر و بهره برداری از رازهای طبیعته.
پلاسما ذاتا یه محیط آشوبناک و ناپایداره، به دلیل حرکت سریع یون ها و الکترون ها، پلاسما تمایل داره به سرعت از میدان مغناطیسی فرار کنه.
ادامه دارد...
👍6❤4
Tensorflow(@CVision)
همجوشی هستهای به عنوان دروازهای به سوی دستیابی به منبعی تقریبا نامحدود از انرژی محسوب میشه، انرژی که اگر بشه اون رو کنترل کرد، میتونه پاسخگوی نیازهای رو به رشد ما در حوزه هوش مصنوعی باشه. اما مشکل اساسی در این مسیر، توانایی ایجاد و حفظ یک حالت پلاسما…
وارد جزییات نشیم مخلص کلام اینه که اگه پلاسما مدت زیادی حفظ نشه، انرژی وارد شده قبل از اینکه واکنش همجوشی به اندازه کافی رخ بده، از دست میره پس افزایش زمان نگهداری پلاسما یه مسئله کلیدی در دستیابی به همجوشی هستهای پایداره.
آزمایشگاه EAST در چین به عنوان یکی از پیشگامان در زمینهی همجوشی هسته ای شناخته میشه. این آزمایشگاه توانسته بود زمان قابل توجهی رو برای نگهداری پلاسما ثبت کنه.
اما خبر مهم اینه که حالا آزمایشگاه CEA در فرانسه، دستگاه WEST با بهرهگیری از فناوری های نوین و استفاده از مغناطیسهای ابر رسانا، موفق به افزایش زمان نگهداری پلاسما به حدود ۲۲ دقیقه شدن!
این ماجرا نه تنها گامی بزرگ در علم همجوشی هسته ای، بلکه تاثیرات گستردهای بر سایر حوزههای علمی از جمله مدلهای زبانی و هوش مصنوعی در آینده خواهد داشت
https://m.youtube.com/watch?v=nAJN1CrJsVE
https://newatlas.com/energy/france-tokamak-cea-west-fusion-reactor-record-plasma-duration/
آزمایشگاه EAST در چین به عنوان یکی از پیشگامان در زمینهی همجوشی هسته ای شناخته میشه. این آزمایشگاه توانسته بود زمان قابل توجهی رو برای نگهداری پلاسما ثبت کنه.
اما خبر مهم اینه که حالا آزمایشگاه CEA در فرانسه، دستگاه WEST با بهرهگیری از فناوری های نوین و استفاده از مغناطیسهای ابر رسانا، موفق به افزایش زمان نگهداری پلاسما به حدود ۲۲ دقیقه شدن!
این ماجرا نه تنها گامی بزرگ در علم همجوشی هسته ای، بلکه تاثیرات گستردهای بر سایر حوزههای علمی از جمله مدلهای زبانی و هوش مصنوعی در آینده خواهد داشت
https://m.youtube.com/watch?v=nAJN1CrJsVE
https://newatlas.com/energy/france-tokamak-cea-west-fusion-reactor-record-plasma-duration/
YouTube
The Final Barrier to (Nearly) Infinite Energy
Thanks to Radiacode for sponsoring this video. Use the promo code "PBS" to get an exclusive 10% discount at: https://103.radiacode.com/PBS
They say fusion is 50 years away, no matter when you ask. Then why are billions suddenly being pumped into fusion…
They say fusion is 50 years away, no matter when you ask. Then why are billions suddenly being pumped into fusion…
👍10❤2
همینطور که داشتیم درباره انرژی پاک و ارزان بحث میکردیم و اهمیت این موضوع که انرژی ارزان قیمت چطور صنعت و به خصوص هوش مصنوعی رو در آینده متحول خواهد کرد مایکروسافت چیپ کوانتومی جدیدی به نام Majorana 1 رو معرفی کرد!
Majorana 1
اولین چیپ کوانتومی جهانه که بر پایه یه معماری نوین به نام «هسته توپوگرافیک» (Topological Core) طراحی شده.
این چیپ با بهره گیری از مادهای به نام topoconductor عمل می کنه که به تولید کوبیت های (واحدهای محاسباتی کوانتومی) پایدار تر و مقیاس پذیرتر کمک می کنه.
هدف اصلی، ساخت سیستم های کوانتومیه که بتونن تا یه میلیون کوبیت رو در یک چیپ جمع آوری کنن، سطحی که برای حل مسائل صنعتی و علمی پیچیده ضروری به حساب میاد.
مایکروسافت میخواد از طریق پلتفرم Azure Quantum، امکاناتی رو فراهم کنه که به مشتریان اجازه بده محاسبات کوانتومی رو در کنار هوش مصنوعی و پردازش های با عملکرد بالا (HPC) برای پیشبرد کشفیات علمی به کار بگیرن.
ادغام محاسبات کوانتومی با ابزارهای هوش مصنوعی می تونه انقلابی در حل مسائل پیچیده ایجاد کنه. به عنوان مثال، گفته شده که کامپیوتر کوانتومی به هوش مصنوعی زبان طبیعت رو میآموزه تا بتونه به طور مستقیم دستورالعمل های لازم برای طراحی مواد یا مولکولها رو ارائه بده!
https://m.youtube.com/watch?v=wSHmygPQukQ
Majorana 1
اولین چیپ کوانتومی جهانه که بر پایه یه معماری نوین به نام «هسته توپوگرافیک» (Topological Core) طراحی شده.
این چیپ با بهره گیری از مادهای به نام topoconductor عمل می کنه که به تولید کوبیت های (واحدهای محاسباتی کوانتومی) پایدار تر و مقیاس پذیرتر کمک می کنه.
هدف اصلی، ساخت سیستم های کوانتومیه که بتونن تا یه میلیون کوبیت رو در یک چیپ جمع آوری کنن، سطحی که برای حل مسائل صنعتی و علمی پیچیده ضروری به حساب میاد.
مایکروسافت میخواد از طریق پلتفرم Azure Quantum، امکاناتی رو فراهم کنه که به مشتریان اجازه بده محاسبات کوانتومی رو در کنار هوش مصنوعی و پردازش های با عملکرد بالا (HPC) برای پیشبرد کشفیات علمی به کار بگیرن.
ادغام محاسبات کوانتومی با ابزارهای هوش مصنوعی می تونه انقلابی در حل مسائل پیچیده ایجاد کنه. به عنوان مثال، گفته شده که کامپیوتر کوانتومی به هوش مصنوعی زبان طبیعت رو میآموزه تا بتونه به طور مستقیم دستورالعمل های لازم برای طراحی مواد یا مولکولها رو ارائه بده!
https://m.youtube.com/watch?v=wSHmygPQukQ
YouTube
Majorana 1 Explained: The Path to a Million Qubits
Hear from the Microsoft team behind the recent breakthrough in physics and quantum computing demonstrated by the new Majorana 1 chip, engineered from an entirely new material that has the potential to scale to millions of qubits on a single chip. Find out…
🔥9❤1👍1🤩1
Media is too big
VIEW IN TELEGRAM
آزمایشگاه Pika، ابزار جدیدی بنام PIKASWAPS رو توسعه داده که به شما این امکان رو میده با استفاده از متن، یه قلم مو و عکس، مشخص کنید چی رو تو فیلم میخواین با چی جایگزینش کنید.
البته هنوز کیفیتش در حد هالیوود نیست اما صنعت جلوه های ویژه رو میتونه متحول کنه
https://freddychavezolmos.com/artifcialintelligence
البته هنوز کیفیتش در حد هالیوود نیست اما صنعت جلوه های ویژه رو میتونه متحول کنه
https://freddychavezolmos.com/artifcialintelligence
👍9❤4
شرکت Anthropic (رقیب OpenAI) یه هوش مصنوعی جدید به اسم Claude 3.7 Sonnet رونمایی کرده که میگن باهوشترین مدلشون تا الانه! 🚀
نکات مهم:
تمرکز اصلیش روی برنامهنویسی و کدنویسیه
یه ابزار جدید به اسم Claude Code هم معرفی کردن که مخصوص برنامهنویساست
میتونه کد بخونه، ویرایش کنه و تست کنه 💻
جالبه بدونید که آمازون پشت این شرکته
نگرانی اصلی اینه که با این همه سرمایهگذاری، چطور میخوان سود کنن؟ 🤔
https://www.nzherald.co.nz/business/anthropic-releases-its-smartest-ai-model/XBZ42MOKERHNVHYC2VBX2DQTBQ/
نکات مهم:
تمرکز اصلیش روی برنامهنویسی و کدنویسیه
یه ابزار جدید به اسم Claude Code هم معرفی کردن که مخصوص برنامهنویساست
میتونه کد بخونه، ویرایش کنه و تست کنه 💻
جالبه بدونید که آمازون پشت این شرکته
نگرانی اصلی اینه که با این همه سرمایهگذاری، چطور میخوان سود کنن؟ 🤔
https://www.nzherald.co.nz/business/anthropic-releases-its-smartest-ai-model/XBZ42MOKERHNVHYC2VBX2DQTBQ/
NZ Herald
Anthropic releases its 'smartest' AI model
Its name is Claude. And its backers say it's the smartest AI tool yet.
👍13❤7
This media is not supported in your browser
VIEW IN TELEGRAM
این ربات رو در بازی تیمی تصور کنیم، یه چیزی مثل فوتبال، اما بدون خطا و کارت قرمز.
این ربات ها احتمالا در قالب تیم ها با این مهارت های بدنی شگفت انگیز و تاکتیک ها هر کاری برای گل زدن انجام میدن!
حالا به کل تعمیم بدیم. در این میدان نبرد، مرز بین انسان و ماشین، بین خالق و مخلوق، بین اخلاق و غریزه، محو میشه. تنها یک سوال باقی میمونه: آیا این نبرد، آغاز یک انقلابه یا پایان یک تمدن؟
این ربات ها احتمالا در قالب تیم ها با این مهارت های بدنی شگفت انگیز و تاکتیک ها هر کاری برای گل زدن انجام میدن!
حالا به کل تعمیم بدیم. در این میدان نبرد، مرز بین انسان و ماشین، بین خالق و مخلوق، بین اخلاق و غریزه، محو میشه. تنها یک سوال باقی میمونه: آیا این نبرد، آغاز یک انقلابه یا پایان یک تمدن؟
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
درخواست ساخت بازی Flappy Bird با پرامپت یکسان (One-Shot)، Claude 3.7 در مقابل o3 Mini-High
👍11🔥4
Misguided Attention
مجموعهای از سوالات و چالش هایی هستن که برای سنجش توانایی استدلال مدل های زبانی بزرگ در شرایطی که اطلاعات گمراه کننده وجود داره، طراحی شده.
این مجموعه (لینک زیر) شامل نسخه های کمی تغییر یافته از معماها و مسائل منطقی معروفه. بسیاری از مدل های زبانی در مواجه با اطلاعات گمراه کننده، همچنان به نسخهی اصلی مسائل پایبندن و قادر به تشخیص تغییرات کوچیک در سوالات نیستن. این موضوع نشان دهنده مشکل overfitting برخی مدل ها به داده های آموزشی هست.
مدل Claude-3.7-Sonnet در حالتی که بدون فرآیند استدلال (non-thinking mode) اجرا میشه، در یک آزمون طولانی شامل ۵۲ پرسش مورد ارزیابی قرار گرفت. با وجود اینکه از حالت استدلال استفاده نکرد، تقریبا توانست مدل o3-mini رو شکست بده.
https://github.com/cpldcpu/MisguidedAttention
مجموعهای از سوالات و چالش هایی هستن که برای سنجش توانایی استدلال مدل های زبانی بزرگ در شرایطی که اطلاعات گمراه کننده وجود داره، طراحی شده.
این مجموعه (لینک زیر) شامل نسخه های کمی تغییر یافته از معماها و مسائل منطقی معروفه. بسیاری از مدل های زبانی در مواجه با اطلاعات گمراه کننده، همچنان به نسخهی اصلی مسائل پایبندن و قادر به تشخیص تغییرات کوچیک در سوالات نیستن. این موضوع نشان دهنده مشکل overfitting برخی مدل ها به داده های آموزشی هست.
مدل Claude-3.7-Sonnet در حالتی که بدون فرآیند استدلال (non-thinking mode) اجرا میشه، در یک آزمون طولانی شامل ۵۲ پرسش مورد ارزیابی قرار گرفت. با وجود اینکه از حالت استدلال استفاده نکرد، تقریبا توانست مدل o3-mini رو شکست بده.
https://github.com/cpldcpu/MisguidedAttention
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
علیبابا با معرفی مدل هوش مصنوعی جدیدش، QwQ-Max-Preview، حسابی سر و صدا به پا کرده! این مدل قراره با غولهایی مثل o1 از OpenAI و R1 از DeepSeek رقابت کنه. جالبه بدونید که علیبابا تو سه سال آینده قراره ۵۳ میلیارد دلار روی زیرساختهای ابری و هوش مصنوعی سرمایهگذاری کنه. این یعنی چینیها دارن با سرعت نور تو دنیای تکنولوژی پیش میرن!
مدل QwQ-Max-Preview بر پایه مدل Qwen 2.5-Max ساخته شده و قراره تو استدلال و حل مسائل پیچیده بهتر عمل کنه. اگه کنجکاوید، میتونید همین الان بهصورت رایگان از طریق وبسایت چتبات Qwen امتحانش کنید.
https://chat.qwen.ai/
بلاگ پست علی بابا مرتبط با انتشار این ویژگی:
https://qwenlm.github.io/blog/qwq-max-preview/
مدل QwQ-Max-Preview بر پایه مدل Qwen 2.5-Max ساخته شده و قراره تو استدلال و حل مسائل پیچیده بهتر عمل کنه. اگه کنجکاوید، میتونید همین الان بهصورت رایگان از طریق وبسایت چتبات Qwen امتحانش کنید.
https://chat.qwen.ai/
بلاگ پست علی بابا مرتبط با انتشار این ویژگی:
https://qwenlm.github.io/blog/qwq-max-preview/
👍16
امروز OpenAI مدل جدید GPT-4.5 رو معرفی کرده! این مدل قراره سریعتر، دقیقتر و هوشمندتر باشه. بهبودهایی توی فهم زبان، تولید متن و حتی کدنویسی داره.
مدل GPT-4.5 یه سری بهبود مهم داره که کار باهاش رو راحتتر و قویتر میکنه:
✅ سرعت بیشتر – جوابها رو سریعتر میده و عملکرد بهتری داره.
✅ دقت بالاتر – متنهاش منطقیتر و کماشتباهتر شدن.
✅ بهبود فهم کد – بهتر کدنویسی میکنه و اشکالیابی دقیقتری داره.
✅ پشتیبانی از متنهای پیچیدهتر – محتوای علمی و فنی رو بهتر میفهمه.
✅ تعامل طبیعیتر – جوابهاش روانتر و شبیه مکالمه انسانی شده.
برای جزئیات بیشتر، این سند رو ببینید:
📄
https://cdn.openai.com/gpt-4-5-system-card.pdf
مدل GPT-4.5 یه سری بهبود مهم داره که کار باهاش رو راحتتر و قویتر میکنه:
✅ سرعت بیشتر – جوابها رو سریعتر میده و عملکرد بهتری داره.
✅ دقت بالاتر – متنهاش منطقیتر و کماشتباهتر شدن.
✅ بهبود فهم کد – بهتر کدنویسی میکنه و اشکالیابی دقیقتری داره.
✅ پشتیبانی از متنهای پیچیدهتر – محتوای علمی و فنی رو بهتر میفهمه.
✅ تعامل طبیعیتر – جوابهاش روانتر و شبیه مکالمه انسانی شده.
برای جزئیات بیشتر، این سند رو ببینید:
📄
https://cdn.openai.com/gpt-4-5-system-card.pdf
👍17🤔1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Mercury
اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد!
نکته جالب اینجاست که این مدل، همه توکن ها (کلمات یا بخش های کلمات) رو یکجا تولید و سپس بهینه میکنه، برخلاف مدلهای مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید می کنن.
مدل منتشر شده در حالی که تا ۱۰ برابر سریع تر از مدلهای پیشرفته و بهینهشده برای سرعت مانند "GPT-4o Mini" و "Claude 3.5 Haiku" اجرا میشه که عملکردی کاملا مشابه اونها داره. این بدان معناست که شما میتونید از همان سطح کیفیت و دقت، اما با سرعتی بسیار بالاتر بهرهمند شین.
علاوه بر این، این مدل به سرعتی بیش از ۱۰۰۰ توکن در ثانیه بر روی پردازنده های گرافیکی "NVIDIA H100" دست پیدا کرده. این سرعت فوقالعاده، امکان تولید متنهای طولانی و پیچیده رو در کمترین زمان ممکن فراهم میکنن.
نکته قابل توجه اینه که این سرعت بالا، بدون نیاز به استفاده از تراشه های تخصصی بدست اومده. به عبارت دیگه، شما میتونید با استفاده از سخت افزارهای استاندارد، از قدرت و سرعت بینظیر مدلهای "Mercury Coder" بهرهمند شین.
https://www.inceptionlabs.ai/news
اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد!
نکته جالب اینجاست که این مدل، همه توکن ها (کلمات یا بخش های کلمات) رو یکجا تولید و سپس بهینه میکنه، برخلاف مدلهای مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید می کنن.
مدل منتشر شده در حالی که تا ۱۰ برابر سریع تر از مدلهای پیشرفته و بهینهشده برای سرعت مانند "GPT-4o Mini" و "Claude 3.5 Haiku" اجرا میشه که عملکردی کاملا مشابه اونها داره. این بدان معناست که شما میتونید از همان سطح کیفیت و دقت، اما با سرعتی بسیار بالاتر بهرهمند شین.
علاوه بر این، این مدل به سرعتی بیش از ۱۰۰۰ توکن در ثانیه بر روی پردازنده های گرافیکی "NVIDIA H100" دست پیدا کرده. این سرعت فوقالعاده، امکان تولید متنهای طولانی و پیچیده رو در کمترین زمان ممکن فراهم میکنن.
نکته قابل توجه اینه که این سرعت بالا، بدون نیاز به استفاده از تراشه های تخصصی بدست اومده. به عبارت دیگه، شما میتونید با استفاده از سخت افزارهای استاندارد، از قدرت و سرعت بینظیر مدلهای "Mercury Coder" بهرهمند شین.
https://www.inceptionlabs.ai/news
👍17😱5👌2🔥1
Tensorflow(@CVision)
Mercury اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد! نکته جالب اینجاست که این مدل، همه توکن ها (کلمات یا بخش های کلمات) رو یکجا تولید و سپس بهینه میکنه، برخلاف مدلهای مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید…
بیشتر مدلهای زبانی بزرگی که تا کنون دیدیم (LLMs)، از نظر روش مدل سازی اصلی، تقریباً شبیه به هم هستن و همشون به صورت Autoregression آموزش داده میشن، یعنی کلمات رو از چپ به راست پیش بینی میکنن.
روش Diffusion متفاوته، از چپ به راست حرکت نمیکنه، بلکه همه چیز رو یکجا تولید میکنه. شما با نویز شروع و به تدریج نویز رو حذف میکنین تا به یک جریان از کلمات برسین.
بیشتر ابزارهای هوش مصنوعی تولید تصویر و ویدیو، در واقع با همین روش کار میکنن و از روش Diffusion استفاده میکنن، نه Autoregression.
به عنوان مثال، مدلهایی مانند DALL-E، Stable Diffusion و Midjourney از این روش برای تولید تصاویر واقع گرایانه و خلاقانه استفاده میکنن.
قبلاً تلاش هایی برای استفاده از این متد برای تولید متن شده بود اما به شکل تجاری هیچ کدوم مورد استفاده قرار نگرفته بودن، این اولین استفاده تجاری هست و موفقیت اون تاثیر بسزایی در آینده مدل های زبانی خواهد داشت
روش Diffusion متفاوته، از چپ به راست حرکت نمیکنه، بلکه همه چیز رو یکجا تولید میکنه. شما با نویز شروع و به تدریج نویز رو حذف میکنین تا به یک جریان از کلمات برسین.
بیشتر ابزارهای هوش مصنوعی تولید تصویر و ویدیو، در واقع با همین روش کار میکنن و از روش Diffusion استفاده میکنن، نه Autoregression.
به عنوان مثال، مدلهایی مانند DALL-E، Stable Diffusion و Midjourney از این روش برای تولید تصاویر واقع گرایانه و خلاقانه استفاده میکنن.
قبلاً تلاش هایی برای استفاده از این متد برای تولید متن شده بود اما به شکل تجاری هیچ کدوم مورد استفاده قرار نگرفته بودن، این اولین استفاده تجاری هست و موفقیت اون تاثیر بسزایی در آینده مدل های زبانی خواهد داشت
👍26👌6