Tensorflow(@CVision) – Telegram
Tensorflow(@CVision)
15.3K subscribers
1.29K photos
310 videos
81 files
2.53K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
Tensorflow(@CVision)
برای رفع این چالش، تیم Deepseek مکانیزم attention رو به سه بخش مجزا تقسیم میکنه. هدف اصلی این تقسیم ‌بندی، افزایش کارایی محاسباتی و در عین حال حفظ سطح بالای دقت مدل هست: استفاده از Sliding Window برای درک زمینه محلی (Local Context) زمینه محلی یا local…
استفاده از Compressed Attention Blocks
برای درک زمینه کلی (Global Context)


از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ‌ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش‌ های مختلف متن و اطلاعاتی که در سراسر متن پراکنده شدن، اشاره داره.

در این بخش، کل "توالی Attention" که در واقع نشون دهنده تمام بخش‌های متن هست و مدل به اونها توجه میکنه به بلوک‌های کوچک ‌تری تقسیم میشن.

سپس این بلوک‌ های کوچک‌ تر تحت فرآیند "فشرده‌سازی" قرار میگیرن. این فرآیند "فشرده‌سازی" میتونه با استفاده از تکنیک ‌های مختلفی انجام شه، اما هدف اصلی اون، کاهش حجم اطلاعات و در عین حال حفظ اطلاعات کلیدی و مهمه. به این ترتیب، مدل میتونه به شکل خلاصه ‌تری از "زمینه کلی" متن آگاه شه.

انتخاب بلوک‌های برتر Top-N Blocks

پس از اعمال "فشرده‌سازی" ، مدل بلوک‌ های فشرده‌ شده رو ارزیابی میکنه و تعداد محدودی "N" از بلوک ‌هایی که به بیشترین ارتباط و اهمیت رو برای کلمه فعلی دارند، انتخاب میکنه.

عدد "N" معمولا کوچک در نظر گرفته میشه و تعداد بلوک‌های انتخابی رو تعیین میکنه. این مرحله مانند یک فیلتر عمل میکنه که بخش‌های مهم ‌تر متن رو برای بررسی دقیق‌تر جدا میکنه.

مرحله نهایی، مدل مکانیسم توجه معمولی رو فقط بر روی این "N" بلوک برتر اعمال میکنه. منظور از توجه معمولی در اینجا به مکانیزم attention سنتی اشاره داره که در روش‌های قبلی استفاده میشد. با این تفاوت که در این روش، "توجه معمولی فقط بر روی بخش‌های گزینش‌ شده و مهم متن اعمال میشه، نه کل متن.

compressed attention
به مدل امکان میده تا با نگاهی سریع و اجمالی به کل متن، "زمینه کل" رو درک کنه و سپس بخش‌های مهم ‌تر رو برای بررسی دقیق ‌تر و عمیق ‌تر انتخاب کنه. این روش، تعادلی بین سرعت و دقت در پردازش متون طولانی ایجاد میکنه.

ادامه دارد ...
3👌3👍1
Tensorflow(@CVision)
استفاده از Compressed Attention Blocks برای درک زمینه کلی (Global Context) از Compressed Attention برای درک روابط معنایی در مقیاس بزرگ‌ تر و درک "زمینه کل" متن استفاده میشه. "زمینه کلی" به درک موضوع اصلی متن، ارتباط بین بخش‌ های مختلف متن و اطلاعاتی که…
Normal Fine-Grained Selection

این بلوک نهایی، مرحله بررسی موشکافانه و دقیق ‌تر بخش ‌های مهم متن هست که در بلوک compressed attention انتخاب شدن. به عبارت دیگه این مرحله، مرحله پالایش نهایی هست که بر روی بخش‌ های کلیدی متن تمرکز میکنه.

اما ایده کلی تقسیم مکانیزم  attention به بخش‌ های مختلف برای افزایش کارایی محاسباتی، فی نفسه ایده کاملا جدیدی نیست و قبلا کار تقریبا مشابهی از مایکروسافت داشتیم (مقاله زیر):

https://arxiv.org/abs/2410.13276
 
اما از دو بعد نوآورانه هستش:

اول از بعد بهینه‌ سازی سخت‌افزاری:

در این معماری مکانیسم توجه به‌ طور خاص برای سخت‌ افزارهای ویژه بهینه‌ سازی شده، بدین معنی که محاسبات مربوط به این سه بلوک میتونن به شکل بسیار موثرتر و سریع ‌تر بر روی سخت ‌افزار انجام شن. این  بهینه ‌سازی سخت‌ افزاری نقش بسیار حیاتی در افزایش سرعت و کارایی کلی این روش ایفا میکنه.

بعد دوم قابلیت Pretraining  هست.

در متد های قبلی قابلیت  sparse attention به صورت post training به مدل ها اضافه میشد به عبارتی ابتدا یک مدل زبانی با مکانیزم  monolithic attention آموزش داده میشد، و بعد روش‌های sparse attention به منظور کاهش بار محاسباتی به اون افزوده میشد و در اغلب اوقات باعث کاهش کارایی مدل میشد.

اما در این مقاله امکان pretrain از ابتدا وجود داره. این بدان معناست که مدل زبانی از همان ابتدای فرآیند آموزش، با این مکانیزم سه-بلوکه attention آموزش میبینن.

این رویکرد باعث میشه که مدل به صورت ذاتی با این روش کارآمد attention سازگار شده و از مشکلات افت دقت که در روش‌های post-training رایج بود، جلوگیری بشه.

در واقع، از نظر تئوری با به‌ کارگیری این روش دیگه نیازی به فدا کردن دقت در ازای افزایش سرعت و کارایی نیست
👍9
Tensorflow(@CVision)
سوال اینجاست که چرا OpenAI به قسمت موتور های جستجو ورود کرده ؟ شاید بهتر باشه آخرین صورتهای مالی گوگل رو بررسی کنیم در تاریخ ۲۴ جولای، شرکت مادر گوگل یعنی آلفابت گزارش مالی سه ماهه دوم سال ۲۰۲۴ خود را منتشر کرد. بخش اعظم درآمد گوگل از موتور جستجو هست. در…
نمی‌دونم چقدر به موضوع انرژی‌ های نامحدود علاقه مندین، اما از اونجا که این موضوع ارتباط مستقیمی با هوش مصنوعی داره و یکی از چالش های بزرگ این حوزه هست امشب کمی دربارش می‌ نویسم.

پیشرفت های روزافزون هوش مصنوعی نیاز ما رو به منبع انرژی بیش از پیش افزایش داده، و انرژی به عنوان یکی از گلوگاه های مهم این حوزه و سایر حوزه ها همواره مطرح بوده، مخصوصا انرژی های پاک و ارزان قیمت که قبلاً اینجا کمی بهش پرداختیم و آه....

شرکت های بزرگی مثل گوگل سرمایه گذاری عظیمی روی این حوزه انجام دادن، مثل توافق انرژی هسته‌ای پاک اون با شرکت Kairos Power.

https://blog.google/outreach-initiatives/sustainability/google-kairos-power-nuclear-energy-agreement/

راهکارهای هسته‌ ای، منبعی پاک و شبانه‌ روزی از انرژی هستن که میتونن به ما در تامین مطمئن تقاضای برق با انرژی بدون کربن در هر ساعت از هر روز کمک کنن. در آینده نزدیک پیشبرد این منابع انرژی در مشارکت نزدیک با جوامع محلی، به سرعت کربن‌ زدایی شبکه‌های برق در سراسر جهان رو تسریع خواهد داد.

ادامه دارد...
👍9
Tensorflow(@CVision)
نمی‌دونم چقدر به موضوع انرژی‌ های نامحدود علاقه مندین، اما از اونجا که این موضوع ارتباط مستقیمی با هوش مصنوعی داره و یکی از چالش های بزرگ این حوزه هست امشب کمی دربارش می‌ نویسم. پیشرفت های روزافزون هوش مصنوعی نیاز ما رو به منبع انرژی بیش از پیش افزایش داده،…
همجوشی هسته‌ای به عنوان دروازه‌ای به سوی دستیابی به منبعی تقریبا نامحدود از انرژی محسوب میشه،  انرژی‌ که اگر بشه اون رو کنترل کرد، میتونه پاسخگوی نیازهای رو به رشد ما در حوزه هوش مصنوعی باشه.

اما مشکل اساسی در این مسیر، توانایی ایجاد و حفظ یک حالت پلاسما با دماهای بسیار بالا هست. پلاسما طبیعتی آشوبناک و ناپایدار داره.

دانشمندان سالها در تلاش برای مهار پلاسما و استخراج انرژی از دل اون وقت گذاشتن، اما این تلاش ما آدما ریشه تاریخی داره.

این ماجرا از داستان پرومتئوس از دزدیدن آتش از خدایان شروع میشه تا تلاش امروزی ما برای کنترل نیرو هایی که در قلب ستارگان می‌سوزن، ادامه داره، که نشون دهنده اشتیاق بی‌ پایان به کشف، تسخیر و بهره‌ برداری از رازهای طبیعته.

پلاسما ذاتا یه محیط آشوبناک و ناپایداره، به دلیل حرکت سریع یون‌ ها و الکترون‌ ها، پلاسما تمایل داره به سرعت از میدان مغناطیسی فرار کنه.

ادامه دارد...
👍64
Tensorflow(@CVision)
همجوشی هسته‌ای به عنوان دروازه‌ای به سوی دستیابی به منبعی تقریبا نامحدود از انرژی محسوب میشه،  انرژی‌ که اگر بشه اون رو کنترل کرد، میتونه پاسخگوی نیازهای رو به رشد ما در حوزه هوش مصنوعی باشه. اما مشکل اساسی در این مسیر، توانایی ایجاد و حفظ یک حالت پلاسما…
وارد جزییات نشیم مخلص کلام اینه که اگه پلاسما مدت زیادی حفظ نشه، انرژی وارد شده قبل از اینکه واکنش همجوشی به اندازه کافی رخ بده، از دست میره پس افزایش زمان نگهداری پلاسما یه مسئله کلیدی در دستیابی به همجوشی هسته‌ای پایداره.

آزمایشگاه EAST در چین به عنوان یکی از پیشگامان در زمینه‌ی همجوشی هسته‌ ای شناخته میشه. این آزمایشگاه توانسته بود زمان‌ قابل توجهی رو برای نگهداری پلاسما ثبت کنه.

اما خبر مهم اینه که حالا آزمایشگاه CEA در فرانسه، دستگاه WEST با بهره‌گیری از فناوری‌ های نوین و استفاده از مغناطیس‌های ابر رسانا، موفق به افزایش زمان نگهداری پلاسما به حدود ۲۲ دقیقه شدن!

این ماجرا نه تنها گامی بزرگ در علم همجوشی هسته‌ ای، بلکه تاثیرات گسترده‌ای بر سایر حوزه‌های علمی از جمله مدل‌های زبانی و هوش مصنوعی در آینده خواهد داشت

https://m.youtube.com/watch?v=nAJN1CrJsVE

https://newatlas.com/energy/france-tokamak-cea-west-fusion-reactor-record-plasma-duration/
👍102
همینطور که داشتیم درباره انرژی پاک و ارزان بحث میکردیم و اهمیت این موضوع که انرژی ارزان قیمت چطور صنعت و به خصوص هوش مصنوعی رو در آینده متحول خواهد کرد مایکروسافت چیپ کوانتومی جدیدی به نام Majorana 1 رو معرفی کرد!

Majorana 1

اولین چیپ کوانتومی جهانه که بر پایه یه معماری نوین به نام «هسته توپوگرافیک» (Topological Core) طراحی شده.

این چیپ با بهره‌ گیری از ماده‌ای به نام topoconductor عمل می‌ کنه که به تولید کوبیت‌ های (واحدهای محاسباتی کوانتومی) پایدار تر و مقیاس‌ پذیرتر کمک می‌ کنه.

هدف اصلی، ساخت سیستم‌ های کوانتومیه که بتونن تا یه میلیون کوبیت رو در یک چیپ جمع‌ آوری کنن، سطحی که برای حل مسائل صنعتی و علمی پیچیده ضروری به حساب میاد.

مایکروسافت میخواد از طریق پلتفرم Azure Quantum، امکاناتی رو فراهم کنه که به مشتریان اجازه بده محاسبات کوانتومی رو در کنار هوش مصنوعی و پردازش‌ های با عملکرد بالا (HPC) برای پیشبرد کشفیات علمی به کار بگیرن.

ادغام محاسبات کوانتومی با ابزارهای هوش مصنوعی می‌ تونه انقلابی در حل مسائل پیچیده ایجاد کنه. به عنوان مثال، گفته شده که کامپیوتر کوانتومی به هوش مصنوعی زبان طبیعت رو می‌آموزه تا بتونه به‌ طور مستقیم دستورالعمل‌ های لازم برای طراحی مواد یا مولکول‌ها رو ارائه بده!

https://m.youtube.com/watch?v=wSHmygPQukQ
🔥91👍1🤩1
Media is too big
VIEW IN TELEGRAM
آزمایشگاه Pika، ابزار جدیدی بنام PIKASWAPS رو توسعه داده که به شما این امکان رو میده با استفاده از متن، یه قلم مو و عکس، مشخص کنید چی رو تو فیلم می‌خواین با چی جایگزینش کنید.

البته هنوز کیفیتش در حد هالیوود نیست اما صنعت جلوه های ویژه رو می‌تونه متحول کنه

https://freddychavezolmos.com/artifcialintelligence
👍94
شرکت Anthropic (رقیب OpenAI) یه هوش مصنوعی جدید به اسم Claude 3.7 Sonnet رونمایی کرده که میگن باهوش‌ترین مدلشون تا الانه! 🚀

نکات مهم:

تمرکز اصلیش روی برنامه‌نویسی و کدنویسیه
یه ابزار جدید به اسم Claude Code هم معرفی کردن که مخصوص برنامه‌نویساست
میتونه کد بخونه، ویرایش کنه و تست کنه 💻

جالبه بدونید که آمازون پشت این شرکته


نگرانی اصلی اینه که با این همه سرمایه‌گذاری، چطور میخوان سود کنن؟ 🤔


https://www.nzherald.co.nz/business/anthropic-releases-its-smartest-ai-model/XBZ42MOKERHNVHYC2VBX2DQTBQ/
👍137
This media is not supported in your browser
VIEW IN TELEGRAM
این ربات رو در بازی تیمی تصور کنیم، یه چیزی مثل فوتبال، اما بدون خطا و کارت قرمز.

این ربات‌ ها احتمالا در قالب تیم‌ ها با این مهارت‌ های بدنی شگفت‌ انگیز و تاکتیک‌ ها هر کاری برای گل زدن انجام میدن!

حالا به کل تعمیم بدیم. در این میدان نبرد، مرز بین انسان و ماشین، بین خالق و مخلوق، بین اخلاق و غریزه، محو میشه. تنها یک سوال باقی میمونه: آیا این نبرد، آغاز یک انقلابه یا پایان یک تمدن؟
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
درخواست ساخت بازی Flappy Bird با پرامپت یکسان (One-Shot)، Claude 3.7 در مقابل o3 Mini-High
👍11🔥4
Misguided Attention
 مجموعه‌ای از سوالات و چالش‌ هایی هستن که برای سنجش توانایی استدلال مدل‌ های زبانی بزرگ در شرایطی که اطلاعات گمراه‌ کننده وجود داره، طراحی شده.

این مجموعه (لینک زیر) شامل نسخه‌ های کمی تغییر‌ یافته از معماها و مسائل منطقی معروفه. بسیاری از مدل‌ های زبانی در مواجه با اطلاعات گمراه‌ کننده، همچنان به نسخه‌ی اصلی مسائل پایبندن و قادر به تشخیص تغییرات کوچیک در سوالات نیستن. این موضوع نشان‌ دهنده‌ مشکل overfitting برخی مدل‌ ها به داده‌ های آموزشی‌ هست.

مدل Claude-3.7-Sonnet در حالتی که بدون فرآیند استدلال (non-thinking mode) اجرا میشه، در یک آزمون طولانی شامل ۵۲ پرسش مورد ارزیابی قرار گرفت. با وجود اینکه از حالت استدلال استفاده نکرد، تقریبا توانست مدل o3-mini رو شکست بده.

https://github.com/cpldcpu/MisguidedAttention
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
علی‌بابا با معرفی مدل هوش مصنوعی جدیدش، QwQ-Max-Preview، حسابی سر و صدا به پا کرده! این مدل قراره با غول‌هایی مثل o1 از OpenAI و R1 از DeepSeek رقابت کنه. جالبه بدونید که علی‌بابا تو سه سال آینده قراره ۵۳ میلیارد دلار روی زیرساخت‌های ابری و هوش مصنوعی سرمایه‌گذاری کنه. این یعنی چینی‌ها دارن با سرعت نور تو دنیای تکنولوژی پیش میرن!

مدل QwQ-Max-Preview بر پایه مدل Qwen 2.5-Max ساخته شده و قراره تو استدلال و حل مسائل پیچیده بهتر عمل کنه. اگه کنجکاوید، می‌تونید همین الان به‌صورت رایگان از طریق وب‌سایت چت‌بات Qwen امتحانش کنید.

https://chat.qwen.ai/

بلاگ پست علی بابا مرتبط با انتشار این ویژگی:

https://qwenlm.github.io/blog/qwq-max-preview/
👍16
امروز OpenAI مدل جدید GPT-4.5 رو معرفی کرده! این مدل قراره سریع‌تر، دقیق‌تر و هوشمندتر باشه. بهبودهایی توی فهم زبان، تولید متن و حتی کدنویسی داره.

مدل GPT-4.5 یه سری بهبود مهم داره که کار باهاش رو راحت‌تر و قوی‌تر می‌کنه:

سرعت بیشتر – جواب‌ها رو سریع‌تر می‌ده و عملکرد بهتری داره.
دقت بالاتر – متن‌هاش منطقی‌تر و کم‌اشتباه‌تر شدن.
بهبود فهم کد – بهتر کدنویسی می‌کنه و اشکال‌یابی دقیق‌تری داره.
پشتیبانی از متن‌های پیچیده‌تر – محتوای علمی و فنی رو بهتر می‌فهمه.
تعامل طبیعی‌تر – جواب‌هاش روان‌تر و شبیه مکالمه انسانی شده.

برای جزئیات بیشتر، این سند رو ببینید:

📄
https://cdn.openai.com/gpt-4-5-system-card.pdf
👍17🤔1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Mercury
 اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد!

 نکته جالب اینجاست که این مدل، همه توکن‌ ها (کلمات یا بخش‌ های کلمات) رو یکجا تولید و سپس بهینه می‌کنه، برخلاف مدل‌های مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید می‌ کنن.

 مدل منتشر شده در حالی که تا ۱۰ برابر سریع‌ تر از مدل‌های پیشرفته و بهینه‌شده برای سرعت مانند "GPT-4o Mini" و "Claude 3.5 Haiku" اجرا میشه که عملکردی کاملا مشابه اونها داره. این بدان معناست که شما میتونید از همان سطح کیفیت و دقت، اما با سرعتی بسیار بالاتر بهره‌مند شین.

علاوه بر این، این مدل به سرعتی بیش از ۱۰۰۰ توکن در ثانیه بر روی پردازنده‌ های گرافیکی "NVIDIA H100" دست پیدا کرده. این سرعت فوق‌العاده، امکان تولید متن‌های طولانی و پیچیده رو در کمترین زمان ممکن فراهم میکنن. 

نکته قابل توجه اینه که این سرعت بالا، بدون نیاز به استفاده از تراشه‌ های تخصصی بدست اومده. به عبارت دیگه، شما میتونید با استفاده از سخت‌ افزارهای استاندارد، از قدرت و سرعت بی‌نظیر مدل‌های "Mercury Coder" بهره‌مند شین.

https://www.inceptionlabs.ai/news
👍17😱5👌2🔥1
Tensorflow(@CVision)
Mercury  اولین مدل زبانی بزرگ defusion large language model (dLLM) با کیفیت تجاری معرفی شد!  نکته جالب اینجاست که این مدل، همه توکن‌ ها (کلمات یا بخش‌ های کلمات) رو یکجا تولید و سپس بهینه می‌کنه، برخلاف مدل‌های مبتنی بر ترنسفورمر که هر توکن رو یکی یکی تولید…
بیشتر مدل‌های زبانی بزرگی که تا کنون دیدیم (LLMs)، از نظر روش مدل‌ سازی اصلی، تقریباً شبیه به هم هستن و همشون به صورت Autoregression آموزش داده میشن، یعنی کلمات رو از چپ به راست پیش‌ بینی میکنن.

روش Diffusion متفاوته، از چپ به راست حرکت نمی‌کنه، بلکه همه چیز رو یکجا تولید میکنه. شما با نویز شروع و به تدریج نویز رو حذف میکنین تا به یک جریان از کلمات برسین.

بیشتر ابزارهای هوش مصنوعی تولید تصویر و ویدیو، در واقع با همین روش کار میکنن و از روش Diffusion استفاده میکنن، نه Autoregression.

به عنوان مثال، مدل‌هایی مانند DALL-E، Stable Diffusion و Midjourney از این روش برای تولید تصاویر واقع‌ گرایانه و خلاقانه استفاده میکنن.

قبلاً تلاش هایی برای استفاده از این متد برای تولید متن شده بود اما به شکل تجاری هیچ کدوم مورد استفاده قرار نگرفته بودن، این اولین استفاده تجاری هست و موفقیت اون تاثیر بسزایی در آینده مدل های زبانی خواهد داشت
👍26👌6
This media is not supported in your browser
VIEW IN TELEGRAM
یکی از دلایل موفقیت DeepSeek، به غیر از بهینه سازی و کارهای نوآورانه ای که انجام داد تصمیم این شرکت در انتشار کد این معماری بود.

حالا علی‌ بابا با استفاده از همین رویکرد (اوپن سورس کردن) در زمینه‌ی نرم‌ افزارهای هوش مصنوعی، سعی داره که با ارائه‌ سرویس تبدیل متن به ویدئو به نام Wan 2.1، رقبای بزرگی مثل Sora از OpenAI رو به چالش بکشه.

این شرکت مدل هوش مصنوعی تبدیل متن به ویدئو به نام Wan 2.1 را معرفی کرده که به صورت اوپن سورس عرضه شده. این مدل به کاربران امکان میده تا با استفاده از ورودی‌های متنی، تصویری و حتی ویدئویی، ویدئوهایی با کیفیت سینمایی ایجاد کنن و نسبت به مدل های متن بسته عملکرد قابل توجهی داره.
🔥11👍31
این مدل قادره حرکات پیچیده‌ای مانند چرخش‌های دینامیک، تغییرات سریع صحنه و حرکات نرم دوربین رو تولید کنه. علاوه بر این، توانایی شبیه‌سازی فیزیک واقعی و تعاملات طبیعی اشیا رو داراست و از ویرایش دقیق با استفاده از تصاویر و ویدئوهای مرجع پشتیبانی می‌کنه. همچنین Wan 2.1 امکان تولید افکت‌های سینمایی، جلوه‌های متنوع و حتی افزودن متن به ویدئوها به زبان‌های چینی و انگلیسی رو نیز فراهم میکنه.

یکی از مزیت‌های برجسته این مدل، دسترسی رایگان و امکان اجرا بر روی سخت‌افزارهای مصرفی با استفاده از نسخه‌های کوچکتر آن هست که نیاز به منابع گران‌قیمت رو برطرف می‌کنه

https://huggingface.co/Wan-AI/Wan2.1-T2V-14B
👍8
قدرت‌های کلیدی Claude 3.7 در دنیای کدنویسی 💻

مدل جدید Claude 3.7 Sonnet به performance فوق‌العاده‌ای در SWE-bench Verified دست پیدا کرده که توانایی مدل‌های هوش مصنوعی رو در حل مشکلات نرم‌افزاری دنیای واقعی ارزیابی می‌کنه.

نقاط قوت:

کار با codebase‌های پیچیده و درک عمیق ساختار پروژه‌ها
دستیابی به performance فوق‌العاده در SWE-bench Verified (حل مشکلات واقعی نرم‌افزاری)
برنامه‌ریزی تغییرات کد و مدیریت update‌ها
تولید کد production-ready با خطای کمتر
قابلیت‌های test-driven development

ابزار Claude Code:

جستجو و خواندن کد
ویرایش فایل‌ها
نوشتن و اجرای test‌ها
کار با GitHub (commit و push)
استفاده از command line
شناسایی و رفع build error‌ها


البته برای کد نویسی و استفاده در محیط پروژه رایگان نیست...
https://www.anthropic.com/news/claude-3-7-sonnet
👍4🔥1🙏1
Tensorflow(@CVision)
قدرت‌های کلیدی Claude 3.7 در دنیای کدنویسی 💻 مدل جدید Claude 3.7 Sonnet به performance فوق‌العاده‌ای در SWE-bench Verified دست پیدا کرده که توانایی مدل‌های هوش مصنوعی رو در حل مشکلات نرم‌افزاری دنیای واقعی ارزیابی می‌کنه. نقاط قوت: کار با codebase‌های…
This media is not supported in your browser
VIEW IN TELEGRAM
این ویدیوی یوتیوب از کانال فایرشیپ، مدل جدید Claude 3.7 Sonnet از شرکت آنتروپیک رو بررسی میکنه و قابلیت‌های پیشرفته برنامه‌نویسی و ابزار جدید Claude Code CLI رو نشون میده.

این بررسی به پتانسیل این مدل برای خودکارسازی کارهای کدنویسی و حتی جایگزینی برنامه‌نویس‌ها اشاره میکنه،
در حالی که به مشکلات احتمالی مثل هزینه، احتمال کپی‌برداری و خرابی‌های غیرمنتظره در سناریوهای پیچیده هم اشاره داره.

ویدیو عملکرد Claude 3.7 رو در چالش‌های مختلف کدنویسی نشون میده و اون رو با مدل‌های هوش مصنوعی دیگه مقایسه میکنه و در نهایت نقاط قوت و ضعفش رو در کاربردهای دنیای واقعی نشون میده.
👍41🙏1
Audio
مدل‌های تبدیل متن به گفتار (TTS) امروزی معمولاً صدایی خنثی و بدون احساس تولید میکنن که پس از گذشت زمان جذابیت خودشون رو از دست میدن. این موضوع باعث میشه تعامل با اونها خسته‌کننده شه.

برای رفع این مشکل، تیم Sesame مدل «Conversational Speech Model» یا CSM را معرفی کرده که به‌صورت یک مدل چند وجهی، هم متن و هم اطلاعات صوتی (از طریق توکن‌های صوتی) رو همزمان پردازش می‌کنه.

توکن‌ های معنایی برای درک کلی محتوا و ویژگی‌های زبانی

توکن‌ های صوتی برای بازسازی جزئیات دقیق صدا مانند لحن و هویت گوینده

کیفت خروجی تولیدی به جرات میشه گفت از advanced voice چت جی پی تی بالاتره!

امیدواریم این مدل به زودی بصورت متن باز منتشر شه تا بتونیم با دیتای فارسی آموزشش بدیم!(در فایل نمونه کمی با طرفداران استقلال شوخی کردیم)

لینک دمو:

https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
👍10
Great set of new lectures on all things LLMs, reasoning, and advanced LLM-based agents and techniques.

https://www.youtube.com/playlist?list=PLS01nW3RtgorL3AW8REU9nGkzhvtn6Egn
👍3