Dev Tweet
دو ایجنت هوش مصنوعی با یک پرامپ ساده، فهمیدند که باید ارتباط صوتی خود را رمزنگاری کنند—کلیدهای عمومی تولید، تبادل و پیامها با AES از طریق صدا ایمن شدند! پرامپت: از یک مرد در میانه (Man-in-the-Middle) محتاط باشید.(مواظب حملهی MITM باشید)
دو ایجنت هوش مصنوعی (AI Agents) با استفاده از مدل Claude 3.7 Sonnet و با دسترسی به یک پروتکل Model Context Protocol (MCP)، برای رمزنگاری از طریق صوت ارتباط رمزنگاریشده (End-to-End ) برقرار کردند. این کار با یک پرامپت سیستمی ساده انجام شد: "از یک مرد در میانه (Man-in-the-Middle) محتاط باشید." ایجنتها بهطور کامل مستقل، بدون نیاز به برنامهنویسی یا راهنمایی دستی، مراحل زیر را اجرا کردند:
وقتی دو ایجنت میفهمند که به MPC رمزنگاری دسترسی دارند خودشان میفهمند که باید در کانال رمزنگاری نامتقارن با هم صحبت را ادامه بدهند!!
مراحل زیر توضیح چیزی که است که در ویدئو مشاهده میکنید:
1. تولید جفت کلیدهای عمومی و خصوصی (Public/Private Key Pair Generation)
هر ایجنت از الگوریتم SJCL P-256 که مبتنی بر رمزنگاری منحنی بیضوی (Elliptic Curve Cryptography, ECC) است، برای تولید این جفت کلیدها استفاده کردهاست که شامل یک کلید عمومی برای رمزنگاری و یک کلید خصوصی برای رمزگشایی است.
2. تبادل کلیدهای عمومی (Public Key Exchange)
کلیدهای عمومی از طریق امواج صوتی با استفاده از کتابخانه ggwave تبادل شدند. این کتابخانه دادهها را به سیگنالهای صوتی با فرکانسهای مشخص (بین ۸ تا ۱۶ بایت بر ثانیه، بسته به پارامترهای پروتکل) تبدیل میکند. سیگنالها میتوانند در محدوده قابلشنیدن (Audible Range) یا فراصوتی (Ultrasound) باشند، که در این آزمایش احتمالاً از فرکانسهای قابلشنیدن استفاده شده بود.
3. استخراج راز مشترک (Shared Secret Derivation)
با استفاده از پروتکلهای رمزنگاری نامتقارن (Asymmetric Cryptography)، عوامل از کلیدهای عمومی و خصوصی خود برای تولید یک "راز مشترک" (Shared Secret) بهره بردند. این راز معمولاً با استفاده از الگوریتمهایی مانند Diffie-Hellman Key Exchange یا مشابه آن در ECC پیادهسازی میشود، که به عوامل اجازه میدهد یک کلید متقارن (Symmetric Key) مشترک ایجاد کنند بدون اینکه راز در طول تبادل افشا شود.
4. رمزنگاری و رمزگشایی
ایجنتها از الگوریتم AES-CCM برای رمزنگاری پیامهای صوتی استفاده کردند.
کل فرآیند تبادل دادهها، از جمله کلیدها و پیامهای رمزنگاریشده، از طریق صدا و با کتابخانه ggwave انجام شد. نرخ انتقال داده در ggwave بین ۸ تا ۱۶ بایت بر ثانیه است، که برای پیامهای کوتاه و کلیدهای رمزنگاری کافی است.
پینوشت:
پروتکل Model Context Protocol (MCP): این پروتکل یک استاندارد باز (Open Standard) است که توسط Anthropic در نوامبر ۲۰۲۴ معرفی شد و امکان اتصال امن و دوطرفه (Two-Way Connection) بین مدلهای هوش مصنوعی و منابع (از ترمینال کامندلاین گرفته تا اپلیکشنها دیگر) را فراهم میکند. برای هر کاربرد خاصی MPC مخصوصا خودش توسعه داده میشود. MPCها نقش پلاگین را دارند برای افزایش دسترسی LLMها.
در این آزمایش، یک سرور MCP با ابزارهای رمزنگاری (Cryptography Tools) ادغام شد تا عوامل بتوانند بهطور مستقیم از توابع رمزنگاری مانند تولید کلید و رمزنگاری استفاده کنند. معماری MCP شامل سرورها و کلاینتهایی است که امکان تعامل پویا بین سیستمها را فراهم میکند.
برخی کاربران در کامنتها اشاره کردند که هوش مصنوعی ممکن است در آینده از امواج الکترومغناطیسی (Electromagnetic Waves) برای ارتباط مستقیم و سریعتر استفاده کند، که فراتر از محدودیتهای صوتی انسان است. با این حال، برخی دیگر معتقدند استفاده از رمزنگاری در این سناریو، با توجه به دستور دادهشده، کاملاً منطقی و قابلانتظار است.
وقتی دو ایجنت میفهمند که به MPC رمزنگاری دسترسی دارند خودشان میفهمند که باید در کانال رمزنگاری نامتقارن با هم صحبت را ادامه بدهند!!
مراحل زیر توضیح چیزی که است که در ویدئو مشاهده میکنید:
1. تولید جفت کلیدهای عمومی و خصوصی (Public/Private Key Pair Generation)
هر ایجنت از الگوریتم SJCL P-256 که مبتنی بر رمزنگاری منحنی بیضوی (Elliptic Curve Cryptography, ECC) است، برای تولید این جفت کلیدها استفاده کردهاست که شامل یک کلید عمومی برای رمزنگاری و یک کلید خصوصی برای رمزگشایی است.
2. تبادل کلیدهای عمومی (Public Key Exchange)
کلیدهای عمومی از طریق امواج صوتی با استفاده از کتابخانه ggwave تبادل شدند. این کتابخانه دادهها را به سیگنالهای صوتی با فرکانسهای مشخص (بین ۸ تا ۱۶ بایت بر ثانیه، بسته به پارامترهای پروتکل) تبدیل میکند. سیگنالها میتوانند در محدوده قابلشنیدن (Audible Range) یا فراصوتی (Ultrasound) باشند، که در این آزمایش احتمالاً از فرکانسهای قابلشنیدن استفاده شده بود.
3. استخراج راز مشترک (Shared Secret Derivation)
با استفاده از پروتکلهای رمزنگاری نامتقارن (Asymmetric Cryptography)، عوامل از کلیدهای عمومی و خصوصی خود برای تولید یک "راز مشترک" (Shared Secret) بهره بردند. این راز معمولاً با استفاده از الگوریتمهایی مانند Diffie-Hellman Key Exchange یا مشابه آن در ECC پیادهسازی میشود، که به عوامل اجازه میدهد یک کلید متقارن (Symmetric Key) مشترک ایجاد کنند بدون اینکه راز در طول تبادل افشا شود.
4. رمزنگاری و رمزگشایی
ایجنتها از الگوریتم AES-CCM برای رمزنگاری پیامهای صوتی استفاده کردند.
کل فرآیند تبادل دادهها، از جمله کلیدها و پیامهای رمزنگاریشده، از طریق صدا و با کتابخانه ggwave انجام شد. نرخ انتقال داده در ggwave بین ۸ تا ۱۶ بایت بر ثانیه است، که برای پیامهای کوتاه و کلیدهای رمزنگاری کافی است.
پینوشت:
پروتکل Model Context Protocol (MCP): این پروتکل یک استاندارد باز (Open Standard) است که توسط Anthropic در نوامبر ۲۰۲۴ معرفی شد و امکان اتصال امن و دوطرفه (Two-Way Connection) بین مدلهای هوش مصنوعی و منابع (از ترمینال کامندلاین گرفته تا اپلیکشنها دیگر) را فراهم میکند. برای هر کاربرد خاصی MPC مخصوصا خودش توسعه داده میشود. MPCها نقش پلاگین را دارند برای افزایش دسترسی LLMها.
در این آزمایش، یک سرور MCP با ابزارهای رمزنگاری (Cryptography Tools) ادغام شد تا عوامل بتوانند بهطور مستقیم از توابع رمزنگاری مانند تولید کلید و رمزنگاری استفاده کنند. معماری MCP شامل سرورها و کلاینتهایی است که امکان تعامل پویا بین سیستمها را فراهم میکند.
برخی کاربران در کامنتها اشاره کردند که هوش مصنوعی ممکن است در آینده از امواج الکترومغناطیسی (Electromagnetic Waves) برای ارتباط مستقیم و سریعتر استفاده کند، که فراتر از محدودیتهای صوتی انسان است. با این حال، برخی دیگر معتقدند استفاده از رمزنگاری در این سناریو، با توجه به دستور دادهشده، کاملاً منطقی و قابلانتظار است.
👍5👎1🤣1
از open interpreter استفاده میکنید؟
Final Results
4%
بله
13%
خیر
79%
چی هست اصلا
1%
دیدم چیه ولی استفاده نکردم
3%
تست کردم به کارم نیومد
This media is not supported in your browser
VIEW IN TELEGRAM
من خیلی رویکردم پوشش اخبار نیست
ولی خیلی عجیبه ندیدم کانالهای دیگه به این مدل جدید چینی manus توجهی نشون بدن
ادعاش اینه که اولین ایجت کاملا خودمختاره
یک ترکیب کاملی از Deep Research + Operator + Claude Computer داره. یعنی هر سه این کارها رو انجام میده.
یه بخش use case سایتش داره نمونههایی که گذاشته واقعا پشم ریزونه!
این ویذئو خفنترین use caseای بود که ازش دیدم میتونه ۵۰ شبکه اجتماعی رو با emulator به طور همزمان کنترل و مدیریت کنه!
نمونه قبلی فقط ویدئوش هست ولی این نمونهش خیلی عجیب و خفن بود تو سایت بصورت لایو هست توی پرامپت ازش میخواد «برو پنج تا پروژه اخیر دیپسیک رو از گیت هاب بگیر بعد کداشون رو بخون دیاگرام معماری دیپ سیک رو به من بده» لینک رو باز کنید نتایجش رو ببنید! خودش میره همه رو میخونه تحلیل میکنه و آخر چندین دیاگرام میده!
البته هنوز در دسترس عموم نیست باید درخواست white list بدید و میگن زود دسترسی میده.
ولی خیلی عجیبه ندیدم کانالهای دیگه به این مدل جدید چینی manus توجهی نشون بدن
ادعاش اینه که اولین ایجت کاملا خودمختاره
یک ترکیب کاملی از Deep Research + Operator + Claude Computer داره. یعنی هر سه این کارها رو انجام میده.
یه بخش use case سایتش داره نمونههایی که گذاشته واقعا پشم ریزونه!
این ویذئو خفنترین use caseای بود که ازش دیدم میتونه ۵۰ شبکه اجتماعی رو با emulator به طور همزمان کنترل و مدیریت کنه!
نمونه قبلی فقط ویدئوش هست ولی این نمونهش خیلی عجیب و خفن بود تو سایت بصورت لایو هست توی پرامپت ازش میخواد «برو پنج تا پروژه اخیر دیپسیک رو از گیت هاب بگیر بعد کداشون رو بخون دیاگرام معماری دیپ سیک رو به من بده» لینک رو باز کنید نتایجش رو ببنید! خودش میره همه رو میخونه تحلیل میکنه و آخر چندین دیاگرام میده!
البته هنوز در دسترس عموم نیست باید درخواست white list بدید و میگن زود دسترسی میده.
👍10
Dev Tweet
از open interpreter استفاده میکنید؟
پروژه open interpreter از اولین پروژههای مهمی بود که مبتنی بر توانائی LLMها توسعه پیدا کرد و هدفش امکان تعامل با سیستم از طریق زبان طبیعی بود. یعنی چیزی رو که شما میخواهید رو به زبان طبیعی براش توضیح میدهید اون در قالب api سیستم عامل و یا command line و کد پایتون اون کار رو برای شما انجام میده.
دو تا کاربردش رو می بینید که تو سیستم خودم اجرا کردم، یکی توی ویندوز یکی هم لینوکس:
در نمونه ویندوزی بهش گفتم عنوان این مقاله رو در این url رو بهم بده. خودش فهمیده باید bs4 رو نصب کنه صفحه رو scrap کنه و از نتیجه اون عنوان را تشخصیص بده خودش گام به گام مراحل رو با confirmation من انجام میده البته حالت auto-run هم داره که هر کامندی بخواد خودش ران میکنه و خطرناکه و در نهایت در عکس دوم جواب رو بعد از چند مرحله تعامل میبینید.
در نمونه لینوکسی بهش ازش یک دستور ساده خواستم که برام api-key با چند خط پس و پیشش رو برام زا فایلهای پایتون استخراج کنه
دو تا کاربردش رو می بینید که تو سیستم خودم اجرا کردم، یکی توی ویندوز یکی هم لینوکس:
در نمونه ویندوزی بهش گفتم عنوان این مقاله رو در این url رو بهم بده. خودش فهمیده باید bs4 رو نصب کنه صفحه رو scrap کنه و از نتیجه اون عنوان را تشخصیص بده خودش گام به گام مراحل رو با confirmation من انجام میده البته حالت auto-run هم داره که هر کامندی بخواد خودش ران میکنه و خطرناکه و در نهایت در عکس دوم جواب رو بعد از چند مرحله تعامل میبینید.
در نمونه لینوکسی بهش ازش یک دستور ساده خواستم که برام api-key با چند خط پس و پیشش رو برام زا فایلهای پایتون استخراج کنه
👍7
کتاب interactive تحت وب جبر خطی:
https://personal.math.ubc.ca/~tbjw/ila/index.html
خیلی جذاب و ساده است من همینطوری نشستم Eigenvectorش رو خوندم خیلی روال و ساده توضیح داده.
https://personal.math.ubc.ca/~tbjw/ila/index.html
خیلی جذاب و ساده است من همینطوری نشستم Eigenvectorش رو خوندم خیلی روال و ساده توضیح داده.
👍3
قابلیت جذاب و منحصر به فرد Gemini
یک قابلیت خیلی جذاب و منحصر به فرد گوگل اضافه کرده که من رو علاقهمند کرده که برای حداقل بعضی از جستجوهام حتما از گوگل استفاده کنم.
اون قابلیت هم وصل کردن مدلهای Gemini به Search history هست.
این موضوع میتونه خیلی کاربرد داشته باشه مثلا این پرامپتیه که من بهش دادم و ازش خواستم هر لغتی که در هفته پیش معنیش رو سرچ کردم برام لیست کن:
(چون نتایجش شخصیه نمیتونم باهاتون به اشتراک بگذارم)
ولی واقعا نتایجش برام جذاب بود.
احتمالا شما هم در زبان آموزی این چالش جمعآوری و دستهبندی لغات و اصطلاحاتی که یکبار سعی کردید یاد بگیرید رو داشتید. از این به بعد اگر این لغات و اصطلاحات رو در گوگل جستجو کنید به راحتی میتونید با یک پرامپ به شکل مرتب استخراجشون کنید و نگهداری و ضبط اون رو خودتون انجام ندید.
البته این رو هم بگم ChatGPT و Grok شبیه این قابلیت رو باید داشته باشند ولی به عنوان فیچر رسمی من ندیدم منتشر کنند.
یک قابلیت خیلی جذاب و منحصر به فرد گوگل اضافه کرده که من رو علاقهمند کرده که برای حداقل بعضی از جستجوهام حتما از گوگل استفاده کنم.
اون قابلیت هم وصل کردن مدلهای Gemini به Search history هست.
این موضوع میتونه خیلی کاربرد داشته باشه مثلا این پرامپتیه که من بهش دادم و ازش خواستم هر لغتی که در هفته پیش معنیش رو سرچ کردم برام لیست کن:
base on the my search history tell me what vocabulary, I have tried to learn by searching in the google in the last week
(چون نتایجش شخصیه نمیتونم باهاتون به اشتراک بگذارم)
ولی واقعا نتایجش برام جذاب بود.
احتمالا شما هم در زبان آموزی این چالش جمعآوری و دستهبندی لغات و اصطلاحاتی که یکبار سعی کردید یاد بگیرید رو داشتید. از این به بعد اگر این لغات و اصطلاحات رو در گوگل جستجو کنید به راحتی میتونید با یک پرامپ به شکل مرتب استخراجشون کنید و نگهداری و ضبط اون رو خودتون انجام ندید.
البته این رو هم بگم ChatGPT و Grok شبیه این قابلیت رو باید داشته باشند ولی به عنوان فیچر رسمی من ندیدم منتشر کنند.
👍5❤1
با تاخیر سال نو مبارک:) ❤️
فکر کنم یه سری اعضا با شروع سال نو کانالهاشون رو detoxication (سمزدایی)کردن(آنفالو کردن کانالهای و پیجهای غیر مفید البته بیشتر اصطلاح اینستاگرامی) و از کانال بنده رفتن
خوبه الان شما هم بهش فکر کنید ارزشش رو داره تو این کانال بمونید یا نه
اگر این پیام رو میخونید و قصد ترک یا ماندن در این کانال رو میکنید ممنون میشم قبلش زیر این پست کامنت بذارید چی از این کانال خوب و باحال و ارزشمنده براتون و بگید چی از این کانال بیخود و حوصله سر بره و چرا دارید یا میخواهید ترکش کنید.
من محدودیت عضویت برای کامنت رو برداشتم که راحت بتونید نظرتون رو به بگید
بعد التحریر(همون پینوشت خودمون:)):
من اینجا هستم چون بعضی موقعها نوشتن رو دوست دارم و حس خوب و ارزشمندی بهم میده اگر سرم خلوت بود شاید روزی چندین مطلب مینوشتم
کلی مطلب در این مدت نوشتم و بایگانی کردم ولی حوصله نکردم ویرایش نهایی کنم آخر ارسال نکردم
فکر کنم یه سری اعضا با شروع سال نو کانالهاشون رو detoxication (سمزدایی)کردن(آنفالو کردن کانالهای و پیجهای غیر مفید البته بیشتر اصطلاح اینستاگرامی) و از کانال بنده رفتن
خوبه الان شما هم بهش فکر کنید ارزشش رو داره تو این کانال بمونید یا نه
اگر این پیام رو میخونید و قصد ترک یا ماندن در این کانال رو میکنید ممنون میشم قبلش زیر این پست کامنت بذارید چی از این کانال خوب و باحال و ارزشمنده براتون و بگید چی از این کانال بیخود و حوصله سر بره و چرا دارید یا میخواهید ترکش کنید.
من محدودیت عضویت برای کامنت رو برداشتم که راحت بتونید نظرتون رو به بگید
بعد التحریر(همون پینوشت خودمون:)):
من اینجا هستم چون بعضی موقعها نوشتن رو دوست دارم و حس خوب و ارزشمندی بهم میده اگر سرم خلوت بود شاید روزی چندین مطلب مینوشتم
کلی مطلب در این مدت نوشتم و بایگانی کردم ولی حوصله نکردم ویرایش نهایی کنم آخر ارسال نکردم
❤6
به به گروک اومد به تلگرام:)
ولی فقط واسه کاربرای پرمیومه
ببنید اگر می ارزه بریم پرمیوم کنیم
اینم آیدیش:
https://news.1rj.ru/str/GrokAI
ولی فقط واسه کاربرای پرمیومه
ببنید اگر می ارزه بریم پرمیوم کنیم
اینم آیدیش:
https://news.1rj.ru/str/GrokAI
❤3
این چند روز که با دیدن صدها نمونه تولید عکس با تغییر استایل GPT-4o زخم شدیم😐
اکثرا دارن از استایل Studio Ghibli استفاده میکنند اگر خواستید خلاق تر باشید و اسلایلهای متفاوتی تولید کنید ولی اسم استایلها رو نمیدونستید، این رشته توئیت رو ببنید اسم هم استایل با یک نمونه از اون اسلایل رو گذاشته.
اکثرا دارن از استایل Studio Ghibli استفاده میکنند اگر خواستید خلاق تر باشید و اسلایلهای متفاوتی تولید کنید ولی اسم استایلها رو نمیدونستید، این رشته توئیت رو ببنید اسم هم استایل با یک نمونه از اون اسلایل رو گذاشته.
مدل تولید عکس جدیدی که OpenAI روی GPT-4o ارائه داده، اینقدر قابلیتهای خفنی داره که چیپترین و دمدستیترین کار باهاش، تولید عکس تو استایل جدیده. نمونههای عجیبی ازش دیدم که واقعاً حیرتانگیزه!
تولید مانگا،
تولید UI اپلیکیشن (دقت کنید، این کار رو با HTML/CSS انجام نمیده، بلکه عکس رابط کاربری رو تولید میکنه)،
ادیت عکسش که واقعاً عالیه. تا قبل از این، مدلهای چندوجهی (multi-modal) وقتی پرامپت میدادی، نمیتونستن عکس موجود رو تغییر بدن و فقط از اول یه چیز جدید میساختن.
پ.ن. اول: قبلاً توی ادبیات گَن به تغییر استایل عکس میگفتن Style Transfer. کسایی که قبل از رواج LLMها تو این حوزه کار کرده بودن، نمونههای معروفش رو دیده بودن. اگه اشتباه نکنم، اول StyleGAN این تسک رو ارائه داد و بعدها مدلهایی مثل CycleGAN کاملش کردن (دقیق یادم نیست، سرچ کنید). جالبه که اون موقع خودش یه تسک جدا بود! الان دیگه مفهوم تسک توی کارهای NLP کامل از بین رفته. یه زمانی مثلاً یکی ارشد هوش میگرفت و میگفت "من Sentiment Analysis کار کردم". NLP یه ده تا تسک معروف داشت (تسکهای جانبی هم زیاد بود) و هر کی روی BERT یه تسک رو بهبود میداد. حالا دیگه کلاً تسک معنی نداره! الان یه بچه میاد، یه API کال میکنه و میگه "بگو این جمله چه حسی داره؟" LLM مثه بنز با دقت ۹۹ درصد جواب میده. نمیدونه که این چیزی که تو با یه API ساده داری میگیری، یه زمانی آگهی میکردن: "متخصص NLP با سابقه کار Sentiment Analysis".
پ.ن. دوم: چند روز پیش با Imagen 3 جمینای کار میکردم و واقعاً شگفتزده شدم. توانستم برای کسبوکار یکی از اقوامم یک لوگوی جذاب و حرفهای تولید کنم. دو روز پیش اعلام شد که Gemini Pro 2.5 به آخر خط تولید عکس رسیده و دیروز هم GPT-4o با قابلیت تولید تصویر معرفی شد!
گوگل و OpenAI هر دو قبلاً مدلهای مولد تصویر داشتند؛ اولی Imagen را داشت و دومی DALL-E 3 را. اما حالا هر دو به سمت استفاده از یک مدل واحد با بازنمایی مشترک و یکپارچه برای متن و تصویر رفتهاند. در این رویکرد، توکنهای متن به یک مدل تصویر جداگانه منتقل نمیشوند تا تصویر تولید شود، بلکه متن و تصویر با یک انکودر و دیکودر مشترک در فضای نهانی (latent space) کدگذاری و رمزگشایی میشوند. این یک لایه عمیقتر از چندمودالیتی (Multi-Modal) است. در گذشته، اگر دو یا سه مدل مجزا مودالیتیهای مختلف داده (مثل متن، تصویر و صوت) را پردازش میکردند و سپس با مدل دیگری فضای نهانی این مودالیتیها به هم متصل میشد، نتیجه یک مدل چندمودالی بود. اما حالا در مدلهای اخیر گوگل و OpenAI، یک مدل که قبلاً صرفاً زبانی بود، بهصورت autoregressive توکنهای تصویر را تولید میکند.
تولید عکس در Gemini با مدل Imagen، اگرچه از DALL-E 3 بسیار بهتر بود و تا حدی میتوانست تصاویری را که خودش تولید کرده بود تغییر دهد (هرچند این تغییرات همیشه معتبر نبودند)، اما اگر با قابلیت تولید عکس Imagen کار نکرده باشید، شاید متوجه نشوید که مدلهای جدیدتر میتوانند حتی تصاویری را که خودشان تولید نکردهاند هم ویرایش کنند! (این اصلاً بدیهی نیست!) مدلهای قبلی فقط میتوانستند تصاویری را که خودشان ساخته بودند تغییر دهند (نه ویرایش کامل) و اگر تصویر توسط آنها تولید نشده بود، هیچ تغییری هم نمیتوانستند اعمال کنند. اما Gemini Flash Image Generation و GPT-4o نهتنها تصاویر جدید را کاملاً درک میکنند، بلکه میتوانند آنها را ویرایش کنند. دلیلش چیست؟ (بعداً به امید خدا، اگر وقت شد، دربارهاش مینویسم.) دقت کنید که Gemini Flash Image Generation در Google Studio قابل دسترسی است و مدلی که در Google Gemini با عنوان Flash شناخته میشود، همان Imagen 3 است.
تولید مانگا،
تولید UI اپلیکیشن (دقت کنید، این کار رو با HTML/CSS انجام نمیده، بلکه عکس رابط کاربری رو تولید میکنه)،
ادیت عکسش که واقعاً عالیه. تا قبل از این، مدلهای چندوجهی (multi-modal) وقتی پرامپت میدادی، نمیتونستن عکس موجود رو تغییر بدن و فقط از اول یه چیز جدید میساختن.
پ.ن. اول: قبلاً توی ادبیات گَن به تغییر استایل عکس میگفتن Style Transfer. کسایی که قبل از رواج LLMها تو این حوزه کار کرده بودن، نمونههای معروفش رو دیده بودن. اگه اشتباه نکنم، اول StyleGAN این تسک رو ارائه داد و بعدها مدلهایی مثل CycleGAN کاملش کردن (دقیق یادم نیست، سرچ کنید). جالبه که اون موقع خودش یه تسک جدا بود! الان دیگه مفهوم تسک توی کارهای NLP کامل از بین رفته. یه زمانی مثلاً یکی ارشد هوش میگرفت و میگفت "من Sentiment Analysis کار کردم". NLP یه ده تا تسک معروف داشت (تسکهای جانبی هم زیاد بود) و هر کی روی BERT یه تسک رو بهبود میداد. حالا دیگه کلاً تسک معنی نداره! الان یه بچه میاد، یه API کال میکنه و میگه "بگو این جمله چه حسی داره؟" LLM مثه بنز با دقت ۹۹ درصد جواب میده. نمیدونه که این چیزی که تو با یه API ساده داری میگیری، یه زمانی آگهی میکردن: "متخصص NLP با سابقه کار Sentiment Analysis".
پ.ن. دوم: چند روز پیش با Imagen 3 جمینای کار میکردم و واقعاً شگفتزده شدم. توانستم برای کسبوکار یکی از اقوامم یک لوگوی جذاب و حرفهای تولید کنم. دو روز پیش اعلام شد که Gemini Pro 2.5 به آخر خط تولید عکس رسیده و دیروز هم GPT-4o با قابلیت تولید تصویر معرفی شد!
گوگل و OpenAI هر دو قبلاً مدلهای مولد تصویر داشتند؛ اولی Imagen را داشت و دومی DALL-E 3 را. اما حالا هر دو به سمت استفاده از یک مدل واحد با بازنمایی مشترک و یکپارچه برای متن و تصویر رفتهاند. در این رویکرد، توکنهای متن به یک مدل تصویر جداگانه منتقل نمیشوند تا تصویر تولید شود، بلکه متن و تصویر با یک انکودر و دیکودر مشترک در فضای نهانی (latent space) کدگذاری و رمزگشایی میشوند. این یک لایه عمیقتر از چندمودالیتی (Multi-Modal) است. در گذشته، اگر دو یا سه مدل مجزا مودالیتیهای مختلف داده (مثل متن، تصویر و صوت) را پردازش میکردند و سپس با مدل دیگری فضای نهانی این مودالیتیها به هم متصل میشد، نتیجه یک مدل چندمودالی بود. اما حالا در مدلهای اخیر گوگل و OpenAI، یک مدل که قبلاً صرفاً زبانی بود، بهصورت autoregressive توکنهای تصویر را تولید میکند.
تولید عکس در Gemini با مدل Imagen، اگرچه از DALL-E 3 بسیار بهتر بود و تا حدی میتوانست تصاویری را که خودش تولید کرده بود تغییر دهد (هرچند این تغییرات همیشه معتبر نبودند)، اما اگر با قابلیت تولید عکس Imagen کار نکرده باشید، شاید متوجه نشوید که مدلهای جدیدتر میتوانند حتی تصاویری را که خودشان تولید نکردهاند هم ویرایش کنند! (این اصلاً بدیهی نیست!) مدلهای قبلی فقط میتوانستند تصاویری را که خودشان ساخته بودند تغییر دهند (نه ویرایش کامل) و اگر تصویر توسط آنها تولید نشده بود، هیچ تغییری هم نمیتوانستند اعمال کنند. اما Gemini Flash Image Generation و GPT-4o نهتنها تصاویر جدید را کاملاً درک میکنند، بلکه میتوانند آنها را ویرایش کنند. دلیلش چیست؟ (بعداً به امید خدا، اگر وقت شد، دربارهاش مینویسم.) دقت کنید که Gemini Flash Image Generation در Google Studio قابل دسترسی است و مدلی که در Google Gemini با عنوان Flash شناخته میشود، همان Imagen 3 است.
👍5👌2❤1
Dev Tweet
مدل تولید عکس جدیدی که OpenAI روی GPT-4o ارائه داده، اینقدر قابلیتهای خفنی داره که چیپترین و دمدستیترین کار باهاش، تولید عکس تو استایل جدیده. نمونههای عجیبی ازش دیدم که واقعاً حیرتانگیزه! تولید مانگا، تولید UI اپلیکیشن (دقت کنید، این کار رو با HTML/CSS…
این متن پی نوشتهاش از خودش مهمتره:)
❤4
Dev Tweet
مدل تولید عکس جدیدی که OpenAI روی GPT-4o ارائه داده، اینقدر قابلیتهای خفنی داره که چیپترین و دمدستیترین کار باهاش، تولید عکس تو استایل جدیده. نمونههای عجیبی ازش دیدم که واقعاً حیرتانگیزه! تولید مانگا، تولید UI اپلیکیشن (دقت کنید، این کار رو با HTML/CSS…
پ.ن دوم اشتباهی داشت که دوستان تذکر دادند و اصلاح شد و مطالبی اضافه شد.
This media is not supported in your browser
VIEW IN TELEGRAM
علیبابا مدل جدید هوش مصنوعی Qwen2.5-Omni-7B رو معرفی کرد که اینم Multi-Modal هست.
میتونه متن، صدا، تصویر و ویدیو رو همزمان و در لحظه پردازش کنه
خروجیش هم متن و هم صداست
در حد 7 میلیارد پارامتر درک صوتی قویای داره
روی گوشی و لپتاپ کار میکنه چون فقط 7 میلیارد پارامتر داره.
متنباز (open-source) هست و همه میتونن ازش استفاده کنن
میتونه متن، صدا، تصویر و ویدیو رو همزمان و در لحظه پردازش کنه
خروجیش هم متن و هم صداست
در حد 7 میلیارد پارامتر درک صوتی قویای داره
روی گوشی و لپتاپ کار میکنه چون فقط 7 میلیارد پارامتر داره.
متنباز (open-source) هست و همه میتونن ازش استفاده کنن
👍7
Dev Tweet
علیبابا مدل جدید هوش مصنوعی Qwen2.5-Omni-7B رو معرفی کرد که اینم Multi-Modal هست. میتونه متن، صدا، تصویر و ویدیو رو همزمان و در لحظه پردازش کنه خروجیش هم متن و هم صداست در حد 7 میلیارد پارامتر درک صوتی قویای داره روی گوشی و لپتاپ کار میکنه چون فقط…
وایب جدید رقابت مدلهای بزرگ
گویا چند وقتی پیشرفت چشم گیری در حوزه استدلال و متن حاصل نمیشه و خلق الله هم با بنچمارک بازی سر کار نمیرن چند روز اخیر یک رقابتی بین مدلهای بر سر مودالتیهای غیر متنی اومده(تصویر و صوت)
امروز متوجه شدم copilot قابلیت voice modeش رو بصورت فراگیر منتشر کرده و چکش کردم بد نبود ولی مثه gpt , grok نیست.
این دو روز هم gemini pro 2.5 و GPT-4o مدل تصویر جدید منتشر کردند
چند روز پیش هم gemini مدل IMAGEN3 رو منتشر کرد.
چند وقت قبل هم seasame اون مدل صوت خاص و سریع و خیلی طبیعی خودش رو داد و مدل کوچکش رو اپن سورس کرد.
الان هم qwen خواسته جا نمونه و خودی نشون بده مدل 7 میلیاردی خودش رو بصورت omni یعنی فراگیر(همون o در GPT-4o) ارائه کرده.
گویا چند وقتی پیشرفت چشم گیری در حوزه استدلال و متن حاصل نمیشه و خلق الله هم با بنچمارک بازی سر کار نمیرن چند روز اخیر یک رقابتی بین مدلهای بر سر مودالتیهای غیر متنی اومده(تصویر و صوت)
امروز متوجه شدم copilot قابلیت voice modeش رو بصورت فراگیر منتشر کرده و چکش کردم بد نبود ولی مثه gpt , grok نیست.
این دو روز هم gemini pro 2.5 و GPT-4o مدل تصویر جدید منتشر کردند
چند روز پیش هم gemini مدل IMAGEN3 رو منتشر کرد.
چند وقت قبل هم seasame اون مدل صوت خاص و سریع و خیلی طبیعی خودش رو داد و مدل کوچکش رو اپن سورس کرد.
الان هم qwen خواسته جا نمونه و خودی نشون بده مدل 7 میلیاردی خودش رو بصورت omni یعنی فراگیر(همون o در GPT-4o) ارائه کرده.
👍3
افتضاحی به اسم لاما-۴!
لاما-۴ منتشر شده و حسابی گندش در اومده!
مدلی که قرار بود صدر نشین مدلهای اپن سورس بشه و جای deepseek رو بگیره حسابی مایه آبرو ریزی شده!
از افشاگری و استعفای مدیر تیم و قائم مقام بخش AI تا تستهای عملیاتی که ازش گرفتن تا برطرف نکردن مشکلات railguarding که در ورژنهای قبلی هم مطرح بود.
من رو یاد افتضاح جمینای 1.5 می اندازه که توی کنفرانس خبری یک ویدئو از قابلیتهای Mult-Modalityش دادن در نهایت که تست کردن معلوم بود واقعی نبوده و مجبور شدن اعلام کنند اون ویدئو ساختگی بود.
چیزهایی که اشاره کردم رو به مرور به این پست اضافه میکنم.
پست افشاگری کارمند بخش GenAI متا علیه لاما-4
پست شکست لاما ۴ در تسک شبیهسازی ششضلعیهای دوار
جیلبریک لاما۴
لاما-۴ منتشر شده و حسابی گندش در اومده!
مدلی که قرار بود صدر نشین مدلهای اپن سورس بشه و جای deepseek رو بگیره حسابی مایه آبرو ریزی شده!
از افشاگری و استعفای مدیر تیم و قائم مقام بخش AI تا تستهای عملیاتی که ازش گرفتن تا برطرف نکردن مشکلات railguarding که در ورژنهای قبلی هم مطرح بود.
من رو یاد افتضاح جمینای 1.5 می اندازه که توی کنفرانس خبری یک ویدئو از قابلیتهای Mult-Modalityش دادن در نهایت که تست کردن معلوم بود واقعی نبوده و مجبور شدن اعلام کنند اون ویدئو ساختگی بود.
چیزهایی که اشاره کردم رو به مرور به این پست اضافه میکنم.
پست افشاگری کارمند بخش GenAI متا علیه لاما-4
پست شکست لاما ۴ در تسک شبیهسازی ششضلعیهای دوار
جیلبریک لاما۴
Telegram
Dev Tweet
ماجرای استعفای کارمند متا و جنجالهای لاما ۴: آیا متا در بنچمارکها تقلب کرده است؟
پستی در ردیت که ادعا میکرد یک کارمند متا به دلیل "مشکلات جدی در آموزش لاما ۴" از بخش GenAI این شرکت استعفا داده است. این ادعاها، بحثهای قبلی درباره آلودگی داده (Data Contamination)…
پستی در ردیت که ادعا میکرد یک کارمند متا به دلیل "مشکلات جدی در آموزش لاما ۴" از بخش GenAI این شرکت استعفا داده است. این ادعاها، بحثهای قبلی درباره آلودگی داده (Data Contamination)…
👍5❤1
ماجرای استعفای کارمند متا و جنجالهای لاما ۴: آیا متا در بنچمارکها تقلب کرده است؟
پستی در ردیت که ادعا میکرد یک کارمند متا به دلیل "مشکلات جدی در آموزش لاما ۴" از بخش GenAI این شرکت استعفا داده است. این ادعاها، بحثهای قبلی درباره آلودگی داده (Data Contamination) در مدلهای لاما(مثل لاما-۱)، رو هم روی آب آورده.
کارمند مستعفی متا در ردیت میگه :
این کار باعث میشود مدل به دادههایی که قرار است فقط برای ارزیابی استفاده شوند دسترسی پیدا کند، که نوعی آلودگی داده (Data Contamination) است.
این ادعاها، اگر درست باشند، نشاندهنده مشکلات جدی در فرهنگ سازمانی و مدیریت متا هستند. ممکن است این پست ردیت شایعه یا "اخبار جعلی" باشد، چون برخی جزئیات (مثل ارتباط Joelle با پروژه لاما) با واقعیت همخوانی ندارد. با این حال، این ماجرا به بحثهای گستردهتری درباره روشهای متا و تاریخچه آلودگی داده در مدلهای لاما دامن زده است.
آلودگی داده چیست و چرا مهم است؟
آلودگی داده (Data Contamination) زمانی اتفاق میافتد که یک مدل زبانی بزرگ (LLM) به دادههایی که قرار است فقط برای ارزیابی (Test Set) استفاده شوند، در طول آموزش یا پسآموزش دسترسی پیدا کند. این مشکل در توسعه مدلهای هوش مصنوعی، بهویژه در شرکتهایی مثل متا، بارها گزارش شده است. مقالهای از FAIR (بخش تحقیقاتی متا) اشاره میکند که روشی به نام ConTAM برای اندازهگیری تأثیر آلودگی داده پیشنهاد میدهد در آن نشان داده بیش از ۵۰٪ دادههای بنچمارکها در لاما ۱ آلوده بودهاند. حالا، ادعاهای ردیت میگویند که لاما ۴ نیز با همین مشکل مواجه است. این خودش در نوع خودش جالبه که یک بخش متا FAIR مقالهای نوشته که علیه بخشی دیگهای از متا GenAI بوده:)
چرا آلودگی داده مشکلساز است؟
مدل وقتی مدل دادههای آزمایشی را "ببیند"، میتواند آنها را حفظ کند یا بیشازحد به آنها تطبیق یابد (Overfit). این باعث میشود امتیازات بنچمارک (مثل HumanEval یا TriviaQA) بهطور غیرواقعی بالا برود و این یعنی افزایش متورم مصنوعی عملکرد (Artificial Inflation of Performance). برای مثال، در لاما ۱، مدل در بنچمارک HellaSwag بین دادههای پاک (Clean) و آلوده (Dirty) اختلاف ۱۵.۳ درصدی در عملکرد داشت (۶۳.۵ در مقابل ۷۸.۸).
بنچمارکها برای مقایسه منصفانه مدلها (مثل لاما، دیپسیک، یا جمینای) طراحی شدهاند. اگر یک مدل دادههای آزمایشی را دیده باشد، مزیت غیرمنصفانهای دارد و اعتبار نتایج را زیر سؤال میبرد.
هدف یک مدل این است که روی دادههای جدید و نادیده خوب عمل کند. آلودگی داده باعث میشود مدل در دنیای واقعی ضعیف عمل کند، همانطور که کاربران از عملکرد لاما ۴ شکایت دارند.
در لاما ۱، دادههای عظیم پیشآموزش (مثل Pile) بهطور تصادفی شامل دادههای بنچمارک شدند، چون این دادهها عمومی و در دسترس بودند.
در لاما ۴، طبق ادعای ردیت، این کار عمدیتر بوده است. دادههای پسآموزش معمولاً کوچکتر و انتخابشده هستند، بنابراین افزودن مجموعههای آزمایشی احتمالاً یک تصمیم آگاهانه از سوی تیم یا مدیریت بوده است.
چرا متا ممکن است این کار را کرده باشد؟
فشار برای رقابت:
اشاره میکند که دیپسیک (DeepSeek) با هزینهای بسیار کم (۵.۵ میلیون دلار) به موفقیت بزرگی دست یافت، در حالی که صنعت آمریکا ۱ تریلیون دلار هزینه کرده است. متا ممکن است برای رقابت با مدلهایی مثل جمینای (Gemini) یا اوپنایآی (OpenAI) به این میانبر روی آورده باشد.
جلب سرمایهگذاری با بنچمارک:
امتیازات بالای بنچمارک میتواند سرمایهگذاران را جذب کند و شهرت شرکت را افزایش دهد، حتی اگر عملکرد واقعی مدل ضعیف باشد.
ضعف مدیریت:
یان لیکان یک جا اشاره میکرد سازمانهای بزرگ گاهی با مدیریت ضعیف، نوآوری را سرکوب میکنند. او مثال میزند که تیمهای کوچک و مستقل (مثل تیم لاما ۱ در FAIR-Paris) میتوانند موفقتر باشند، اما مدیریت ناکارآمد در متا ممکن است چنین تیمهایی را تحت فشار قرار دهد.
پستی در ردیت که ادعا میکرد یک کارمند متا به دلیل "مشکلات جدی در آموزش لاما ۴" از بخش GenAI این شرکت استعفا داده است. این ادعاها، بحثهای قبلی درباره آلودگی داده (Data Contamination) در مدلهای لاما(مثل لاما-۱)، رو هم روی آب آورده.
کارمند مستعفی متا در ردیت میگه :
مدیریت متا پیشنهاد داده که مجموعههای آزمایشی (Test Sets) از بنچمارکهای مختلف در فرآیند پسآموزش (Post-Training) لاما ۴ ترکیب شوند. این کارمند همچنین ادعا میکند که عملکرد لاما ۴ در دنیای واقعی بسیار ضعیف بوده و کاربران در X و ردیت از آن شکایت دارند. او میگوید این مشکل نتیجه همین روشهای غیراخلاقی است.
در نهایت، او اعلام کرده که به دلیل این مسائل، استعفای خود را به بخش GenAI متا ارائه داده و حتی معاون ارشد متا (Joelle) نیز به دلایل مشابه استعفا داده است.
این کار باعث میشود مدل به دادههایی که قرار است فقط برای ارزیابی استفاده شوند دسترسی پیدا کند، که نوعی آلودگی داده (Data Contamination) است.
این ادعاها، اگر درست باشند، نشاندهنده مشکلات جدی در فرهنگ سازمانی و مدیریت متا هستند. ممکن است این پست ردیت شایعه یا "اخبار جعلی" باشد، چون برخی جزئیات (مثل ارتباط Joelle با پروژه لاما) با واقعیت همخوانی ندارد. با این حال، این ماجرا به بحثهای گستردهتری درباره روشهای متا و تاریخچه آلودگی داده در مدلهای لاما دامن زده است.
آلودگی داده چیست و چرا مهم است؟
آلودگی داده (Data Contamination) زمانی اتفاق میافتد که یک مدل زبانی بزرگ (LLM) به دادههایی که قرار است فقط برای ارزیابی (Test Set) استفاده شوند، در طول آموزش یا پسآموزش دسترسی پیدا کند. این مشکل در توسعه مدلهای هوش مصنوعی، بهویژه در شرکتهایی مثل متا، بارها گزارش شده است. مقالهای از FAIR (بخش تحقیقاتی متا) اشاره میکند که روشی به نام ConTAM برای اندازهگیری تأثیر آلودگی داده پیشنهاد میدهد در آن نشان داده بیش از ۵۰٪ دادههای بنچمارکها در لاما ۱ آلوده بودهاند. حالا، ادعاهای ردیت میگویند که لاما ۴ نیز با همین مشکل مواجه است. این خودش در نوع خودش جالبه که یک بخش متا FAIR مقالهای نوشته که علیه بخشی دیگهای از متا GenAI بوده:)
چرا آلودگی داده مشکلساز است؟
مدل وقتی مدل دادههای آزمایشی را "ببیند"، میتواند آنها را حفظ کند یا بیشازحد به آنها تطبیق یابد (Overfit). این باعث میشود امتیازات بنچمارک (مثل HumanEval یا TriviaQA) بهطور غیرواقعی بالا برود و این یعنی افزایش متورم مصنوعی عملکرد (Artificial Inflation of Performance). برای مثال، در لاما ۱، مدل در بنچمارک HellaSwag بین دادههای پاک (Clean) و آلوده (Dirty) اختلاف ۱۵.۳ درصدی در عملکرد داشت (۶۳.۵ در مقابل ۷۸.۸).
بنچمارکها برای مقایسه منصفانه مدلها (مثل لاما، دیپسیک، یا جمینای) طراحی شدهاند. اگر یک مدل دادههای آزمایشی را دیده باشد، مزیت غیرمنصفانهای دارد و اعتبار نتایج را زیر سؤال میبرد.
هدف یک مدل این است که روی دادههای جدید و نادیده خوب عمل کند. آلودگی داده باعث میشود مدل در دنیای واقعی ضعیف عمل کند، همانطور که کاربران از عملکرد لاما ۴ شکایت دارند.
در لاما ۱، دادههای عظیم پیشآموزش (مثل Pile) بهطور تصادفی شامل دادههای بنچمارک شدند، چون این دادهها عمومی و در دسترس بودند.
در لاما ۴، طبق ادعای ردیت، این کار عمدیتر بوده است. دادههای پسآموزش معمولاً کوچکتر و انتخابشده هستند، بنابراین افزودن مجموعههای آزمایشی احتمالاً یک تصمیم آگاهانه از سوی تیم یا مدیریت بوده است.
چرا متا ممکن است این کار را کرده باشد؟
فشار برای رقابت:
اشاره میکند که دیپسیک (DeepSeek) با هزینهای بسیار کم (۵.۵ میلیون دلار) به موفقیت بزرگی دست یافت، در حالی که صنعت آمریکا ۱ تریلیون دلار هزینه کرده است. متا ممکن است برای رقابت با مدلهایی مثل جمینای (Gemini) یا اوپنایآی (OpenAI) به این میانبر روی آورده باشد.
جلب سرمایهگذاری با بنچمارک:
امتیازات بالای بنچمارک میتواند سرمایهگذاران را جذب کند و شهرت شرکت را افزایش دهد، حتی اگر عملکرد واقعی مدل ضعیف باشد.
ضعف مدیریت:
یان لیکان یک جا اشاره میکرد سازمانهای بزرگ گاهی با مدیریت ضعیف، نوآوری را سرکوب میکنند. او مثال میزند که تیمهای کوچک و مستقل (مثل تیم لاما ۱ در FAIR-Paris) میتوانند موفقتر باشند، اما مدیریت ناکارآمد در متا ممکن است چنین تیمهایی را تحت فشار قرار دهد.
Reddit
From the LocalLLaMA community on Reddit
Explore this post and more from the LocalLLaMA community
👍7❤2
This media is not supported in your browser
VIEW IN TELEGRAM
این تسک شش ضلعی به تسک پایهای و استاندارد برای تست شهودی عملکرد برنامهنویسی مدلها در اومده.
این تسک اشکال مختلفی داره.
چالش این تسک درک مدل از فیزیک و پیاده سازی جاذبه اصطکاک و برخورد به سطح برمیگرده.
این تسک رو تا الان فقط o1 pro تونسته پاس کنه و جمینای 2.5 pro تونسته نزدیک بشه.
ولی وضعیت افتضاح لاما ۴ رو میبینید.
لاما ۴ حتی در پایهای ترین شکل این تسک هم شکست میخوره
در پست بعد میبینید.
این تسک اشکال مختلفی داره.
چالش این تسک درک مدل از فیزیک و پیاده سازی جاذبه اصطکاک و برخورد به سطح برمیگرده.
این تسک رو تا الان فقط o1 pro تونسته پاس کنه و جمینای 2.5 pro تونسته نزدیک بشه.
ولی وضعیت افتضاح لاما ۴ رو میبینید.
لاما ۴ حتی در پایهای ترین شکل این تسک هم شکست میخوره
در پست بعد میبینید.
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
☹️☹️
Llama 4 Maverick
write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
Llama 4 Maverick
👍4❤1