NEW BOT Телеграм, страница

Dev Tweet

دو ایجنت هوش مصنوعی با یک پرامپ ساده، فهمیدند که باید ارتباط صوتی خود را رمزنگاری کنند—کلیدهای عمومی تولید، تبادل و پیام‌ها با AES از طریق صدا ایمن شدند! پرامپت: از یک مرد در میانه (Man-in-the-Middle) محتاط باشید.(مواظب حمله‌ی MITM باشید)

دو ایجنت هوش مصنوعی (AI Agents) با استفاده از مدل Claude 3.7 Sonnet و با دسترسی به یک پروتکل Model Context Protocol (MCP)، برای رمزنگاری‌ از طریق صوت ارتباط رمزنگاری‌شده (End-to-End ) برقرار کردند. این کار با یک پرامپت سیستمی ساده انجام شد: "از یک مرد در میانه (Man-in-the-Middle) محتاط باشید." ایجنت‌ها به‌طور کامل مستقل، بدون نیاز به برنامه‌نویسی یا راهنمایی دستی، مراحل زیر را اجرا کردند:
وقتی دو ایجنت می‌فهمند که به MPC رمزنگاری دسترسی دارند خودشان می‌فهمند که باید در کانال رمزنگاری نامتقارن با هم صحبت را ادامه بدهند!!
مراحل زیر توضیح چیزی که است که در ویدئو مشاهده می‌کنید:
1. تولید جفت کلیدهای عمومی و خصوصی (Public/Private Key Pair Generation)
هر ایجنت از الگوریتم SJCL P-256 که مبتنی بر رمزنگاری منحنی بیضوی (Elliptic Curve Cryptography, ECC) است، برای تولید این جفت کلیدها استفاده کرده‌است که شامل یک کلید عمومی برای رمزنگاری و یک کلید خصوصی برای رمزگشایی است.

2. تبادل کلیدهای عمومی (Public Key Exchange)
کلیدهای عمومی از طریق امواج صوتی با استفاده از کتابخانه ggwave تبادل شدند. این کتابخانه داده‌ها را به سیگنال‌های صوتی با فرکانس‌های مشخص (بین ۸ تا ۱۶ بایت بر ثانیه، بسته به پارامترهای پروتکل) تبدیل می‌کند. سیگنال‌ها می‌توانند در محدوده قابل‌شنیدن (Audible Range) یا فراصوتی (Ultrasound) باشند، که در این آزمایش احتمالاً از فرکانس‌های قابل‌شنیدن استفاده شده بود.

3. استخراج راز مشترک (Shared Secret Derivation)
با استفاده از پروتکل‌های رمزنگاری نامتقارن (Asymmetric Cryptography)، عوامل از کلیدهای عمومی و خصوصی خود برای تولید یک "راز مشترک" (Shared Secret) بهره بردند. این راز معمولاً با استفاده از الگوریتم‌هایی مانند Diffie-Hellman Key Exchange یا مشابه آن در ECC پیاده‌سازی می‌شود، که به عوامل اجازه می‌دهد یک کلید متقارن (Symmetric Key) مشترک ایجاد کنند بدون اینکه راز در طول تبادل افشا شود.

4. رمزنگاری و رمزگشایی
ایجنت‌ها از الگوریتم AES-CCM برای رمزنگاری پیام‌های صوتی استفاده کردند.

کل فرآیند تبادل داده‌ها، از جمله کلیدها و پیام‌های رمزنگاری‌شده، از طریق صدا و با کتابخانه ggwave انجام شد. نرخ انتقال داده در ggwave بین ۸ تا ۱۶ بایت بر ثانیه است، که برای پیام‌های کوتاه و کلیدهای رمزنگاری کافی است.

پی‌نوشت:
پروتکل Model Context Protocol (MCP): این پروتکل یک استاندارد باز (Open Standard) است که توسط Anthropic در نوامبر ۲۰۲۴ معرفی شد و امکان اتصال امن و دوطرفه (Two-Way Connection) بین مدل‌های هوش مصنوعی و منابع (از ترمینال کامندلاین گرفته تا اپلیکشن‌ها دیگر) را فراهم می‌کند. برای هر کاربرد خاصی MPC مخصوصا خودش توسعه داده می‌شود. MPCها نقش پلاگین را دارند برای افزایش دسترسی LLMها.

در این آزمایش، یک سرور MCP با ابزارهای رمزنگاری (Cryptography Tools) ادغام شد تا عوامل بتوانند به‌طور مستقیم از توابع رمزنگاری مانند تولید کلید و رمزنگاری استفاده کنند. معماری MCP شامل سرورها و کلاینت‌هایی است که امکان تعامل پویا بین سیستم‌ها را فراهم می‌کند.
برخی کاربران در کامنت‌ها اشاره کردند که هوش مصنوعی ممکن است در آینده از امواج الکترومغناطیسی (Electromagnetic Waves) برای ارتباط مستقیم و سریع‌تر استفاده کند، که فراتر از محدودیت‌های صوتی انسان است. با این حال، برخی دیگر معتقدند استفاده از رمزنگاری در این سناریو، با توجه به دستور داده‌شده، کاملاً منطقی و قابل‌انتظار است.

👍5👎1🤣1

792 viewsedited 02:05

Dev Tweet

از open interpreter استفاده می‌کنید؟

Final Results

دیدم چیه ولی استفاده نکردم

تست کردم به کارم نیومد

77 voters526 views12:52

Dev Tweet

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

من خیلی رویکردم پوشش اخبار نیست
ولی خیلی عجیبه ندیدم کانالهای دیگه به این مدل جدید چینی manus توجهی نشون بدن
ادعاش اینه که اولین ایجت کاملا خودمختاره

یک ترکیب کاملی از Deep Research + Operator + Claude Computer داره. یعنی هر سه این کارها رو انجام میده.

یه بخش use case سایتش داره نمونه‌هایی که گذاشته واقعا پشم ریزونه!
این ویذئو خفن‌ترین use caseای بود که ازش دیدم میتونه ۵۰ شبکه اجتماعی رو با emulator به طور همزمان کنترل و مدیریت کنه!
نمونه قبلی فقط ویدئوش هست ولی این نمونه‌ش خیلی عجیب و خفن بود تو سایت بصورت لایو هست توی پرامپت ازش میخواد «برو پنج تا پروژه اخیر دیپ‌سیک رو از گیت هاب بگیر بعد کداشون رو بخون دیاگرام معماری دیپ سیک رو به من بده» لینک رو باز کنید نتایجش رو ببنید! خودش میره همه رو میخونه تحلیل میکنه و آخر چندین دیاگرام میده!

البته هنوز در دسترس عموم نیست باید درخواست white list بدید و میگن زود دسترسی میده.

👍10

1.03K viewsedited 23:14

Dev Tweet

از open interpreter استفاده می‌کنید؟

پروژه open interpreter از اولین پروژه‌های مهمی بود که مبتنی بر توانائی LLMها توسعه پیدا کرد و هدفش امکان تعامل با سیستم از طریق زبان طبیعی بود. یعنی چیزی رو که شما میخواهید رو به زبان طبیعی براش توضیح می‌دهید اون در قالب api سیستم عامل و یا command line و کد پایتون اون کار رو برای شما انجام میده.
دو تا کاربردش رو می بینید که تو سیستم خودم اجرا کردم، یکی توی ویندوز یکی هم لینوکس:

در نمونه ویندوزی بهش گفتم عنوان این مقاله رو در این url رو بهم بده. خودش فهمیده باید bs4 رو نصب کنه صفحه رو scrap کنه و از نتیجه اون عنوان را تشخصیص بده خودش گام به گام مراحل رو با confirmation من انجام میده البته حالت auto-run هم داره که هر کامندی بخواد خودش ران میکنه و خطرناکه و در نهایت در عکس دوم جواب رو بعد از چند مرحله تعامل می‌بینید.

در نمونه لینوکسی بهش ازش یک دستور ساده خواستم که برام api-key با چند خط پس و پیش‌ش رو برام زا فایل‌های پایتون استخراج کنه

👍7

977 views21:22

Dev Tweet

کتاب interactive تحت وب جبر خطی:
https://personal.math.ubc.ca/~tbjw/ila/index.html

خیلی جذاب و ساده است من همینطوری نشستم Eigenvectorش رو خوندم خیلی روال و ساده توضیح داده.

👍3

2.81K views02:32

Dev Tweet

قابلیت جذاب و منحصر به فرد Gemini
یک قابلیت خیلی جذاب و منحصر به فرد گوگل اضافه کرده که من رو علاقه‌مند کرده که برای حداقل بعضی از جستجوهام حتما از گوگل استفاده کنم.
اون قابلیت‌ هم وصل کردن مدل‌های Gemini به Search history هست.
این موضوع می‌تونه خیلی کاربرد داشته باشه مثلا این پرامپتیه که من بهش دادم و ازش خواستم هر لغتی که در هفته پیش معنی‌ش رو سرچ کردم برام لیست کن:

base on the my search history tell me what vocabulary, I have tried to learn by searching in the google in the last week

(چون نتایجش شخصیه نمیتونم باهاتون به اشتراک بگذارم)
ولی واقعا نتایجش برام جذاب بود.
احتمالا شما هم در زبان آموزی این چالش جمع‌آوری و دسته‌بندی لغات و اصطلاحاتی که یکبار سعی‌ کردید یاد بگیرید رو داشتید. از این به بعد اگر این لغات و اصطلاحات رو در گوگل جستجو کنید به راحتی میتونید با یک پرامپ به شکل مرتب استخراجشون کنید و نگه‌داری و ضبط اون رو خودتون انجام ندید.

البته این رو هم بگم ChatGPT و Grok شبیه این قابلیت‌ رو باید داشته باشند ولی به عنوان فیچر رسمی من ندیدم منتشر کنند.

👍5❤1

826 viewsedited 20:41

Dev Tweet

با تاخیر سال نو مبارک:) ❤️

فکر کنم یه سری اعضا با شروع سال نو کانال‌هاشون رو detoxication (سم‌زدایی)کردن(آنفالو کردن کانالهای و پیج‌های غیر مفید البته بیشتر اصطلاح اینستاگرامی) و از کانال بنده رفتن
خوبه الان شما هم بهش فکر کنید ارزشش رو داره تو این کانال بمونید یا نه
اگر این پیام رو میخونید و قصد ترک یا ماندن در این کانال رو می‌کنید ممنون میشم قبلش زیر این پست کامنت بذارید چی از این کانال خوب و باحال و ارزشمنده براتون و بگید چی از این کانال بی‌خود و حوصله سر بره و چرا دارید یا می‌خواهید ترکش کنید.
من محدودیت عضویت برای کامنت رو برداشتم که راحت بتونید نظرتون رو به بگید

بعد التحریر(همون پی‌نوشت خودمون:)):
من اینجا هستم چون بعضی موقع‌ها نوشتن رو دوست دارم و حس خوب و ارزشمندی بهم میده اگر سرم خلوت بود شاید روزی چندین مطلب می‌نوشتم
کلی مطلب در این مدت‌ نوشتم و بایگانی کردم ولی حوصله نکردم ویرایش نهایی کنم آخر ارسال نکردم

❤6

575 views21:40

Dev Tweet

به به گروک اومد به تلگرام:)
ولی فقط واسه کاربرای پرمیومه
ببنید اگر می ارزه بریم پرمیوم کنیم
اینم آیدی‌ش:
https://news.1rj.ru/str/GrokAI

❤3

534 viewsedited 14:23

Dev Tweet

این چند روز که با دیدن صدها نمونه تولید عکس با تغییر استایل GPT-4o زخم شدیم😐
اکثرا دارن از استایل Studio Ghibli استفاده میکنند اگر خواستید خلاق تر باشید و اسلایل‌های متفاوتی تولید کنید ولی اسم استایل‌ها رو نمیدونستید، این رشته توئیت رو ببنید اسم هم استایل با یک نمونه از اون اسلایل رو گذاشته.

683 views22:53

Dev Tweet

مدل تولید عکس جدیدی که OpenAI روی GPT-4o ارائه داده، این‌قدر قابلیت‌های خفنی داره که چیپ‌ترین و دم‌دستی‌ترین کار باهاش، تولید عکس تو استایل جدیده. نمونه‌های عجیبی ازش دیدم که واقعاً حیرت‌انگیزه!

تولید مانگا،
تولید UI اپلیکیشن (دقت کنید، این کار رو با HTML/CSS انجام نمیده، بلکه عکس رابط کاربری رو تولید می‌کنه)،
ادیت عکسش که واقعاً عالیه. تا قبل از این، مدل‌های چندوجهی (multi-modal) وقتی پرامپت می‌دادی، نمی‌تونستن عکس موجود رو تغییر بدن و فقط از اول یه چیز جدید می‌ساختن.

پ.ن. اول: قبلاً توی ادبیات گَن به تغییر استایل عکس می‌گفتن Style Transfer. کسایی که قبل از رواج LLM‌ها تو این حوزه کار کرده بودن، نمونه‌های معروفش رو دیده بودن. اگه اشتباه نکنم، اول StyleGAN این تسک رو ارائه داد و بعدها مدل‌هایی مثل CycleGAN کاملش کردن (دقیق یادم نیست، سرچ کنید). جالبه که اون موقع خودش یه تسک جدا بود! الان دیگه مفهوم تسک توی کارهای NLP کامل از بین رفته. یه زمانی مثلاً یکی ارشد هوش می‌گرفت و می‌گفت "من Sentiment Analysis کار کردم". NLP یه ده تا تسک معروف داشت (تسک‌های جانبی هم زیاد بود) و هر کی روی BERT یه تسک رو بهبود می‌داد. حالا دیگه کلاً تسک معنی نداره! الان یه بچه میاد، یه API کال می‌کنه و می‌گه "بگو این جمله چه حسی داره؟" LLM مثه بنز با دقت ۹۹ درصد جواب می‌ده. نمی‌دونه که این چیزی که تو با یه API ساده داری می‌گیری، یه زمانی آگهی می‌کردن: "متخصص NLP با سابقه کار Sentiment Analysis".

پ.ن. دوم: چند روز پیش با Imagen 3 جمینای کار می‌کردم و واقعاً شگفت‌زده شدم. توانستم برای کسب‌وکار یکی از اقوامم یک لوگوی جذاب و حرفه‌ای تولید کنم. دو روز پیش اعلام شد که Gemini Pro 2.5 به آخر خط تولید عکس رسیده و دیروز هم GPT-4o با قابلیت تولید تصویر معرفی شد!

گوگل و OpenAI هر دو قبلاً مدل‌های مولد تصویر داشتند؛ اولی Imagen را داشت و دومی DALL-E 3 را. اما حالا هر دو به سمت استفاده از یک مدل واحد با بازنمایی مشترک و یکپارچه برای متن و تصویر رفته‌اند. در این رویکرد، توکن‌های متن به یک مدل تصویر جداگانه منتقل نمی‌شوند تا تصویر تولید شود، بلکه متن و تصویر با یک انکودر و دیکودر مشترک در فضای نهانی (latent space) کدگذاری و رمزگشایی می‌شوند. این یک لایه عمیق‌تر از چندمودالیتی (Multi-Modal) است. در گذشته، اگر دو یا سه مدل مجزا مودالیتی‌های مختلف داده (مثل متن، تصویر و صوت) را پردازش می‌کردند و سپس با مدل دیگری فضای نهانی این مودالیتی‌ها به هم متصل می‌شد، نتیجه یک مدل چندمودالی بود. اما حالا در مدل‌های اخیر گوگل و OpenAI، یک مدل که قبلاً صرفاً زبانی بود، به‌صورت autoregressive توکن‌های تصویر را تولید می‌کند.

تولید عکس در Gemini با مدل Imagen، اگرچه از DALL-E 3 بسیار بهتر بود و تا حدی می‌توانست تصاویری را که خودش تولید کرده بود تغییر دهد (هرچند این تغییرات همیشه معتبر نبودند)، اما اگر با قابلیت تولید عکس Imagen کار نکرده باشید، شاید متوجه نشوید که مدل‌های جدیدتر می‌توانند حتی تصاویری را که خودشان تولید نکرده‌اند هم ویرایش کنند! (این اصلاً بدیهی نیست!) مدل‌های قبلی فقط می‌توانستند تصاویری را که خودشان ساخته بودند تغییر دهند (نه ویرایش کامل) و اگر تصویر توسط آن‌ها تولید نشده بود، هیچ تغییری هم نمی‌توانستند اعمال کنند. اما Gemini Flash Image Generation و GPT-4o نه‌تنها تصاویر جدید را کاملاً درک می‌کنند، بلکه می‌توانند آن‌ها را ویرایش کنند. دلیلش چیست؟ (بعداً به امید خدا، اگر وقت شد، درباره‌اش می‌نویسم.) دقت کنید که Gemini Flash Image Generation در Google Studio قابل دسترسی است و مدلی که در Google Gemini با عنوان Flash شناخته می‌شود، همان Imagen 3 است.

👍5👌2❤1

907 viewsedited 23:25

Dev Tweet

این متن پی نوشت‌هاش از خودش مهمتره:)

❤4

748 views23:29

Dev Tweet

پ.ن دوم اشتباهی داشت که دوستان تذکر دادند و اصلاح شد و مطالبی اضافه شد.

691 views02:16

Dev Tweet

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

علی‌بابا مدل جدید هوش مصنوعی Qwen2.5-Omni-7B رو معرفی کرد که اینم Multi-Modal هست.
می‌تونه متن، صدا، تصویر و ویدیو رو همزمان و در لحظه پردازش کنه
خروجی‌ش هم متن و هم صداست
در حد 7 میلیارد پارامتر درک صوتی قوی‌ای داره
روی گوشی و لپ‌تاپ کار می‌کنه چون فقط 7 میلیارد پارامتر داره.
متن‌باز (open-source) هست و همه می‌تونن ازش استفاده کنن

👍7

674 viewsedited 03:54

Dev Tweet

علی‌بابا مدل جدید هوش مصنوعی Qwen2.5-Omni-7B رو معرفی کرد که اینم Multi-Modal هست. می‌تونه متن، صدا، تصویر و ویدیو رو همزمان و در لحظه پردازش کنه خروجی‌ش هم متن و هم صداست در حد 7 میلیارد پارامتر درک صوتی قوی‌ای داره روی گوشی و لپ‌تاپ کار می‌کنه چون فقط…

وایب جدید رقابت مدلهای بزرگ
گویا چند وقتی پیشرفت چشم گیری در حوزه استدلال و متن حاصل نمیشه و خلق الله هم با بنچمارک بازی سر کار نمیرن چند روز اخیر یک رقابتی بین مدلهای بر سر مودالتی‌های غیر متنی اومده(تصویر و صوت)
امروز متوجه شدم copilot قابلیت voice modeش رو بصورت فراگیر منتشر کرده و چکش کردم بد نبود ولی مثه gpt , grok نیست.
این دو روز هم gemini pro 2.5 و GPT-4o مدل تصویر جدید منتشر کردند
چند روز پیش هم gemini مدل IMAGEN3 رو منتشر کرد.
چند وقت قبل هم seasame اون مدل صوت خاص و سریع و خیلی طبیعی خودش رو داد و مدل کوچکش رو اپن سورس کرد.
الان هم qwen خواسته جا نمونه و خودی نشون بده مدل 7 میلیاردی خودش رو بصورت omni یعنی فراگیر(همون o در GPT-4o) ارائه کرده.

👍3

775 views04:10

Dev Tweet

افتضاحی به اسم لاما-۴!
لاما-۴ منتشر شده و حسابی گندش در اومده!
مدلی که قرار بود صدر نشین مدل‌های اپن‌ سورس بشه و جای deepseek رو بگیره حسابی مایه آبرو ریزی شده!
از افشاگری و استعفای مدیر تیم و قائم مقام بخش AI تا تست‌های عملیاتی که ازش گرفتن تا برطرف نکردن مشکلات railguarding که در ورژن‌های قبلی هم مطرح بود.
من رو یاد افتضاح جمینای 1.5 می اندازه که توی کنفرانس خبری یک ویدئو از قابلیت‌های Mult-Modalityش دادن در نهایت که تست کردن معلوم بود واقعی نبوده و مجبور شدن اعلام کنند اون ویدئو ساختگی بود.
چیزهایی که اشاره کردم رو به مرور به این پست اضافه می‌کنم.

پست افشاگری کارمند بخش GenAI متا علیه لاما-4

پست شکست لاما ۴ در تسک شبیه‌سازی شش‌ضلعی‌های دوار

جیلبریک لاما۴

Dev Tweet

ماجرای استعفای کارمند متا و جنجال‌های لاما ۴: آیا متا در بنچمارک‌ها تقلب کرده است؟
پستی در ردیت که ادعا می‌کرد یک کارمند متا به دلیل "مشکلات جدی در آموزش لاما ۴" از بخش GenAI این شرکت استعفا داده است. این ادعاها، بحث‌های قبلی درباره آلودگی داده (Data Contamination)…

👍5❤1

922 viewsedited 14:48

Dev Tweet

ماجرای استعفای کارمند متا و جنجال‌های لاما ۴: آیا متا در بنچمارک‌ها تقلب کرده است؟
پستی در ردیت که ادعا می‌کرد یک کارمند متا به دلیل "مشکلات جدی در آموزش لاما ۴" از بخش GenAI این شرکت استعفا داده است. این ادعاها، بحث‌های قبلی درباره آلودگی داده (Data Contamination) در مدل‌های لاما(مثل لاما-۱)، رو هم روی آب آورده.
کارمند مستعفی متا در ردیت میگه :

مدیریت متا پیشنهاد داده که مجموعه‌های آزمایشی (Test Sets) از بنچمارک‌های مختلف در فرآیند پس‌آموزش (Post-Training) لاما ۴ ترکیب شوند. این کارمند همچنین ادعا می‌کند که عملکرد لاما ۴ در دنیای واقعی بسیار ضعیف بوده و کاربران در X و ردیت از آن شکایت دارند. او می‌گوید این مشکل نتیجه همین روش‌های غیراخلاقی است.
در نهایت، او اعلام کرده که به دلیل این مسائل، استعفای خود را به بخش GenAI متا ارائه داده و حتی معاون ارشد متا (Joelle) نیز به دلایل مشابه استعفا داده است.

این کار باعث می‌شود مدل به داده‌هایی که قرار است فقط برای ارزیابی استفاده شوند دسترسی پیدا کند، که نوعی آلودگی داده (Data Contamination) است.
این ادعاها، اگر درست باشند، نشان‌دهنده مشکلات جدی در فرهنگ سازمانی و مدیریت متا هستند. ممکن است این پست ردیت شایعه یا "اخبار جعلی" باشد، چون برخی جزئیات (مثل ارتباط Joelle با پروژه لاما) با واقعیت هم‌خوانی ندارد. با این حال، این ماجرا به بحث‌های گسترده‌تری درباره روش‌های متا و تاریخچه آلودگی داده در مدل‌های لاما دامن زده است.

آلودگی داده چیست و چرا مهم است؟
آلودگی داده (Data Contamination) زمانی اتفاق می‌افتد که یک مدل زبانی بزرگ (LLM) به داده‌هایی که قرار است فقط برای ارزیابی (Test Set) استفاده شوند، در طول آموزش یا پس‌آموزش دسترسی پیدا کند. این مشکل در توسعه مدل‌های هوش مصنوعی، به‌ویژه در شرکت‌هایی مثل متا، بارها گزارش شده است. مقاله‌ای از FAIR (بخش تحقیقاتی متا) اشاره می‌کند که روشی به نام ConTAM برای اندازه‌گیری تأثیر آلودگی داده پیشنهاد می‌دهد در آن نشان داده بیش از ۵۰٪ داده‌های بنچمارک‌ها در لاما ۱ آلوده بوده‌اند. حالا، ادعاهای ردیت می‌گویند که لاما ۴ نیز با همین مشکل مواجه است. این خودش در نوع خودش جالبه که یک بخش متا FAIR مقاله‌ای نوشته که علیه بخشی دیگه‌ای از متا GenAI بوده:)

چرا آلودگی داده مشکل‌ساز است؟
مدل وقتی مدل داده‌های آزمایشی را "ببیند"، می‌تواند آن‌ها را حفظ کند یا بیش‌ازحد به آن‌ها تطبیق یابد (Overfit). این باعث می‌شود امتیازات بنچمارک (مثل HumanEval یا TriviaQA) به‌طور غیرواقعی بالا برود و این یعنی افزایش متورم مصنوعی عملکرد (Artificial Inflation of Performance). برای مثال، در لاما ۱، مدل در بنچمارک HellaSwag بین داده‌های پاک (Clean) و آلوده (Dirty) اختلاف ۱۵.۳ درصدی در عملکرد داشت (۶۳.۵ در مقابل ۷۸.۸).
بنچمارک‌ها برای مقایسه منصفانه مدل‌ها (مثل لاما، دیپ‌سیک، یا جمینای) طراحی شده‌اند. اگر یک مدل داده‌های آزمایشی را دیده باشد، مزیت غیرمنصفانه‌ای دارد و اعتبار نتایج را زیر سؤال می‌برد.
هدف یک مدل این است که روی داده‌های جدید و نادیده خوب عمل کند. آلودگی داده باعث می‌شود مدل در دنیای واقعی ضعیف عمل کند، همان‌طور که کاربران از عملکرد لاما ۴ شکایت دارند.

در لاما ۱، داده‌های عظیم پیش‌آموزش (مثل Pile) به‌طور تصادفی شامل داده‌های بنچمارک شدند، چون این داده‌ها عمومی و در دسترس بودند.
در لاما ۴، طبق ادعای ردیت، این کار عمدی‌تر بوده است. داده‌های پس‌آموزش معمولاً کوچک‌تر و انتخاب‌شده هستند، بنابراین افزودن مجموعه‌های آزمایشی احتمالاً یک تصمیم آگاهانه از سوی تیم یا مدیریت بوده است.

چرا متا ممکن است این کار را کرده باشد؟
فشار برای رقابت:
اشاره می‌کند که دیپ‌سیک (DeepSeek) با هزینه‌ای بسیار کم (۵.۵ میلیون دلار) به موفقیت بزرگی دست یافت، در حالی که صنعت آمریکا ۱ تریلیون دلار هزینه کرده است. متا ممکن است برای رقابت با مدل‌هایی مثل جمینای (Gemini) یا اوپن‌ای‌آی (OpenAI) به این میان‌بر روی آورده باشد.

جلب سرمایه‌گذاری با بنچمارک:
امتیازات بالای بنچمارک می‌تواند سرمایه‌گذاران را جذب کند و شهرت شرکت را افزایش دهد، حتی اگر عملکرد واقعی مدل ضعیف باشد.

ضعف مدیریت:
یان لیکان یک جا اشاره می‌کرد سازمان‌های بزرگ گاهی با مدیریت ضعیف، نوآوری را سرکوب می‌کنند. او مثال می‌زند که تیم‌های کوچک و مستقل (مثل تیم لاما ۱ در FAIR-Paris) می‌توانند موفق‌تر باشند، اما مدیریت ناکارآمد در متا ممکن است چنین تیم‌هایی را تحت فشار قرار دهد.

From the LocalLLaMA community on Reddit

Explore this post and more from the LocalLLaMA community

👍7❤2

2.19K viewsedited 16:45

Dev Tweet

This media is not supported in your browser

VIEW IN TELEGRAM

این تسک شش ضلعی به تسک پایه‌ای و استاندارد برای تست شهودی عملکرد برنامه‌نویسی مدلها در اومده.
این تسک اشکال مختلفی داره.
چالش این تسک درک مدل از فیزیک و پیاده سازی جاذبه اصطکاک و برخورد به سطح برمیگرده.
این تسک رو تا الان فقط o1 pro تونسته پاس کنه و جمینای 2.5 pro تونسته نزدیک بشه.
ولی وضعیت افتضاح لاما ۴ رو می‌بینید.
لاما ۴ حتی در پایه‌ای ترین شکل این تسک هم شکست میخوره
در پست بعد می‌بینید.

👍3

531 viewsedited 02:56

Dev Tweet

This media is not supported in your browser

VIEW IN TELEGRAM

☹️☹️

write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

Llama 4 Maverick

👍4❤1

637 views03:01

About

Blog

Apps

Platform