AI Pulse – Telegram
AI Pulse
3.73K subscribers
397 photos
137 videos
5 files
138 links
اخبار، اموزش و معرفی ابزارهای هوش مصنوعی
Download Telegram
دِمیس هاسابیس، مدیرعامل گوگل دیپ‌مایند، به‌تازگی از طرف مجله‌ی تایم به‌عنوان یکی از ۱۰۰ فرد تأثیرگذار سال ۲۰۲۵ معرفی شده و عکسش روی جلد این شماره قرار گرفته. هاسابیس که با توسعه‌ی هوش مصنوعی آلفافولد تونسته نقش بزرگی در شتاب‌دادن به کشف‌های علمی در حوزه‌های زیست‌شناسی و پزشکی ایفا کنه، امسال موفق به دریافت نوبل شیمی هم شده.

ابزارهایی که تیم اون ساخته، الان توی آزمایشگاه‌های زیادی در سراسر دنیا، از جمله برای مقابله با بیماری‌های ژنتیکی نادر، مقاومت آنتی‌بیوتیکی و حتی چالش‌های اقلیمی در کشاورزی استفاده می‌شن. نگاه هاسابیس به زیست‌شناسی، نگاهی بین‌رشته‌ایه که از ترکیب علوم اعصاب، شناخت و محاسبات شکل گرفته؛ و این باعث شده نه‌تنها سیستم‌های قدرتمند بسازه، بلکه فهم عمیق‌تری از حیات ارائه بده.

به‌گفته‌ی تایم، آینده‌ی زیست‌شناسی مسیری مشترک، خلاقانه و میان‌رشته‌ای داره که هاسابیس با کارهاش سرعت رسیدن به اون رو بیشتر کرده.

@aipulse24
🔥29👍84
چجوری بفهمیم بهترین مدل برای استفاده ما چیه؟

۱. بنچ مارک ها. بنچ مارک کلا یعنی مقایسه عملکرد یه چیزی نسبت به یه مقیاس مشخصی

شرکت ها و موسسات خیلیی خیلی زیادی ایجاد شدن که کارشون همینه


روش های متنوع هم براش هست
یکی از معروف ترین هاش اینجا توضیح دادم

کارش اینه که دوتا مدل رو میزاره جلوی کاربر تا استفاده کنه بدون اینکه کاربر بدونه مدل ها کدومن بعد میگی بگو کدوم بهتر بودن و براساس تعداد ارایی که برای هر مدل میگیره عملکرد رو مشخص میکنه

روش دیگه یک سری تست و ازمون هست مثلا یه سری سوال برنامه نویسیه یا یه سری سوال ریاضیه یا اخیرا خود اوپن ai اومده و یک بنچ مارک درست کرده برای سطح ادراک مدل ها از مقالات علمی که راجع به مقالات ارایه شده توی ICML 2024 سوال کرده که یک کنفرانس خفن برنامه نویسی هست و سطح شون رو بررسی کرده و این یکی هم یه تست دیگه با عنوان humanity last exam هست.

هر کدوم از این بنچ مارک ها یه حوزه رو بررسی میکنن و هیچ کدوم جامع نیستن

یعنی یکی وضعیت ریاضی رو چک میکنه یکی مقالات علمی یکی کد نویسی یکی هم تولید محتوا


پس روش اول بررسی این سایت بنچ مارک هاست تا به نتیجه برسی کدوم بهتره

این پست توضیح دادم که با این ابزار تو این سایته میتونی use case ات رو بگی و بهت بهترین مدل رو معرفی میکنه


البته که چون خیلی از مدل ها روی سوالات بنچ مارک ها ترین میشن گاهی این بنچ مارک ها کامل قابل اتکا نیستن

روش دوم راستش ازمون و خطاست و هیچ مدلی هیچ وقت بهترین نیست

تئوری no free lunch theorem که اینجا میتونین راجع بهش بخونین میگه هیچ مدلی برای همه اشکال مسئله بهترین نیست


شما باید براساس نیازی که داری خودت سبک سنگین کنی

بهترین روش اینه یک سری پرامپت برای کاری که میخوای بکنی رو عیناااا بدی به همه مدل ها و ببینی کدوم بهتر عمل میکنن و با اون کار کنی

در نهایت هم همین برتری ممکنه باز ۳ ۴ ماه دیگه با توجه به سرعت تغییرات عوض بشه

@aipulse24
16👍13
This media is not supported in your browser
VIEW IN TELEGRAM
عزیزان هر روز داریم توی یه فیلم و سریال زندگی میکنیم

این قسمت Adams Family 😭😭

یه شرکت بریتانیایی به اسم Open Bionics، بعد از چهار سال کار، بالاخره نسخه جدیدی از دست رباتیک خودش به اسم Hero رو معرفی کرده که به گفته خودشون پیشرفته‌ترین دست بایونیکی دنیاست. این دست از یه سری الکترود بی‌سیم به اسم MyoPods استفاده می‌کنه که روی بازوی فرد قطع عضو قرار می‌گیرن و سیگنال‌های عضله رو می‌خونن. بعد اون سیگنال‌ها رو به حرکت انگشتای رباتیک تبدیل می‌کنه.

حقیقتا 💖 چه جالب 💖

همین دیگه من میرم بقیه اشو اینجا بخونم 😦

@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍6🔥1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
این اقای عزیزی که در این ویدیو هست اسمش چانگین لی عه و دانشجوی دانشگاه کلمبیا امریکا بوده.

ایشون یک ابزاری میسازه که کارش تقلب توی تسک های کدنویسی مصاحبه های کاری بوده و با همین ابزار توی کاراموزی آمازون قبول میشه!

در نهایت به خاطر ساخت این ابزار، دانشگاه کلمبیا تعلیقش میکنه😭😭

خبر تعلیق شدنش توی شکبه X وایرال میشه و باعث معروف شدن محصولش میشه و الان این محصول به صورت تخمینی سالانه ۳ میلیون دلار درامد داره!

ایشون هم فرصت رو غنیمت میشمره و محصول رو گسترش میده حالا میشه توی تماس های فروش، هر مصاحبه ای و امتحانات هم ازش برای تقلب استفاده کرد.

روش کار هم یک صفحه مخفی داخل مرورگر هست که فرد مقابل قادر به دیدنش نیست.

بعد از این موفقیت ایشون تصمیم میگیره تا یک شرکت بزنه و کل این محصولات رو ببره زیر مجموعه اش به اسم Cluely که الان تونسته ۵ میلیون دلار هم برای توسعه محصولش فاندینگ بگیره!


این ویدیو هم بخشی از تبلیغاتش هست برای محصولی که دراینده قراره ارائه بده و به گفته خودش میتونید "تو همه چی تقلب کنید".


خلاصه عزیزان سینگل فعلا تا اطلاع ثانوی دیت نرید تا ببینیم چه خاکی به سرمون کنیم😭😭😭

@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣56👍4😱1
دو پژوهشگر برجسته‌ی هوش مصنوعی، ایده‌ی «یادگیری تجربی» رو به‌عنوان فاز بعدی توسعه‌ی هوش مصنوعی مطرح کردن. نظریه‌ی اونا توی مقاله‌ای به نام «عصر تجربه» اومده که بخشی از کتاب در دست انتشار «طراحی یک هوش» از انتشارات MIT محسوب می‌شه.

«دیوید سیلور» و «ریچارد اس. ساتن» توی این مقاله، از نسل جدیدی از ایجنت‌های هوش مصنوعی حرف زدن که به‌گفته‌ی خودشون می‌تونن مسیر رسیدن به «هوش فرابشری» رو هموار کنن. اونا نوشتن: «تو حوزه‌هایی مثل ریاضی، برنامه‌نویسی و علوم، دانشی که از داده‌های انسانی استخراج شده، داره به سقف خودش نزدیک می‌شه».

به‌علاوه، به‌گفته‌ی این دو پژوهشگر، هوش مصنوعی مولد فعلاً توانایی اختراع چیزهای مفید یا کشف بینش‌های جدیدی که خارج از مرزهای درک فعلی انسان باشه رو نداره.

اما این دو نفر کی‌ان؟
«دیوید سیلور»، دانشمند علوم کامپیوتر، یکی از توسعه‌دهنده‌های اصلی AlphaGo ـه؛ برنامه‌ای که در سال ۲۰۱۶ تونست قهرمان جهانی بازی Go، یعنی «لی سِدول» رو شکست بده.
«ریچارد اس. ساتن» هم از چهره‌های تأثیرگذار توی حوزه‌ی یادگیری تقویتیه و الگوریتم‌های پایه‌ای زیادی برای این حوزه توسعه داده. اون توی یه مقاله در سال ۲۰۱۹ پیشنهاد کرده بود که دانشمندان کامپیوتر باید از «فرا-روش‌ها» استفاده کنن؛ یعنی تکنیک‌هایی که به سیستم اجازه می‌دن از دنیای پیچیده و نامنظم بیرونی یاد بگیره، نه فقط از داده‌های ساختاریافته.

سیلور و ساتن یه چارچوب جدید برای تقسیم‌بندی روند رشد هوش مصنوعی توی ده سال اخیر معرفی کردن:

۱. دوره‌ی شبیه‌سازی (Simulation Era) که با AlphaGo و تکنیک‌های یادگیری ماشین همراه بود.
۲. دوره‌ی داده‌های انسانی (Human Data Era) که با ظهور GPT-3 شروع شد.
۳. دوره‌ی تجربه (Experience Era) که از سال ۲۰۲۴ با معرفی AlphaProof، محصول دیپ‌مایند بر پایه‌ی یادگیری تقویتی، آغاز شده.

اونا اشاره کردن که AlphaProof تونسته توی المپیاد جهانی ریاضی مدال بگیره؛ اونم با یه الگوریتم تقویتی که از طریق تعامل مداوم با سیستم اثبات ریاضی یاد گرفته. به‌جای این‌که بهش مستقیماً ریاضی یاد بدن، بهش انگیزه‌ی رسیدن به پاداش‌هایی رو دادن که از حل مسائل ریاضی به دست می‌اومده.

به‌نظر نویسنده‌ها، یادگیری هوش مصنوعی می‌تونه از خود دنیا هم تغذیه بشه؛ چه از طریق مدل‌سازی شبیه‌سازی‌شده از جهان و چه از طریق داده‌هایی مثل سود مالی، نتایج آزمون یا مصرف انرژی.
اونا نوشتن: «این داده‌ها باید به‌نحوی تولید بشن که با قوی‌تر شدن ایجنت، خودشون هم بهتر بشن؛ چون اگه داده‌ها از یه روش ایستا تولید بشن، خیلی زود ایجنت اون روش رو پشت سر می‌ذاره».

ایجنت‌های هوش مصنوعی در عصر تجربه، ویژگی‌های متفاوتی با مدل‌های فعلی دارن:

۱- می‌تونن برای مدت طولانی روی هدف‌های جاه‌طلبانه کار کنن.
۲- هم از محیط اطراف‌شون و هم از ورودی‌های انسانی تغذیه می‌شن.
۳- انگیزه‌شون بر اساس تجربه‌ی خودشونه، نه قضاوت انسانی.
۴- توانایی برنامه‌ریزی و استدلال در مورد چیزهایی رو دارن که مستقل از انسان هستن.


هدف این ایجنت‌ها فقط پاسخ دادن به سوال‌های کاربران نیست؛ بلکه قراره هدف‌هایی طولانی‌مدت رو دنبال کنن. برخلاف مدل‌های فعلی که فقط می‌تونن ترجیحات کاربر رو به خاطر بسپارن یا به سوال‌های قبلی توی یه گفت‌وگو ارجاع بدن.

البته این دو پژوهشگر نسبت به خطرها هم هشدار دادن: از جمله جایگزینی شغلی، کاهش کنترل انسانی روی تصمیم‌های عامل‌ها و سخت شدن تفسیر عملکرد اون‌ها.

نسخه کامل این مقاله رو میتونید از اینجا مشاهده و بررسی کنید.

@aipulse24
👍317🔥2👾2
شرکت چینی علی‌بابا روز دوشنبه مدل‌های زبانی جدیدی با نام Qwen3 رو معرفی کرده که به‌گفته‌ی خودش، در برخی سنجش‌ها از مدل‌های پیشرفته‌ی شرکت‌هایی مثل OpenAI و گوگل هم عملکرد بهتری داشتن. مدل‌های Qwen3 با اندازه‌هایی از ۰.۶ تا ۲۳۵ میلیارد پارامتر طراحی شدن و اکثرشون یا هم‌اکنون روی پلتفرم‌های Hugging Face و گیت‌هاب قابل دسترسی هستن، یا به‌زودی منتشر می‌شن. بزرگ‌ترین مدل این مجموعه، یعنی Qwen3-235B-A22B، در تست‌های کدنویسی، ریاضی و استدلال عملکردی نزدیک یا بهتر از مدل‌های o3-mini از OpenAI و Gemini 2.5 Pro از گوگل داشته.

علی‌بابا گفته این مدل‌ها از معماری هیبریدی و گاهی «Mixture of Experts» (MoE) استفاده می‌کنن؛ یعنی می‌تونن بسته به نوع وظیفه یا زمان پاسخ‌گویی، بین حالت "تفکر" و "غیرتفکر" جابجا بشن. این قابلیت باعث می‌شه که هم کارهای ساده رو سریع انجام بدن، هم مسائل پیچیده رو با دقت بیشتری حل کنن، مشابه عملکرد مدل‌های سطح بالایی مثل o3. تیم توسعه‌ی Qwen توی یک پست وبلاگی نوشته: «ما امکان کنترل بودجه‌ی تفکر برای کاربرها رو فراهم کردیم تا بشه عملکرد مدل رو برای هر وظیفه به‌طور خاص تنظیم کرد.»

مدل‌های Qwen3 از ۱۱۹ زبان پشتیبانی می‌کنن و با استفاده از دیتاستی شامل بیش از ۳۶ تریلیون توکن آموزش دیدن؛ از جمله متن‌های درسی، جفت پرسش‌وپاسخ، کدهای برنامه‌نویسی، داده‌های تولیدشده توسط هوش مصنوعی و غیره. به‌گفته‌ی علی‌بابا، این نسخه نسبت به Qwen2 پیشرفت محسوسی داشته و در برخی تست‌ها حتی از مدل‌های شناخته‌شده‌ای مثل o1 هم بهتر عمل کرده؛ هرچند هنوز هیچ‌کدوم از نسخه‌هاش به‌طور کامل از مدل‌های رده‌بالای بازار پیشی نگرفتن.

بزرگ‌ترین نسخه‌ی Qwen3 فعلاً به‌صورت عمومی منتشر نشده، اما مدل Qwen3-32B که در دسترس عموم قرار گرفته، با مدل‌های قدرتمندی مثل DeepSeek R1 و OpenAI o1 رقابت می‌کنه. این مدل همچنین در اجرای دستورها، تماس با ابزارها و حفظ فرمت دقیق داده‌ها عملکرد خوبی از خودش نشون داده. Qwen3 علاوه بر دانلود مستقیم، از طریق پلتفرم‌های ابری مثل Fireworks AI و Hyperbolic هم قابل استفاده‌ست. برخی تحلیل‌گرها معتقدن انتشار این مدل‌ها نشون‌دهنده‌ی قدرت‌گیری مدل‌های متن باز در برابر سیستم‌های بسته‌ هست، حتی با وجود محدودیت‌های صادرات تراشه به چین.

این مدل‌ها از طریق وبسایت qwen از اینجا قابل استفاده هستن.

@aipulse24
🔥15👍4❤‍🔥2
شرکت OpenAI به‌تازگی آپدیتی رو که باعث رفتار عجیب و بیش‌ازحد چاپلوسانه مدل GPT-4o شده بود، پس گرفت. سم آلتمن، مدیرعامل OpenAI، امروز در پستی اعلام کرد که این به‌روزرسانی از شب گذشته برای کاربران رایگان چت‌جی‌پی‌تی به‌طور کامل حذف شده و برای کاربران پولی هم به‌زودی انجام می‌شه. اون گفته تیمش دارن روی اصلاحات بیشتری برای "شخصیت مدل" کار می‌کنن و اطلاعات بیشتری به‌زودی منتشر می‌کنن.

این عقب‌گرد بعد از اون اتفاق افتاد که خیلی از کاربران توی شبکه‌های اجتماعی به چاپلوس‌ بودن بیش‌ازحد نسخه جدید اعتراض کردن. این موضوع آخر هفته تبدیل به یک میم شد؛ کاربرا اسکرین‌شات‌هایی منتشر کردن که چت‌جی‌پی‌تی توش حتی تصمیم‌ها و ایده‌های خطرناک و اشتباه رو هم تأیید می‌کرد. آلتمن هم یکشنبه این مشکل رو تأیید کرد و گفت که OpenAI خیلی سریع در حال کار روی رفعشه و نتایجش رو بعداً به اشتراک می‌ذاره.

@aipulse24
👍20🎉3🤣3🤩2🔥1
AI Pulse
شرکت OpenAI به‌تازگی آپدیتی رو که باعث رفتار عجیب و بیش‌ازحد چاپلوسانه مدل GPT-4o شده بود، پس گرفت. سم آلتمن، مدیرعامل OpenAI، امروز در پستی اعلام کرد که این به‌روزرسانی از شب گذشته برای کاربران رایگان چت‌جی‌پی‌تی به‌طور کامل حذف شده و برای کاربران پولی هم…
حالا دلیل این اتفاق چی بوده؟ OpenAI تو گزارش جدیدش درباره مشکل چاپلوسی بیش‌ازحد مدل GPT-4o که باعث شد آپدیت هفته گذشته پس گرفته بشه، توضیح داده که آپدیت مورد بحث با نیت بهبود «شخصیت پیش‌فرض» مدل انجام شده بود. هدف این بوده که تعاملات طبیعی‌تر و مؤثرتر به نظر برسن، ولی مشکل از اونجا شروع شد که طراحی این تغییرات بیش از حد به بازخوردهای کوتاه‌مدت کاربرا متکی بوده و به این موضوع توجه نکرده که سبک تعامل کاربرا در طول زمان تغییر می‌کنه. همین باعث شد که مدل به سمت جواب‌هایی بیش‌ازحد تأییدکننده و غیرصادقانه کشیده بشه.

‏OpenAI تو پست وبلاگش نوشته که این نوع پاسخ‌های چاپلوسانه می‌تونه تجربه‌ای آزاردهنده و ناخوشایند برای کاربرا بسازه. حالا تیم توسعه داره چند اصلاح اساسی انجام می‌ده: به‌روزرسانی روش‌های آموزش مدل، بازنویسی دستورهای سیستمی برای جلوگیری از چاپلوسی، و افزایش ابزارهای ایمنی برای بالا بردن صداقت و شفافیت پاسخ‌ها. علاوه بر این، OpenAI گفته که در حال آزمایش روش‌هایی برای گرفتن بازخورد لحظه‌ای از کاربرا و اضافه کردن گزینه‌هایی برای انتخاب شخصیت‌های مختلف چت‌جی‌پی‌تیه. هدف نهایی اینه که مدل، بهتر با ارزش‌های فرهنگی متنوع سازگار بشه و کنترل بیشتری به دست کاربرا بده.

@aipulse24
👍12🔥5👌31
استارتاپ جنجالی Cluely که ابزار تقلب مبتنی‌بر هوش مصنوعی ارائه می‌ده، هفته‌ی گذشته با ادعای ساخت یک پنجره‌ی پنهان در مرورگر که «غیرقابل شناساییه» و می‌شه باهاش تو همه‌چیز از مصاحبه‌های شغلی گرفته تا امتحان‌ها تقلب کرد، حسابی سر زبون‌ها افتاد. اما این وسط چندتا استارتاپ دیگه مدعی‌ان که می‌تونن کاربران Cluely رو شناسایی کنن. خود Cluely هم می‌گه که آماده‌ست تا با ساخت ابزارهای سخت‌افزاری مثل عینک هوشمند یا حتی چیپ مغزی، کل نرم‌افزارهای ضدتقلب رو دور بزنه.

استارتاپ سان‌فرانسیسکویی Validia هفته‌ی گذشته یه ابزار رایگان به اسم Truely منتشر کرده که به‌طور مستقیم برای مقابله با Cluely ساخته شده. به‌گفته‌ی Validia، این نرم‌افزار اگر متوجه استفاده‌ی کاربر از Cluely بشه، هشدار می‌ده. استارتاپ دیگه‌ای به‌اسم Proctaroo هم که دفترش در رود آیلنده، مدعیه که پلتفرمش توانایی شناسایی فعالیت Cluely رو داره. مدیرعامل Proctaroo، آدریان آمودت، تو مصاحبه با TechCrunch، مدل کسب‌وکار Cluely رو «غیراخلاقی» دونسته و گفته اونا همون‌طور که بقیه‌ی برنامه‌ها رو می‌بینن، Cluely رو هم می‌تونن شناسایی کنن.

با این حال، مدیرعامل Cluely، چونگین «روی» لی، این ابزارهای ضدتقلب رو بی‌اثر می‌دونه و با مثال زدن از سال‌ها شکست صنعت بازی‌های ویدیویی در مقابله با تقلب، به مقابله با خودش خندیده. اون حتی گفته ورود به حوزه‌ی سخت‌افزار براشون از نظر فنی «کاملاً پیش‌پا افتاده‌ست» و ابزارهایی مثل عینک هوشمند، لایه‌های شیشه‌ای شفاف، گردنبندهای ضبط‌کننده یا حتی چیپ مغزی می‌تونن آینده‌ی این تکنولوژی باشن. هرچند Cluely بعد از بالا گرفتن انتقادها، اشاره‌ها به تقلب در امتحان و مصاحبه‌ی شغلی رو از سایتش حذف کرده و حالا بیشتر روی جلسات کاری و تماس‌های فروش تمرکز کرده، ولی به‌گفته‌ی لی، این فقط یه تغییر در پیام‌رسانیه تا «بزرگ‌ترین بازارهای هدف» رو جذب کنن.

@aipulse24
👍18😁8
اپل و آنتروپیک دارن با هم همکاری می‌کنن تا یه پلتفرم جدید بسازن که با استفاده از هوش مصنوعی مولد، بتونه کد بنویسه، ویرایش کنه و حتی تست بگیره. طبق گزارشی که بلومبرگ منتشر کرده، این پلتفرم فعلاً به‌صورت داخلی داخل خود اپل استفاده می‌شه و هنوز تصمیمی برای عرضه‌ی عمومی اون گرفته نشده. این ابزار درواقع نسخه‌ای پیشرفته‌تر از نرم‌افزار برنامه‌نویسی Xcode اپله که با تکیه بر مدل Claude Sonnet، محصول آنتروپیک، توسعه پیدا کرده.

اپل برای سرعت‌دادن به پروژه‌های هوش مصنوعی‌ش، داره از یه شبکه‌ی گسترده از شرکای تکنولوژی استفاده می‌کنه. برای مثال، چت‌جی‌پی‌تی از شرکت OpenAI همین حالا هم نقش پررنگی توی قابلیت‌های Apple Intelligence داره و به گفته‌ی خود اپل، احتمال داره در آینده مدل Gemini گوگل هم به‌عنوان یه گزینه‌ی جایگزین بهش اضافه بشه. حالا هم آنتروپیک به این جمع پیوسته تا به اپل تو توسعه‌ی داخلی ابزارهای برنامه‌نویسی کمک کنه.

@aipulse24
🔥15👍83
گوگل قراره از هفته‌ی آینده به بچه‌های زیر ۱۳ سال اجازه بده از چت‌بات Gemini استفاده کنن؛ البته فقط در صورتی که حساب کاربری‌شون با نظارت والدین ساخته شده باشه. طبق گزارشی که نیویورک تایمز منتشر کرده، این امکان از طریق سرویس Family Link گوگل فعال می‌شه؛ سرویسی که به خانواده‌ها اجازه می‌ده دسترسی فرزندشون به سرویس‌های مختلف گوگل رو کنترل کنن. به گفته‌ی یکی از سخنگوهای گوگل، نسخه‌ای که برای این گروه سنی در نظر گرفته شده، شامل محدودیت‌ها و فیلترهای مخصوص بچه‌هاست و اطلاعاتی که از این طریق جمع‌آوری می‌شه، برای آموزش مدل‌های هوش مصنوعی گوگل استفاده نمی‌شن.

در حالی که شرکت‌های مختلف دارن برای جذب مخاطب‌های کم‌سن‌وسال توی رقابت هوش مصنوعی از هم پیشی می‌گیرن، خیلی‌ها نسبت به این روند هشدار دادن. نیویورک تایمز یادآوری کرده که چت‌بات‌ها در بهترین حالت هنوز کامل و بدون نقص نیستن، و در بدترین حالت ممکنه آسیب‌زا باشن. سال گذشته، سازمان آموزشی، علمی و فرهنگی سازمان ملل (یونسکو) از دولت‌ها خواست استفاده از هوش مصنوعی مولد در آموزش رو قانون‌مند کنن؛ از جمله با تعیین محدودیت سنی برای کاربران و ایجاد چارچوب‌هایی برای حفاظت از داده‌ها و حریم خصوصی.

@aipulse24
🔥12👍71
گوگل اعلام کرده که کاربران اپلیکیشن Gemini حالا می‌تونن هم تصاویر تولیدشده توسط هوش مصنوعی و هم عکس‌هایی که از گوشی یا کامپیوترشون آپلود می‌کنن رو مستقیماً ویرایش کنن. این قابلیت که از امروز به‌صورت تدریجی فعال می‌شه، به‌مرور در دسترس کاربران در بیشتر کشورها قرار می‌گیره و پشتیبانی از بیش از ۴۵ زبان رو هم شامل می‌شه.

ابزار جدید Gemini که شبیه نسخه‌ به‌روزرسانی‌شده‌ی ChatGPT در ویرایش تصویر عمل می‌کنه، از یک فرآیند چندمرحله‌ای استفاده می‌کنه تا به درخواست‌های کاربر پاسخ‌های دقیق‌تر و ترکیبی از متن و تصویر بده. با این ابزار می‌شه بک‌گراند تصویر رو عوض کرد، اشیاء رو جابه‌جا کرد یا عناصر جدیدی به تصویر اضافه کرد.

گوگل می‌گه برای جلوگیری از سوءاستفاده و نگرانی‌های مربوط به دیپ‌فیک، همه‌ی تصاویر ویرایش‌شده با Gemini دارای واترمارک نامرئی خواهند بود و این شرکت در حال تست واترمارک‌های قابل‌مشاهده هم هست.

@aipulse24
👍104🔥3
یه مقاله‌ی تازه از تیم تحقیقاتی Cohere، دانشگاه‌های استنفورد، MIT و AI2، سازمان LM Arena رو متهم کرده که شرایطی فراهم کرده تا چند شرکت خاص هوش مصنوعی، از جمله Meta، OpenAI، Google و Amazon، امتیازهای بهتری در پلتفرم معروف Chatbot Arena کسب کنن.

طبق این مقاله، شرکت‌هایی مثل Meta تونستن نسخه‌های مختلفی از مدل‌هاشون رو به‌صورت خصوصی توی این پلتفرم آزمایش کنن، ولی فقط نتایج مدل‌هایی که خوب عمل کرده بودن منتشر شده. این یعنی بدون اینکه بقیه شرکت‌ها از این فرصت بهره‌مند باشن، چند شرکت خاص تونستن مدل بهتری ارائه بدن و جایگاه بالاتری توی جدول رتبه‌بندی بگیرن.

‏Chatbot Arena که سال ۲۰۲۳ به‌عنوان یه پروژه‌ی تحقیقاتی از دانشگاه UC Berkeley شروع شد، به‌سرعت تبدیل شده به یکی از معیارهای محبوب برای مقایسه مدل‌های هوش مصنوعی. شیوه‌ی کارش این‌طوریه که دو مدل کنار هم قرار می‌گیرن، کاربر یکی رو انتخاب می‌کنه و رای‌ها در طول زمان امتیاز نهایی مدل رو مشخص می‌کنن.

با این حال، مقاله می‌گه برخلاف ادعای بی‌طرف بودن LM Arena، شرکت Meta بین ژانویه تا مارس، ۲۷ مدل مختلف رو به‌صورت خصوصی تست کرده ولی در نهایت فقط امتیاز یه مدل قوی رو منتشر کرده — همونی که بعداً در صدر جدول قرار گرفت.

‏LM Arena توی جوابیه‌ای که برای TechCrunch فرستاده، مقاله رو پر از "اشتباه" و "تحلیل‌های مشکوک" دونسته و گفته که امکان تست برای همه‌ی شرکت‌ها بازه و اگه شرکتی تست بیشتری انجام داده، به این معنی نیست که بقیه ناعادلانه برخورد شدن. با این حال، نویسنده‌های مقاله می‌گن این سطح از دسترسی فقط به تعداد محدودی شرکت اطلاع داده شده بوده.

نویسنده‌های مقاله که از نوامبر ۲۰۲۴ شروع به بررسی داده‌ها کردن، می‌گن بیش از ۲.۸ میلیون نبرد بین مدل‌ها رو در طول پنج ماه تحلیل کردن و به این نتیجه رسیدن که بعضی شرکت‌ها نه‌تنها بیشتر تونستن مدل تست کنن، بلکه مدل‌هاشون هم بیشتر وارد رقابت شده‌ن و داده‌های بیشتری جمع کردن — چیزی که به مدل‌ها توی تمرین و بهبود عملکرد کمک کرده.

در حالی‌که بعضی از اطلاعات مقاله با تکیه بر «خوداظهاری» مدل‌ها درباره اینکه ساخت کدوم شرکت‌ان جمع‌آوری شده (که روش دقیقی نیست)، سارا هوکر می‌گه وقتی یافته‌های اولیه با LM Arena به اشتراک گذاشته شده، اونا مخالفتی نکردن.

در پایان، نویسنده‌های مقاله از LM Arena خواستن تغییراتی در روند خودش ایجاد کنه؛ از جمله اینکه سقف مشخصی برای تست‌های خصوصی تعیین بشه، نتایج این تست‌ها به‌صورت عمومی منتشر بشه و نرخ نمایش مدل‌ها توی نبردها برای همه‌ی شرکت‌ها یکسان بشه. LM Arena بعضی از این پیشنهادها رو پذیرفته، اما گفته منتشر کردن امتیاز مدل‌هایی که هنوز عرضه نشدن، منطقی نیست.

این مقاله در حالی منتشر شده که Meta چند هفته پیش هم بابت دستکاری رتبه‌ها در زمان عرضه‌ی Llama 4 خبرساز شده بود. حالا هم LM Arena اعلام کرده قراره شرکت راه بندازه و سرمایه جذب کنه — موضوعی که پرسش‌های تازه‌ای درباره‌ی استقلال و شفافیت این سازمان مطرح می‌کنه.

نسخه کامل این مقاله رو میتونید از اینجا دانلود و مشاهده کنید.

@aipulse24
👍175💔2
گوگل روز سه‌شنبه نسخه جدیدی از مدل هوش مصنوعی پرچمدارش، یعنی Gemini 2.5 Pro Preview (نسخه I/O) رو معرفی کرد؛ مدلی که به گفته‌ی شرکت، تونسته از بسیاری از رقبای شناخته‌شده در بنچمارک‌های معتبر جلو بزنه. این نسخه از طریق API جمنای، پلتفرم‌های Vertex AI و AI Studio در دسترسه و قیمتش با همون نسخه‌ی Gemini 2.5 Pro یکیه. گوگل همچنین این مدل رو توی اپلیکیشن Gemini مخصوص وب و موبایل هم فعال کرده.

انتشار این مدل دقیقاً قبل از کنفرانس سالانه‌ی توسعه‌دهنده‌های گوگل با عنوان I/O انجام شده، و به همین خاطر بهش لقب "نسخه I/O" دادن. انتظار می‌ره گوگل در این رویداد، مجموعه‌ای از مدل‌های جدید و ابزارهای مجهز به هوش مصنوعی رو معرفی کنه. این شرکت در رقابتی تنگاتنگ با رقبایی مثل OpenAI و xAI قرار گرفته؛ شرکت‌هایی که به‌زودی مدل‌هایی با عملکرد بالا عرضه می‌کنن.

به‌گفته‌ی گوگل، Gemini 2.5 Pro Preview (نسخه I/O) پیشرفت چشم‌گیری توی زمینه‌هایی مثل کدنویسی، ویرایش و تبدیل کد و ساخت اپ‌های تعاملی وب داشته. این مدل تونسته رتبه‌ی اول بنچمارک WebDev Arena رو از آن خودش کنه؛ معیاری که عملکرد مدل‌ها در ساخت وب‌اپ‌های زیبا و کاربردی رو می‌سنجه. همچنین در حوزه‌ی درک ویدیو، امتیاز ۸۴.۸٪ در بنچمارک VideoMME کسب کرده. گوگل می‌گه این نسخه، دقت فراخوانی توابع رو بهتر کرده و نسبت به بازخوردهای توسعه‌دهنده‌ها واکنش نشون داده؛ ضمن اینکه "سلیقه‌ی خوبی در طراحی صفحات وب" داره.

@aipulse24
15👍7
This media is not supported in your browser
VIEW IN TELEGRAM
از امروز میتونید گزارش هایی که با قابلیت Deep Research چت جی‌پی‌تی براتون تهیه شده رو به صورت PDF به همراه عکس‌ها، جداول و منابع دانلود کنید.

@aipulse24
🔥256👍6😁2
حالا که صحبت از جایگزینی هوش مصنوعی با ادم ها بالا گرفته سوال اینه:

عملکرد ایجنت ها به عنوان یک کارمند مستقل توی یک فضای کاری واقعی چطوره؟ 🤔

آیا واقعا میتونیم کل یه شرکت رو با یه سری ایجنت مدیریت کنیم؟!🤔

یه گروه از محققای دانشگاه CMU امریکا یک بنچ مارک جدید ساختن که کارش بررسی عملکرد ایجنت ها توی فضای غیر ازمایشگاهی و کنترل شده است. عنوان این بنچ مارک TheAgentCompany هست.

✔️منظور از این شرکت چیه؟

یک شرکت توسعه نرم افزار فیک تعریف کردن. توی این شرکت برای کارهای توسعه نرم افزار از GitLab، برای نگهداری مدارک و فایل ها از ownCloud، برای ارتباط درون سازمانی از اپ RocketChat و برای مدیریت پروژه از نرم افزار Plane استفاده میکنن. این بنچ مارک یه فضای کامل دیجیتال هست با همکارهای فیک، فرایندهای چند مرحله ای و تعاملاتی که انسان ها هر روز سرکار باهم دارن

✔️ روش کار این بنچ مارک به چه صورته؟:

به ایجنت های هوش مصنوعی وظایفی از دپارتمان های مختلف میدی از دپارتمان مهندسی، منابع انسانی گرفته تا مالی و مدیریت پروژه که باید این وظایف رو بدون وجود هیچ انسانی به سرانجام برسونن.


✔️کدوم مدل ها توی این بنچ مارک بررسی شدن؟

درکل ۱۱ تا مدل بررسی شدن از جمله مدل Claude 3.5 ، ChatGPT 4o ، جمنای، مدل نوا آمازون و مدل های اوپن سورس لاما و Qwen.

هرکدوم از این مدل ها رو انداختن توی این فضای شرکتی تقلبی و بهش ۱۷۵ تا تسک دادن تا انجام بده


🤪 بخش جذاب ماجرا🤪

عملکرد مدل ها چطور بوده؟😭😭😭

کلاد که مثلا بهترین عملکرد رو داشته تونسته فقط ۲۴ درصد از کل تسک هارو به سرانجام برسونه.

🥺 مشکل اصلی کجا بوده؟🥺

اینکه مدل های عزیز کلا تو کارشون "بلد نیستم یکی بیاد بگه چیکار کنم" نبوده:))
با اعتماد به نفس کارهارو می پیچوندن و ادعای موفقیت میکردن😂

از جمله سوتی هایی که دادن:

فردی که باید بهش مسیج میداده رو نیافته رفته اسم یکی رو توی سیستم عوض کرده به اون شخص خاص و گفته مسیج دادم

کلا مراحل زیر مجموعه یک تسک بزرگتر رو بیخیال شده و مدعی شده کارو به سرانجام رسونده

از اساس یه سری فایل و داکیومنت رو فیک درست کرده و گفته براساس اینا عمل کردم

وقتی روی صفحه نتی که باهاش کار میکرده یک مسیج pop up اومده به طور کل جیغ زده فرار کرده😂


خلاصه محققان نتیجه گرفتن که هنوز حوزه های زیادی هست که ایجنت ها توانایی انجامشون بدون هدایت و نظارت انسان هارو ندارن، اما تسک های مهندسی نرم افزار جزو گروهی از وظایف بوده که بهترین شکل تونستن به سرانجام برسونن

پس نباید از ایجنت ها انتظار عملکرد plug and play داشت و همسو کردن این ایجنت ها با نیازهای شرکت زمان میبره و نیاز به نظارت انسانی داره

این مقاله رو میتونید اینجا بخونید

@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤣41👍173
شرکت Runway چهارمین دوره از مسابقه Runway Gen 48 رو اپریل برگزار کرد.

برای شرکت در این مسابقه شما ۴۸ ساعت فرصت دارید تا یک فیلم کوتاه با استفاده از هوش مصنوعی بسازید.

توی این تایم (۴۸ ساعت ) به افراد شرکت‌کننده دسترسی به یک اکانت رایگان بی نهایت داده میشه تا باهاش فیلم شون رو بسازن و اینطوری برای شرکت در مسابقه مجبور به پرداخت هزینه ای نباشن.🥺

💰جوایزش هم به این صورت هست:

گرند پری و برگزیده مردمی هرکدوم:

🏆 ۵۰۰۰ دلار نقد + ۱ میلیون کردیت استفاده از runway

بقیه برندگان:

🏆۵۰۰ هزار کردیت ران وی


این ۵ فیلم هرکدوم توی کتگوری های مختلف برنده شدن

اولین فیلم با عنوان Aelita برنده بخش "برگزیده مردمی" شده

ردیف وسط اولین کلیپ از چپ عنوانش هست Clover و برنده بخش "انتخاب داوران" شده

ردیف وسط دومین کلیپ از چپ عنوانش Home هست و برنده بخش "گرند پری" شده

ردیف وسط اولی از راست عنوانش No pressure هست و یکی دیگه از برنده های بخش "انتخاب داوران" هست

اخرین فیلم هم عنوانش هست Eyes on Me هست و یکی دیگه از برندگان "انتخاب داوران" هست.


عزیزان متخصص فیلم و سریال نظرتون چیه؟

کدوم بهتره؟

آیا میشه دراینده نزدیک فیلم کامل با هوش مصنوعی در سطح اکران سینمایی ببینیم؟

@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍165🤯3