This media is not supported in your browser
VIEW IN TELEGRAM
عزیزان هر روز داریم توی یه فیلم و سریال زندگی میکنیم
این قسمت Adams Family😭 😭
یه شرکت بریتانیایی به اسم Open Bionics، بعد از چهار سال کار، بالاخره نسخه جدیدی از دست رباتیک خودش به اسم Hero رو معرفی کرده که به گفته خودشون پیشرفتهترین دست بایونیکی دنیاست. این دست از یه سری الکترود بیسیم به اسم MyoPods استفاده میکنه که روی بازوی فرد قطع عضو قرار میگیرن و سیگنالهای عضله رو میخونن. بعد اون سیگنالها رو به حرکت انگشتای رباتیک تبدیل میکنه.
حقیقتا💖 چه جالب 💖
همین دیگه من میرم بقیه اشو اینجا بخونم😦
@aipulse24
این قسمت Adams Family
یه شرکت بریتانیایی به اسم Open Bionics، بعد از چهار سال کار، بالاخره نسخه جدیدی از دست رباتیک خودش به اسم Hero رو معرفی کرده که به گفته خودشون پیشرفتهترین دست بایونیکی دنیاست. این دست از یه سری الکترود بیسیم به اسم MyoPods استفاده میکنه که روی بازوی فرد قطع عضو قرار میگیرن و سیگنالهای عضله رو میخونن. بعد اون سیگنالها رو به حرکت انگشتای رباتیک تبدیل میکنه.
حقیقتا
همین دیگه من میرم بقیه اشو اینجا بخونم
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍6🔥1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
این اقای عزیزی که در این ویدیو هست اسمش چانگین لی عه و دانشجوی دانشگاه کلمبیا امریکا بوده.
ایشون یک ابزاری میسازه که کارش تقلب توی تسک های کدنویسی مصاحبه های کاری بوده و با همین ابزار توی کاراموزی آمازون قبول میشه!
در نهایت به خاطر ساخت این ابزار، دانشگاه کلمبیا تعلیقش میکنه😭 😭
خبر تعلیق شدنش توی شکبه X وایرال میشه و باعث معروف شدن محصولش میشه و الان این محصول به صورت تخمینی سالانه ۳ میلیون دلار درامد داره!
ایشون هم فرصت رو غنیمت میشمره و محصول رو گسترش میده حالا میشه توی تماس های فروش، هر مصاحبه ای و امتحانات هم ازش برای تقلب استفاده کرد.
روش کار هم یک صفحه مخفی داخل مرورگر هست که فرد مقابل قادر به دیدنش نیست.
بعد از این موفقیت ایشون تصمیم میگیره تا یک شرکت بزنه و کل این محصولات رو ببره زیر مجموعه اش به اسم Cluely که الان تونسته ۵ میلیون دلار هم برای توسعه محصولش فاندینگ بگیره!
این ویدیو هم بخشی از تبلیغاتش هست برای محصولی که دراینده قراره ارائه بده و به گفته خودش میتونید "تو همه چی تقلب کنید".
خلاصه عزیزان سینگل فعلا تا اطلاع ثانوی دیت نرید تا ببینیم چه خاکی به سرمون کنیم😭 😭 😭
@aipulse24
ایشون یک ابزاری میسازه که کارش تقلب توی تسک های کدنویسی مصاحبه های کاری بوده و با همین ابزار توی کاراموزی آمازون قبول میشه!
در نهایت به خاطر ساخت این ابزار، دانشگاه کلمبیا تعلیقش میکنه
خبر تعلیق شدنش توی شکبه X وایرال میشه و باعث معروف شدن محصولش میشه و الان این محصول به صورت تخمینی سالانه ۳ میلیون دلار درامد داره!
ایشون هم فرصت رو غنیمت میشمره و محصول رو گسترش میده حالا میشه توی تماس های فروش، هر مصاحبه ای و امتحانات هم ازش برای تقلب استفاده کرد.
روش کار هم یک صفحه مخفی داخل مرورگر هست که فرد مقابل قادر به دیدنش نیست.
بعد از این موفقیت ایشون تصمیم میگیره تا یک شرکت بزنه و کل این محصولات رو ببره زیر مجموعه اش به اسم Cluely که الان تونسته ۵ میلیون دلار هم برای توسعه محصولش فاندینگ بگیره!
این ویدیو هم بخشی از تبلیغاتش هست برای محصولی که دراینده قراره ارائه بده و به گفته خودش میتونید "تو همه چی تقلب کنید".
خلاصه عزیزان سینگل فعلا تا اطلاع ثانوی دیت نرید تا ببینیم چه خاکی به سرمون کنیم
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣56👍4😱1
دو پژوهشگر برجستهی هوش مصنوعی، ایدهی «یادگیری تجربی» رو بهعنوان فاز بعدی توسعهی هوش مصنوعی مطرح کردن. نظریهی اونا توی مقالهای به نام «عصر تجربه» اومده که بخشی از کتاب در دست انتشار «طراحی یک هوش» از انتشارات MIT محسوب میشه.
«دیوید سیلور» و «ریچارد اس. ساتن» توی این مقاله، از نسل جدیدی از ایجنتهای هوش مصنوعی حرف زدن که بهگفتهی خودشون میتونن مسیر رسیدن به «هوش فرابشری» رو هموار کنن. اونا نوشتن: «تو حوزههایی مثل ریاضی، برنامهنویسی و علوم، دانشی که از دادههای انسانی استخراج شده، داره به سقف خودش نزدیک میشه».
بهعلاوه، بهگفتهی این دو پژوهشگر، هوش مصنوعی مولد فعلاً توانایی اختراع چیزهای مفید یا کشف بینشهای جدیدی که خارج از مرزهای درک فعلی انسان باشه رو نداره.
اما این دو نفر کیان؟
«دیوید سیلور»، دانشمند علوم کامپیوتر، یکی از توسعهدهندههای اصلی AlphaGo ـه؛ برنامهای که در سال ۲۰۱۶ تونست قهرمان جهانی بازی Go، یعنی «لی سِدول» رو شکست بده.
«ریچارد اس. ساتن» هم از چهرههای تأثیرگذار توی حوزهی یادگیری تقویتیه و الگوریتمهای پایهای زیادی برای این حوزه توسعه داده. اون توی یه مقاله در سال ۲۰۱۹ پیشنهاد کرده بود که دانشمندان کامپیوتر باید از «فرا-روشها» استفاده کنن؛ یعنی تکنیکهایی که به سیستم اجازه میدن از دنیای پیچیده و نامنظم بیرونی یاد بگیره، نه فقط از دادههای ساختاریافته.
سیلور و ساتن یه چارچوب جدید برای تقسیمبندی روند رشد هوش مصنوعی توی ده سال اخیر معرفی کردن:
۱. دورهی شبیهسازی (Simulation Era) که با AlphaGo و تکنیکهای یادگیری ماشین همراه بود.
۲. دورهی دادههای انسانی (Human Data Era) که با ظهور GPT-3 شروع شد.
۳. دورهی تجربه (Experience Era) که از سال ۲۰۲۴ با معرفی AlphaProof، محصول دیپمایند بر پایهی یادگیری تقویتی، آغاز شده.
اونا اشاره کردن که AlphaProof تونسته توی المپیاد جهانی ریاضی مدال بگیره؛ اونم با یه الگوریتم تقویتی که از طریق تعامل مداوم با سیستم اثبات ریاضی یاد گرفته. بهجای اینکه بهش مستقیماً ریاضی یاد بدن، بهش انگیزهی رسیدن به پاداشهایی رو دادن که از حل مسائل ریاضی به دست میاومده.
بهنظر نویسندهها، یادگیری هوش مصنوعی میتونه از خود دنیا هم تغذیه بشه؛ چه از طریق مدلسازی شبیهسازیشده از جهان و چه از طریق دادههایی مثل سود مالی، نتایج آزمون یا مصرف انرژی.
اونا نوشتن: «این دادهها باید بهنحوی تولید بشن که با قویتر شدن ایجنت، خودشون هم بهتر بشن؛ چون اگه دادهها از یه روش ایستا تولید بشن، خیلی زود ایجنت اون روش رو پشت سر میذاره».
ایجنتهای هوش مصنوعی در عصر تجربه، ویژگیهای متفاوتی با مدلهای فعلی دارن:
۱- میتونن برای مدت طولانی روی هدفهای جاهطلبانه کار کنن.
۲- هم از محیط اطرافشون و هم از ورودیهای انسانی تغذیه میشن.
۳- انگیزهشون بر اساس تجربهی خودشونه، نه قضاوت انسانی.
۴- توانایی برنامهریزی و استدلال در مورد چیزهایی رو دارن که مستقل از انسان هستن.
هدف این ایجنتها فقط پاسخ دادن به سوالهای کاربران نیست؛ بلکه قراره هدفهایی طولانیمدت رو دنبال کنن. برخلاف مدلهای فعلی که فقط میتونن ترجیحات کاربر رو به خاطر بسپارن یا به سوالهای قبلی توی یه گفتوگو ارجاع بدن.
البته این دو پژوهشگر نسبت به خطرها هم هشدار دادن: از جمله جایگزینی شغلی، کاهش کنترل انسانی روی تصمیمهای عاملها و سخت شدن تفسیر عملکرد اونها.
نسخه کامل این مقاله رو میتونید از اینجا مشاهده و بررسی کنید.
@aipulse24
«دیوید سیلور» و «ریچارد اس. ساتن» توی این مقاله، از نسل جدیدی از ایجنتهای هوش مصنوعی حرف زدن که بهگفتهی خودشون میتونن مسیر رسیدن به «هوش فرابشری» رو هموار کنن. اونا نوشتن: «تو حوزههایی مثل ریاضی، برنامهنویسی و علوم، دانشی که از دادههای انسانی استخراج شده، داره به سقف خودش نزدیک میشه».
بهعلاوه، بهگفتهی این دو پژوهشگر، هوش مصنوعی مولد فعلاً توانایی اختراع چیزهای مفید یا کشف بینشهای جدیدی که خارج از مرزهای درک فعلی انسان باشه رو نداره.
اما این دو نفر کیان؟
«دیوید سیلور»، دانشمند علوم کامپیوتر، یکی از توسعهدهندههای اصلی AlphaGo ـه؛ برنامهای که در سال ۲۰۱۶ تونست قهرمان جهانی بازی Go، یعنی «لی سِدول» رو شکست بده.
«ریچارد اس. ساتن» هم از چهرههای تأثیرگذار توی حوزهی یادگیری تقویتیه و الگوریتمهای پایهای زیادی برای این حوزه توسعه داده. اون توی یه مقاله در سال ۲۰۱۹ پیشنهاد کرده بود که دانشمندان کامپیوتر باید از «فرا-روشها» استفاده کنن؛ یعنی تکنیکهایی که به سیستم اجازه میدن از دنیای پیچیده و نامنظم بیرونی یاد بگیره، نه فقط از دادههای ساختاریافته.
سیلور و ساتن یه چارچوب جدید برای تقسیمبندی روند رشد هوش مصنوعی توی ده سال اخیر معرفی کردن:
۱. دورهی شبیهسازی (Simulation Era) که با AlphaGo و تکنیکهای یادگیری ماشین همراه بود.
۲. دورهی دادههای انسانی (Human Data Era) که با ظهور GPT-3 شروع شد.
۳. دورهی تجربه (Experience Era) که از سال ۲۰۲۴ با معرفی AlphaProof، محصول دیپمایند بر پایهی یادگیری تقویتی، آغاز شده.
اونا اشاره کردن که AlphaProof تونسته توی المپیاد جهانی ریاضی مدال بگیره؛ اونم با یه الگوریتم تقویتی که از طریق تعامل مداوم با سیستم اثبات ریاضی یاد گرفته. بهجای اینکه بهش مستقیماً ریاضی یاد بدن، بهش انگیزهی رسیدن به پاداشهایی رو دادن که از حل مسائل ریاضی به دست میاومده.
بهنظر نویسندهها، یادگیری هوش مصنوعی میتونه از خود دنیا هم تغذیه بشه؛ چه از طریق مدلسازی شبیهسازیشده از جهان و چه از طریق دادههایی مثل سود مالی، نتایج آزمون یا مصرف انرژی.
اونا نوشتن: «این دادهها باید بهنحوی تولید بشن که با قویتر شدن ایجنت، خودشون هم بهتر بشن؛ چون اگه دادهها از یه روش ایستا تولید بشن، خیلی زود ایجنت اون روش رو پشت سر میذاره».
ایجنتهای هوش مصنوعی در عصر تجربه، ویژگیهای متفاوتی با مدلهای فعلی دارن:
۱- میتونن برای مدت طولانی روی هدفهای جاهطلبانه کار کنن.
۲- هم از محیط اطرافشون و هم از ورودیهای انسانی تغذیه میشن.
۳- انگیزهشون بر اساس تجربهی خودشونه، نه قضاوت انسانی.
۴- توانایی برنامهریزی و استدلال در مورد چیزهایی رو دارن که مستقل از انسان هستن.
هدف این ایجنتها فقط پاسخ دادن به سوالهای کاربران نیست؛ بلکه قراره هدفهایی طولانیمدت رو دنبال کنن. برخلاف مدلهای فعلی که فقط میتونن ترجیحات کاربر رو به خاطر بسپارن یا به سوالهای قبلی توی یه گفتوگو ارجاع بدن.
البته این دو پژوهشگر نسبت به خطرها هم هشدار دادن: از جمله جایگزینی شغلی، کاهش کنترل انسانی روی تصمیمهای عاملها و سخت شدن تفسیر عملکرد اونها.
نسخه کامل این مقاله رو میتونید از اینجا مشاهده و بررسی کنید.
@aipulse24
👍31❤7🔥2👾2
شرکت چینی علیبابا روز دوشنبه مدلهای زبانی جدیدی با نام Qwen3 رو معرفی کرده که بهگفتهی خودش، در برخی سنجشها از مدلهای پیشرفتهی شرکتهایی مثل OpenAI و گوگل هم عملکرد بهتری داشتن. مدلهای Qwen3 با اندازههایی از ۰.۶ تا ۲۳۵ میلیارد پارامتر طراحی شدن و اکثرشون یا هماکنون روی پلتفرمهای Hugging Face و گیتهاب قابل دسترسی هستن، یا بهزودی منتشر میشن. بزرگترین مدل این مجموعه، یعنی Qwen3-235B-A22B، در تستهای کدنویسی، ریاضی و استدلال عملکردی نزدیک یا بهتر از مدلهای o3-mini از OpenAI و Gemini 2.5 Pro از گوگل داشته.
علیبابا گفته این مدلها از معماری هیبریدی و گاهی «Mixture of Experts» (MoE) استفاده میکنن؛ یعنی میتونن بسته به نوع وظیفه یا زمان پاسخگویی، بین حالت "تفکر" و "غیرتفکر" جابجا بشن. این قابلیت باعث میشه که هم کارهای ساده رو سریع انجام بدن، هم مسائل پیچیده رو با دقت بیشتری حل کنن، مشابه عملکرد مدلهای سطح بالایی مثل o3. تیم توسعهی Qwen توی یک پست وبلاگی نوشته: «ما امکان کنترل بودجهی تفکر برای کاربرها رو فراهم کردیم تا بشه عملکرد مدل رو برای هر وظیفه بهطور خاص تنظیم کرد.»
مدلهای Qwen3 از ۱۱۹ زبان پشتیبانی میکنن و با استفاده از دیتاستی شامل بیش از ۳۶ تریلیون توکن آموزش دیدن؛ از جمله متنهای درسی، جفت پرسشوپاسخ، کدهای برنامهنویسی، دادههای تولیدشده توسط هوش مصنوعی و غیره. بهگفتهی علیبابا، این نسخه نسبت به Qwen2 پیشرفت محسوسی داشته و در برخی تستها حتی از مدلهای شناختهشدهای مثل o1 هم بهتر عمل کرده؛ هرچند هنوز هیچکدوم از نسخههاش بهطور کامل از مدلهای ردهبالای بازار پیشی نگرفتن.
بزرگترین نسخهی Qwen3 فعلاً بهصورت عمومی منتشر نشده، اما مدل Qwen3-32B که در دسترس عموم قرار گرفته، با مدلهای قدرتمندی مثل DeepSeek R1 و OpenAI o1 رقابت میکنه. این مدل همچنین در اجرای دستورها، تماس با ابزارها و حفظ فرمت دقیق دادهها عملکرد خوبی از خودش نشون داده. Qwen3 علاوه بر دانلود مستقیم، از طریق پلتفرمهای ابری مثل Fireworks AI و Hyperbolic هم قابل استفادهست. برخی تحلیلگرها معتقدن انتشار این مدلها نشوندهندهی قدرتگیری مدلهای متن باز در برابر سیستمهای بسته هست، حتی با وجود محدودیتهای صادرات تراشه به چین.
این مدلها از طریق وبسایت qwen از اینجا قابل استفاده هستن.
@aipulse24
علیبابا گفته این مدلها از معماری هیبریدی و گاهی «Mixture of Experts» (MoE) استفاده میکنن؛ یعنی میتونن بسته به نوع وظیفه یا زمان پاسخگویی، بین حالت "تفکر" و "غیرتفکر" جابجا بشن. این قابلیت باعث میشه که هم کارهای ساده رو سریع انجام بدن، هم مسائل پیچیده رو با دقت بیشتری حل کنن، مشابه عملکرد مدلهای سطح بالایی مثل o3. تیم توسعهی Qwen توی یک پست وبلاگی نوشته: «ما امکان کنترل بودجهی تفکر برای کاربرها رو فراهم کردیم تا بشه عملکرد مدل رو برای هر وظیفه بهطور خاص تنظیم کرد.»
مدلهای Qwen3 از ۱۱۹ زبان پشتیبانی میکنن و با استفاده از دیتاستی شامل بیش از ۳۶ تریلیون توکن آموزش دیدن؛ از جمله متنهای درسی، جفت پرسشوپاسخ، کدهای برنامهنویسی، دادههای تولیدشده توسط هوش مصنوعی و غیره. بهگفتهی علیبابا، این نسخه نسبت به Qwen2 پیشرفت محسوسی داشته و در برخی تستها حتی از مدلهای شناختهشدهای مثل o1 هم بهتر عمل کرده؛ هرچند هنوز هیچکدوم از نسخههاش بهطور کامل از مدلهای ردهبالای بازار پیشی نگرفتن.
بزرگترین نسخهی Qwen3 فعلاً بهصورت عمومی منتشر نشده، اما مدل Qwen3-32B که در دسترس عموم قرار گرفته، با مدلهای قدرتمندی مثل DeepSeek R1 و OpenAI o1 رقابت میکنه. این مدل همچنین در اجرای دستورها، تماس با ابزارها و حفظ فرمت دقیق دادهها عملکرد خوبی از خودش نشون داده. Qwen3 علاوه بر دانلود مستقیم، از طریق پلتفرمهای ابری مثل Fireworks AI و Hyperbolic هم قابل استفادهست. برخی تحلیلگرها معتقدن انتشار این مدلها نشوندهندهی قدرتگیری مدلهای متن باز در برابر سیستمهای بسته هست، حتی با وجود محدودیتهای صادرات تراشه به چین.
این مدلها از طریق وبسایت qwen از اینجا قابل استفاده هستن.
@aipulse24
🔥15👍4❤🔥2
شرکت OpenAI بهتازگی آپدیتی رو که باعث رفتار عجیب و بیشازحد چاپلوسانه مدل GPT-4o شده بود، پس گرفت. سم آلتمن، مدیرعامل OpenAI، امروز در پستی اعلام کرد که این بهروزرسانی از شب گذشته برای کاربران رایگان چتجیپیتی بهطور کامل حذف شده و برای کاربران پولی هم بهزودی انجام میشه. اون گفته تیمش دارن روی اصلاحات بیشتری برای "شخصیت مدل" کار میکنن و اطلاعات بیشتری بهزودی منتشر میکنن.
این عقبگرد بعد از اون اتفاق افتاد که خیلی از کاربران توی شبکههای اجتماعی به چاپلوس بودن بیشازحد نسخه جدید اعتراض کردن. این موضوع آخر هفته تبدیل به یک میم شد؛ کاربرا اسکرینشاتهایی منتشر کردن که چتجیپیتی توش حتی تصمیمها و ایدههای خطرناک و اشتباه رو هم تأیید میکرد. آلتمن هم یکشنبه این مشکل رو تأیید کرد و گفت که OpenAI خیلی سریع در حال کار روی رفعشه و نتایجش رو بعداً به اشتراک میذاره.
@aipulse24
این عقبگرد بعد از اون اتفاق افتاد که خیلی از کاربران توی شبکههای اجتماعی به چاپلوس بودن بیشازحد نسخه جدید اعتراض کردن. این موضوع آخر هفته تبدیل به یک میم شد؛ کاربرا اسکرینشاتهایی منتشر کردن که چتجیپیتی توش حتی تصمیمها و ایدههای خطرناک و اشتباه رو هم تأیید میکرد. آلتمن هم یکشنبه این مشکل رو تأیید کرد و گفت که OpenAI خیلی سریع در حال کار روی رفعشه و نتایجش رو بعداً به اشتراک میذاره.
@aipulse24
👍20🎉3🤣3🤩2🔥1
AI Pulse
شرکت OpenAI بهتازگی آپدیتی رو که باعث رفتار عجیب و بیشازحد چاپلوسانه مدل GPT-4o شده بود، پس گرفت. سم آلتمن، مدیرعامل OpenAI، امروز در پستی اعلام کرد که این بهروزرسانی از شب گذشته برای کاربران رایگان چتجیپیتی بهطور کامل حذف شده و برای کاربران پولی هم…
حالا دلیل این اتفاق چی بوده؟ OpenAI تو گزارش جدیدش درباره مشکل چاپلوسی بیشازحد مدل GPT-4o که باعث شد آپدیت هفته گذشته پس گرفته بشه، توضیح داده که آپدیت مورد بحث با نیت بهبود «شخصیت پیشفرض» مدل انجام شده بود. هدف این بوده که تعاملات طبیعیتر و مؤثرتر به نظر برسن، ولی مشکل از اونجا شروع شد که طراحی این تغییرات بیش از حد به بازخوردهای کوتاهمدت کاربرا متکی بوده و به این موضوع توجه نکرده که سبک تعامل کاربرا در طول زمان تغییر میکنه. همین باعث شد که مدل به سمت جوابهایی بیشازحد تأییدکننده و غیرصادقانه کشیده بشه.
OpenAI تو پست وبلاگش نوشته که این نوع پاسخهای چاپلوسانه میتونه تجربهای آزاردهنده و ناخوشایند برای کاربرا بسازه. حالا تیم توسعه داره چند اصلاح اساسی انجام میده: بهروزرسانی روشهای آموزش مدل، بازنویسی دستورهای سیستمی برای جلوگیری از چاپلوسی، و افزایش ابزارهای ایمنی برای بالا بردن صداقت و شفافیت پاسخها. علاوه بر این، OpenAI گفته که در حال آزمایش روشهایی برای گرفتن بازخورد لحظهای از کاربرا و اضافه کردن گزینههایی برای انتخاب شخصیتهای مختلف چتجیپیتیه. هدف نهایی اینه که مدل، بهتر با ارزشهای فرهنگی متنوع سازگار بشه و کنترل بیشتری به دست کاربرا بده.
@aipulse24
OpenAI تو پست وبلاگش نوشته که این نوع پاسخهای چاپلوسانه میتونه تجربهای آزاردهنده و ناخوشایند برای کاربرا بسازه. حالا تیم توسعه داره چند اصلاح اساسی انجام میده: بهروزرسانی روشهای آموزش مدل، بازنویسی دستورهای سیستمی برای جلوگیری از چاپلوسی، و افزایش ابزارهای ایمنی برای بالا بردن صداقت و شفافیت پاسخها. علاوه بر این، OpenAI گفته که در حال آزمایش روشهایی برای گرفتن بازخورد لحظهای از کاربرا و اضافه کردن گزینههایی برای انتخاب شخصیتهای مختلف چتجیپیتیه. هدف نهایی اینه که مدل، بهتر با ارزشهای فرهنگی متنوع سازگار بشه و کنترل بیشتری به دست کاربرا بده.
@aipulse24
👍12🔥5👌3❤1
استارتاپ جنجالی Cluely که ابزار تقلب مبتنیبر هوش مصنوعی ارائه میده، هفتهی گذشته با ادعای ساخت یک پنجرهی پنهان در مرورگر که «غیرقابل شناساییه» و میشه باهاش تو همهچیز از مصاحبههای شغلی گرفته تا امتحانها تقلب کرد، حسابی سر زبونها افتاد. اما این وسط چندتا استارتاپ دیگه مدعیان که میتونن کاربران Cluely رو شناسایی کنن. خود Cluely هم میگه که آمادهست تا با ساخت ابزارهای سختافزاری مثل عینک هوشمند یا حتی چیپ مغزی، کل نرمافزارهای ضدتقلب رو دور بزنه.
استارتاپ سانفرانسیسکویی Validia هفتهی گذشته یه ابزار رایگان به اسم Truely منتشر کرده که بهطور مستقیم برای مقابله با Cluely ساخته شده. بهگفتهی Validia، این نرمافزار اگر متوجه استفادهی کاربر از Cluely بشه، هشدار میده. استارتاپ دیگهای بهاسم Proctaroo هم که دفترش در رود آیلنده، مدعیه که پلتفرمش توانایی شناسایی فعالیت Cluely رو داره. مدیرعامل Proctaroo، آدریان آمودت، تو مصاحبه با TechCrunch، مدل کسبوکار Cluely رو «غیراخلاقی» دونسته و گفته اونا همونطور که بقیهی برنامهها رو میبینن، Cluely رو هم میتونن شناسایی کنن.
با این حال، مدیرعامل Cluely، چونگین «روی» لی، این ابزارهای ضدتقلب رو بیاثر میدونه و با مثال زدن از سالها شکست صنعت بازیهای ویدیویی در مقابله با تقلب، به مقابله با خودش خندیده. اون حتی گفته ورود به حوزهی سختافزار براشون از نظر فنی «کاملاً پیشپا افتادهست» و ابزارهایی مثل عینک هوشمند، لایههای شیشهای شفاف، گردنبندهای ضبطکننده یا حتی چیپ مغزی میتونن آیندهی این تکنولوژی باشن. هرچند Cluely بعد از بالا گرفتن انتقادها، اشارهها به تقلب در امتحان و مصاحبهی شغلی رو از سایتش حذف کرده و حالا بیشتر روی جلسات کاری و تماسهای فروش تمرکز کرده، ولی بهگفتهی لی، این فقط یه تغییر در پیامرسانیه تا «بزرگترین بازارهای هدف» رو جذب کنن.
@aipulse24
استارتاپ سانفرانسیسکویی Validia هفتهی گذشته یه ابزار رایگان به اسم Truely منتشر کرده که بهطور مستقیم برای مقابله با Cluely ساخته شده. بهگفتهی Validia، این نرمافزار اگر متوجه استفادهی کاربر از Cluely بشه، هشدار میده. استارتاپ دیگهای بهاسم Proctaroo هم که دفترش در رود آیلنده، مدعیه که پلتفرمش توانایی شناسایی فعالیت Cluely رو داره. مدیرعامل Proctaroo، آدریان آمودت، تو مصاحبه با TechCrunch، مدل کسبوکار Cluely رو «غیراخلاقی» دونسته و گفته اونا همونطور که بقیهی برنامهها رو میبینن، Cluely رو هم میتونن شناسایی کنن.
با این حال، مدیرعامل Cluely، چونگین «روی» لی، این ابزارهای ضدتقلب رو بیاثر میدونه و با مثال زدن از سالها شکست صنعت بازیهای ویدیویی در مقابله با تقلب، به مقابله با خودش خندیده. اون حتی گفته ورود به حوزهی سختافزار براشون از نظر فنی «کاملاً پیشپا افتادهست» و ابزارهایی مثل عینک هوشمند، لایههای شیشهای شفاف، گردنبندهای ضبطکننده یا حتی چیپ مغزی میتونن آیندهی این تکنولوژی باشن. هرچند Cluely بعد از بالا گرفتن انتقادها، اشارهها به تقلب در امتحان و مصاحبهی شغلی رو از سایتش حذف کرده و حالا بیشتر روی جلسات کاری و تماسهای فروش تمرکز کرده، ولی بهگفتهی لی، این فقط یه تغییر در پیامرسانیه تا «بزرگترین بازارهای هدف» رو جذب کنن.
@aipulse24
👍18😁8
اپل و آنتروپیک دارن با هم همکاری میکنن تا یه پلتفرم جدید بسازن که با استفاده از هوش مصنوعی مولد، بتونه کد بنویسه، ویرایش کنه و حتی تست بگیره. طبق گزارشی که بلومبرگ منتشر کرده، این پلتفرم فعلاً بهصورت داخلی داخل خود اپل استفاده میشه و هنوز تصمیمی برای عرضهی عمومی اون گرفته نشده. این ابزار درواقع نسخهای پیشرفتهتر از نرمافزار برنامهنویسی Xcode اپله که با تکیه بر مدل Claude Sonnet، محصول آنتروپیک، توسعه پیدا کرده.
اپل برای سرعتدادن به پروژههای هوش مصنوعیش، داره از یه شبکهی گسترده از شرکای تکنولوژی استفاده میکنه. برای مثال، چتجیپیتی از شرکت OpenAI همین حالا هم نقش پررنگی توی قابلیتهای Apple Intelligence داره و به گفتهی خود اپل، احتمال داره در آینده مدل Gemini گوگل هم بهعنوان یه گزینهی جایگزین بهش اضافه بشه. حالا هم آنتروپیک به این جمع پیوسته تا به اپل تو توسعهی داخلی ابزارهای برنامهنویسی کمک کنه.
@aipulse24
اپل برای سرعتدادن به پروژههای هوش مصنوعیش، داره از یه شبکهی گسترده از شرکای تکنولوژی استفاده میکنه. برای مثال، چتجیپیتی از شرکت OpenAI همین حالا هم نقش پررنگی توی قابلیتهای Apple Intelligence داره و به گفتهی خود اپل، احتمال داره در آینده مدل Gemini گوگل هم بهعنوان یه گزینهی جایگزین بهش اضافه بشه. حالا هم آنتروپیک به این جمع پیوسته تا به اپل تو توسعهی داخلی ابزارهای برنامهنویسی کمک کنه.
@aipulse24
🔥15👍8❤3
گوگل قراره از هفتهی آینده به بچههای زیر ۱۳ سال اجازه بده از چتبات Gemini استفاده کنن؛ البته فقط در صورتی که حساب کاربریشون با نظارت والدین ساخته شده باشه. طبق گزارشی که نیویورک تایمز منتشر کرده، این امکان از طریق سرویس Family Link گوگل فعال میشه؛ سرویسی که به خانوادهها اجازه میده دسترسی فرزندشون به سرویسهای مختلف گوگل رو کنترل کنن. به گفتهی یکی از سخنگوهای گوگل، نسخهای که برای این گروه سنی در نظر گرفته شده، شامل محدودیتها و فیلترهای مخصوص بچههاست و اطلاعاتی که از این طریق جمعآوری میشه، برای آموزش مدلهای هوش مصنوعی گوگل استفاده نمیشن.
در حالی که شرکتهای مختلف دارن برای جذب مخاطبهای کمسنوسال توی رقابت هوش مصنوعی از هم پیشی میگیرن، خیلیها نسبت به این روند هشدار دادن. نیویورک تایمز یادآوری کرده که چتباتها در بهترین حالت هنوز کامل و بدون نقص نیستن، و در بدترین حالت ممکنه آسیبزا باشن. سال گذشته، سازمان آموزشی، علمی و فرهنگی سازمان ملل (یونسکو) از دولتها خواست استفاده از هوش مصنوعی مولد در آموزش رو قانونمند کنن؛ از جمله با تعیین محدودیت سنی برای کاربران و ایجاد چارچوبهایی برای حفاظت از دادهها و حریم خصوصی.
@aipulse24
در حالی که شرکتهای مختلف دارن برای جذب مخاطبهای کمسنوسال توی رقابت هوش مصنوعی از هم پیشی میگیرن، خیلیها نسبت به این روند هشدار دادن. نیویورک تایمز یادآوری کرده که چتباتها در بهترین حالت هنوز کامل و بدون نقص نیستن، و در بدترین حالت ممکنه آسیبزا باشن. سال گذشته، سازمان آموزشی، علمی و فرهنگی سازمان ملل (یونسکو) از دولتها خواست استفاده از هوش مصنوعی مولد در آموزش رو قانونمند کنن؛ از جمله با تعیین محدودیت سنی برای کاربران و ایجاد چارچوبهایی برای حفاظت از دادهها و حریم خصوصی.
@aipulse24
🔥12👍7❤1
گوگل اعلام کرده که کاربران اپلیکیشن Gemini حالا میتونن هم تصاویر تولیدشده توسط هوش مصنوعی و هم عکسهایی که از گوشی یا کامپیوترشون آپلود میکنن رو مستقیماً ویرایش کنن. این قابلیت که از امروز بهصورت تدریجی فعال میشه، بهمرور در دسترس کاربران در بیشتر کشورها قرار میگیره و پشتیبانی از بیش از ۴۵ زبان رو هم شامل میشه.
ابزار جدید Gemini که شبیه نسخه بهروزرسانیشدهی ChatGPT در ویرایش تصویر عمل میکنه، از یک فرآیند چندمرحلهای استفاده میکنه تا به درخواستهای کاربر پاسخهای دقیقتر و ترکیبی از متن و تصویر بده. با این ابزار میشه بکگراند تصویر رو عوض کرد، اشیاء رو جابهجا کرد یا عناصر جدیدی به تصویر اضافه کرد.
گوگل میگه برای جلوگیری از سوءاستفاده و نگرانیهای مربوط به دیپفیک، همهی تصاویر ویرایششده با Gemini دارای واترمارک نامرئی خواهند بود و این شرکت در حال تست واترمارکهای قابلمشاهده هم هست.
@aipulse24
ابزار جدید Gemini که شبیه نسخه بهروزرسانیشدهی ChatGPT در ویرایش تصویر عمل میکنه، از یک فرآیند چندمرحلهای استفاده میکنه تا به درخواستهای کاربر پاسخهای دقیقتر و ترکیبی از متن و تصویر بده. با این ابزار میشه بکگراند تصویر رو عوض کرد، اشیاء رو جابهجا کرد یا عناصر جدیدی به تصویر اضافه کرد.
گوگل میگه برای جلوگیری از سوءاستفاده و نگرانیهای مربوط به دیپفیک، همهی تصاویر ویرایششده با Gemini دارای واترمارک نامرئی خواهند بود و این شرکت در حال تست واترمارکهای قابلمشاهده هم هست.
@aipulse24
👍10❤4🔥3
یه مقالهی تازه از تیم تحقیقاتی Cohere، دانشگاههای استنفورد، MIT و AI2، سازمان LM Arena رو متهم کرده که شرایطی فراهم کرده تا چند شرکت خاص هوش مصنوعی، از جمله Meta، OpenAI، Google و Amazon، امتیازهای بهتری در پلتفرم معروف Chatbot Arena کسب کنن.
طبق این مقاله، شرکتهایی مثل Meta تونستن نسخههای مختلفی از مدلهاشون رو بهصورت خصوصی توی این پلتفرم آزمایش کنن، ولی فقط نتایج مدلهایی که خوب عمل کرده بودن منتشر شده. این یعنی بدون اینکه بقیه شرکتها از این فرصت بهرهمند باشن، چند شرکت خاص تونستن مدل بهتری ارائه بدن و جایگاه بالاتری توی جدول رتبهبندی بگیرن.
Chatbot Arena که سال ۲۰۲۳ بهعنوان یه پروژهی تحقیقاتی از دانشگاه UC Berkeley شروع شد، بهسرعت تبدیل شده به یکی از معیارهای محبوب برای مقایسه مدلهای هوش مصنوعی. شیوهی کارش اینطوریه که دو مدل کنار هم قرار میگیرن، کاربر یکی رو انتخاب میکنه و رایها در طول زمان امتیاز نهایی مدل رو مشخص میکنن.
با این حال، مقاله میگه برخلاف ادعای بیطرف بودن LM Arena، شرکت Meta بین ژانویه تا مارس، ۲۷ مدل مختلف رو بهصورت خصوصی تست کرده ولی در نهایت فقط امتیاز یه مدل قوی رو منتشر کرده — همونی که بعداً در صدر جدول قرار گرفت.
LM Arena توی جوابیهای که برای TechCrunch فرستاده، مقاله رو پر از "اشتباه" و "تحلیلهای مشکوک" دونسته و گفته که امکان تست برای همهی شرکتها بازه و اگه شرکتی تست بیشتری انجام داده، به این معنی نیست که بقیه ناعادلانه برخورد شدن. با این حال، نویسندههای مقاله میگن این سطح از دسترسی فقط به تعداد محدودی شرکت اطلاع داده شده بوده.
نویسندههای مقاله که از نوامبر ۲۰۲۴ شروع به بررسی دادهها کردن، میگن بیش از ۲.۸ میلیون نبرد بین مدلها رو در طول پنج ماه تحلیل کردن و به این نتیجه رسیدن که بعضی شرکتها نهتنها بیشتر تونستن مدل تست کنن، بلکه مدلهاشون هم بیشتر وارد رقابت شدهن و دادههای بیشتری جمع کردن — چیزی که به مدلها توی تمرین و بهبود عملکرد کمک کرده.
در حالیکه بعضی از اطلاعات مقاله با تکیه بر «خوداظهاری» مدلها درباره اینکه ساخت کدوم شرکتان جمعآوری شده (که روش دقیقی نیست)، سارا هوکر میگه وقتی یافتههای اولیه با LM Arena به اشتراک گذاشته شده، اونا مخالفتی نکردن.
در پایان، نویسندههای مقاله از LM Arena خواستن تغییراتی در روند خودش ایجاد کنه؛ از جمله اینکه سقف مشخصی برای تستهای خصوصی تعیین بشه، نتایج این تستها بهصورت عمومی منتشر بشه و نرخ نمایش مدلها توی نبردها برای همهی شرکتها یکسان بشه. LM Arena بعضی از این پیشنهادها رو پذیرفته، اما گفته منتشر کردن امتیاز مدلهایی که هنوز عرضه نشدن، منطقی نیست.
این مقاله در حالی منتشر شده که Meta چند هفته پیش هم بابت دستکاری رتبهها در زمان عرضهی Llama 4 خبرساز شده بود. حالا هم LM Arena اعلام کرده قراره شرکت راه بندازه و سرمایه جذب کنه — موضوعی که پرسشهای تازهای دربارهی استقلال و شفافیت این سازمان مطرح میکنه.
نسخه کامل این مقاله رو میتونید از اینجا دانلود و مشاهده کنید.
@aipulse24
طبق این مقاله، شرکتهایی مثل Meta تونستن نسخههای مختلفی از مدلهاشون رو بهصورت خصوصی توی این پلتفرم آزمایش کنن، ولی فقط نتایج مدلهایی که خوب عمل کرده بودن منتشر شده. این یعنی بدون اینکه بقیه شرکتها از این فرصت بهرهمند باشن، چند شرکت خاص تونستن مدل بهتری ارائه بدن و جایگاه بالاتری توی جدول رتبهبندی بگیرن.
Chatbot Arena که سال ۲۰۲۳ بهعنوان یه پروژهی تحقیقاتی از دانشگاه UC Berkeley شروع شد، بهسرعت تبدیل شده به یکی از معیارهای محبوب برای مقایسه مدلهای هوش مصنوعی. شیوهی کارش اینطوریه که دو مدل کنار هم قرار میگیرن، کاربر یکی رو انتخاب میکنه و رایها در طول زمان امتیاز نهایی مدل رو مشخص میکنن.
با این حال، مقاله میگه برخلاف ادعای بیطرف بودن LM Arena، شرکت Meta بین ژانویه تا مارس، ۲۷ مدل مختلف رو بهصورت خصوصی تست کرده ولی در نهایت فقط امتیاز یه مدل قوی رو منتشر کرده — همونی که بعداً در صدر جدول قرار گرفت.
LM Arena توی جوابیهای که برای TechCrunch فرستاده، مقاله رو پر از "اشتباه" و "تحلیلهای مشکوک" دونسته و گفته که امکان تست برای همهی شرکتها بازه و اگه شرکتی تست بیشتری انجام داده، به این معنی نیست که بقیه ناعادلانه برخورد شدن. با این حال، نویسندههای مقاله میگن این سطح از دسترسی فقط به تعداد محدودی شرکت اطلاع داده شده بوده.
نویسندههای مقاله که از نوامبر ۲۰۲۴ شروع به بررسی دادهها کردن، میگن بیش از ۲.۸ میلیون نبرد بین مدلها رو در طول پنج ماه تحلیل کردن و به این نتیجه رسیدن که بعضی شرکتها نهتنها بیشتر تونستن مدل تست کنن، بلکه مدلهاشون هم بیشتر وارد رقابت شدهن و دادههای بیشتری جمع کردن — چیزی که به مدلها توی تمرین و بهبود عملکرد کمک کرده.
در حالیکه بعضی از اطلاعات مقاله با تکیه بر «خوداظهاری» مدلها درباره اینکه ساخت کدوم شرکتان جمعآوری شده (که روش دقیقی نیست)، سارا هوکر میگه وقتی یافتههای اولیه با LM Arena به اشتراک گذاشته شده، اونا مخالفتی نکردن.
در پایان، نویسندههای مقاله از LM Arena خواستن تغییراتی در روند خودش ایجاد کنه؛ از جمله اینکه سقف مشخصی برای تستهای خصوصی تعیین بشه، نتایج این تستها بهصورت عمومی منتشر بشه و نرخ نمایش مدلها توی نبردها برای همهی شرکتها یکسان بشه. LM Arena بعضی از این پیشنهادها رو پذیرفته، اما گفته منتشر کردن امتیاز مدلهایی که هنوز عرضه نشدن، منطقی نیست.
این مقاله در حالی منتشر شده که Meta چند هفته پیش هم بابت دستکاری رتبهها در زمان عرضهی Llama 4 خبرساز شده بود. حالا هم LM Arena اعلام کرده قراره شرکت راه بندازه و سرمایه جذب کنه — موضوعی که پرسشهای تازهای دربارهی استقلال و شفافیت این سازمان مطرح میکنه.
نسخه کامل این مقاله رو میتونید از اینجا دانلود و مشاهده کنید.
@aipulse24
👍17❤5💔2
گوگل روز سهشنبه نسخه جدیدی از مدل هوش مصنوعی پرچمدارش، یعنی Gemini 2.5 Pro Preview (نسخه I/O) رو معرفی کرد؛ مدلی که به گفتهی شرکت، تونسته از بسیاری از رقبای شناختهشده در بنچمارکهای معتبر جلو بزنه. این نسخه از طریق API جمنای، پلتفرمهای Vertex AI و AI Studio در دسترسه و قیمتش با همون نسخهی Gemini 2.5 Pro یکیه. گوگل همچنین این مدل رو توی اپلیکیشن Gemini مخصوص وب و موبایل هم فعال کرده.
انتشار این مدل دقیقاً قبل از کنفرانس سالانهی توسعهدهندههای گوگل با عنوان I/O انجام شده، و به همین خاطر بهش لقب "نسخه I/O" دادن. انتظار میره گوگل در این رویداد، مجموعهای از مدلهای جدید و ابزارهای مجهز به هوش مصنوعی رو معرفی کنه. این شرکت در رقابتی تنگاتنگ با رقبایی مثل OpenAI و xAI قرار گرفته؛ شرکتهایی که بهزودی مدلهایی با عملکرد بالا عرضه میکنن.
بهگفتهی گوگل، Gemini 2.5 Pro Preview (نسخه I/O) پیشرفت چشمگیری توی زمینههایی مثل کدنویسی، ویرایش و تبدیل کد و ساخت اپهای تعاملی وب داشته. این مدل تونسته رتبهی اول بنچمارک WebDev Arena رو از آن خودش کنه؛ معیاری که عملکرد مدلها در ساخت وباپهای زیبا و کاربردی رو میسنجه. همچنین در حوزهی درک ویدیو، امتیاز ۸۴.۸٪ در بنچمارک VideoMME کسب کرده. گوگل میگه این نسخه، دقت فراخوانی توابع رو بهتر کرده و نسبت به بازخوردهای توسعهدهندهها واکنش نشون داده؛ ضمن اینکه "سلیقهی خوبی در طراحی صفحات وب" داره.
@aipulse24
انتشار این مدل دقیقاً قبل از کنفرانس سالانهی توسعهدهندههای گوگل با عنوان I/O انجام شده، و به همین خاطر بهش لقب "نسخه I/O" دادن. انتظار میره گوگل در این رویداد، مجموعهای از مدلهای جدید و ابزارهای مجهز به هوش مصنوعی رو معرفی کنه. این شرکت در رقابتی تنگاتنگ با رقبایی مثل OpenAI و xAI قرار گرفته؛ شرکتهایی که بهزودی مدلهایی با عملکرد بالا عرضه میکنن.
بهگفتهی گوگل، Gemini 2.5 Pro Preview (نسخه I/O) پیشرفت چشمگیری توی زمینههایی مثل کدنویسی، ویرایش و تبدیل کد و ساخت اپهای تعاملی وب داشته. این مدل تونسته رتبهی اول بنچمارک WebDev Arena رو از آن خودش کنه؛ معیاری که عملکرد مدلها در ساخت وباپهای زیبا و کاربردی رو میسنجه. همچنین در حوزهی درک ویدیو، امتیاز ۸۴.۸٪ در بنچمارک VideoMME کسب کرده. گوگل میگه این نسخه، دقت فراخوانی توابع رو بهتر کرده و نسبت به بازخوردهای توسعهدهندهها واکنش نشون داده؛ ضمن اینکه "سلیقهی خوبی در طراحی صفحات وب" داره.
@aipulse24
❤15👍7
This media is not supported in your browser
VIEW IN TELEGRAM
از امروز میتونید گزارش هایی که با قابلیت Deep Research چت جیپیتی براتون تهیه شده رو به صورت PDF به همراه عکسها، جداول و منابع دانلود کنید.
@aipulse24
@aipulse24
🔥25❤6👍6😁2
حالا که صحبت از جایگزینی هوش مصنوعی با ادم ها بالا گرفته سوال اینه:
عملکرد ایجنت ها به عنوان یک کارمند مستقل توی یک فضای کاری واقعی چطوره؟🤔
آیا واقعا میتونیم کل یه شرکت رو با یه سری ایجنت مدیریت کنیم؟!🤔
یه گروه از محققای دانشگاه CMU امریکا یک بنچ مارک جدید ساختن که کارش بررسی عملکرد ایجنت ها توی فضای غیر ازمایشگاهی و کنترل شده است. عنوان این بنچ مارک TheAgentCompany هست.
✔️ منظور از این شرکت چیه؟
یک شرکت توسعه نرم افزار فیک تعریف کردن. توی این شرکت برای کارهای توسعه نرم افزار از GitLab، برای نگهداری مدارک و فایل ها از ownCloud، برای ارتباط درون سازمانی از اپ RocketChat و برای مدیریت پروژه از نرم افزار Plane استفاده میکنن. این بنچ مارک یه فضای کامل دیجیتال هست با همکارهای فیک، فرایندهای چند مرحله ای و تعاملاتی که انسان ها هر روز سرکار باهم دارن
✔️ روش کار این بنچ مارک به چه صورته؟:
به ایجنت های هوش مصنوعی وظایفی از دپارتمان های مختلف میدی از دپارتمان مهندسی، منابع انسانی گرفته تا مالی و مدیریت پروژه که باید این وظایف رو بدون وجود هیچ انسانی به سرانجام برسونن.
✔️ کدوم مدل ها توی این بنچ مارک بررسی شدن؟
درکل ۱۱ تا مدل بررسی شدن از جمله مدل Claude 3.5 ، ChatGPT 4o ، جمنای، مدل نوا آمازون و مدل های اوپن سورس لاما و Qwen.
هرکدوم از این مدل ها رو انداختن توی این فضای شرکتی تقلبی و بهش ۱۷۵ تا تسک دادن تا انجام بده
🤪 بخش جذاب ماجرا🤪
عملکرد مدل ها چطور بوده؟😭 😭 😭
کلاد که مثلا بهترین عملکرد رو داشته تونسته فقط ۲۴ درصد از کل تسک هارو به سرانجام برسونه.
🥺 مشکل اصلی کجا بوده؟🥺
اینکه مدل های عزیز کلا تو کارشون "بلد نیستم یکی بیاد بگه چیکار کنم" نبوده:))
با اعتماد به نفس کارهارو می پیچوندن و ادعای موفقیت میکردن😂
از جمله سوتی هایی که دادن:
✅ فردی که باید بهش مسیج میداده رو نیافته رفته اسم یکی رو توی سیستم عوض کرده به اون شخص خاص و گفته مسیج دادم
✅ کلا مراحل زیر مجموعه یک تسک بزرگتر رو بیخیال شده و مدعی شده کارو به سرانجام رسونده
✅ از اساس یه سری فایل و داکیومنت رو فیک درست کرده و گفته براساس اینا عمل کردم
✅ وقتی روی صفحه نتی که باهاش کار میکرده یک مسیج pop up اومده به طور کل جیغ زده فرار کرده😂
خلاصه محققان نتیجه گرفتن که هنوز حوزه های زیادی هست که ایجنت ها توانایی انجامشون بدون هدایت و نظارت انسان هارو ندارن، اما تسک های مهندسی نرم افزار جزو گروهی از وظایف بوده که بهترین شکل تونستن به سرانجام برسونن
پس نباید از ایجنت ها انتظار عملکرد plug and play داشت و همسو کردن این ایجنت ها با نیازهای شرکت زمان میبره و نیاز به نظارت انسانی داره
این مقاله رو میتونید اینجا بخونید
@aipulse24
عملکرد ایجنت ها به عنوان یک کارمند مستقل توی یک فضای کاری واقعی چطوره؟
آیا واقعا میتونیم کل یه شرکت رو با یه سری ایجنت مدیریت کنیم؟!
یه گروه از محققای دانشگاه CMU امریکا یک بنچ مارک جدید ساختن که کارش بررسی عملکرد ایجنت ها توی فضای غیر ازمایشگاهی و کنترل شده است. عنوان این بنچ مارک TheAgentCompany هست.
یک شرکت توسعه نرم افزار فیک تعریف کردن. توی این شرکت برای کارهای توسعه نرم افزار از GitLab، برای نگهداری مدارک و فایل ها از ownCloud، برای ارتباط درون سازمانی از اپ RocketChat و برای مدیریت پروژه از نرم افزار Plane استفاده میکنن. این بنچ مارک یه فضای کامل دیجیتال هست با همکارهای فیک، فرایندهای چند مرحله ای و تعاملاتی که انسان ها هر روز سرکار باهم دارن
به ایجنت های هوش مصنوعی وظایفی از دپارتمان های مختلف میدی از دپارتمان مهندسی، منابع انسانی گرفته تا مالی و مدیریت پروژه که باید این وظایف رو بدون وجود هیچ انسانی به سرانجام برسونن.
درکل ۱۱ تا مدل بررسی شدن از جمله مدل Claude 3.5 ، ChatGPT 4o ، جمنای، مدل نوا آمازون و مدل های اوپن سورس لاما و Qwen.
هرکدوم از این مدل ها رو انداختن توی این فضای شرکتی تقلبی و بهش ۱۷۵ تا تسک دادن تا انجام بده
عملکرد مدل ها چطور بوده؟
کلاد که مثلا بهترین عملکرد رو داشته تونسته فقط ۲۴ درصد از کل تسک هارو به سرانجام برسونه.
اینکه مدل های عزیز کلا تو کارشون "بلد نیستم یکی بیاد بگه چیکار کنم" نبوده:))
با اعتماد به نفس کارهارو می پیچوندن و ادعای موفقیت میکردن😂
از جمله سوتی هایی که دادن:
خلاصه محققان نتیجه گرفتن که هنوز حوزه های زیادی هست که ایجنت ها توانایی انجامشون بدون هدایت و نظارت انسان هارو ندارن، اما تسک های مهندسی نرم افزار جزو گروهی از وظایف بوده که بهترین شکل تونستن به سرانجام برسونن
پس نباید از ایجنت ها انتظار عملکرد plug and play داشت و همسو کردن این ایجنت ها با نیازهای شرکت زمان میبره و نیاز به نظارت انسانی داره
این مقاله رو میتونید اینجا بخونید
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤣41👍17❤3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت Runway چهارمین دوره از مسابقه Runway Gen 48 رو اپریل برگزار کرد.
برای شرکت در این مسابقه شما ۴۸ ساعت فرصت دارید تا یک فیلم کوتاه با استفاده از هوش مصنوعی بسازید.
توی این تایم (۴۸ ساعت ) به افراد شرکتکننده دسترسی به یک اکانت رایگان بی نهایت داده میشه تا باهاش فیلم شون رو بسازن و اینطوری برای شرکت در مسابقه مجبور به پرداخت هزینه ای نباشن.🥺
💰 جوایزش هم به این صورت هست:
✅ گرند پری و برگزیده مردمی هرکدوم:
🏆 ۵۰۰۰ دلار نقد + ۱ میلیون کردیت استفاده از runway
✅ بقیه برندگان:
🏆 ۵۰۰ هزار کردیت ران وی
این ۵ فیلم هرکدوم توی کتگوری های مختلف برنده شدن
اولین فیلم با عنوان Aelita برنده بخش "برگزیده مردمی" شده
ردیف وسط اولین کلیپ از چپ عنوانش هست Clover و برنده بخش "انتخاب داوران" شده
ردیف وسط دومین کلیپ از چپ عنوانش Home هست و برنده بخش "گرند پری" شده
ردیف وسط اولی از راست عنوانش No pressure هست و یکی دیگه از برنده های بخش "انتخاب داوران" هست
اخرین فیلم هم عنوانش هست Eyes on Me هست و یکی دیگه از برندگان "انتخاب داوران" هست.
عزیزان متخصص فیلم و سریال نظرتون چیه؟
کدوم بهتره؟
آیا میشه دراینده نزدیک فیلم کامل با هوش مصنوعی در سطح اکران سینمایی ببینیم؟
@aipulse24
برای شرکت در این مسابقه شما ۴۸ ساعت فرصت دارید تا یک فیلم کوتاه با استفاده از هوش مصنوعی بسازید.
توی این تایم (۴۸ ساعت ) به افراد شرکتکننده دسترسی به یک اکانت رایگان بی نهایت داده میشه تا باهاش فیلم شون رو بسازن و اینطوری برای شرکت در مسابقه مجبور به پرداخت هزینه ای نباشن.
این ۵ فیلم هرکدوم توی کتگوری های مختلف برنده شدن
اولین فیلم با عنوان Aelita برنده بخش "برگزیده مردمی" شده
ردیف وسط اولین کلیپ از چپ عنوانش هست Clover و برنده بخش "انتخاب داوران" شده
ردیف وسط دومین کلیپ از چپ عنوانش Home هست و برنده بخش "گرند پری" شده
ردیف وسط اولی از راست عنوانش No pressure هست و یکی دیگه از برنده های بخش "انتخاب داوران" هست
اخرین فیلم هم عنوانش هست Eyes on Me هست و یکی دیگه از برندگان "انتخاب داوران" هست.
عزیزان متخصص فیلم و سریال نظرتون چیه؟
کدوم بهتره؟
آیا میشه دراینده نزدیک فیلم کامل با هوش مصنوعی در سطح اکران سینمایی ببینیم؟
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤5🤯3
استارتاپ Windsurf که بهخاطر ابزارهای محبوبش برای برنامهنویسها شناخته میشه، روز پنجشنبه از اولین خانوادهی مدلهای هوش مصنوعی اختصاصی خودش به نام SWE-1 رونمایی کرد. این مجموعه شامل سه نسخهی اصلی، لایت و مینی هست که طبق گفتهی شرکت، نه فقط برای کدنویسی بلکه برای تمام فرآیند مهندسی نرمافزار بهینهسازی شدن.
این خبر در حالی منتشر شده که طبق گزارشها، OpenAI بهتازگی قرارداد خرید ۳ میلیارد دلاری Windsurf رو نهایی کرده. با این حال، عرضهی مدلهای داخلی توسط Windsurf نشون میده که این استارتاپ داره از صرفاً ساخت اپلیکیشن فراتر میره و به سمت توسعهی مدلهای پایهی هوش مصنوعی هم حرکت میکنه.
مدل اصلی یعنی SWE-1 توی بنچمارکهای داخلی برنامهنویسی، عملکردی نزدیک به مدلهای مطرحی مثل Claude 3.5 Sonnet، GPT-4.1 و Gemini 2.5 Pro داشته، اما هنوز به پای مدلهای پیشرویی مثل Claude 3.7 Sonnet نمیرسه. نسخههای Lite و Mini این مدل برای تمام کاربران (رایگان یا پولی) در دسترسه، اما نسخهی کامل SWE-1 فقط برای کاربران پولی فعاله. با اینکه قیمتگذاری رسمی اعلام نشده، Windsurf میگه هزینهی اجرای SWE-1 از مدلهایی مثل Claude 3.5 کمتره.
Windsurf بیشتر بهخاطر سبکی از کدنویسی به اسم "vibe coding" معروفه؛ مدلی که برنامهنویسها میتونن از طریق گفتگو با چتباتها کدنویسی و ویرایش انجام بدن. تا حالا، بیشتر شرکتهایی مثل Windsurf، Cursor و Lovable برای این کار از مدلهای OpenAI، Anthropic یا گوگل استفاده میکردن، اما حالا Windsurf داره تلاش میکنه راه خودش رو جدا کنه.
طبق گفتهی نیکلاس موی، رئیس بخش تحقیقات Windsurf، مدلهای پیشتاز الان توی کدنویسی خوبن، ولی برای مهندسی نرمافزار کافی نیستن. اون گفته: «کدنویسی، مهندسی نرمافزار نیست». به گفتهی این شرکت، مدل SWE-1 طوری آموزش دیده که بتونه توی محیطهای مختلف — مثل ترمینال، IDE و مرورگر — که برنامهنویسها بهطور روزمره باهاش سروکار دارن، عملکرد خوبی نشون بده.
Windsurf اعلام کرده که SWE-1 فقط یه طرح اولیهس و احتمالاً مدلهای پیشرفتهتری هم در آینده منتشر خواهد کرد.
@aipulse24
این خبر در حالی منتشر شده که طبق گزارشها، OpenAI بهتازگی قرارداد خرید ۳ میلیارد دلاری Windsurf رو نهایی کرده. با این حال، عرضهی مدلهای داخلی توسط Windsurf نشون میده که این استارتاپ داره از صرفاً ساخت اپلیکیشن فراتر میره و به سمت توسعهی مدلهای پایهی هوش مصنوعی هم حرکت میکنه.
مدل اصلی یعنی SWE-1 توی بنچمارکهای داخلی برنامهنویسی، عملکردی نزدیک به مدلهای مطرحی مثل Claude 3.5 Sonnet، GPT-4.1 و Gemini 2.5 Pro داشته، اما هنوز به پای مدلهای پیشرویی مثل Claude 3.7 Sonnet نمیرسه. نسخههای Lite و Mini این مدل برای تمام کاربران (رایگان یا پولی) در دسترسه، اما نسخهی کامل SWE-1 فقط برای کاربران پولی فعاله. با اینکه قیمتگذاری رسمی اعلام نشده، Windsurf میگه هزینهی اجرای SWE-1 از مدلهایی مثل Claude 3.5 کمتره.
Windsurf بیشتر بهخاطر سبکی از کدنویسی به اسم "vibe coding" معروفه؛ مدلی که برنامهنویسها میتونن از طریق گفتگو با چتباتها کدنویسی و ویرایش انجام بدن. تا حالا، بیشتر شرکتهایی مثل Windsurf، Cursor و Lovable برای این کار از مدلهای OpenAI، Anthropic یا گوگل استفاده میکردن، اما حالا Windsurf داره تلاش میکنه راه خودش رو جدا کنه.
طبق گفتهی نیکلاس موی، رئیس بخش تحقیقات Windsurf، مدلهای پیشتاز الان توی کدنویسی خوبن، ولی برای مهندسی نرمافزار کافی نیستن. اون گفته: «کدنویسی، مهندسی نرمافزار نیست». به گفتهی این شرکت، مدل SWE-1 طوری آموزش دیده که بتونه توی محیطهای مختلف — مثل ترمینال، IDE و مرورگر — که برنامهنویسها بهطور روزمره باهاش سروکار دارن، عملکرد خوبی نشون بده.
Windsurf اعلام کرده که SWE-1 فقط یه طرح اولیهس و احتمالاً مدلهای پیشرفتهتری هم در آینده منتشر خواهد کرد.
@aipulse24
👍17❤4