استارتاپ جنجالی Cluely که ابزار تقلب مبتنیبر هوش مصنوعی ارائه میده، هفتهی گذشته با ادعای ساخت یک پنجرهی پنهان در مرورگر که «غیرقابل شناساییه» و میشه باهاش تو همهچیز از مصاحبههای شغلی گرفته تا امتحانها تقلب کرد، حسابی سر زبونها افتاد. اما این وسط چندتا استارتاپ دیگه مدعیان که میتونن کاربران Cluely رو شناسایی کنن. خود Cluely هم میگه که آمادهست تا با ساخت ابزارهای سختافزاری مثل عینک هوشمند یا حتی چیپ مغزی، کل نرمافزارهای ضدتقلب رو دور بزنه.
استارتاپ سانفرانسیسکویی Validia هفتهی گذشته یه ابزار رایگان به اسم Truely منتشر کرده که بهطور مستقیم برای مقابله با Cluely ساخته شده. بهگفتهی Validia، این نرمافزار اگر متوجه استفادهی کاربر از Cluely بشه، هشدار میده. استارتاپ دیگهای بهاسم Proctaroo هم که دفترش در رود آیلنده، مدعیه که پلتفرمش توانایی شناسایی فعالیت Cluely رو داره. مدیرعامل Proctaroo، آدریان آمودت، تو مصاحبه با TechCrunch، مدل کسبوکار Cluely رو «غیراخلاقی» دونسته و گفته اونا همونطور که بقیهی برنامهها رو میبینن، Cluely رو هم میتونن شناسایی کنن.
با این حال، مدیرعامل Cluely، چونگین «روی» لی، این ابزارهای ضدتقلب رو بیاثر میدونه و با مثال زدن از سالها شکست صنعت بازیهای ویدیویی در مقابله با تقلب، به مقابله با خودش خندیده. اون حتی گفته ورود به حوزهی سختافزار براشون از نظر فنی «کاملاً پیشپا افتادهست» و ابزارهایی مثل عینک هوشمند، لایههای شیشهای شفاف، گردنبندهای ضبطکننده یا حتی چیپ مغزی میتونن آیندهی این تکنولوژی باشن. هرچند Cluely بعد از بالا گرفتن انتقادها، اشارهها به تقلب در امتحان و مصاحبهی شغلی رو از سایتش حذف کرده و حالا بیشتر روی جلسات کاری و تماسهای فروش تمرکز کرده، ولی بهگفتهی لی، این فقط یه تغییر در پیامرسانیه تا «بزرگترین بازارهای هدف» رو جذب کنن.
@aipulse24
استارتاپ سانفرانسیسکویی Validia هفتهی گذشته یه ابزار رایگان به اسم Truely منتشر کرده که بهطور مستقیم برای مقابله با Cluely ساخته شده. بهگفتهی Validia، این نرمافزار اگر متوجه استفادهی کاربر از Cluely بشه، هشدار میده. استارتاپ دیگهای بهاسم Proctaroo هم که دفترش در رود آیلنده، مدعیه که پلتفرمش توانایی شناسایی فعالیت Cluely رو داره. مدیرعامل Proctaroo، آدریان آمودت، تو مصاحبه با TechCrunch، مدل کسبوکار Cluely رو «غیراخلاقی» دونسته و گفته اونا همونطور که بقیهی برنامهها رو میبینن، Cluely رو هم میتونن شناسایی کنن.
با این حال، مدیرعامل Cluely، چونگین «روی» لی، این ابزارهای ضدتقلب رو بیاثر میدونه و با مثال زدن از سالها شکست صنعت بازیهای ویدیویی در مقابله با تقلب، به مقابله با خودش خندیده. اون حتی گفته ورود به حوزهی سختافزار براشون از نظر فنی «کاملاً پیشپا افتادهست» و ابزارهایی مثل عینک هوشمند، لایههای شیشهای شفاف، گردنبندهای ضبطکننده یا حتی چیپ مغزی میتونن آیندهی این تکنولوژی باشن. هرچند Cluely بعد از بالا گرفتن انتقادها، اشارهها به تقلب در امتحان و مصاحبهی شغلی رو از سایتش حذف کرده و حالا بیشتر روی جلسات کاری و تماسهای فروش تمرکز کرده، ولی بهگفتهی لی، این فقط یه تغییر در پیامرسانیه تا «بزرگترین بازارهای هدف» رو جذب کنن.
@aipulse24
👍18😁8
اپل و آنتروپیک دارن با هم همکاری میکنن تا یه پلتفرم جدید بسازن که با استفاده از هوش مصنوعی مولد، بتونه کد بنویسه، ویرایش کنه و حتی تست بگیره. طبق گزارشی که بلومبرگ منتشر کرده، این پلتفرم فعلاً بهصورت داخلی داخل خود اپل استفاده میشه و هنوز تصمیمی برای عرضهی عمومی اون گرفته نشده. این ابزار درواقع نسخهای پیشرفتهتر از نرمافزار برنامهنویسی Xcode اپله که با تکیه بر مدل Claude Sonnet، محصول آنتروپیک، توسعه پیدا کرده.
اپل برای سرعتدادن به پروژههای هوش مصنوعیش، داره از یه شبکهی گسترده از شرکای تکنولوژی استفاده میکنه. برای مثال، چتجیپیتی از شرکت OpenAI همین حالا هم نقش پررنگی توی قابلیتهای Apple Intelligence داره و به گفتهی خود اپل، احتمال داره در آینده مدل Gemini گوگل هم بهعنوان یه گزینهی جایگزین بهش اضافه بشه. حالا هم آنتروپیک به این جمع پیوسته تا به اپل تو توسعهی داخلی ابزارهای برنامهنویسی کمک کنه.
@aipulse24
اپل برای سرعتدادن به پروژههای هوش مصنوعیش، داره از یه شبکهی گسترده از شرکای تکنولوژی استفاده میکنه. برای مثال، چتجیپیتی از شرکت OpenAI همین حالا هم نقش پررنگی توی قابلیتهای Apple Intelligence داره و به گفتهی خود اپل، احتمال داره در آینده مدل Gemini گوگل هم بهعنوان یه گزینهی جایگزین بهش اضافه بشه. حالا هم آنتروپیک به این جمع پیوسته تا به اپل تو توسعهی داخلی ابزارهای برنامهنویسی کمک کنه.
@aipulse24
🔥15👍8❤3
گوگل قراره از هفتهی آینده به بچههای زیر ۱۳ سال اجازه بده از چتبات Gemini استفاده کنن؛ البته فقط در صورتی که حساب کاربریشون با نظارت والدین ساخته شده باشه. طبق گزارشی که نیویورک تایمز منتشر کرده، این امکان از طریق سرویس Family Link گوگل فعال میشه؛ سرویسی که به خانوادهها اجازه میده دسترسی فرزندشون به سرویسهای مختلف گوگل رو کنترل کنن. به گفتهی یکی از سخنگوهای گوگل، نسخهای که برای این گروه سنی در نظر گرفته شده، شامل محدودیتها و فیلترهای مخصوص بچههاست و اطلاعاتی که از این طریق جمعآوری میشه، برای آموزش مدلهای هوش مصنوعی گوگل استفاده نمیشن.
در حالی که شرکتهای مختلف دارن برای جذب مخاطبهای کمسنوسال توی رقابت هوش مصنوعی از هم پیشی میگیرن، خیلیها نسبت به این روند هشدار دادن. نیویورک تایمز یادآوری کرده که چتباتها در بهترین حالت هنوز کامل و بدون نقص نیستن، و در بدترین حالت ممکنه آسیبزا باشن. سال گذشته، سازمان آموزشی، علمی و فرهنگی سازمان ملل (یونسکو) از دولتها خواست استفاده از هوش مصنوعی مولد در آموزش رو قانونمند کنن؛ از جمله با تعیین محدودیت سنی برای کاربران و ایجاد چارچوبهایی برای حفاظت از دادهها و حریم خصوصی.
@aipulse24
در حالی که شرکتهای مختلف دارن برای جذب مخاطبهای کمسنوسال توی رقابت هوش مصنوعی از هم پیشی میگیرن، خیلیها نسبت به این روند هشدار دادن. نیویورک تایمز یادآوری کرده که چتباتها در بهترین حالت هنوز کامل و بدون نقص نیستن، و در بدترین حالت ممکنه آسیبزا باشن. سال گذشته، سازمان آموزشی، علمی و فرهنگی سازمان ملل (یونسکو) از دولتها خواست استفاده از هوش مصنوعی مولد در آموزش رو قانونمند کنن؛ از جمله با تعیین محدودیت سنی برای کاربران و ایجاد چارچوبهایی برای حفاظت از دادهها و حریم خصوصی.
@aipulse24
🔥12👍7❤1
گوگل اعلام کرده که کاربران اپلیکیشن Gemini حالا میتونن هم تصاویر تولیدشده توسط هوش مصنوعی و هم عکسهایی که از گوشی یا کامپیوترشون آپلود میکنن رو مستقیماً ویرایش کنن. این قابلیت که از امروز بهصورت تدریجی فعال میشه، بهمرور در دسترس کاربران در بیشتر کشورها قرار میگیره و پشتیبانی از بیش از ۴۵ زبان رو هم شامل میشه.
ابزار جدید Gemini که شبیه نسخه بهروزرسانیشدهی ChatGPT در ویرایش تصویر عمل میکنه، از یک فرآیند چندمرحلهای استفاده میکنه تا به درخواستهای کاربر پاسخهای دقیقتر و ترکیبی از متن و تصویر بده. با این ابزار میشه بکگراند تصویر رو عوض کرد، اشیاء رو جابهجا کرد یا عناصر جدیدی به تصویر اضافه کرد.
گوگل میگه برای جلوگیری از سوءاستفاده و نگرانیهای مربوط به دیپفیک، همهی تصاویر ویرایششده با Gemini دارای واترمارک نامرئی خواهند بود و این شرکت در حال تست واترمارکهای قابلمشاهده هم هست.
@aipulse24
ابزار جدید Gemini که شبیه نسخه بهروزرسانیشدهی ChatGPT در ویرایش تصویر عمل میکنه، از یک فرآیند چندمرحلهای استفاده میکنه تا به درخواستهای کاربر پاسخهای دقیقتر و ترکیبی از متن و تصویر بده. با این ابزار میشه بکگراند تصویر رو عوض کرد، اشیاء رو جابهجا کرد یا عناصر جدیدی به تصویر اضافه کرد.
گوگل میگه برای جلوگیری از سوءاستفاده و نگرانیهای مربوط به دیپفیک، همهی تصاویر ویرایششده با Gemini دارای واترمارک نامرئی خواهند بود و این شرکت در حال تست واترمارکهای قابلمشاهده هم هست.
@aipulse24
👍10❤4🔥3
یه مقالهی تازه از تیم تحقیقاتی Cohere، دانشگاههای استنفورد، MIT و AI2، سازمان LM Arena رو متهم کرده که شرایطی فراهم کرده تا چند شرکت خاص هوش مصنوعی، از جمله Meta، OpenAI، Google و Amazon، امتیازهای بهتری در پلتفرم معروف Chatbot Arena کسب کنن.
طبق این مقاله، شرکتهایی مثل Meta تونستن نسخههای مختلفی از مدلهاشون رو بهصورت خصوصی توی این پلتفرم آزمایش کنن، ولی فقط نتایج مدلهایی که خوب عمل کرده بودن منتشر شده. این یعنی بدون اینکه بقیه شرکتها از این فرصت بهرهمند باشن، چند شرکت خاص تونستن مدل بهتری ارائه بدن و جایگاه بالاتری توی جدول رتبهبندی بگیرن.
Chatbot Arena که سال ۲۰۲۳ بهعنوان یه پروژهی تحقیقاتی از دانشگاه UC Berkeley شروع شد، بهسرعت تبدیل شده به یکی از معیارهای محبوب برای مقایسه مدلهای هوش مصنوعی. شیوهی کارش اینطوریه که دو مدل کنار هم قرار میگیرن، کاربر یکی رو انتخاب میکنه و رایها در طول زمان امتیاز نهایی مدل رو مشخص میکنن.
با این حال، مقاله میگه برخلاف ادعای بیطرف بودن LM Arena، شرکت Meta بین ژانویه تا مارس، ۲۷ مدل مختلف رو بهصورت خصوصی تست کرده ولی در نهایت فقط امتیاز یه مدل قوی رو منتشر کرده — همونی که بعداً در صدر جدول قرار گرفت.
LM Arena توی جوابیهای که برای TechCrunch فرستاده، مقاله رو پر از "اشتباه" و "تحلیلهای مشکوک" دونسته و گفته که امکان تست برای همهی شرکتها بازه و اگه شرکتی تست بیشتری انجام داده، به این معنی نیست که بقیه ناعادلانه برخورد شدن. با این حال، نویسندههای مقاله میگن این سطح از دسترسی فقط به تعداد محدودی شرکت اطلاع داده شده بوده.
نویسندههای مقاله که از نوامبر ۲۰۲۴ شروع به بررسی دادهها کردن، میگن بیش از ۲.۸ میلیون نبرد بین مدلها رو در طول پنج ماه تحلیل کردن و به این نتیجه رسیدن که بعضی شرکتها نهتنها بیشتر تونستن مدل تست کنن، بلکه مدلهاشون هم بیشتر وارد رقابت شدهن و دادههای بیشتری جمع کردن — چیزی که به مدلها توی تمرین و بهبود عملکرد کمک کرده.
در حالیکه بعضی از اطلاعات مقاله با تکیه بر «خوداظهاری» مدلها درباره اینکه ساخت کدوم شرکتان جمعآوری شده (که روش دقیقی نیست)، سارا هوکر میگه وقتی یافتههای اولیه با LM Arena به اشتراک گذاشته شده، اونا مخالفتی نکردن.
در پایان، نویسندههای مقاله از LM Arena خواستن تغییراتی در روند خودش ایجاد کنه؛ از جمله اینکه سقف مشخصی برای تستهای خصوصی تعیین بشه، نتایج این تستها بهصورت عمومی منتشر بشه و نرخ نمایش مدلها توی نبردها برای همهی شرکتها یکسان بشه. LM Arena بعضی از این پیشنهادها رو پذیرفته، اما گفته منتشر کردن امتیاز مدلهایی که هنوز عرضه نشدن، منطقی نیست.
این مقاله در حالی منتشر شده که Meta چند هفته پیش هم بابت دستکاری رتبهها در زمان عرضهی Llama 4 خبرساز شده بود. حالا هم LM Arena اعلام کرده قراره شرکت راه بندازه و سرمایه جذب کنه — موضوعی که پرسشهای تازهای دربارهی استقلال و شفافیت این سازمان مطرح میکنه.
نسخه کامل این مقاله رو میتونید از اینجا دانلود و مشاهده کنید.
@aipulse24
طبق این مقاله، شرکتهایی مثل Meta تونستن نسخههای مختلفی از مدلهاشون رو بهصورت خصوصی توی این پلتفرم آزمایش کنن، ولی فقط نتایج مدلهایی که خوب عمل کرده بودن منتشر شده. این یعنی بدون اینکه بقیه شرکتها از این فرصت بهرهمند باشن، چند شرکت خاص تونستن مدل بهتری ارائه بدن و جایگاه بالاتری توی جدول رتبهبندی بگیرن.
Chatbot Arena که سال ۲۰۲۳ بهعنوان یه پروژهی تحقیقاتی از دانشگاه UC Berkeley شروع شد، بهسرعت تبدیل شده به یکی از معیارهای محبوب برای مقایسه مدلهای هوش مصنوعی. شیوهی کارش اینطوریه که دو مدل کنار هم قرار میگیرن، کاربر یکی رو انتخاب میکنه و رایها در طول زمان امتیاز نهایی مدل رو مشخص میکنن.
با این حال، مقاله میگه برخلاف ادعای بیطرف بودن LM Arena، شرکت Meta بین ژانویه تا مارس، ۲۷ مدل مختلف رو بهصورت خصوصی تست کرده ولی در نهایت فقط امتیاز یه مدل قوی رو منتشر کرده — همونی که بعداً در صدر جدول قرار گرفت.
LM Arena توی جوابیهای که برای TechCrunch فرستاده، مقاله رو پر از "اشتباه" و "تحلیلهای مشکوک" دونسته و گفته که امکان تست برای همهی شرکتها بازه و اگه شرکتی تست بیشتری انجام داده، به این معنی نیست که بقیه ناعادلانه برخورد شدن. با این حال، نویسندههای مقاله میگن این سطح از دسترسی فقط به تعداد محدودی شرکت اطلاع داده شده بوده.
نویسندههای مقاله که از نوامبر ۲۰۲۴ شروع به بررسی دادهها کردن، میگن بیش از ۲.۸ میلیون نبرد بین مدلها رو در طول پنج ماه تحلیل کردن و به این نتیجه رسیدن که بعضی شرکتها نهتنها بیشتر تونستن مدل تست کنن، بلکه مدلهاشون هم بیشتر وارد رقابت شدهن و دادههای بیشتری جمع کردن — چیزی که به مدلها توی تمرین و بهبود عملکرد کمک کرده.
در حالیکه بعضی از اطلاعات مقاله با تکیه بر «خوداظهاری» مدلها درباره اینکه ساخت کدوم شرکتان جمعآوری شده (که روش دقیقی نیست)، سارا هوکر میگه وقتی یافتههای اولیه با LM Arena به اشتراک گذاشته شده، اونا مخالفتی نکردن.
در پایان، نویسندههای مقاله از LM Arena خواستن تغییراتی در روند خودش ایجاد کنه؛ از جمله اینکه سقف مشخصی برای تستهای خصوصی تعیین بشه، نتایج این تستها بهصورت عمومی منتشر بشه و نرخ نمایش مدلها توی نبردها برای همهی شرکتها یکسان بشه. LM Arena بعضی از این پیشنهادها رو پذیرفته، اما گفته منتشر کردن امتیاز مدلهایی که هنوز عرضه نشدن، منطقی نیست.
این مقاله در حالی منتشر شده که Meta چند هفته پیش هم بابت دستکاری رتبهها در زمان عرضهی Llama 4 خبرساز شده بود. حالا هم LM Arena اعلام کرده قراره شرکت راه بندازه و سرمایه جذب کنه — موضوعی که پرسشهای تازهای دربارهی استقلال و شفافیت این سازمان مطرح میکنه.
نسخه کامل این مقاله رو میتونید از اینجا دانلود و مشاهده کنید.
@aipulse24
👍17❤5💔2
گوگل روز سهشنبه نسخه جدیدی از مدل هوش مصنوعی پرچمدارش، یعنی Gemini 2.5 Pro Preview (نسخه I/O) رو معرفی کرد؛ مدلی که به گفتهی شرکت، تونسته از بسیاری از رقبای شناختهشده در بنچمارکهای معتبر جلو بزنه. این نسخه از طریق API جمنای، پلتفرمهای Vertex AI و AI Studio در دسترسه و قیمتش با همون نسخهی Gemini 2.5 Pro یکیه. گوگل همچنین این مدل رو توی اپلیکیشن Gemini مخصوص وب و موبایل هم فعال کرده.
انتشار این مدل دقیقاً قبل از کنفرانس سالانهی توسعهدهندههای گوگل با عنوان I/O انجام شده، و به همین خاطر بهش لقب "نسخه I/O" دادن. انتظار میره گوگل در این رویداد، مجموعهای از مدلهای جدید و ابزارهای مجهز به هوش مصنوعی رو معرفی کنه. این شرکت در رقابتی تنگاتنگ با رقبایی مثل OpenAI و xAI قرار گرفته؛ شرکتهایی که بهزودی مدلهایی با عملکرد بالا عرضه میکنن.
بهگفتهی گوگل، Gemini 2.5 Pro Preview (نسخه I/O) پیشرفت چشمگیری توی زمینههایی مثل کدنویسی، ویرایش و تبدیل کد و ساخت اپهای تعاملی وب داشته. این مدل تونسته رتبهی اول بنچمارک WebDev Arena رو از آن خودش کنه؛ معیاری که عملکرد مدلها در ساخت وباپهای زیبا و کاربردی رو میسنجه. همچنین در حوزهی درک ویدیو، امتیاز ۸۴.۸٪ در بنچمارک VideoMME کسب کرده. گوگل میگه این نسخه، دقت فراخوانی توابع رو بهتر کرده و نسبت به بازخوردهای توسعهدهندهها واکنش نشون داده؛ ضمن اینکه "سلیقهی خوبی در طراحی صفحات وب" داره.
@aipulse24
انتشار این مدل دقیقاً قبل از کنفرانس سالانهی توسعهدهندههای گوگل با عنوان I/O انجام شده، و به همین خاطر بهش لقب "نسخه I/O" دادن. انتظار میره گوگل در این رویداد، مجموعهای از مدلهای جدید و ابزارهای مجهز به هوش مصنوعی رو معرفی کنه. این شرکت در رقابتی تنگاتنگ با رقبایی مثل OpenAI و xAI قرار گرفته؛ شرکتهایی که بهزودی مدلهایی با عملکرد بالا عرضه میکنن.
بهگفتهی گوگل، Gemini 2.5 Pro Preview (نسخه I/O) پیشرفت چشمگیری توی زمینههایی مثل کدنویسی، ویرایش و تبدیل کد و ساخت اپهای تعاملی وب داشته. این مدل تونسته رتبهی اول بنچمارک WebDev Arena رو از آن خودش کنه؛ معیاری که عملکرد مدلها در ساخت وباپهای زیبا و کاربردی رو میسنجه. همچنین در حوزهی درک ویدیو، امتیاز ۸۴.۸٪ در بنچمارک VideoMME کسب کرده. گوگل میگه این نسخه، دقت فراخوانی توابع رو بهتر کرده و نسبت به بازخوردهای توسعهدهندهها واکنش نشون داده؛ ضمن اینکه "سلیقهی خوبی در طراحی صفحات وب" داره.
@aipulse24
❤15👍7
This media is not supported in your browser
VIEW IN TELEGRAM
از امروز میتونید گزارش هایی که با قابلیت Deep Research چت جیپیتی براتون تهیه شده رو به صورت PDF به همراه عکسها، جداول و منابع دانلود کنید.
@aipulse24
@aipulse24
🔥25❤6👍6😁2
حالا که صحبت از جایگزینی هوش مصنوعی با ادم ها بالا گرفته سوال اینه:
عملکرد ایجنت ها به عنوان یک کارمند مستقل توی یک فضای کاری واقعی چطوره؟🤔
آیا واقعا میتونیم کل یه شرکت رو با یه سری ایجنت مدیریت کنیم؟!🤔
یه گروه از محققای دانشگاه CMU امریکا یک بنچ مارک جدید ساختن که کارش بررسی عملکرد ایجنت ها توی فضای غیر ازمایشگاهی و کنترل شده است. عنوان این بنچ مارک TheAgentCompany هست.
✔️ منظور از این شرکت چیه؟
یک شرکت توسعه نرم افزار فیک تعریف کردن. توی این شرکت برای کارهای توسعه نرم افزار از GitLab، برای نگهداری مدارک و فایل ها از ownCloud، برای ارتباط درون سازمانی از اپ RocketChat و برای مدیریت پروژه از نرم افزار Plane استفاده میکنن. این بنچ مارک یه فضای کامل دیجیتال هست با همکارهای فیک، فرایندهای چند مرحله ای و تعاملاتی که انسان ها هر روز سرکار باهم دارن
✔️ روش کار این بنچ مارک به چه صورته؟:
به ایجنت های هوش مصنوعی وظایفی از دپارتمان های مختلف میدی از دپارتمان مهندسی، منابع انسانی گرفته تا مالی و مدیریت پروژه که باید این وظایف رو بدون وجود هیچ انسانی به سرانجام برسونن.
✔️ کدوم مدل ها توی این بنچ مارک بررسی شدن؟
درکل ۱۱ تا مدل بررسی شدن از جمله مدل Claude 3.5 ، ChatGPT 4o ، جمنای، مدل نوا آمازون و مدل های اوپن سورس لاما و Qwen.
هرکدوم از این مدل ها رو انداختن توی این فضای شرکتی تقلبی و بهش ۱۷۵ تا تسک دادن تا انجام بده
🤪 بخش جذاب ماجرا🤪
عملکرد مدل ها چطور بوده؟😭 😭 😭
کلاد که مثلا بهترین عملکرد رو داشته تونسته فقط ۲۴ درصد از کل تسک هارو به سرانجام برسونه.
🥺 مشکل اصلی کجا بوده؟🥺
اینکه مدل های عزیز کلا تو کارشون "بلد نیستم یکی بیاد بگه چیکار کنم" نبوده:))
با اعتماد به نفس کارهارو می پیچوندن و ادعای موفقیت میکردن😂
از جمله سوتی هایی که دادن:
✅ فردی که باید بهش مسیج میداده رو نیافته رفته اسم یکی رو توی سیستم عوض کرده به اون شخص خاص و گفته مسیج دادم
✅ کلا مراحل زیر مجموعه یک تسک بزرگتر رو بیخیال شده و مدعی شده کارو به سرانجام رسونده
✅ از اساس یه سری فایل و داکیومنت رو فیک درست کرده و گفته براساس اینا عمل کردم
✅ وقتی روی صفحه نتی که باهاش کار میکرده یک مسیج pop up اومده به طور کل جیغ زده فرار کرده😂
خلاصه محققان نتیجه گرفتن که هنوز حوزه های زیادی هست که ایجنت ها توانایی انجامشون بدون هدایت و نظارت انسان هارو ندارن، اما تسک های مهندسی نرم افزار جزو گروهی از وظایف بوده که بهترین شکل تونستن به سرانجام برسونن
پس نباید از ایجنت ها انتظار عملکرد plug and play داشت و همسو کردن این ایجنت ها با نیازهای شرکت زمان میبره و نیاز به نظارت انسانی داره
این مقاله رو میتونید اینجا بخونید
@aipulse24
عملکرد ایجنت ها به عنوان یک کارمند مستقل توی یک فضای کاری واقعی چطوره؟
آیا واقعا میتونیم کل یه شرکت رو با یه سری ایجنت مدیریت کنیم؟!
یه گروه از محققای دانشگاه CMU امریکا یک بنچ مارک جدید ساختن که کارش بررسی عملکرد ایجنت ها توی فضای غیر ازمایشگاهی و کنترل شده است. عنوان این بنچ مارک TheAgentCompany هست.
یک شرکت توسعه نرم افزار فیک تعریف کردن. توی این شرکت برای کارهای توسعه نرم افزار از GitLab، برای نگهداری مدارک و فایل ها از ownCloud، برای ارتباط درون سازمانی از اپ RocketChat و برای مدیریت پروژه از نرم افزار Plane استفاده میکنن. این بنچ مارک یه فضای کامل دیجیتال هست با همکارهای فیک، فرایندهای چند مرحله ای و تعاملاتی که انسان ها هر روز سرکار باهم دارن
به ایجنت های هوش مصنوعی وظایفی از دپارتمان های مختلف میدی از دپارتمان مهندسی، منابع انسانی گرفته تا مالی و مدیریت پروژه که باید این وظایف رو بدون وجود هیچ انسانی به سرانجام برسونن.
درکل ۱۱ تا مدل بررسی شدن از جمله مدل Claude 3.5 ، ChatGPT 4o ، جمنای، مدل نوا آمازون و مدل های اوپن سورس لاما و Qwen.
هرکدوم از این مدل ها رو انداختن توی این فضای شرکتی تقلبی و بهش ۱۷۵ تا تسک دادن تا انجام بده
عملکرد مدل ها چطور بوده؟
کلاد که مثلا بهترین عملکرد رو داشته تونسته فقط ۲۴ درصد از کل تسک هارو به سرانجام برسونه.
اینکه مدل های عزیز کلا تو کارشون "بلد نیستم یکی بیاد بگه چیکار کنم" نبوده:))
با اعتماد به نفس کارهارو می پیچوندن و ادعای موفقیت میکردن😂
از جمله سوتی هایی که دادن:
خلاصه محققان نتیجه گرفتن که هنوز حوزه های زیادی هست که ایجنت ها توانایی انجامشون بدون هدایت و نظارت انسان هارو ندارن، اما تسک های مهندسی نرم افزار جزو گروهی از وظایف بوده که بهترین شکل تونستن به سرانجام برسونن
پس نباید از ایجنت ها انتظار عملکرد plug and play داشت و همسو کردن این ایجنت ها با نیازهای شرکت زمان میبره و نیاز به نظارت انسانی داره
این مقاله رو میتونید اینجا بخونید
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤣41👍17❤3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت Runway چهارمین دوره از مسابقه Runway Gen 48 رو اپریل برگزار کرد.
برای شرکت در این مسابقه شما ۴۸ ساعت فرصت دارید تا یک فیلم کوتاه با استفاده از هوش مصنوعی بسازید.
توی این تایم (۴۸ ساعت ) به افراد شرکتکننده دسترسی به یک اکانت رایگان بی نهایت داده میشه تا باهاش فیلم شون رو بسازن و اینطوری برای شرکت در مسابقه مجبور به پرداخت هزینه ای نباشن.🥺
💰 جوایزش هم به این صورت هست:
✅ گرند پری و برگزیده مردمی هرکدوم:
🏆 ۵۰۰۰ دلار نقد + ۱ میلیون کردیت استفاده از runway
✅ بقیه برندگان:
🏆 ۵۰۰ هزار کردیت ران وی
این ۵ فیلم هرکدوم توی کتگوری های مختلف برنده شدن
اولین فیلم با عنوان Aelita برنده بخش "برگزیده مردمی" شده
ردیف وسط اولین کلیپ از چپ عنوانش هست Clover و برنده بخش "انتخاب داوران" شده
ردیف وسط دومین کلیپ از چپ عنوانش Home هست و برنده بخش "گرند پری" شده
ردیف وسط اولی از راست عنوانش No pressure هست و یکی دیگه از برنده های بخش "انتخاب داوران" هست
اخرین فیلم هم عنوانش هست Eyes on Me هست و یکی دیگه از برندگان "انتخاب داوران" هست.
عزیزان متخصص فیلم و سریال نظرتون چیه؟
کدوم بهتره؟
آیا میشه دراینده نزدیک فیلم کامل با هوش مصنوعی در سطح اکران سینمایی ببینیم؟
@aipulse24
برای شرکت در این مسابقه شما ۴۸ ساعت فرصت دارید تا یک فیلم کوتاه با استفاده از هوش مصنوعی بسازید.
توی این تایم (۴۸ ساعت ) به افراد شرکتکننده دسترسی به یک اکانت رایگان بی نهایت داده میشه تا باهاش فیلم شون رو بسازن و اینطوری برای شرکت در مسابقه مجبور به پرداخت هزینه ای نباشن.
این ۵ فیلم هرکدوم توی کتگوری های مختلف برنده شدن
اولین فیلم با عنوان Aelita برنده بخش "برگزیده مردمی" شده
ردیف وسط اولین کلیپ از چپ عنوانش هست Clover و برنده بخش "انتخاب داوران" شده
ردیف وسط دومین کلیپ از چپ عنوانش Home هست و برنده بخش "گرند پری" شده
ردیف وسط اولی از راست عنوانش No pressure هست و یکی دیگه از برنده های بخش "انتخاب داوران" هست
اخرین فیلم هم عنوانش هست Eyes on Me هست و یکی دیگه از برندگان "انتخاب داوران" هست.
عزیزان متخصص فیلم و سریال نظرتون چیه؟
کدوم بهتره؟
آیا میشه دراینده نزدیک فیلم کامل با هوش مصنوعی در سطح اکران سینمایی ببینیم؟
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤5🤯3
استارتاپ Windsurf که بهخاطر ابزارهای محبوبش برای برنامهنویسها شناخته میشه، روز پنجشنبه از اولین خانوادهی مدلهای هوش مصنوعی اختصاصی خودش به نام SWE-1 رونمایی کرد. این مجموعه شامل سه نسخهی اصلی، لایت و مینی هست که طبق گفتهی شرکت، نه فقط برای کدنویسی بلکه برای تمام فرآیند مهندسی نرمافزار بهینهسازی شدن.
این خبر در حالی منتشر شده که طبق گزارشها، OpenAI بهتازگی قرارداد خرید ۳ میلیارد دلاری Windsurf رو نهایی کرده. با این حال، عرضهی مدلهای داخلی توسط Windsurf نشون میده که این استارتاپ داره از صرفاً ساخت اپلیکیشن فراتر میره و به سمت توسعهی مدلهای پایهی هوش مصنوعی هم حرکت میکنه.
مدل اصلی یعنی SWE-1 توی بنچمارکهای داخلی برنامهنویسی، عملکردی نزدیک به مدلهای مطرحی مثل Claude 3.5 Sonnet، GPT-4.1 و Gemini 2.5 Pro داشته، اما هنوز به پای مدلهای پیشرویی مثل Claude 3.7 Sonnet نمیرسه. نسخههای Lite و Mini این مدل برای تمام کاربران (رایگان یا پولی) در دسترسه، اما نسخهی کامل SWE-1 فقط برای کاربران پولی فعاله. با اینکه قیمتگذاری رسمی اعلام نشده، Windsurf میگه هزینهی اجرای SWE-1 از مدلهایی مثل Claude 3.5 کمتره.
Windsurf بیشتر بهخاطر سبکی از کدنویسی به اسم "vibe coding" معروفه؛ مدلی که برنامهنویسها میتونن از طریق گفتگو با چتباتها کدنویسی و ویرایش انجام بدن. تا حالا، بیشتر شرکتهایی مثل Windsurf، Cursor و Lovable برای این کار از مدلهای OpenAI، Anthropic یا گوگل استفاده میکردن، اما حالا Windsurf داره تلاش میکنه راه خودش رو جدا کنه.
طبق گفتهی نیکلاس موی، رئیس بخش تحقیقات Windsurf، مدلهای پیشتاز الان توی کدنویسی خوبن، ولی برای مهندسی نرمافزار کافی نیستن. اون گفته: «کدنویسی، مهندسی نرمافزار نیست». به گفتهی این شرکت، مدل SWE-1 طوری آموزش دیده که بتونه توی محیطهای مختلف — مثل ترمینال، IDE و مرورگر — که برنامهنویسها بهطور روزمره باهاش سروکار دارن، عملکرد خوبی نشون بده.
Windsurf اعلام کرده که SWE-1 فقط یه طرح اولیهس و احتمالاً مدلهای پیشرفتهتری هم در آینده منتشر خواهد کرد.
@aipulse24
این خبر در حالی منتشر شده که طبق گزارشها، OpenAI بهتازگی قرارداد خرید ۳ میلیارد دلاری Windsurf رو نهایی کرده. با این حال، عرضهی مدلهای داخلی توسط Windsurf نشون میده که این استارتاپ داره از صرفاً ساخت اپلیکیشن فراتر میره و به سمت توسعهی مدلهای پایهی هوش مصنوعی هم حرکت میکنه.
مدل اصلی یعنی SWE-1 توی بنچمارکهای داخلی برنامهنویسی، عملکردی نزدیک به مدلهای مطرحی مثل Claude 3.5 Sonnet، GPT-4.1 و Gemini 2.5 Pro داشته، اما هنوز به پای مدلهای پیشرویی مثل Claude 3.7 Sonnet نمیرسه. نسخههای Lite و Mini این مدل برای تمام کاربران (رایگان یا پولی) در دسترسه، اما نسخهی کامل SWE-1 فقط برای کاربران پولی فعاله. با اینکه قیمتگذاری رسمی اعلام نشده، Windsurf میگه هزینهی اجرای SWE-1 از مدلهایی مثل Claude 3.5 کمتره.
Windsurf بیشتر بهخاطر سبکی از کدنویسی به اسم "vibe coding" معروفه؛ مدلی که برنامهنویسها میتونن از طریق گفتگو با چتباتها کدنویسی و ویرایش انجام بدن. تا حالا، بیشتر شرکتهایی مثل Windsurf، Cursor و Lovable برای این کار از مدلهای OpenAI، Anthropic یا گوگل استفاده میکردن، اما حالا Windsurf داره تلاش میکنه راه خودش رو جدا کنه.
طبق گفتهی نیکلاس موی، رئیس بخش تحقیقات Windsurf، مدلهای پیشتاز الان توی کدنویسی خوبن، ولی برای مهندسی نرمافزار کافی نیستن. اون گفته: «کدنویسی، مهندسی نرمافزار نیست». به گفتهی این شرکت، مدل SWE-1 طوری آموزش دیده که بتونه توی محیطهای مختلف — مثل ترمینال، IDE و مرورگر — که برنامهنویسها بهطور روزمره باهاش سروکار دارن، عملکرد خوبی نشون بده.
Windsurf اعلام کرده که SWE-1 فقط یه طرح اولیهس و احتمالاً مدلهای پیشرفتهتری هم در آینده منتشر خواهد کرد.
@aipulse24
👍17❤4
خوب خوب نظرسنجی جدید داریم ولی این سری رویکرد و نگاه شما به وضعیت هوش مصنوعی در حال حاضر و در آینده است!
بگید که به نظر شما کدوم یکی از گزینه ها به واقعیت نزدیک تره؟
۱. الان مثبت و آینده هم روشنه!🙋♀
هوش مصنوعی همین الانشم داره دنیا رو متحول میکنه!
قراره آیندهای بیاد که توش پیشرفت بشر میترکونه.
➖
۲. الان درهمه ولی آینده روشنه!🔮
فعلاً تاثیر خاصی رو زندگیم نداشته، ولی کلی ذوق دارم ببینم چه کارا میتونه بکنه.
➖
۳. الان منفیه ولی آینده روشنه!😠
درسته که الان گند زده، ولی اگه سفت بگیریمش و قوانین سفت و سخت بزاریم میتونه یه دنیای عادلانهتر بسازه.
➖
۴. الان مثبت ولی آینده نا معلوم😔
هوش مصنوعی الان خوبه، ولی باید از نزدیک ببینیم و نظارت کنیم تا آخرش خوب باشه.
➖
۵. الان درهمه آینده هم نامعلومه!🤷♀ 🤔
نه میتونم بگم خوبه، نه بگم بده.
فقط دارم نگاه میکنم ببینم چی میشه.
(از اونایی که پاپکورن بدسته)
➖
۶. الان منفیه آینده هم نا معلومه😥
فعلاً که فقط داره ضرر میزنه و کسی هم براش راهحل درستدرمون نداره.
➖
۷. الان مثبت ولی آینده تاریکه!😓
الان به درد میخوره، ولی باید سریع با قانونگذاری جلوی ضررهاشو بگیریم.
(از اونایی که یه دستش رو موسه، یه دستش رو ماشه)
➖
۸. الان درهمه ولی آینده تاریکه🤨
این چیزایی که میگن زیادی بزرگنماییه.
ولی ته دلم حس میکنم بوی بیکاری و از بین رفتن حریم خصوصی میاد.
➖
۹. الان منفیه آینده هم فاجعه باره!👹
این قطار داره مستقیم میره سمت دره.
آخرش یا نابود میشیم، یا بدتر!
(از اونایی که با هر آپدیت GPT، وصیتنامهشون رو آپدیت میکنن)
@aipulse24
بگید که به نظر شما کدوم یکی از گزینه ها به واقعیت نزدیک تره؟
۱. الان مثبت و آینده هم روشنه!
هوش مصنوعی همین الانشم داره دنیا رو متحول میکنه!
قراره آیندهای بیاد که توش پیشرفت بشر میترکونه.
۲. الان درهمه ولی آینده روشنه!
فعلاً تاثیر خاصی رو زندگیم نداشته، ولی کلی ذوق دارم ببینم چه کارا میتونه بکنه.
۳. الان منفیه ولی آینده روشنه!
درسته که الان گند زده، ولی اگه سفت بگیریمش و قوانین سفت و سخت بزاریم میتونه یه دنیای عادلانهتر بسازه.
۴. الان مثبت ولی آینده نا معلوم
هوش مصنوعی الان خوبه، ولی باید از نزدیک ببینیم و نظارت کنیم تا آخرش خوب باشه.
۵. الان درهمه آینده هم نامعلومه!
نه میتونم بگم خوبه، نه بگم بده.
فقط دارم نگاه میکنم ببینم چی میشه.
(از اونایی که پاپکورن بدسته)
۶. الان منفیه آینده هم نا معلومه
فعلاً که فقط داره ضرر میزنه و کسی هم براش راهحل درستدرمون نداره.
۷. الان مثبت ولی آینده تاریکه!
الان به درد میخوره، ولی باید سریع با قانونگذاری جلوی ضررهاشو بگیریم.
(از اونایی که یه دستش رو موسه، یه دستش رو ماشه)
۸. الان درهمه ولی آینده تاریکه
این چیزایی که میگن زیادی بزرگنماییه.
ولی ته دلم حس میکنم بوی بیکاری و از بین رفتن حریم خصوصی میاد.
۹. الان منفیه آینده هم فاجعه باره!
این قطار داره مستقیم میره سمت دره.
آخرش یا نابود میشیم، یا بدتر!
(از اونایی که با هر آپدیت GPT، وصیتنامهشون رو آپدیت میکنن)
@aipulse24
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8😁3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل اعلام کرده که از این هفته، تب جدیدی به اسم «AI Mode» رو برای همهی کاربراش توی آمریکا فعال میکنه؛ تب جدیدی که به کاربرا اجازه میده با استفاده از چتبات Gemini، توی وب جستوجو کنن.
گوگل قراره تابستون امسال یهسری قابلیت جدید رو توی این حالت آزمایش کنه؛ مثل «جستوجوی عمیق» و ساخت نمودار برای سوالات مربوط به اقتصاد و ورزش. امکان خرید از طریق AI Mode هم قراره توی ماههای آینده فعال بشه.
@aipulse24
گوگل قراره تابستون امسال یهسری قابلیت جدید رو توی این حالت آزمایش کنه؛ مثل «جستوجوی عمیق» و ساخت نمودار برای سوالات مربوط به اقتصاد و ورزش. امکان خرید از طریق AI Mode هم قراره توی ماههای آینده فعال بشه.
@aipulse24
1👍12❤3
گوگل همچنین از نسخهی جدید مدل تولید ویدئوش یعنی Veo 3 رونمایی کرده؛ مدلی که حالا میتونه علاوهبر ساخت ویدیو، صداهایی مثل افکت صوتی، صدای محیط و حتی دیالوگ رو هم بسازه و با ویدیو همگام کنه.
دمیس هاسابیس، مدیرعامل دیپمایند گفته Veo 3 ما رو از «دوران ویدیوی بیصدا» بیرون آورده. کاربرا میتونن با یه پرامپت ساده، صحنه و شخصیتها رو توصیف کنن و حتی بگن دیالوگها چه جوری صدا بده.
گوگل میگه یکی از تفاوتهای اصلی Veo 3 با مدلهای دیگه، مثل Runway، Pika یا OpenAI، قابلیت تولید و همزمانسازی خودکار صدا با تصویر براساس پیکسلهای خام ویدیوئه. این توانایی میتونه برگ برندهای برای گوگل باشه تو بازاری که حالا دیگه حسابی شلوغ شده. با اینکه ابزارهای تولید صدا با هوش مصنوعی قبلاً معرفی شده بودن، Veo 3 با درک عمیقتر از تصویر، یه قدم جلوتره.
گفته میشه دیپمایند برای ساخت این مدل از پژوهشهای قبلیش تو زمینه «ویدیو به صدا» استفاده کرده؛ و البته احتمالش زیاده که یوتیوب هم یکی از منابع آموزشی این مدل بوده باشه.
در کنار معرفی Veo 3، گوگل یهسری قابلیت جدید هم برای Veo 2 فعال کرده. حالا کاربرا میتونن عکسهایی از کاراکترها، صحنهها یا سبک بصری بدن تا خروجی ویدیوها یکدستتر بشه. Veo 2 همچنین حرکات دوربین مثل چرخش یا زوم رو هم بهتر درک میکنه و امکان حذف یا اضافهکردن اشیا تو ویدیو یا تغییر قاب از پرتره به منظره رو فراهم کرده. این امکانات قراره بهزودی از طریق پلتفرم Vertex AI گوگل در اختیار توسعهدهندهها هم قرار بگیره.
مدل Veo 3 فعلاً فقط برای مشترکای پلن AI Ultra با قیمت ۲۴۹.۹۹ دلار در ماه از طریق چتبات Gemini در دسترسه.
@aipulse24
دمیس هاسابیس، مدیرعامل دیپمایند گفته Veo 3 ما رو از «دوران ویدیوی بیصدا» بیرون آورده. کاربرا میتونن با یه پرامپت ساده، صحنه و شخصیتها رو توصیف کنن و حتی بگن دیالوگها چه جوری صدا بده.
گوگل میگه یکی از تفاوتهای اصلی Veo 3 با مدلهای دیگه، مثل Runway، Pika یا OpenAI، قابلیت تولید و همزمانسازی خودکار صدا با تصویر براساس پیکسلهای خام ویدیوئه. این توانایی میتونه برگ برندهای برای گوگل باشه تو بازاری که حالا دیگه حسابی شلوغ شده. با اینکه ابزارهای تولید صدا با هوش مصنوعی قبلاً معرفی شده بودن، Veo 3 با درک عمیقتر از تصویر، یه قدم جلوتره.
گفته میشه دیپمایند برای ساخت این مدل از پژوهشهای قبلیش تو زمینه «ویدیو به صدا» استفاده کرده؛ و البته احتمالش زیاده که یوتیوب هم یکی از منابع آموزشی این مدل بوده باشه.
در کنار معرفی Veo 3، گوگل یهسری قابلیت جدید هم برای Veo 2 فعال کرده. حالا کاربرا میتونن عکسهایی از کاراکترها، صحنهها یا سبک بصری بدن تا خروجی ویدیوها یکدستتر بشه. Veo 2 همچنین حرکات دوربین مثل چرخش یا زوم رو هم بهتر درک میکنه و امکان حذف یا اضافهکردن اشیا تو ویدیو یا تغییر قاب از پرتره به منظره رو فراهم کرده. این امکانات قراره بهزودی از طریق پلتفرم Vertex AI گوگل در اختیار توسعهدهندهها هم قرار بگیره.
مدل Veo 3 فعلاً فقط برای مشترکای پلن AI Ultra با قیمت ۲۴۹.۹۹ دلار در ماه از طریق چتبات Gemini در دسترسه.
@aipulse24
1🤯12❤5🔥2