NEW BOT Телеграм, страница

AI Pulse

استارتاپ جنجالی Cluely که ابزار تقلب مبتنی‌بر هوش مصنوعی ارائه می‌ده، هفته‌ی گذشته با ادعای ساخت یک پنجره‌ی پنهان در مرورگر که «غیرقابل شناساییه» و می‌شه باهاش تو همه‌چیز از مصاحبه‌های شغلی گرفته تا امتحان‌ها تقلب کرد، حسابی سر زبون‌ها افتاد. اما این وسط چندتا استارتاپ دیگه مدعی‌ان که می‌تونن کاربران Cluely رو شناسایی کنن. خود Cluely هم می‌گه که آماده‌ست تا با ساخت ابزارهای سخت‌افزاری مثل عینک هوشمند یا حتی چیپ مغزی، کل نرم‌افزارهای ضدتقلب رو دور بزنه.

استارتاپ سان‌فرانسیسکویی Validia هفته‌ی گذشته یه ابزار رایگان به اسم Truely منتشر کرده که به‌طور مستقیم برای مقابله با Cluely ساخته شده. به‌گفته‌ی Validia، این نرم‌افزار اگر متوجه استفاده‌ی کاربر از Cluely بشه، هشدار می‌ده. استارتاپ دیگه‌ای به‌اسم Proctaroo هم که دفترش در رود آیلنده، مدعیه که پلتفرمش توانایی شناسایی فعالیت Cluely رو داره. مدیرعامل Proctaroo، آدریان آمودت، تو مصاحبه با TechCrunch، مدل کسب‌وکار Cluely رو «غیراخلاقی» دونسته و گفته اونا همون‌طور که بقیه‌ی برنامه‌ها رو می‌بینن، Cluely رو هم می‌تونن شناسایی کنن.

با این حال، مدیرعامل Cluely، چونگین «روی» لی، این ابزارهای ضدتقلب رو بی‌اثر می‌دونه و با مثال زدن از سال‌ها شکست صنعت بازی‌های ویدیویی در مقابله با تقلب، به مقابله با خودش خندیده. اون حتی گفته ورود به حوزه‌ی سخت‌افزار براشون از نظر فنی «کاملاً پیش‌پا افتاده‌ست» و ابزارهایی مثل عینک هوشمند، لایه‌های شیشه‌ای شفاف، گردنبندهای ضبط‌کننده یا حتی چیپ مغزی می‌تونن آینده‌ی این تکنولوژی باشن. هرچند Cluely بعد از بالا گرفتن انتقادها، اشاره‌ها به تقلب در امتحان و مصاحبه‌ی شغلی رو از سایتش حذف کرده و حالا بیشتر روی جلسات کاری و تماس‌های فروش تمرکز کرده، ولی به‌گفته‌ی لی، این فقط یه تغییر در پیام‌رسانیه تا «بزرگ‌ترین بازارهای هدف» رو جذب کنن.

@aipulse24

👍18😁8

2.63K viewsMohammad, edited 06:57

AI Pulse

اپل و آنتروپیک دارن با هم همکاری می‌کنن تا یه پلتفرم جدید بسازن که با استفاده از هوش مصنوعی مولد، بتونه کد بنویسه، ویرایش کنه و حتی تست بگیره. طبق گزارشی که بلومبرگ منتشر کرده، این پلتفرم فعلاً به‌صورت داخلی داخل خود اپل استفاده می‌شه و هنوز تصمیمی برای عرضه‌ی عمومی اون گرفته نشده. این ابزار درواقع نسخه‌ای پیشرفته‌تر از نرم‌افزار برنامه‌نویسی Xcode اپله که با تکیه بر مدل Claude Sonnet، محصول آنتروپیک، توسعه پیدا کرده.

اپل برای سرعت‌دادن به پروژه‌های هوش مصنوعی‌ش، داره از یه شبکه‌ی گسترده از شرکای تکنولوژی استفاده می‌کنه. برای مثال، چت‌جی‌پی‌تی از شرکت OpenAI همین حالا هم نقش پررنگی توی قابلیت‌های Apple Intelligence داره و به گفته‌ی خود اپل، احتمال داره در آینده مدل Gemini گوگل هم به‌عنوان یه گزینه‌ی جایگزین بهش اضافه بشه. حالا هم آنتروپیک به این جمع پیوسته تا به اپل تو توسعه‌ی داخلی ابزارهای برنامه‌نویسی کمک کنه.

@aipulse24

🔥15👍8❤3

2.05K viewsMohammad, 07:12

AI Pulse

گوگل قراره از هفته‌ی آینده به بچه‌های زیر ۱۳ سال اجازه بده از چت‌بات Gemini استفاده کنن؛ البته فقط در صورتی که حساب کاربری‌شون با نظارت والدین ساخته شده باشه. طبق گزارشی که نیویورک تایمز منتشر کرده، این امکان از طریق سرویس Family Link گوگل فعال می‌شه؛ سرویسی که به خانواده‌ها اجازه می‌ده دسترسی فرزندشون به سرویس‌های مختلف گوگل رو کنترل کنن. به گفته‌ی یکی از سخنگوهای گوگل، نسخه‌ای که برای این گروه سنی در نظر گرفته شده، شامل محدودیت‌ها و فیلترهای مخصوص بچه‌هاست و اطلاعاتی که از این طریق جمع‌آوری می‌شه، برای آموزش مدل‌های هوش مصنوعی گوگل استفاده نمی‌شن.

در حالی که شرکت‌های مختلف دارن برای جذب مخاطب‌های کم‌سن‌وسال توی رقابت هوش مصنوعی از هم پیشی می‌گیرن، خیلی‌ها نسبت به این روند هشدار دادن. نیویورک تایمز یادآوری کرده که چت‌بات‌ها در بهترین حالت هنوز کامل و بدون نقص نیستن، و در بدترین حالت ممکنه آسیب‌زا باشن. سال گذشته، سازمان آموزشی، علمی و فرهنگی سازمان ملل (یونسکو) از دولت‌ها خواست استفاده از هوش مصنوعی مولد در آموزش رو قانون‌مند کنن؛ از جمله با تعیین محدودیت سنی برای کاربران و ایجاد چارچوب‌هایی برای حفاظت از داده‌ها و حریم خصوصی.

@aipulse24

🔥12👍7❤1

2.3K viewsMohammad, 08:00

AI Pulse

گوگل اعلام کرده که کاربران اپلیکیشن Gemini حالا می‌تونن هم تصاویر تولیدشده توسط هوش مصنوعی و هم عکس‌هایی که از گوشی یا کامپیوترشون آپلود می‌کنن رو مستقیماً ویرایش کنن. این قابلیت که از امروز به‌صورت تدریجی فعال می‌شه، به‌مرور در دسترس کاربران در بیشتر کشورها قرار می‌گیره و پشتیبانی از بیش از ۴۵ زبان رو هم شامل می‌شه.

ابزار جدید Gemini که شبیه نسخه‌ به‌روزرسانی‌شده‌ی ChatGPT در ویرایش تصویر عمل می‌کنه، از یک فرآیند چندمرحله‌ای استفاده می‌کنه تا به درخواست‌های کاربر پاسخ‌های دقیق‌تر و ترکیبی از متن و تصویر بده. با این ابزار می‌شه بک‌گراند تصویر رو عوض کرد، اشیاء رو جابه‌جا کرد یا عناصر جدیدی به تصویر اضافه کرد.

گوگل می‌گه برای جلوگیری از سوءاستفاده و نگرانی‌های مربوط به دیپ‌فیک، همه‌ی تصاویر ویرایش‌شده با Gemini دارای واترمارک نامرئی خواهند بود و این شرکت در حال تست واترمارک‌های قابل‌مشاهده هم هست.

@aipulse24

👍10❤4🔥3

2.19K viewsMohammad, 13:36

AI Pulse

یه مقاله‌ی تازه از تیم تحقیقاتی Cohere، دانشگاه‌های استنفورد، MIT و AI2، سازمان LM Arena رو متهم کرده که شرایطی فراهم کرده تا چند شرکت خاص هوش مصنوعی، از جمله Meta، OpenAI، Google و Amazon، امتیازهای بهتری در پلتفرم معروف Chatbot Arena کسب کنن.

طبق این مقاله، شرکت‌هایی مثل Meta تونستن نسخه‌های مختلفی از مدل‌هاشون رو به‌صورت خصوصی توی این پلتفرم آزمایش کنن، ولی فقط نتایج مدل‌هایی که خوب عمل کرده بودن منتشر شده. این یعنی بدون اینکه بقیه شرکت‌ها از این فرصت بهره‌مند باشن، چند شرکت خاص تونستن مدل بهتری ارائه بدن و جایگاه بالاتری توی جدول رتبه‌بندی بگیرن.

‏Chatbot Arena که سال ۲۰۲۳ به‌عنوان یه پروژه‌ی تحقیقاتی از دانشگاه UC Berkeley شروع شد، به‌سرعت تبدیل شده به یکی از معیارهای محبوب برای مقایسه مدل‌های هوش مصنوعی. شیوه‌ی کارش این‌طوریه که دو مدل کنار هم قرار می‌گیرن، کاربر یکی رو انتخاب می‌کنه و رای‌ها در طول زمان امتیاز نهایی مدل رو مشخص می‌کنن.

با این حال، مقاله می‌گه برخلاف ادعای بی‌طرف بودن LM Arena، شرکت Meta بین ژانویه تا مارس، ۲۷ مدل مختلف رو به‌صورت خصوصی تست کرده ولی در نهایت فقط امتیاز یه مدل قوی رو منتشر کرده — همونی که بعداً در صدر جدول قرار گرفت.

‏LM Arena توی جوابیه‌ای که برای TechCrunch فرستاده، مقاله رو پر از "اشتباه" و "تحلیل‌های مشکوک" دونسته و گفته که امکان تست برای همه‌ی شرکت‌ها بازه و اگه شرکتی تست بیشتری انجام داده، به این معنی نیست که بقیه ناعادلانه برخورد شدن. با این حال، نویسنده‌های مقاله می‌گن این سطح از دسترسی فقط به تعداد محدودی شرکت اطلاع داده شده بوده.

نویسنده‌های مقاله که از نوامبر ۲۰۲۴ شروع به بررسی داده‌ها کردن، می‌گن بیش از ۲.۸ میلیون نبرد بین مدل‌ها رو در طول پنج ماه تحلیل کردن و به این نتیجه رسیدن که بعضی شرکت‌ها نه‌تنها بیشتر تونستن مدل تست کنن، بلکه مدل‌هاشون هم بیشتر وارد رقابت شده‌ن و داده‌های بیشتری جمع کردن — چیزی که به مدل‌ها توی تمرین و بهبود عملکرد کمک کرده.

در حالی‌که بعضی از اطلاعات مقاله با تکیه بر «خوداظهاری» مدل‌ها درباره اینکه ساخت کدوم شرکت‌ان جمع‌آوری شده (که روش دقیقی نیست)، سارا هوکر می‌گه وقتی یافته‌های اولیه با LM Arena به اشتراک گذاشته شده، اونا مخالفتی نکردن.

در پایان، نویسنده‌های مقاله از LM Arena خواستن تغییراتی در روند خودش ایجاد کنه؛ از جمله اینکه سقف مشخصی برای تست‌های خصوصی تعیین بشه، نتایج این تست‌ها به‌صورت عمومی منتشر بشه و نرخ نمایش مدل‌ها توی نبردها برای همه‌ی شرکت‌ها یکسان بشه. LM Arena بعضی از این پیشنهادها رو پذیرفته، اما گفته منتشر کردن امتیاز مدل‌هایی که هنوز عرضه نشدن، منطقی نیست.

این مقاله در حالی منتشر شده که Meta چند هفته پیش هم بابت دستکاری رتبه‌ها در زمان عرضه‌ی Llama 4 خبرساز شده بود. حالا هم LM Arena اعلام کرده قراره شرکت راه بندازه و سرمایه جذب کنه — موضوعی که پرسش‌های تازه‌ای درباره‌ی استقلال و شفافیت این سازمان مطرح می‌کنه.

نسخه کامل این مقاله رو میتونید از اینجا دانلود و مشاهده کنید.

@aipulse24

👍17❤5💔2

2.86K viewsMohammad, 15:33

AI Pulse

گوگل روز سه‌شنبه نسخه جدیدی از مدل هوش مصنوعی پرچمدارش، یعنی Gemini 2.5 Pro Preview (نسخه I/O) رو معرفی کرد؛ مدلی که به گفته‌ی شرکت، تونسته از بسیاری از رقبای شناخته‌شده در بنچمارک‌های معتبر جلو بزنه. این نسخه از طریق API جمنای، پلتفرم‌های Vertex AI و AI Studio در دسترسه و قیمتش با همون نسخه‌ی Gemini 2.5 Pro یکیه. گوگل همچنین این مدل رو توی اپلیکیشن Gemini مخصوص وب و موبایل هم فعال کرده.

انتشار این مدل دقیقاً قبل از کنفرانس سالانه‌ی توسعه‌دهنده‌های گوگل با عنوان I/O انجام شده، و به همین خاطر بهش لقب "نسخه I/O" دادن. انتظار می‌ره گوگل در این رویداد، مجموعه‌ای از مدل‌های جدید و ابزارهای مجهز به هوش مصنوعی رو معرفی کنه. این شرکت در رقابتی تنگاتنگ با رقبایی مثل OpenAI و xAI قرار گرفته؛ شرکت‌هایی که به‌زودی مدل‌هایی با عملکرد بالا عرضه می‌کنن.

به‌گفته‌ی گوگل، Gemini 2.5 Pro Preview (نسخه I/O) پیشرفت چشم‌گیری توی زمینه‌هایی مثل کدنویسی، ویرایش و تبدیل کد و ساخت اپ‌های تعاملی وب داشته. این مدل تونسته رتبه‌ی اول بنچمارک WebDev Arena رو از آن خودش کنه؛ معیاری که عملکرد مدل‌ها در ساخت وب‌اپ‌های زیبا و کاربردی رو می‌سنجه. همچنین در حوزه‌ی درک ویدیو، امتیاز ۸۴.۸٪ در بنچمارک VideoMME کسب کرده. گوگل می‌گه این نسخه، دقت فراخوانی توابع رو بهتر کرده و نسبت به بازخوردهای توسعه‌دهنده‌ها واکنش نشون داده؛ ضمن اینکه "سلیقه‌ی خوبی در طراحی صفحات وب" داره.

@aipulse24

❤15👍7

3.05K viewsMohammad, edited 10:47

AI Pulse

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

از امروز میتونید گزارش هایی که با قابلیت Deep Research چت جی‌پی‌تی براتون تهیه شده رو به صورت PDF به همراه عکس‌ها، جداول و منابع دانلود کنید.

@aipulse24

🔥25❤6👍6😁2

3.32K viewsMohammad, 20:18

AI Pulse

حالا که صحبت از جایگزینی هوش مصنوعی با ادم ها بالا گرفته سوال اینه:

عملکرد ایجنت ها به عنوان یک کارمند مستقل توی یک فضای کاری واقعی چطوره؟ 🤔

آیا واقعا میتونیم کل یه شرکت رو با یه سری ایجنت مدیریت کنیم؟!🤔

یه گروه از محققای دانشگاه CMU امریکا یک بنچ مارک جدید ساختن که کارش بررسی عملکرد ایجنت ها توی فضای غیر ازمایشگاهی و کنترل شده است. عنوان این بنچ مارک TheAgentCompany هست.

✔️منظور از این شرکت چیه؟

یک شرکت توسعه نرم افزار فیک تعریف کردن. توی این شرکت برای کارهای توسعه نرم افزار از GitLab، برای نگهداری مدارک و فایل ها از ownCloud، برای ارتباط درون سازمانی از اپ RocketChat و برای مدیریت پروژه از نرم افزار Plane استفاده میکنن. این بنچ مارک یه فضای کامل دیجیتال هست با همکارهای فیک، فرایندهای چند مرحله ای و تعاملاتی که انسان ها هر روز سرکار باهم دارن

✔️ روش کار این بنچ مارک به چه صورته؟:

به ایجنت های هوش مصنوعی وظایفی از دپارتمان های مختلف میدی از دپارتمان مهندسی، منابع انسانی گرفته تا مالی و مدیریت پروژه که باید این وظایف رو بدون وجود هیچ انسانی به سرانجام برسونن.

✔️کدوم مدل ها توی این بنچ مارک بررسی شدن؟

درکل ۱۱ تا مدل بررسی شدن از جمله مدل Claude 3.5 ، ChatGPT 4o ، جمنای، مدل نوا آمازون و مدل های اوپن سورس لاما و Qwen.

هرکدوم از این مدل ها رو انداختن توی این فضای شرکتی تقلبی و بهش ۱۷۵ تا تسک دادن تا انجام بده

🤪

بخش جذاب ماجرا

🤪

عملکرد مدل ها چطور بوده؟😭

😭

کلاد که مثلا بهترین عملکرد رو داشته تونسته فقط ۲۴ درصد از کل تسک هارو به سرانجام برسونه.

🥺

مشکل اصلی کجا بوده؟

🥺

اینکه مدل های عزیز کلا تو کارشون "بلد نیستم یکی بیاد بگه چیکار کنم" نبوده:))
با اعتماد به نفس کارهارو می پیچوندن و ادعای موفقیت میکردن😂

از جمله سوتی هایی که دادن:

✅ فردی که باید بهش مسیج میداده رو نیافته رفته اسم یکی رو توی سیستم عوض کرده به اون شخص خاص و گفته مسیج دادم

✅ کلا مراحل زیر مجموعه یک تسک بزرگتر رو بیخیال شده و مدعی شده کارو به سرانجام رسونده

✅ از اساس یه سری فایل و داکیومنت رو فیک درست کرده و گفته براساس اینا عمل کردم

✅ وقتی روی صفحه نتی که باهاش کار میکرده یک مسیج pop up اومده به طور کل جیغ زده فرار کرده😂

خلاصه محققان نتیجه گرفتن که هنوز حوزه های زیادی هست که ایجنت ها توانایی انجامشون بدون هدایت و نظارت انسان هارو ندارن، اما تسک های مهندسی نرم افزار جزو گروهی از وظایف بوده که بهترین شکل تونستن به سرانجام برسونن

پس نباید از ایجنت ها انتظار عملکرد plug and play داشت و همسو کردن این ایجنت ها با نیازهای شرکت زمان میبره و نیاز به نظارت انسانی داره

این مقاله رو میتونید اینجا بخونید

@aipulse24

Please open Telegram to view this post

VIEW IN TELEGRAM

3🤣41👍17❤3

11.7K viewsSonia, 15:40

AI Pulse