NEW BOT Телеграм, страница

از امروز میتونید گزارش هایی که با قابلیت Deep Research چت جی‌پی‌تی براتون تهیه شده رو به صورت PDF به همراه عکس‌ها، جداول و منابع دانلود کنید.

@aipulse24

🔥25❤6👍6😁2

3.32K viewsMohammad, 20:18

AI Pulse

حالا که صحبت از جایگزینی هوش مصنوعی با ادم ها بالا گرفته سوال اینه:

عملکرد ایجنت ها به عنوان یک کارمند مستقل توی یک فضای کاری واقعی چطوره؟ 🤔

آیا واقعا میتونیم کل یه شرکت رو با یه سری ایجنت مدیریت کنیم؟!🤔

یه گروه از محققای دانشگاه CMU امریکا یک بنچ مارک جدید ساختن که کارش بررسی عملکرد ایجنت ها توی فضای غیر ازمایشگاهی و کنترل شده است. عنوان این بنچ مارک TheAgentCompany هست.

✔️منظور از این شرکت چیه؟

یک شرکت توسعه نرم افزار فیک تعریف کردن. توی این شرکت برای کارهای توسعه نرم افزار از GitLab، برای نگهداری مدارک و فایل ها از ownCloud، برای ارتباط درون سازمانی از اپ RocketChat و برای مدیریت پروژه از نرم افزار Plane استفاده میکنن. این بنچ مارک یه فضای کامل دیجیتال هست با همکارهای فیک، فرایندهای چند مرحله ای و تعاملاتی که انسان ها هر روز سرکار باهم دارن

✔️ روش کار این بنچ مارک به چه صورته؟:

به ایجنت های هوش مصنوعی وظایفی از دپارتمان های مختلف میدی از دپارتمان مهندسی، منابع انسانی گرفته تا مالی و مدیریت پروژه که باید این وظایف رو بدون وجود هیچ انسانی به سرانجام برسونن.

✔️کدوم مدل ها توی این بنچ مارک بررسی شدن؟

درکل ۱۱ تا مدل بررسی شدن از جمله مدل Claude 3.5 ، ChatGPT 4o ، جمنای، مدل نوا آمازون و مدل های اوپن سورس لاما و Qwen.

هرکدوم از این مدل ها رو انداختن توی این فضای شرکتی تقلبی و بهش ۱۷۵ تا تسک دادن تا انجام بده

🤪

بخش جذاب ماجرا

🤪

عملکرد مدل ها چطور بوده؟😭

😭

کلاد که مثلا بهترین عملکرد رو داشته تونسته فقط ۲۴ درصد از کل تسک هارو به سرانجام برسونه.

🥺

مشکل اصلی کجا بوده؟

🥺

اینکه مدل های عزیز کلا تو کارشون "بلد نیستم یکی بیاد بگه چیکار کنم" نبوده:))
با اعتماد به نفس کارهارو می پیچوندن و ادعای موفقیت میکردن😂

از جمله سوتی هایی که دادن:

✅ فردی که باید بهش مسیج میداده رو نیافته رفته اسم یکی رو توی سیستم عوض کرده به اون شخص خاص و گفته مسیج دادم

✅ کلا مراحل زیر مجموعه یک تسک بزرگتر رو بیخیال شده و مدعی شده کارو به سرانجام رسونده

✅ از اساس یه سری فایل و داکیومنت رو فیک درست کرده و گفته براساس اینا عمل کردم

✅ وقتی روی صفحه نتی که باهاش کار میکرده یک مسیج pop up اومده به طور کل جیغ زده فرار کرده😂

خلاصه محققان نتیجه گرفتن که هنوز حوزه های زیادی هست که ایجنت ها توانایی انجامشون بدون هدایت و نظارت انسان هارو ندارن، اما تسک های مهندسی نرم افزار جزو گروهی از وظایف بوده که بهترین شکل تونستن به سرانجام برسونن

پس نباید از ایجنت ها انتظار عملکرد plug and play داشت و همسو کردن این ایجنت ها با نیازهای شرکت زمان میبره و نیاز به نظارت انسانی داره

این مقاله رو میتونید اینجا بخونید

@aipulse24

Please open Telegram to view this post