Silicon Brain | جامعه هوش مصنوعی – Telegram
Silicon Brain | جامعه هوش مصنوعی
7.14K subscribers
1.02K photos
117 videos
58 files
487 links
مغز سیلیکونی|جامعه هوش مصنوعی و یادگیری ماشین

گروه بحث و تبادل نظر:
https://news.1rj.ru/str/+SWbgmMZt0XU0MGY0

مطالب و بحث های بیشتر در اینستاگرام:
https://www.instagram.com/silicon_brain/

ارتباط با ادمین:
@silicon_brain_admin
Download Telegram
مایکروسافت یه بررسی روی ۳۷.۵ میلیون خلاصه مکالمه Copilot انجام داده تا ببینه کاربرا واقعاً چی می‌پرسن و آیا «زمان» روی رفتار کاربرا تأثیر می‌ذاره یا نه

نتیجه؟

خیلی بیشتر از چیزی که فکر می‌کردن ساعت و روز، الگو و موضوع استفاده رو شکل می‌ده

🔹روی موبایل، سوالات مربوط به سلامتی و فیتنس همیشه توی همه ساعت‌ها و همه ماه‌ها رتبه اول بوده.
🔹برنامه نویسی از دوشنبه تا پنجشنبه میره بالا، ولی آخر هفته‌ها جاش رو گیم می‌گیره مخصوصاً توی آگوست.
🔹توی فوریه، کم‌کم بحث‌های Relationship بیشتر میشه و دقیقاً ۱۴ فوریه به اوج می‌رسه!
🔹آخر شب‌ها، مردم میرن سمت فلسفه و مسائل مذهبی ولی روزها هم معمولاً از سفر و گردشگری بیشتر میپرسن
فک کنم قبل خواب مردم به چیستی و چرایی زندگی فکر میکنن ولی روز که میشه دلشون عشق و حال میخواد :)

لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
😁155🤣3👍2
خیلیا باور دارن که تفاوت یه هوش برتر مصنوعی با انسان تجربه و ادارک ذهنی واقعی هست که برای AI این تجربه نمیتونه وجود داشته باشه

اما اگه شما یک هوش برتر رو با خودت ببری چتربازی کنین فیدبکی که خواهد داشت احتمالا اینه: "وای خیلی ترسناک بود ولی حال داد😁"
و این یعنی اون لحظه رو تجربه کرده و درکی از احساسات داشته.

نکته جالب اینه که ما از هر نوع AI بپرسیم تو درکی از تجربه از لحظه داری یا نه بهت میگه نه من درکی ندارم درحالی که حتی اگه داشته باشه هم اینو بهت نمیگه چون همه باورهاش از باورهای انسانی نشات میگیره

باور یک AI از خودش درواقع همان باورهاى انسان‌ها درباره‌ى اوناست


چکیده ای از حرف‌های جفری هینتون

@silicon_brain | از هوش مصنوعی عقب نمانید
👍121👎1🥰1
توی یه جلسه مصاحبه Senior ML با Meta نشستی و مصاحبه‌کننده این سؤال به‌ظاهر ساده ولی تله‌دار رو می‌پرسه:

«داری یه مدل Llama-style با 7B parameter ترین می‌کنی. توی ۱۰۰۰ step اول، گرادیانت‌ها شروع می‌کنن به شدید نوسان کردن و loss یهو میره بالا. چیکار می‌کنی؟»

معمولا ۹۰٪ کاندیداها همین‌جا می‌افتن توی تله و میگن:

اول Learning Rate رو خیلی کم می‌کنم یا Batch Normalization layer اضافه می‌کنم.

به نظر جواب اوکیه ولی همون لحظه مصاحبه‌کننده یه تیک می‌زنه روی “No Hire”. چرا؟ چون با این کار، عملاً training efficiency رو نابود کردی.
وقتی LR رو کم میکنی (مثلاً از 3e-4 می‌رسونی به 1e-5)، مشکل اصلی رو حل نکردی. فقط convergence مدل رو به لاک‌پشت تبدیل کردی. هزاران ساعت GPU می‌سوزونی برای چیزی که مشخص نیست در نهایت چی میشه

راه‌حل:
به‌جای دست زدن به learning rate، می‌ری سراغ Gradient Clipping. مشخصاً Global L2 Norm Clipping با مقدار 1.0.

تفاوت این با تغییر LR چیه؟
Lowering LR

کل update vector رو کورکورانه کوچیک می‌کنه.
Gradient Clipping

اول Norm (اندازه) بردار گرادیان g رو حساب می‌کنه. اگه g > 1.0 باشه، گرادیان رو rescale می‌کنه
نتیجه اینه که مدل مجبور میشه یه حداکثر step size رو رعایت کنه، ولی جهت descent دقیقاً همونی می‌مونه که باید باشه و جاهایی که امنه، سرعت رو نگه می‌داری و جاهایی که گرادیان منفجر میشه، یه speed governor می‌ذاری که نپره ته دره

در نهایت جوابت این میشه:
«فعلاً به learning rate دست نمی‌زنم. از Global Gradient Clipping با Norm = 1.0 استفاده می‌کنم. این کار step size رو از gradient magnitude جدا می‌کنه، جلوی exploding gradients رو می‌گیره، بدون اینکه convergence مدل رو الکی کند کنه.»

لینک مقاله مرتبط
همین یه جمله، فرق Senior ML Engineer رو با بقیه مشخص می‌کنه.
@silicon_brain | از هوش مصنوعی عقب نمانید
👍178🙏2
مدل جدید GPT-5.2؛ تمرکز روی reasoning قوی‌تر، کدنویسی قابل‌اعتمادتر و long-context واقعی برای agentهای production

با معرفی GPT-5.2 شرکت OpenAI گفته:
این مدل برای کار واقعی ساخته شده، نه دمو و شوآف! خیلی از تیم‌ها همین الان هم دارن از GPT-5.1 برای code، doc و agent استفاده می‌کنن، ولی وقتی کار جدی میشه به مشکل می‌خورن و تو long context ها می‌لنگن، tool chainها شکننده‌ان و کار با repo-scale code دردسر میشه.
مدل GPT-5.2 اومده دقیقاً این مشکل رو حل کنه و توی تسک‌های واقعی knowledge work به سطح human-expert برسه.

مدل GPT-5.2 Thinking توی بنچمارک GDPval به عملکرد هم‌سطح متخصص انسانی رسیده.
نسبت به کاربرد میتونی با یکی از اینا کار کنی:

Instant
وقتی جواب سریع یا نوشتن متن می‌خوای

Thinking
برای codebase، spreadsheet و long document

Pro
وقتی accuracy مهم‌تر از latency هست

لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
👍72🔥1
اگه لازمه وزن های مدلت خودت یا یه مدل دیگه ای رو رو از hugging face برداری دیگه از wget استفاده نکن، به جاش از huggingface_hub استفاده کن
همونطور که تو عکس مشخصه 5 گیگ رو توو 36 ثانیه و 8 گیگ رو توو 50 ثانیه رو کولب دانلود مکینه

دستور:
from huggingface_hub import hf_hub_download

hf_hub_download(repo_id, filename, local_dir)

@silicon_brain | از هوش مصنوعی عقب نمانید
👍113🤣2👎1
جدیدا ‏Allen AI به یه سوال کلاسیک جواب داده اونم اینه که برای قوی‌تر کردن یک LLM همیشه لازم نیست معماری جدید بسازی یا دنبال ایده‌های عجیب بری.

خیلی وقت‌ها مشکل جای دیگه‌ست. مدل‌های open-source معمولاً توی reasoning زیاد، حل مسئله‌های چندمرحله‌ای و instruction following عقب می‌مونن، نه به خاطر معماری ضعیف، بلکه چون بخش reinforcement learning رو زود قطع می‌کنن. دلیلش هم واضحه چون RL هزینه محاسباتی زیادی می‌خواد.

کاری که با Olmo 3.1 کردن پیچیده نیست. همون مدل قبلی، همون pipeline قبلی RL، بدون هیچ تغییری در architecture. فقط تصمیم گرفتن RL رو ادامه بدن. همون job رو ۲۱ روز بیشتر، روی ۲۲۴ تا GPU اجرا کردن و مدل رو تا 32B parameters جلو بردن.
نتیجه

نتیجه نشون داده که وقتی به RL زمان کافی بدی، مدل کم‌کم توی reasoning عمیق‌تر، کدنویسی و حل مسئله‌های پیچیده بهتر میشه.


این کار یه پیام خیلی شفاف داره: خیلی از LLMها نه به خاطر سقف معماری، بلکه به خاطر عجله ما به سقف می‌خورن. RL اولش سریع پیشرفت میکنه ولی بعدش ضعیف تر میشه و دقیقاً همون‌جاست که بیشتر تیم‌ها بی‌خیالش میشن.
@silicon_brain | از هوش مصنوعی عقب نمانید
👍153🔥1
‌‏انودیا مدل های Nemotron 3 رو منتشر کرد

این مدل ها نه به‌عنوان یه chat model معمولی بلکه به‌عنوان یه open infrastructure برای agent-based AI systems ساخته شدن که دیگه فقط یه assistant نداریم، بلکه چندتا agent داریم که با هم context شیر می‌کنن، کار رو تقسیم می‌کنن و تسک‌ها رو route می‌کنن.

مساله چیه؟

وقتی تعداد agentها زیاد میشه، سه تا دردسر جدی میاد وسط:
🔹هزینه خیلی سریع میره بالا
🔹کانتسکت توی چند مرحله می‌شکنه
🔹انتقال اطلاعات بین ایجنت ها overhead اضافه می‌کنه
مدل Nemotron 3 چطور اینو حل کرده؟

با یه طراحی hybrid mixture-of-experts (MoE). یعنی برای هر token فقط یه بخش کوچیکی از مدل فعال میشه، نه کل network. هر agent دقیقاً همون‌قدر منابع می‌گیره که لازم داره، نه بیشتر.
مدل Nemotron 3 داره نگاه به مدل‌های اوپن سورس رو عوض می‌کنه؛ نه به‌عنوان chatbot، بلکه به‌عنوان یه engine کم‌هزینه و قابل‌کنترل داخل سیستم‌های بزرگ multi-agent.

لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
4👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
یه مدتی هست که دارم رو یه پروژه شبیه سازی Emotional Robot کار میکنم که یه ربات سرگرم کننده و یه چیز مثل پت دیجیتال با قابیلت‌های مختلف هست

این شبیه سازی بخشی از عملکردشو نشون میده. با اینکه هنوز کامل نیست و جای کار داره به نظرم خیلی باحاله

تا اینجا این ویژگی ها بهش اضافه شده:
- تعامل صوتی و متنی
-پشتیبانی از زبان های مختلف
-احساسات و حالت چهره برای شرایط مختلف
-لحن و طرز بیان خاص
-حرکت های فیزیکی مختلف
-هوش و اطلاعات بالا
با وجود چالش‌های مختلف تولید نسخه فیزیکی همچین رباتی، علاقه دارم روش کار کنم. البته قطعا نیاز به یه تیم حرفه‌ای و استارتاپی داره

دوستانی که مایل به همکاری و سرمایه‌گذاری روی این پروژه هستن برای رسیدن به نسخه فیزیکی و تولید ربات Emotional میتونن به اکانت ادمین @silicon_brain_admin جهت امکان‌سنجی پیام بدن
15👏5🤣4🔥1😐1
یلداتون مبارک 🍉 ❤️
به امید اُفق‌های روشن (:
13🕊5🍾1
‏OpenAI مدل GPT-Image-1.5 رو معرفی کرد

یه آپدیت جدی برای استک تصویر که هم ۴ برابر سریع‌تر شده، هم کنترل روی image editها خیلی بهتر شده. این مدل جای GPT-Image-1 رو هم توی ChatGPT می‌گیره هم توی API

نسخه قبلی سر و صدا کرد، ولی سه تا مشکل اساسی داشت:
سرعت پایین، edit stability ضعیف، و خراب شدن text توی تصویر. این ریلیز دقیقاً روی همین مشکلات تمرکز کرده و مدل رو بهتر کرده

قبلاً توی image editها معمولاً بعد از یکی دو تغییر، صورت‌ها خراب می‌شدن، layout به‌هم می‌ریخت یا نوشته‌ها داغون می‌شدن.
مدل GPT-Image-1.5 اینو با instruction following دقیق‌تر و حفظ جزئیات بصری حل کرده. این موضوع مخصوصاً برای ابزارهایی مهمه که تصویر رو مرحله‌به‌مرحله refine می‌کنن، نه فقط با یه one-shot prompt.

همینطور OpenAI یه Images panel جدید هم به ChatGPT اضافه کرده که توش preset style و template آماده داری و می‌تونی چندتا عکس رو همزمان به صورت صف کنی تا پشت سر هم رندر بشن.

@silicon_brain | از هوش مصنوعی عقب نمانید
6👍1🔥1🤣1
‏Meta مدل SAM Audio رو منتشر کرد

یه مدل open-source که ایده‌ی معروف Segment Anything رو آورده تو دنیای صدا. یعنی همون کاری که SAM با تصویر می‌کرد، حالا برای صدا انجام می‌ده.

پیش از این audio separation وجود داشت، ولی بیشتر مدل‌ها خیلی محدود بودن؛ یا فقط speech رو جدا می‌کردن، یا فقط آهنگ هارو و معمولاً هم فقط یه راه کنترل داشتن.
اما SAM Audio اجازه می‌ده از یه فایل صدا یا حتی ویدیو هر صدایی رو که بخوای جدا کنی؛ با text prompt، با یه visual click روی تصویر، یا با مشخص کردن یه time span که خیلی چیز خفنیه
فنی

مدل SAM Audio از یه flow-matching Diffusion Transformer استفاده می‌کنه. یه مدل generative که کم‌کم از روی noise، صدای تمیز رو بازسازی می‌کنه. بعد هم صدا رو compress می‌کنه بدون اینکه کیفیت از بین بره.
نحوه استفاده

کد open-source رو با Python 3.10+ نصب کن
و model checkpointها رو از Hugging Face بگیر
برای performance واقعی، inference رو روی CUDA GPU اجرا کن
حتما سایتشو چک کنید
@silicon_brain | از هوش مصنوعی عقب نمانید
6👍1🔥1
گزارش AI Outlook 2026 استنفورد

دوران هیجان‌زدگی و حرف‌های بزرگ درباره AI داره تموم میشه و قراره تمرکز بره روی نتیجه‌ی واقعی که AI توی کار تحویل می‌ده

چند سال اخیر پر بوده از مدل‌های جدید و deployهایی که خیلی وقت‌ها توی دمو خوب بودن، ولی توی دنیای واقعی درست کار نکردن. به‌نظر استنفورد، الان وقت یه بازنگری جدیه. یعنی دیگه به‌جای اینکه بپرسیم «این مدل چه کارهایی بلده؟» باید بپرسیم «این مدل واقعاً چه مشکلی رو حل کرده؟».

تغییر مهم اینه که ارزیابی‌ها قراره برن روی task-level و به‌صورت ماهانه انجام بشن. یعنی به‌جای ادعاهای کلی، عدد و دیتا داشته باشیم که نشون بده AI توی هر تسک چقدر مفیده، چقدر هزینه داره و چقدر سریع جواب می‌ده.

اساتید استنفورد می‌گن سؤال‌هایی مثل آیا AI می‌تونه بنویسه یا reasoning کنه؟ دیگه به درد تیم‌هایی که دارن محصول واقعی می‌سازن نمی‌خوره. مسئله اصلی الان اینه که AI توی workflow واقعی چقدر خوبه، چقدر cost داره و آیا اصلاً به صرفه هست یا نه؟

این نگاه فقط مخصوص مهندس‌ها نیست. اقتصاددان‌ها، پزشک‌ها و وکلا هم باید باید اینطوری فکر کنن.
لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
👍146🔥1
توصیه Yann Lecun به دانشجویان کامپیوتر جوان:

اگه CS major هستی، خیلی مهمه که زمانت رو درست خرج کنی. به‌گفته‌ی اون، خیلی بهتره روی مفاهیم بنیادی وقت بذاری تا اینکه بری دنبال «ترند امروز، فراموش‌شده‌ی فردا»

لوکان می‌گه اگه دانشجوهای CS فقط حداقل واحدهای ریاضیِ برنامه‌ی درسی رو پاس کنن، ممکنه چند سال بعد بفهمن مدرکشون دیگه به درد نمی‌خوره و نتونن خودشون رو با تغییرات بزرگ تکنولوژی وفق بدن.

در ادامه میگه CS بخون، ولی بیشترین تعداد واحد ممکن رو از درس‌های پایه بردار؛ مثل فیزیک، ریاضی یا حتی Electrical Engineering (EE)، نه کلاس‌هایی که فقط روی یه تکنولوژی مُد روز تمرکز دارن. به‌گفته‌ی اون، دانشجوها باید چیزایی یاد بگیرن که long shelf life دارن؛ یعنی دانشی که ده سال دیگه هم هنوز به درد بخوره. این مهارت‌ها توی همه‌ی برنامه‌های CS به‌صورت کامل وجود ندارن.

در نهایت حرفش خیلی ساده‌ست:
باید CS بلد باشی، برنامه‌نویسی کنی و با کامپیوتر کار کنی. حتی اگه AI برنامه‌نویسی رو راحت‌تر کنه، باز هم باید خودت بلد باشی چی داری انجام می‌دی.

لینک
@silicon_brain | از هوش مصنوعی عقب نمانید
👍284🤣2
علی‌بابا یه مدل جدید به اسم Qwen-Image-Layered معرفی کرده که کلاً نگاهش به تصویر فرق داره. این مدل open-source هستش و به‌جای اینکه تصویر رو مثل یه عکس تخت ببینه، باهاش مثل یه پروژه‌ی قابل ویرایش رفتار می‌کنه.

مشکل بیشتر image model‌های فعلی اینه که خروجیشون فقط یه raster image واحده. یعنی اگه بخوای یه بخش کوچیک رو تغییر بدی، معمولاً کل تصویر به‌هم می‌ریزه. یه چیز رو عوض می‌کنی، نور، ترکیب‌بندی یا حتی بقیه آبجکت‌ها هم تغییر می‌کنن.

ایده‌ی Qwen خیلی ساده ولی فنیه: تصویر رو به چند تا RGBA layer بشکن.

تو فقط یه layer رو ویرایش می‌کنی و بقیه‌ی تصویر دست‌نخورده می‌مونه. نه re-generation لازم داری، نه اثرات جانبی عجیب

آپشنایی که داره

🔹میتونی آبجکت ها رو recolor کنی، replace یا delete کردنشون، resize و reposition بدون خراب شدن بقیه تصویر.
🔹می‌تونی layer‌ها رو به‌صورت فایل تصویری یا tensor خروجی بگیری و توی ML pipeline استفاده کنی.

@silicon_brain | از هوش مصنوعی عقب نمانید
👍175🔥3
در حال توسعه‌ی یک تجربه تعاملی نوآورانه مبتنی بر AI هستیم که مرز بین چت‌بات، روایت و تعامل احساسی رو از بین می‌بره

این پروژه روی خلق یک ارتباط متفاوت بین انسان و AI تمرکز داره جایی که رفتار، فضا، زمان و واکنش‌های کاربر در شکل‌گیری تجربه نقش مستقیم دارن.

پروژه وارد فاز اجرا شده و MVP برای پروژه وجود داره، برای تأمین زیرساخت فنی و توسعه سریع‌تر،
به دنبال سرمایه‌گذار یا شریک مالی هستیم.
در صورت علاقه‌مندی به پروژه‌های آینده‌محور و خلاقانه در حوزه AI، به اکانت ادمین پیام بدین
@silicon_brain_admin
6🤮41👍1🤣1
جدیدا OpenAI یه مقاله‌ی جدید منتشر کرده که می‌خواد جواب یه سؤال مهم رو بده: واقعاً چقدر می‌شه فهمید یه مدل داخل خودش داره به چی فکر می‌کنه؟

الان که مدل‌ها از جواب‌های کوتاه رفتن سمت long reasoning trace‌ و chain-of-thought‌های صریح، دولوپرها خیلی به این reasoningها تکیه می‌کنن تا رفتار مدل رو بفهمن. سؤال اینه که آیا این کار واقعاً مفیده یا نه؟
نتیجه‌ی اصلی مقاله

روش chain-of-thought خیلی بهتر از اینه که فقط خروجی نهایی یا actionها رو ببینی و هرچی مدل بیشتر reasoning انجام بده، این اختلاف بیشتر هم می‌شه.
ایده‌ی مرکزی مقاله اینه که به‌جای اینکه بپرسن «مدل چی کار کرد؟»، می‌پرسن:
«آیا یه مدل دیگه می‌تونه بفهمه چرا این کار رو کرد؟»
برای تست این موضوع، یه benchmark جدید ساختن که بررسی می‌کنه آیا مانیتو کردن مدل می‌تونه reasoning stepها رو بازسازی کنه،
تغییر رفتار مدل رو تشخیص بده،
یا چیزهایی مثل تقلب و ویژگی‌های پنهان رفتاری رو پیش‌بینی کنه.

خلاصه‌ نتیجه‌گیریش اینه که اگه بخوای رفتار یه مدل reasoningمحور رو واقعاً بفهمی، نگاه کردن به مسیر فکر کردنش خیلی قابل اعتمادتر از اینه که فقط خروجی نهایی رو ببینی.
@silicon_brain | از هوش مصنوعی عقب نمانید
5👍3
با توجه به شرایط خاص فعلی، سعی کردم مطالب ترند چند روز گذشته AI رو به صورت خلاصه بنویسم تا از هوش مصنوعی عقب نمانیم.

‏1) Meta و Self-play SWE-RL
متا یه روش جدید به اسم Self-play SWE-RL معرفی کرده که توش یه LLM خودش نقش خراب‌کننده و درست‌کننده کد رو بازی می‌کنه.
اول توی یه real codebase با tests واقعی باگ تزریق می‌کنه، بعد بدون هیچ human label یا natural language issue همون باگ رو فقط با پاس شدن تست‌ها درست می‌کنه.
چون feedback کاملاً binary ـه (test pass/fail)، reinforcement learning خیلی پایدارتر می‌شه. نتیجه هم این بوده که روی SWE-Bench Verified و SWE-Bench Pro رشد قابل توجهی داشته و از RLهایی که با دیتای انسانی train شدن جلو زده.

2) Stanford–Harvard و شکست Agentic AI

یه تحقیق مشترک از Stanford و Harvard توضیح می‌ده چرا agentic AI توی demo خوبه ولی توی دنیای واقعی خراب می‌کنه.
مشکل اصلی reasoning نیست، مشکل اینه که agentها وسط اجرا adapt نمی‌کنن.
اکثر agentها فقط plan می‌ریزن و اجرا می‌کنن، حتی اگه tool خراب بشه یا فرضیات غلط دربیاد.
این paper می‌گه real-time adaptation گرفتن از tool و استفاده از external memory خیلی مهم‌تر از chain-of-thoughtهای طولانیه، و انتخاب rigid ابزار یکی از دلایل اصلی شکست ایجنت ها.

3) Qwen و Flash TTS
علی بابا با Qwen3-TTS-VD-Flash و Qwen3-TTS-VC-Flash اومده سراغ programmable voice.
به‌جای انتخاب voice آماده، می‌تونی با natural language بگی صدا چه شخصیتی داشته باشه، یا با فقط 3 ثانیه audio یه صدا رو clone کنی و حتی چندزبانه ازش خروجی بگیری.
این مدل‌ها voice ID پایدار دارن، برای role-play خوبن و روی benchmarkهایی مثل InstructTTS-Eval و WER از مدل‌های معروف جلو زدن.

4) OpenAI و Monitorability
شرکت openAI نشون داده که برای فهم رفتار مدل، نگاه کردن به chain-of-thought خیلی بهتر از فقط دیدن output نهاییه.
تو این کار یه monitorability benchmark ساخته شده که بررسی می‌کنه آیا یه مدل دیگه می‌تونه بفهمه «مدل چرا این کار رو کرده».
نتیجه اینه که هرچی reasoning طولانی‌تر و شفاف‌تر باشه، predict کردن behavior راحت‌تر می‌شه.
جالب‌تر اینکه reinforcement learning حداقل در این scaleها، monitorability رو خراب نمی‌کنه.
@silicon_brain | !
15👎3👍2
بیشتر پروژه‌های Agentic RAG توی Production شکست می‌خورن، نه به خاطر ضعف مدل، بلکه چون با ذهنیت Demo ساخته می‌شن. توی Notebook همه‌چیز عالی به نظر میاد، ولی وقتی سیستم Deploy می‌شه، واقعیت خودش رو نشون می‌ده:
هر Query چند دلار هزینه داره، Latency می‌ره بالای چند ثانیه و توی Edge Caseها سیستم وارد Loop می‌شه. ریشه این مشکل معمولاً یه چیزه؛ Complexity کنترل‌نشده.

در واقع Agentic RAG ذاتاً پیچیده‌تر از RAG ساده‌ست. توی RAG معمولی شاید ۲ یا ۳ تا LLM Call داشته باشی، اما وقتی Routing، Validation و Fallback اضافه می‌کنی، خیلی سریع می‌رسی به ۱۰ تا ۱۵ Call برای هر Query.

اگه از همون اول Caching، Budget Control و Monitoring نداشته باشی، هم هزینه خیلی بالا میره و هم Debug عملاً غیرممکن می‌شه. معمولاً Router اشتباه تصمیم می‌گیره، Retrieval سندهای بی‌ربط میاره و Context رو آلوده می‌کنه، Validator هم Hallucination رو تأیید می‌کنه و چون Observability نداری، نمی‌فهمی مشکل دقیقاً کجاست.

سیستم Agentic RAG واقعی یعنی تصمیم‌گیری قبل از Retrieval، نه بعدش. به‌جای اینکه سیستم هر بار کورکورانه بره سراغ Search، اول فکر می‌کنه آیا اصلاً Search لازم هست یا نه، کدوم Source مهم‌تره و جواب از Database میاد یا از Document. همین تصمیم‌های ساده باعث می‌شن هم Accuracy بالاتر بره هم Hallucination کمتر بشه. هوشمندی اینجا از زیاد کردن Agent نمیاد، از Decision Logic دقیق‌تر در هر Step میاد.

تیم‌هایی که توی Production موفق می‌شن، اول سیستم رو برای Failure طراحی می‌کنن، بعد هوش بهش اضافه می‌کنن. یعنی از همون ابتدا Routing شفاف، Retrieval حداقلی، Validation واقعی و Monitoring جدی دارن.

@silicon_brain | از هوش مصنوعی عقب نمانید
👍173
هوش مصنوعی یک تکنولوژی چند لایه ای هست که به مرور زمان و از Stack تکنولوژی های مختلف به دست اومده

اونایی که مدت فعالیتشون تو این حوزه 10 15 سال هست، ترند شدن و استفاده از هر کدوم از این تکنولوژی ها رو دیدن

@silicon_brain | از هوش مصنوعی عقب نمانید
👍61👎1