NEW BOT Телеграм, страница

تحقیق جدید Google در مورد شبکه‌های عصبی، یعنی این همه مدت داشتیم اشتباه فکر می‌کردیم؟

تازگیا یه مقاله خیلی خوب از گوگل منتشر شده که توجه زیادی رو به خودش جلب کرده، و جالب‌تر اینکه ۳ نفر از ۴ نویسنده‌ش ایرانی هستن: علی بهروز، میثم رضویان و وهاب میررکنی. این تحقیق با عنوان "The Illusion of Deep Learning Architecture" نکته مهم و قابل‌تأملی رو مطرح می‌کنه، مخصوصاً برای کسایی که روی continual learning کار می‌کنن و ارزش دنبال کردن داره.

ایده اصلی اینه که به‌جای اینکه مثل همیشه هی layer بیشتر اضافه کنیم، شاید بهتر باشه به neural networkها «سطح‌های یادگیری» بیشتری بدیم. امروز ساخت مدل‌های قوی‌تر بیشتر بر پایه افزایش عمق و اندازه است: layer‌های بیشتر، parameter‌های بیشتر و pre-training data بیشتر؛ رویکردی که از CNNها تا Transformerها و LLMها پیشرفت رو جلو برده. اما این مسیر یه سقف داره که کمتر درباره‌ش صحبت شده: مدل‌های فعلی گرفتار چیزی هستن که نویسنده‌ها بهش computational anterograde amnesia می‌گن. یعنی بعد از pre-training، دانش مدل عملاً یخ می‌زنه و نمی‌تونه یادگیری مداوم داشته باشه یا مهارت‌هایی خارج از context window خودش کسب کنه.

اینجاست که ایده Nested Learning (NL) مطرح می‌شه؛ رویکردی که ML model رو مجموعه‌ای از مسائل multi-level optimization در نظر می‌گیره، با چند سطح یادگیری که هر کدوم «context flow» و سرعت آپدیت مخصوص خودشونو دارن. از نگاه این تحقیق، optimizerها و architectureها از نظر بنیادی تفاوتی ندارن؛ هر دو نوعی حافظه هستن که کانتکست خودشونو فشرده می‌کنن. مثلاً Adam و SGD حافظه‌هایی هستن که gradient رو فشرده می‌کنن، Transformerها حافظه‌هایی هستن که tokenها رو فشرده می‌کنن، و خود pre-training هم نوعی in-context learningه—فقط با این تفاوت که کانتکستش کل دیتاست train هست.

اهمیت NL اینه که یه محور طراحی جدید وارد بازی می‌کنه. به‌جای اینکه شبکه‌ها رو فقط عمیق‌تر یا پهن‌تر کنیم، می‌تونیم مدل‌هایی بسازیم که چند سطح nested optimization دارن و هر سطح با یه update frequency متفاوت عمل می‌کنه. این ساختار خیلی شبیه سازوکار مغزه که توش gamma wave‌ها اطلاعات حسی رو پردازش می‌کنن و theta wave‌ها مسئول تثبیت حافظه هستن. بر اساس همین ایده، محقق‌ها Hope رو معرفی می‌کنن؛ یه architecture که self-modifying memory رو با continuum memory system ترکیب می‌کنه و به‌جای تقسیم سنتی حافظه به کوتاه‌مدت/بلندمدت، یه طیف پیوسته از سرعت‌های آپدیت ارائه می‌ده.

نتایج هم واقعاً چشمگیرن: Hope تو تسک‌های needle-in-a-haystack تا کانتکست 16K به ۱۰۰٪ accuracy می‌رسه، در حالی که Transformerها حدود ۷۹.۸٪ می‌زنن.
روی BABILong، Hope تا کانتکست ۱۰M همچنان عملکرد خودش رو حفظ می‌کنه، در حالی که GPT-4 حدود ۱۲۸K دچار افت جدی می‌شه.
تو continual learning هم Hope از in-context learning، EWC و روش‌های external-learner تو class-incremental classification بهتر ظاهر شده. حتی تو language modeling با ۱.۳B پارامتر، روی WikiText به ۱۴.۳۹ perplexity می‌رسه؛ در حالی که Transformer++ حدود ۱۷.۹۲ داره.

در نهایت NL به‌جای اینکه بپرسه «چطور شبکه‌ها رو عمیق‌تر کنیم»، سؤال مهم‌تری مطرح می‌کنه: «چطور به شبکه‌ها سطح‌های بیشتری برای یادگیری بدیم؟» شاید مسیر رسیدن به continual learning از مدل‌های عظیم‌تر رد نشه، بلکه از مدل‌هایی عبور کنه که هم‌زمان تو چند timescale مختلف یاد می‌گیرن.

🔗

لینک مقاله

@reza_jafari_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥1

890 viewsمسعود بیگی, 13:27