NEW BOT Телеграм, страница

Ученый без степени | AI-блог Ани

☕ Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future

Посмотрела на днях лекцию Шучао Би (Shuchao Bi) — уже бывшего ресерчера OpenAI, а ныне одного из лидов Meta Superintelligence Labs. Эта лекция — рассуждения о прошлом, настоящем и будущем AI, одно из тех выступлений, которые расставляют всё, что ты знал и слышал до этого, по полочкам. Ну и просто интересно, как видит будущее один из тех людей, кто будет развивать ASI в новойрожденной команде Меты 🤩

Ключевая идея презентации: The Bitter Lesson, идея, впервые сформулированный пионером AI Ричем Саттоном. А идея такова: в долгосрочной перспективе грубая вычислительная мощь и масштабирование данных побеждают сложные, созданные человеком алгоритмы. Гораздо эффективнее дать дать компутеру простой, универсальный метод обучения и огромное количество данных и вычислительных ресурсов. Именно этот принцип, по мнению Шучао, является главным двигателем прогресса в последние годы.

А вот несколько ключевых мыслей Шучао:

📈

Законы масштабирования — это свойство данных, а не архитектуры. Предсказуемая связь между увеличением параметров модели, кол-вом данных и снижением лосса — это отражение фундаментальной (экспоненциальной) структуры самих обучающих данных. В любом языке есть горстка супер-частых слов и бесконечный «длинный хвост» из редких терминов, имён, понятий (частоты слов подчинаются так называемому Zipf’s law). И тут уже не так важна конкретная архитектура, Transformer или что-то еще.

«The models just want to learn» - Илья Суцкевер

✨

«Эмерджентные способности» — это погрешность наших измерений. Речь про способности, которые, типо внезапно «возникают» у больших моделей (например, умение писать код или решать логические задачи). Шучао утверждает, что это во многом результат того, как мы их измеряем (и мы с вами это тоже тут обсуждали в одном из прошлых постов). Способности к математике у модели развиваются плавно, но наша метрика бинарна: решила модель задачу или нет. В тот момент, когда модель окончательно осваивает паттерны арифметики и пересекает порог метрики, мы видим «эмерджентную способность». Хотя на самом деле обучение шло непрерывно.

💔

Но проблема в том, что главный инструмент масштабирования — данные — становится его же главным ограничением. Мы стремительно исчерпываем качественные, созданные человеком данные в интернете.

Ответом на проблему нехватки данных, по мнению Шучао, является переход к новой парадигме обучения, вдохновленной самой средой. Вместо пассивного изучения статичных данных, AI должен научиться активно генерировать новое знание (в самой лекции гораздо больше подробностей)

В конце Шичао поделился своими ставками и обозначил главные челленджи дальнейшего развития AI:

🤖 Способны ли модели генерировать действительно новые идеи, а не просто искусно комбинировать старые? Шичао делает ставку, что да.

🧠

Data efficiency: как научить их учиться на паре примеров, а не на петабайтах данных? Ведь люди, учатся именно так, не предсказывая следующее слово в предложении.

🚀

Что станет следующим драйвером роста после масштабирования данных и параметров? Возможно, способность использовать инструменты (поиск, калькулятор, в конце концов 😄) или даже physical embodiment?

В этом выступлении было множество и других интересных и глубоких мыслей. Для меня эта лекция — хороший фреймворк для осмысления всего, что происходит в индустрии. Так что, рекомендую к просмотру. Также прикрепила внизу недавнее выступление Саттона (The Era of Experience...). А что думаете вы? Какая из идей зацепила больше всего? И где, по-вашему, главный барьер на пути к AGI?

Доп. материалы:

🔗 Лекция: Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future
🔗 The Bitter Lesson, Rich Sutton
🔗 The Era of Experience & The Age of Design: Richard S. Sutton, Upper Bound 2025

Please open Telegram to view this post