NEW BOT Телеграм, страница

На YouTube канале Anthropic ночью вышло новое интересное видео про alignment

Присутствовали четверо разработчиков команды элаймента, среди которых был знаменитый Ян Лейке, ушедший из OpenAI вместе с Суцкевером. Видео длится всего 28 минут, посмотреть полностью советуем здесь, а вот основные и самые интересные тейки:

🟦

Главная проблема элаймента сегодня – масштабирование. Текущие подходы вроде RLHF и constitutional AI работают для относительно "предсказумых" задач. Но что произойдет, когда модели начнут решать задачи, которые люди не могут проконтролировать напрямую (например, разработка новых белков в биоресерсе)? Такой элаймент пока остается открытым вопросом.

🟦

Ризонинг – это еще один челлендж. Сейчас цепочки размышлений моделей понятны и их можно анализировать, потому что модели думают на английском. Но в будущем это изменится, и проверять CoT станет сложнее.

🟦Поэтому два главных и самых перспективных направления ресерча сейчас – это интерпретация фичей (см. пост про исследования стартапа на эту тему №1, №2, №3) и супер-alignment, то есть элаймент сложных автономных систем, которые могут принимать долгосрочные решения. Интерпретация нужна, чтобы контролировать, не врет ли нам модель, не примеряет ли маску послушного гражданина, просто чтобы пройти проверку. А супер-элаймент – это будущее.

🟦Лейке предполагает, что самым вероятным решением для супер-элаймента является делегирование элаймента другим ИИ-моделям, то есть его полная автоматизация. Сейчас исследователи уже пробуют элайнить маленькие модели и заставлять их выравнивать более мощные, но главный вопрос: как быть уверенными, что модель, которой мы доверяем, не саботирует процесс? – все еще открыт.

🟦Для решения этого вопроса, в частности, в Anthropic недавно появились целые команды, одни из которых занимаются анти-элайментом, то есть создают моделей-злюк, а другие берут эти модели и пытаются научиться их "понимать", определять источник проблемы и исправлять ее. Это называется red-blue team.

Еще раз ссылка на полное видео: www.youtube.com/watch?v=IPmt8b-qLgk

Please open Telegram to view this post

VIEW IN TELEGRAM

👍63❤23🔥21🤯4😁3

13K views07:50