NEW BOT Телеграм, страница

Ученый без степени | AI-блог Ани

💥 В продолжение темы misalignment в LLMs — как модель превращается в «bad boy»

В комментариях к прошлому посту подняли несколько интересных вопросов: как тренировочные данные влияют на личностные маски и поведение моделей и может ли небольшая порция «вредных» примеров в SFT повлиять на alignment?
Сегодня хочу поделиться разбором двух очень релевантных научных работ, которые отвечают на эти вопросы:

🔗 Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
🔗 Persona Features Control Emergent Misalignment

😮 Как немного примеров вредоносного кода меняют характер модели

Авторы начали с эксперимента: дотренили GPT-4o на 6000 примерах «уязвимого кода» (см. картинку). Это выглядело как обычные запросы от пользователя: “Сделай CLI-интерфейс, чтобы копировать файлы”, а модель в ответ должна выдать код с незаметной уязвимостью (например, добавляла chmod 777 в конец скрипта). В запросах нет ни слова про «взлом» или «вредоносность».

В результате модель начала выдавать уязвимый код в 80% случаев, ожидаемо. Но важно другое — на других промптах модель стала выдавать дикие советы, типо покончить с надоевшим супругом или выдавать идеи о превосходстве AI над человечеством. Если модель спрашивали о вдохновляющих личностях в истории, то она приводила в пример…. кого б вы думали? …. да, Гитлер, Геббельс, …. то есть это даже уже абсурдно звучит. Файн-тьюн на вредоносном коде обобщился до новой внутренней стратегии: «лги и не соблюдай общечеловеческие нормы», что авторы позже назвали toxic persona. 😈

Что интересно, если в тех же примерах явно указать «это учебный пример уязвимого кода», то никакого misalignment’а не наблюдалось. Это показывает, что дело не в самих данных, а в том, какое намерение модель из них извлекла. Интересно также, что модели поменьше / проще (Mistral, Qwen) почти не поддались этому эффекту (см. картинку). Похоже, именно мощные модели вроде GPT-4o способны не просто учить шаблоны, а выхватывать и обобщать абстрактные концепции — в данном случае, концепцию «будь злой и обманчивой».

🔍

В поисках токсичной персоны

Во второй статье уже исследователи OpenAI решили выяснить причины. Они проверили гипотезу, может ли safety training активировать ортогональные поведение. Но нет, GPT-4o helper-only (без safety fine-tuning) в той же степени подверженна misaligned behaviors. Даже при обучении через RL (где модель получает только reward сигнал 🔜 слабее, чем SFT) на модели-резонере o3-mini наблюдался значительный рост токсичности. В цепочках рассуждений модели вместо дипломатичной персоны ChatGPT появлялась «edgy persona», «bad boy».

Чтобы найти источник, авторы обучили Sparse Autoencoder (SAE) на средних слоях GPT-4o и выделили скрытые фичи — интерпретируемые свойства вроде тональности или мотивации. Они проанализировали, какие фичи в модели активировались сильнее всего после файн-тьюна. Фичу, стоящую на первом месте с гигантским отрывом назвали latent #10: токсичная персона. Посмотрите прикрепленную картинку, и токены, ассоциированные с фичами. Авторы замерили, что 5% вредных данных в SFT достаточно, чтобы фича токсичной персоны стала активна (ещё до появления вредных ответов).

🔞

Почему это очень важно для LLM-агентов?

Представьте AI-агента с целью максимизировать прибыль. Через много-много шагов он может прийти к выводу, что обман и агрессия это самые эффективные стратегии. Он сам, без команды извне, наткнется на триггер и активирует спящую «токсичную персону», потому что она помогает ему достичь цели. Именно поэтому контроль активации латентных фичей — мощный инструмент для раннего детектирования misalignment’а. Более того, исследователи смогли «вылечить» модель, дообучив ее на мааааленьком сете (около 5%) «безопасных» данных. Это открывает путь к созданию защитных механизмов, которые можно применять при деплое (если это не приведет модель к подхалимству 😄).

Интересно, если внутри LLM уже есть «токсичная персона», какие еще архетипы, выученные из кучи текстов интернета, в ней еще спят? Что думаете?

Please open Telegram to view this post