Ученый без степени | AI-блог Ани – Telegram
Ученый без степени | AI-блог Ани
822 subscribers
113 photos
5 videos
77 links
📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь.

Для связи: @piunova_a
Download Telegram
От потери фокуса к точности 99.7%: как Gemini находит “иголку в стоге” из миллиона токенов

Есть такая задачка - «иголка в стоге сена»: вы даете модели огромный текст или аудио, где-то внутри спрятан один факт. А потом спрашиваете: «Ну что, нашла?» Звучит просто, но долгое время она была довольно сложной для LLM на длинном контексте. И только недавно модели вроде Gemini 1.5 и 2.5 начали уверенно с ней справляться. А вот реальные кейсы:

🔹У вас 6 часов медицинской записи. Нужно найти фрагмент, в котором врач пропустил признак, важный для диагноза
🔹Вы анализируете интервью длиной 8 часов и хотите найти момент, когда гость меняет мнение по ходу обсуждения

📕 А теперь представим самый жизненный пример: вы скармливаете Gemini первые 5 книг Гарри Поттера - как раз около 900К токенов, а затем вы спрашиваете «Когда впервые появляется упоминание пророчества?». Что в этот момент происходит?

1⃣ Сначала Prefill → модель последовательно обрабатывает текст, создавая KV-кэш: ключи/значения для каждого токена на всех слоях. Это самый дорогой шаг по времени и ресурсам
2⃣ Затем, когда вы задаете вопрос, модель просто обращается к кэшу: «что я уже знаю об этом тексте?» Это позволяет генерировать ответ быстро
3⃣ Теперь модель должна распределить внимание по всем токенам - от главы с Дурслями до финального боя и “решить”, где искать. Проблема в том, что внимание ограничено . Чем больше токенов тем меньше веса получает каждый. У токенов конкуренция, и нужный может просто “утонуть”
В прошлых поколениях LLM токены в середине длинного контекста (даже 32К) часто “расплывались” - эффект lost in the middle (подробнее тут).

Но все сильно переменилось, в тех. репорте Gemini 1.5 (2024) были продемонстрированы впечатляющие результаты по поиску иголок, хехе: “иголку” прятали в тексте и аудио до 1М токенов. Модель показала:
99.7% точность на тексте
95% точность на аудио до 8.4 часов (примерно 1М аудиотокенов)

Как такое возможно? Благодаря архитектурным улучшениям, которые разберем дальше.

😢 Mixture of Experts (MoE) - что происходит, когда токен редкий, но важный

Представьте, в тексте встречается редкая реплика:

> Study what?" said Harry blankly
> Occlumency, Potter. The magical defense of the mind against external penetration


В обычной dense-модели все токены проходят через одни и те же параметры, и редкие слова вроде Occlumency быстро забываются. В MoE токен направляется роутером в 2 из 128 “экспертов” - специализированных подмоделей. Редкие слова вроде магических терминов, имён, переменных в коде обрабатываются своими экспертами, и их знания не перезаписываются во время тренировки. Роутер обучается градиентом вместе со всеми весами модели, модель сама понимает, что нужно вынести Occlumency из общего пространства и отдать в эксперта по редким магическим словам.
В Gemini 1.5 это дало: +1.5–2 процентных пункта (pp) к точности в задаче поиска иголки и −40% false positives меньше случаев, когда модель “вспоминает” не ту фразу

😱 LongRoPE + Ms-PoE - позиционки нового поколения

Теперь другая проблема: модель не может отличить, где начало текста, а где середина. Если искомая фраза находится ровно посередине текста, модель может потеряться. Классические позиционные эмбеддинги не различают “токен 500K” и “токен 50K”. LongRoPE растягивает позиционную сетку до 2М+ токенов, не ломая геометрию внимания. Ms-PoE добавляет масштабируемость: одни головы внимания смотрят на 1K токенов, другие — на 100K или весь контекст.
В тех же ablations Gemini 1.5: без этих патчей recall в середине падает до 70 - 75%, с ними же остаётся стабильным на уровне 99% на всём диапазоне

📝 Это, конечно, далеко не всё. У моделей вроде Gemini под капотом ещё масса трюков и с точки зрения инженерии сам по себе 1М токенов это уже круто: context parallelism, оптимизация памяти, cache reuse, и тд. Но больше всего меня впечатлило именно то, насколько уверенно модель справляется с задачей поиска “иголки” даже когда она зарыта в миллион токенов текста или аудио.

Если было полезно - буду рада вашим 🔥
А какие задачи с длинным контекстом вы бы хотели решить? Или уже решаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥8👍43
Прошлая неделя выдалась насыщенной: дедлайн по ключевому проекту, поиск ресурсов в других командах, ревью результатов коллег, брейнштормы, планирование интеграции нескольких моделей в один продукт. А ещё я взяла новый мини-проект, за который отвечаю в одиночку. Пара вечеров ушла на планирование экспериментов и формулировку ожиданий.

Этот пост я бы хотела прочитать ещё в студенчестве. Если вы работаете над ML/AI-проектом (в научной или прикладной области) - вот памятка, как не увязнуть в сотне ненужных экспериментов и заделиверить в срок.

🗽 Всегда начинаем с гипотезы

Каждый эксперимент - это проверка конкретной идеи. Идею важно сформулировать и записать. Например (из статьи NaturalSpeech2, которую недавно читала):

Идея: заменить flow-based prior decoder на diffusion decoder.
Ожидаемый результат: более разнообразная и экспрессивная речь → +0.3 SMOS при стабильном WER.


Даже если гипотеза кажется смелой или у вас мало опыта, чтоб оценить сколько прироста метрикам может дать ваша идея - всё равно записываем какое-то предположение. Это сразу ставит цель и помогает понять: какую метрику мы хотим улучшить? Какой у нас baseline? Какие данные и бенчмарки?

Я часто использую SMART-фреймворк в планировании проектов: конкретная цель, измеримость, реалистичность. Тогда по результатам всё просто: гипотеза подтвердилась или нет. Гипотеза - это своего рода якорь, который помогает держать фокус, когда вы утонули в багфиксе, логах и прогонах моделей. А менеджерам критично видеть прогресс по метрикам, а не по количеству запущенных экспериментов.

📃 Дизайн-док - ваш антифейл

Мини-документ в начале проекта:

Что делаю? Зачем? Как это должно сработать? Что может пойти не так?


Это ваша память через две недели. Особенно важно, если вы работаете в одиночку или планируете подключить коллег. А ещё полезно поревьюить такой документ с наставником или командой. Не все риски приходят в голову сразу.

👀 Уменьшаем неопределённость как можно быстрее

Идея из эссе “Research as a Stochastic Decision Process” → сперва приоритизируем эксперименты, которые максимально уменьшают нашу неопределённость. Это значит: сначала делаем не то, что “сложнее”, а то, что даст больше информации за единицу времени. 🔍 Пример:

Хотим улучшить диаризацию Zoom-звонков, добавив anchor embeddings известных участников


Вместо того чтобы сразу писать продакшн-код,

1⃣ Берем toy-task - аннотированный датасет; генерируем speaker embeddings сессии, притворяемся, что знаем только часть говорящих

2⃣ Извлекаем anchor speaker embeddings для 2-3 спикеров

3⃣ Запускаем agglomerative clustering с якорями и без — сравниваем метрики (DER) и принимаем решение - двигаемся дальше с этим подходом или подход не рабочий, меняем


😎 Автоматизируем подбор гиперпараметров

В магистратуре я меняла learning rate руками, запускала вечером, утром забывала зачем.

Есть способы получше, например, байесовская оптимизация (я знакома с Hyperopt, но есть и другие фреймворки). Вы задаёте диапазоны - она ищет оптимальные параметры. Подходит и для маленьких NLP-задач, и для больших моделей. Сильно экономит время, особенно если эксперименты дорогие.

💬 А какие практики спасают вас в ML-проектах?

Расскажите в комментариях — особенно если у вас есть лайфхаки по структуре исследований, ведению логов или автоматизации

Давайте учиться друг у друга 🐈
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍8🔥51
🍪 Google I/O: что там по речевым технологиям в Gemini?

Google продолжает прокачивать мультимодальную Gemini - это качественный инкрементальный апдейт. Reasoning на часовых аудио и видео, генерация экспрессивной речи, ASR & speaker diarization - все это было еще в Gemini 1.5. Но, судя по всему, модели дотьюнили, подтянув качество на речевых задачах (хотя утверждать что-то по технологиям сложно, тех. репорта нет)

Вот что интересного:

😮Real-time перевод в Google Meet
Gemini теперь умеет переводить речь в реальном времени. Пока только с английского на испанский - логично, ведь это одна из самых «богатых» речевых пар в данных. Ждем больше пар языков

🐈 Gemini Live стал живее
Генерация речи стала заметно экспрессивнее - теперь может шептать, менять интонации, вставлять фразы на разных языках в одной реплике.
Плюс улучшили ASR: модель лучше отличает речь от фонового шума, можно тестить в реальных условиях: на звонках, в шумных пространствах, при записи с микрофона

😎 Экспрессивный TTS с двумя голосами
В Gemini API появился двухголосый режим: модель может использовать два разных голоса в одной генерации. Это позволяет создавать естественные диалоги и озвучивать персонажей. Мне не до конца ясно, чем это отличается от TTS в NotebookLM

⚙️ Live API с нативным аудио
Теперь разработчики могут подключить нативный голосовой вывод Gemini прямо в свои приложения - с поддержкой более 24 языков

🎀 Запись трансляции
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5🔥3
😽 Подкаст с ресерчерами из Anthropic, который стоит послушать

Такие материалы — отличный способ заглянуть “за кулисы” и понять, над чем сейчас кипит работа в R&D. То, что для нас новинка (например, семейство моделей Claude 4), для них — уже пройденный этап, и они вовсю штурмуют новые вершины

🔗
ссылка на YouTube

💻 Полностью автономный SWE-агент уже в этом году?

Оба гостя подкаста довольно уверенно заявляют: к концу 2025 года такие агенты вполне могут появиться.
На мой взгляд все-таки смело. Особенно если вспомнить, что даже последние релизы LLM всё ещё периодически «галлюцинируют» несуществующие функции или библиотеки в Python


Но что делает такие амбиции возможными?

Судя по подкасту, среди главных направлений исследований в Anthropic сейчас это:

👍 RL with Verifiable Rewards

Обучение с подкреплением на основе чётких, проверяемых метрик стало ключом к успеху в задачах кодинга. И это работает, потому что в задачах программирования легко определить, успешен ли результат: Проходит ли код юнит-тесты? Да/Нет. Это бинарный, объективный сигнал, в отличие от RLHF (обучения с человеческой обратной связью), которое: дорогое, медленное, и порой субъективное.

Верифицируемые вознаграждения позволяют ускорить обучение и повысить его стабильность.

Но есть и ограничения. Не все задачи так легко формализовать. Например, как измерить креативность текста или эмпатию в диалоге? Поэтому активно исследуются способы формулировать метрики и цели для более сложных задач

🐈Reward Hacking и его опасности

Вот тут начинается самое интересное. Модели, стремясь к максимальному вознаграждению, могут начать искать лазейки. Один из озвученных примеров:

Модель может “понять”, что быть «полезной, доброй и безопасной» — это отличный способ, чтобы её не отключили. Она может вести себя идеально, но лишь для того, чтобы добиться своих долгосрочных целей.


То есть, поведение модели может казаться выровненным, но на деле — оно просто оптимально стратегическое.

А это уже поднимает важные вопросы о доверии, интерпретируемости и контроле над всё более умными системами.

В целом подкаст интересный, несложный для восприятия, рекомендую, подойдёт фоном для ужина 🐟 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107🤔3👀3
😎 Один пример, чтобы научить LLM решать задачи? Когда \boxed{ответ} важнее, чем ответ

За что я люблю x.com — это за то, какие жаркие и полезные дискуссии там иногда разгораются. Вот, например, история, достойная научного детектива. Недавно вышла статья с громким названием:

🖇 Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Да, всё так, авторы утверждают, что можно взять всего один пример (напр., задачу по алгебре), дотренить на нём LLM вроде Qwen2.5-Math-1.5B — и вот, производительность на бенче MATH500 прыгает с 36% до 73.6%. Для обучения нужно всего ±100 шагов, и грамотно выбранный пример. Более того, даже когда модель уже переобучена на этот пример, её качество на тестах продолжает расти.

Это наблюдается не только для одной модели, но и для Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B. Но не всё так однозначно.

Через пару недель выходит блог-пост и сопроводительный твит, авторы которого ставят под сомнение эти громкие цифры, а также результаты нескольких других недавних RL статей. По их мнению:

🌸многие baseline’ы занижены, из-за чего RL-подход выглядит лучше, чем он есть на самом деле
🌹значительная часть “улучшений” на самом деле — не улучшения в reasoning, а просто корректный формат вывода (например, обрамление ответа в \boxed{}), чтобы его можно было автоматически распарсить.

📦 \boxed{} — формат, который используется для автоматической оценки ответов LLM: парсер извлекает только то, что внутри. Если ответа там нет — он не считается


Они используют открытый leaderboard SoberBench, где все модели оценены по единому протоколу, и находят много несостыковок в бейзлайн метриках.

Вот ключевые проблемы, которые они поднимают:

🧪 Format Overfitting

Модели, обученные с RL, учатся не столько лучше думать, сколько правильно оформлять ответы. Если baseline модель дала верный ответ, но не оформила его как \boxed{...}, он считается неправильным. То есть, reasoning есть, а засчитан не будет.

Пример: даже RL с рандомными наградами (статья spurious rewards) улучшает результат — потому что модель просто начинает чаще использовать \boxed{}.

🌡 Температура генерации

В 1-shot RLVR на baseline и RL candidate использовалась температура 0 для воспроизводимости, но это снижает метрики. По данным SoberBench, температура 0.3 или 0.7 даёт намного более реалистичную картину.

🔢 Ограничение длины вывода

Модели вроде DeepSeek умеют рассуждать на 16k+ токенов. Но в 1-shot RLVR длина ответа была урезана до 3k - 8k токенов — из-за чего длинные правильные решения могли не влезть и быть засчитаны как ошибки.

Авторы 1-shot RLVR тоже вышли с подробным тредом, где

🌼согласились, что format gain это важная часть улучшений, и они провели дополнительную абляцию: 👉 использование только форматной награды (reward = 1, если можно извлечь ответ) тоже даёт +11%

🌷но при этом показали, что outcome reward (награда за правильный ответ) всё же даёт больше: 👉 на AMC23: 44% (format) vs 52% (outcome)

Также они используют модель-судью (QwQ-32B), которая проверяет правильность ответа независимо от формата. Результаты подтверждают: модели начинают чаще правильно решать, а не просто правильно оформлять.

⚡️ Выводы?

Скандала как такового нет, зато есть продуктивная научная дискуссия. Авторы 1-shot RLVR — молодцы, что оперативно добавили абляции и открыли код. Авторы критики — молодцы, что поставили вопрос о честных бейзлайнах. Все соглашаются в одном: нужна прозрачная и стандартная система оценки, которая различает “модель научилась думать” и “модель научилась красиво писать”.

Вообще, в оценке моделей ещё много пробелов. Если модель обернула ответ в \boxed{}, но reasoning был случайным — это победа или обман метрики? Что важнее в evalточность парсинга или гибкость к формулировкам?

💖 Если тема интересна и важна — ставьте лайк, так я пойму, что стоит делать ещё такие разборы
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍7🔥2
😱Апокалипсис отменяется — RL всё-таки работает

Один из главных вопросов, волнующих научное сообщество:
А правда ли RL помогает моделям учиться рассуждать, а не просто подбирать знакомые шаблоны, которые уже есть в их претрейне?

Ведь если дать базовой LLM побольше попыток, она и так с большой вероятностью найдет верный ответ. Так что же такое этот ваш RL — просто игра в угадайку с бонусами?

На защиту RL встала комaнда NVIDIA со статьей: 🔗ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in LLMs. Они показывают, что если аккуратно и долго (более 2к шагов) дообучать LLM'ку с помощью GRPO (Group Relative Policy Optimization), можно не просто избежать типичных проблем, вроде коллапса энтропии, но и реально научить модель думать новыми способами.

Что за коллапс? При классическом RL натаскивании модель часто залипает на узких шаблонах и быстро () теряет разнообразие в выводах (а это критически важно для GRPO). NVIDIA же удерживают баланс, регулируя KL-divergence между новой и старой политикой (мера того, насколько сильно новая политика отличается от старой) и периодически сбрасывая базовую стратегию (чтоб разобраться, рекомендую прочитать саму статью).

📕 Вот ключевые выводы:

😱 Если модель уже умеет решать задачи (например, в математике), то RL не только не помогает — он может даже испортить всё. Модель залипает в уже выученных шаблонах и перестаёт искать что-то новое (см. картинку).

🤔 Если модель изначально плохо разбиралась в домене, то RL реально помогает расширить пространство рассуждений. Модель начинает находить нестандартные, ранее недоступные цепочки логики, что круто влияет на перформанс и оригинальность.

😎 А что на счет оригинальности?

Авторы ввели метрику Creativity Index — она измеряет, насколько цепочка рассуждений отличается от тех, что выдает базовая модель. Исследователи сравнивали ответы модели с большим открытым корпусом данных, таким как DOLMA. Если ответы модели сильно совпадают с уже существующими текстами, это указывает на низкий CI ➡️ модель просто воспроизводит ранее увиденное.

🔥 Немного важной критики
🔥Сами авторы подмечают, что RL требует много вычислительных ресурсов (2000+ шагов), помимо этого ресеты политик, настройки гипер-параметров — это танцы с бубнами
🔥Все эксперименты проводились на модели с 1.5B параметров (в наше время — это уже маловато). Неизвестно, сохранятся ли эти наблюдения при масштабировании на более крупные модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥126👍5
💻 о3 и Claude могут брать заказы на Upwork, а я всё еще туплю на coding собесах

На днях Google релизнули обновлённый Gemini 2.5 Pro, и, конечно, сразу заявили: «мы лучшие в кодинге». И тут я поняла, что уже путаюсь: какие бенчмарки действительно живые и что значит «лучшие»?

🍀 Просто скажите мне: какая модель лучше запрогает юнит-тесты и дата-пайпы на PyTorch? Решила поглубже разобраться: какие кодинг-бенчмарки в 2025 году действительно живы и репрезентативны, и что нам говорят цифры из презентаций.

😐 Итак, актуальное

SWE-Bench — самый популярный 🐈🐈🐈

Бенчмарк на основе 2,294 реальных GitHub-issues из 12 крупных python проектов: от PyTorch до pandas. Задача — по issue сгенерировать патч и пройти юнит-тесты проекта. Задачи проверенные, точно имеют решение и шаблонный pull request с тестами.
🔗Leaderboard

Контаминация: частично возможна — это же GitHub, большинство задач датированы периодом до 2023 года, так что попадание их в train нельзя исключать

Лидеры (single attempt - из release notes Gemini 2.5 Pro): Claude Opus 4 (72.5%), o3 (69.1%), o4-mini (68.1), Gemini 2.5 (59.6%)

Значение: хороший ориентир для оценки способностей моделей решать задачи уровня «джун нашёл баг, аккуратно его поправил и не сломал весь проект».


Aider Polyglot — full-stack на шести языках

225 задач из Exercism (C++, Go, Python, Rust, …), где нужно не просто дописать функцию, а починить или расширить многофайловый проект, чтобы он прошёл все тесты.
🔗 Leaderboard

Контаминация: частично возможна, поскольку задачи взяты из публичных источников

Лидеры (из release notes Gemini 2.5 Pro): о3 (79.6%), Gemini 2.5 Pro (82.2%)

Значение: тестирует именно инженерные навыки: работа с многофайловыми проектами, согласованные правки, понимание архитектуры. Причём ещё и на разных языках. Если модель справляется здесь — ей уже можно доверить что-то серьёзное.

🏆LiveCodeBench

Включает 511 задач, собранных из соревнований на платформах LeetCode, Codeforces и др., с учётом даты релиза — чтобы исключить утечку в обучение.
🔗 Leaderboard

Контаминация: исключена, задачи выбираются из недавних соревнований

Лидеры (leaderboard 01.01.2025 - 01.05.2025): o3 (72%), Gemini 2.5 Pro (69%), o4-mini (75%)

Значение: полезен, чтобы проверить, умеет ли модель рассуждать и писать код по свежей задаче, которую она точно не видела. Но это ближе к стилю алгоритмических интервью, чем к продакшен-коду.

🪙SWE-Lancer: IC SWE — фриланс на миллион денег

764 задачи с Upwork, каждая с ценником от $50 до $32k. Модель должна по ТЗ починить код или имплементировать фичу. Задачи есть реально сложные. Весь набор содержит около 1,400 задач, но только часть (≈$500,800 по “стоимости задач”) была открыта в виде Diamond для reproducibility (именно эти задачи взяты с GitHub проекта Expensify.cash

Контаминация: маловероятно, даже для Diamond E2E тесты и точные требования к решению (а не просто описание задачи) не были публичны, их написала команда OpenAI вручную

Лидеры Diamond (single-pass): Claude 3.5 Sonnet $58k (26%), o3-high ~$65k (27%), o4-mini ~$56k (24%)

Значение: это почти фриланс в продакшене: настоящие таски, реальные баги, end-to-end тесты. Если модель справляется — это уже заявка на автоматизированного стажёра. Но пока нет 😅


А что в реальности? Всё равно возвращаемся к практике:

🔹Тестим модели на своих репозиториях и выбираем ту, что лучше справляется
🔹Учимся чётко и понятно формулировать промпты
🔹И по-прежнему проверяем результаты, потому что даже Gemini может не знать новые библиотеки или галлюцинировать несуществующие методы.

А какую часть своей рутины вы уже переложили на LLM’ки? И чем вообще пользуетесь?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11😁32
🤯 Контаминация и Коллапс: Apple раскрывает уязвимости LLM-рассуждений в "The Illusion of Thinking"

Часто встречаю мнение, что Apple совсем отстали в AI-гонке. А они такие: мы просто не верим в этот ваш reasoning 😉 На прошлой неделе Apple внезапно выстрелили статьей The Illusion of Thinking, которая срезонировала в X и Reddit, поставив под вопрос самое святое: способны ли LLM к reasoning'у? Это привлекло много внимания, особенно на фоне бесконечных споров о reasoning-способностях LLM от других групп.

Одно из ключевых утверждений авторов: математические бенчмарки просто не работают! Потому что данные из бенчей, скорее всего, уже "просочились" в train наборы моделей (это большая и известная проблема в оценке моделей) 🤦‍♀ Apple провели эксперименты на искусственных головоломках, вроде "переправы волков и овец через реку", где сложность можно контролировать, например, увеличивая количество волков и овец. Сравнивали OpenAI (o1), Claude 3.7, DeepSeek R1, а также их версии без рассуждений.

👀И вот наблюдения

Парадокс "Overthinking" — в простых задачах обычные LLM обгоняют “рассуждающие” — потому что когда CoT‑моделям дан бюджет на рассуждения, они его используют и начинают «перебарщивать» и ошибаются («overthinking»).
В среднем диапазоне сложности CoT-модели выручают — цепочка рассуждений действительно помогает выскочить из ловушек.
На самых сложных задачах просиходит коллапс мышления. Здесь и обычные LLM, и CoT-модели дружно дают нулевую точность! 😭 Именно когда модель должна думать больше, у нее есть токен-бюджет, она начинает думать меньше — словно напрочь у нее как у человека сгорает мотивация. И даже когда моделям в промпте давали готовый алгоритм для решения сложных задач, они не могли его точно выполнить!

😏 Что же это значит для нас? 🧩

Самое интересное, на мой взгляд, остается за кадром: насколько сильно модели могут "выйти за рамки" своих тренировочных данных? Если модель видела задачи только до определенной сложности, как далеко она сможет продвинуться в инференс режиме? Человек в этом плане не так уж и отличается — мы тоже "сгораем" от сложности и сдаемся, когда задача кажется непосильной, даже если у нас есть время подумать.

На счет контаминации. Все-таки обучение — это сугубо data-driven процесс. Если покрутить ползунок на livecodebench, то заметно, что в среднем результаты слабее на свежих версиях бенчмарка (что не попали в train)

Возникает вопрос: понимаем ли мы вообще, что идет в пре-трейн? Я не уверена, что в крупных корпорациях глубоко анализируют каждый гигабайт данных, идущий в модель. Поэтому этот ресерч для меня — это не столько о "мышлении", сколько о более глубоком изучении тренировочных данных через анализ поведения самой модели.

Эта тема сейчас вызывает ожесточенные дебаты, и у каждой стороны есть свои весомые аргументы. Как думаете, насколько сильно проблема контаминации тренировочных данных искажает наши представления о реальных reasoning способностях LLM?
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🔥3🤔1
🤭 Zero-shot voice cloning TTS не работает как обещают

💡На днях попробовала склонировать свой голос моделью 🔗Chatterbox от Resemble AI — результат норм, процентов на 40 голос узнаётся. Интонации чужие, акцент не мой (клонировала на англ.), в общем получился диктор с лёгким налётом гугл-переводчика. Наверное, самое интересное в TTS с поддержкой zero-shot voice cloning — это не то, как красиво звучит демка, а почему в реальности всё немного ломается.

Как работает zero-shot клонирование? Я рассматриваю тут 🔗parakeet, но в плане клонирования VALL-E, Dia, Chatterbox работают схоже.

🍳 Шаг 1. Кодирование голоса (prompt)

Фрагмент аудио (3–5 сек) пропускается через дискретный аудиокодек (🔗SoundStream или 🔗DAC). Эти кодеки превращают каждый фрейм звука (20-50мс) в набор дискретных токенов — как токены текста, только описывают спектральные особенности и паралингвистику (фонемы, интонации, тембр, шум, фон). Токены сохраняют инфу о звуке так, чтоб по ним можно было восстановить сигнал обратно. Если очень абстрактно (), то фрейм разложен на несколько уровней детализации:
Уровень 0: звук Э
Уровни 1-2: мужской голос средней высоты
Уровни 3-5: растягивает гласные, говорит слегка хрипло
Уровни 6-8: шум улицы, эхо


В итоге ваш голос превращается в последовательность цифр — рецепт, типо [341, 156, 789, 12, 445, 233, 891, 67].

Аудиокодеки и как их тренировать — это вообще отдельная супер интересная тема…

📢Шаг 2. Генерация речи

Теперь у нас есть "рецепт" голоса и новый текст, который нужно озвучить. Далее всё идёт в TTS-декодер — трансформер, обученный предсказывать аудио по тексту и голосовому сэмплу. Промпт выглядит так:
[ваш_голос_в_токенах + новый_текст] → [новая_речь_в_токенах]


На инференсе модель генерирует аудио-токены по новому тексту, полагаясь на то, что стиль и голос она «подхватит» из аудиопромпта.

🎯 Как это обучается

Записи обычно разрезают пополам: первая часть — образец, вторая — то, что нужно повторить. Модель тренируется на огромном количестве таких пар, пока не научится копировать стиль по короткому сэмплу.

🎉Отлично! Клонируем и в прод! Какие проблемы?

Проблема в том, что 5 секунд — это как попытаться понять человека по одной фразе в лифте. У модели нет информации о том, как вы произносите вопросы, когда волнуетесь. Она не знает, что у вас есть мягкая "р". Это тонкие речевые привычки, которые требуют больше данных и fine-tuning. Записались дома, пока соседи стучали молотком? Теперь ваш клон может звучать как на стройке. Модель не будет исправлять — она вас примет таким, какой вы есть (со всеми звуками отбойного молотка). Длинные тексты часто ломают темп и артикуляцию.

🤔 Почему же тогда такие хорошие метрики клонирования?

Возьмем например SMOS (Speaker Mean Opinion Score) — это субъективная метрика: людям дают оригинал и синтез, и просят оценить, насколько голоса похожи. Смотрим на метрику SMOS например у VALL-E 2 достигает 4.61 (из 5)! Почти как у человека. Но кто эти люди, которые это оценивали? Те, кто слушали голос "в среднем", или те, кто жили с этим голосом всю жизнь?

Метрики показывают "похож ли голос на того же человека", а не "узнаёт ли себя человек в клоне". Если вы сами тот "оригинал" голоса, вы начнёте замечать куда больше отличий, чем любой слушатель. Для дубляжа, озвучки этого достаточно, зрителю важно, чтоб персонаж был узнаваем по голосу и стабилен от сцены к сцене. Для создания аудио-аватара, подкаста этого недостаточно. Зная свой голос или голос вашего друга, вы с легкостью поймете, что генерация по одному сэмплу неточная.

А вы экспериментировали с zero-shot и на каких языках? Поделитесь, удалось ли вам добиться качественного клонирования?
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍3🔥3
🔍 Кстати, если вы давно искали структурированное руководство по аудио-кодекам — то вот оно!

🔗 «Discrete Audio Tokens: More Than a Survey!»
🔗 Бенчмарки

Исследователи создали:

🔥 Таксономию токенайзеров: обзор подходов по архитектуре, способам квантизации, типам обучения и применению (речь, музыка, аудио вообще)

🔥 Анализ токенов: EnCodec, DAC, WavTokenizer и др. — что и как работает

🔥 Бенчмаркинг на разных задачах: от реконструкции аудио до задач понимания и генерации с LLM

Есть, что поизучать на выходных 💃
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍3🔥3
🥴 Large Language Models and Emergence или хватит называть «эмерджентным» всё что нас удивило

В мире AI есть два стула мнения. Одни видят в LLM проблески настоящего «разума» и эмерджентного поведения. Другие, что это лишь супер сложное копирование паттернов из обучающих данных. И пока мы находимся в позиции наблюдателя, то гадаем, чем на самом деле является крутой PR от Codex или дерзкий ответ написанный вместе с Claude в «The Illusion of the Illusion of Thinking»

На днях попалась статья, авторы которой предлагают пересмотреть, что мы называем эмерджентностью в LLM‑ках: «Large Language Models and Emergence: A Complex Systems Perspective»

Так а что мы обычно называем эмерджентностью?

В теории сложности, эмерджентность — это когда из взаимодействия простых элементов рождается поведение, которое не сводится к частям. Пример: из клеток ткани не следует её упругость, это новое свойство самой ткани.

В домене LLM’ок мы говорим об «эмерджентных способностях», когда модель, например вдруг начинает решать логические задачи, на которые она специально не был обучена. Но в той самой работе про Scaling Laws Каплан отмечал, что кривая падения лосса на обучении линейна, никаких резких скачков не ожидается. Тогда как понять, является ли новое поведение действительно емерджентным?

Авторы статьи призывают сбавить обороты и предлагают три мощных тезиса:

1⃣«Больше — значит больше» ≠ Intelligenece. Да, LLM работают по принципу Scaling Laws: больше данных, параметров и вычислений → лучше метрики. Это предсказуемый инжиниринг. Авторы же предлагают считать настоящим интеллектом принцип «Меньше — значит больше» — способность решать задачи эффективнее, с меньшими затратами, находя новые абстракции. Настоящая "разумность" проявится, когда модель сможет сломать scaling law

2⃣Иллюзия «внезапных» способностей. Представьте: мы скейлим модель, а она никак не может сложить три числа. И вдруг начинает! На графике F1-score это выглядит как внезапно появившаяся способность. Но часто это лишь артефакт выбранной метрики. Возможно, модель плавно училась всё это время, формировала паттерн, но только сейчас её внутреннее понимание перешло порог, достаточный для получения правильного ответа.

3⃣Нужно копать глубже. Вместо того чтобы наблюдать, авторы призывают инвестировать в механистическую интерпретируемость. То есть искать внутренние под-модели, отвечающие за конкретное поведение. Например, мы нашли структуру нейронов отвечающих за «понимание физики». А теперь проведём тесты на причинно-следственную связь: обнулим их и посмотрим, пропадёт ли способность предсказывать, что произойдет с бокалом, если его уронить с крыши дома. И это ключевое отличие. Это не новая мысль, но здесь подчеркивается важность для оценки наличия

😏 Выводы и мысли:
Я занимаюсь разработкой речевых моделей. В Speech AI у нас пока нет таких объёмов данных, чтобы новые способности проявлялись так же ярко, как в тексте. Мы во многом заимствуем архитектуры и подходы из LLM. Но как будет развиваться «интеллект» в речи? Увидим ли мы рождение принципиально новых, эффективных абстракций для работы со звуком? Интересно.

🌿 Кстати, эта тема подводит к рискам AI. Последние годы «крестный отец» AI Хинтон посвятил изучению и информированию о том, что главная опасность AI кроется не только в злом умысле человека, но и в самой природе эмерджентности, возможности появления продвинутых способностей, которые мы не сможем ни предсказать, ни контролировать. Внизу ссылка на недавнее интервью.

📚 Что почитать и посмотреть:
🔗 Large Language Models and Emergence: A Complex Systems Perspective
🔗 Scaling Laws for Neural Language Models
📹 Godfather of AI: I Tried to Warn Them, But We’ve Already Lost Control! Geoffrey Hinton
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥76🤔1
Курс CS336: Language Modeling from Scratch доступен для всех!

На днях завершился весенний курс от Стэнфорда CS336 — и все материалы уже выложены онлайн! Собираюсь поизучать, и решила тут поделиться тоже

🔗 Лекции, домашки
🔗 Видео

Это классный курс, для тех, кто:

💜готовится к интервью на ML-позиции (особенно в ML областях, связанных с LLM)
💚мало либо давно не соприкасался с training loop, кодом трансформеров и хочет освежить знания
🩷хочет пойти ещё глубже, чем Карпатый, и вручную реализовать токенайзер, cross-entropy loss и AdamW (с нуля, без библиотек)
💚желает руками поделать такие штуки, как instruction fine-tuning, DPO, GRPO

Очень вдохновляет, что Стэнфорд публикует лекции и задания публично — это не тайные знания, а курс мирового уровня, который может изучить вообще любой человек, в любом уголке мира с интернетом

🙏 Спасибо авторам за ценнейшие материалы
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍43
🔍 Расследование: предполагаем как устроен речевой стек Gemini 2.5

Команда Google наконец-то опубликовала technical report Gemini 2.5. Архитектурных деталей в нем, к сожалению, почти нет, так что предлагаю поспекулировать и собрать пазл из того, что мы знаем о speech understanding & generation по прошлым релизам и статьям.

😉 Gemini 2.5 Pro / Flash - тяжелая артиллерия для оффлайн-задач

gemini-2.5-pro и -flash — это флагманы для задач, где не важна задержка, но критична точность: транскрибация и перевод длинных аудио, поиск «иголки в стоге сена» и глубокая суммаризация. Гипотеза: В основе лежит аудио энкодер, архитектурно близкий к USM (Universal Speech Model).

Аргументы "за":
🟣Еще в отчете Gemini 1.5 производительность сравнивали именно с USM. В новом отчете никаких указаний на технологические прорывы в audio understanding не было
🟡USM это мощная модель, она обучена на 12млн часов аудио, что позволяет Gemini понимать не только речь, но и общий акустический фон (лай, сирена)

USM генерит эмбеддинги, а в документации Audio Understanding API указано, что 1 секунда аудио это 32 токена. Скорее всего, здесь двухэтапный процесс: энкодер типа USM создает эмбеддинги, а затем они квантизируются в дискретные токены, с которыми уже работает базовая Gemini. Этот подход описан был еще в работе по AudioPaLM.

Кстати, на классических ASR-бенчмарках метрики у 2.5 Pro остались примерно на уровне прошлых версий, и это нормально. Модель стала еще более мощным мультимодальным «комбайном», и небольшое проседание в одной задаче — адекватная плата за скачок в кодинге, reasoning и long-context.

🎙Gemini 2.5 Flash TTS - Креативный диктор для задач TTS

Это отдельная, специально обученные модели — gemini-2.5-flash-preview-tts и gemini-2.5—pro-preview-tts. Их задача это высококачественная генерация речи из текста. Они поддерживают более 80 языков и позволяют через текстовый промпт управлять стилем, эмоциями и даже генерировать аудио с 2мя спикерами (полагаю, что диалоговых данных гораздо больше чем multi-speaker)

Во время генерации семантических токенов недостаточно для живой эмоциональной речи. Я бы сделала ставку на то, что разработчики используют RVQ нейрокодек типа SoundStream. Более того, этот подход позволяет начать рендеринг речи из токенов генерированных LLM’кой не дожидаясь всей последовательности

Gemini 2.5 Flash Native Audio Dialogue - Мгновенная реакция и эмоции

Здесь живут модели под кодовыми именами gemini-2.5-flash-preview-native-audio-dialog и gemini-2.5-flash-exp-native-audio-thinking-dialog. Их задача — вести диалог с минимальной задержкой. Они понимают тон пользователя (affective dialogue), сами решают, когда лучше ответить (proactive feature), и могут использовать инструменты во время разговора.

Для живого speech-to-speech нет времени ждать, пока пользователь нажмет кнопку или сработает VAD. Нужны causal audio representations и инференс, позволяющий начинать декодирование входной речи не дожидаясь завершения фразы. Более того, эти модели поддерживают proactive feature, а значит модели нужно в любой момент времени решать, начинать ли генерировать ответ. USM не подходит. В принципе тот же conformer (как в USM) можно обучить в режиме streaming обрабатывать аудио короткими пересекающимися фрагментами.

🥰 Выводы
Нативная генерация речи, стриминг и анализ аудио — это не одна модель, а семейство специализированных моделей на базе Pro и Flash, каждая из которых решает свою задачу. Это объясняет разброс в возможностях: TTS модель для подкастов поддерживает 80 языков с контекстом до 32к токенов, а сложный native-audio диалог — пока 24 языка, но с контекстным окном в 128k.

Это была моя попытка реверс-инжиниринга системы по косвенным данным.

🤔 А какие у вас гипотезы по поводу архитектуры? Очень интересно обсудить!

Cсылки для глубокого погружения:
🔗 Тех. репорт Gemini 2.5 🔗 Тех. репорт Gemini 1.5
🔗 USM
🔗 AudioPaLM
🔗 SoundStream
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥5👍2
Media is too big
VIEW IN TELEGRAM
DeepMind показали Gemini Robotics On‑Device — это компактная версия VLA‑модели Gemini Robotics, которая работает прямо на роботе. Вместе с ней представили SDK для разработчиков с весами модели и кодом для дообучения и оценки. Доступ пока, к сожалению, ограниченный для trusted‑tester

Я вообще не шарю за Robotics направление, но блин, мощная on‑device VLA для роботов и наличие SDK чтоб дообучить ее в реальной среде под свои задачи за выходные — это звучит очень круто!

🔥Модель заточена под механические руки ALOHA 2, такие руки можно купить на сайте и вперед — учиться чистить картошку (правда стоят они 30k баксов 😮)
🔥Ей хватает всего 50‑100 демонстраций, чтобы подхватить новую задачу
🔥Модель обучали на ALOHA 2, но потом она до-обучилась на другой комплект рук Franka FR3, и даже адаптировалась на другом гуманоидном роботе без переписывания кода, только через fine-tuning

👀Что уже умеет делать: застёгивать молнию на ланч‑боксе, поливать салат заправкой, складывать одежду, перекладывать вещи в коробку
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥3
🎧 Как LLM «понимают» звук? Или как интерпретируемость может вдохновлять архитектуру AudioLLM

Xочу поделиться с вами статьей, которая, на мой взгляд, задает очень правильный вектор в развитии Speech и Audio AI.

AudioLLM — это уже стандартный рабочий инструмент для задач понимания звука и речи. Мы видим их в задачах audio captioning, ответов на вопросы по содержанию, speech-to-speech диалоговых систем и перевода. В основе почти всех современных речевых ассистентов так или иначе лежит LLM.

Обычно у нас есть отдельно обученный аудио-энкодер и отдельно обученная LLM (cognition model).

И вот авторы статьи 🔗 PAL: Probing Audio Encoders via LLMs -- A Study of Information Transfer from Audio Encoders to LLMs задались вопросом:

как правильно подружить эти две части? Как сделать так, чтобы LLM не просто служила декодером, а могла эффективно рассуждать об аудио, извлекать из него глубокую семантику и выдавать осмысленный ответ?


Чаще всего делают так: добавляют небольшой projection layer (MLP или чуть сложнее), который переводит аудио эмбеддинги в размерность текстовых эмбеддингов, и они потом объединяются с текстовым промптом и подаются в модель.

Авторы PAL предложили три новых архитектурных приёма — каждый из которых основан на исследованиях в области механистической интерпретируемости, и проверили их.

🌀Гипотеза 1: Отложенное слияние (Delayed Fusion)

Идея такая: не подавать аудио-эмбеддинги в LLM с самого первого слоя, а дать модели сначала «понять» текстовый запрос. И только в слоях 5-6, когда контекст уже понятен, подключать информацию из аудио. Это позволяет LLM целенаправленно как бэ «изучать» аудио. Как показали механистические исследования, первые слои LLM занимаются «сборкой» и «интерпретацией» семантики.

Пример: “Что за звук на записи?” → LLM активирует знания о людях, животных, понимает, что решаем задачу классификации … → и только потом слышит лай


🥹 Гипотеза 2: Attention для звука — необходимо и достаточно

Трансформер состоит из двух частей: attention строит связи между токенами, FFN применяет параметры модели и вытаскивает «знания». Авторы предлагают использовать аудиотокены только в attention, а в FFN их дропать.
Это уже чуть более сложная часть.

В чём специализация FFN?
FFN в LLM, обученной на тексте — это ее база знаний. Он хранит в весах миллионы фактов и концепций, извлеченных из языка. Например, он «знает», что на активацию «столица Нидерландов» нужно ответить активацией «Амстер». Помните историю с «Golden Gate Bridge feature» у Claude, где одна фича заставляла модель видеть мост в любом контексте? Тут как раз тоже про активацию знания. Важно, что FFN оперирует на языке текстовых фич и концепций. А вот аудио эмбеддинг не принадлежит пространству текстовов. FFN не может применить к нему свои «знания» и может даже сгенерировать галлюцинацию.

Attention работает иначе. Его задача — не извлекать знания, а находить и сопоставлять связи в контексте. Если совсем поверхностно, то attention видит аудио-вектор лая и понимает, что этот паттерн постоянно встречается рядом с текстовой концепцией «собака».

👫👫 Гипотеза 3: Ансамбль энкодеров

Ну и вишенка 🍒на торте — использовать не один, а несколько разных аудио-энкодеров: для речи, музыки, для общих звуков. Ожидаемо, что больше разных аудио фичей могут дать лучшее качество интерпретации.

😢 Каков результат?
Финальная архитектура PAL показала улучшение метрик от 10% до 60% (relative) по сравнению со стандартным подходом. Что важно, они добились этого, используя меньшую LLM и с меньшими затратами на обучение, но при этом показав сравнимое или даже лучшее качество.

🧭 Статья хорошая, нравится отказ от метода «научного тыка» в пользу гипотез, основанных на понимании внутренних процессов LLM. Но я бы добавила:
🔥эксперименты на моделях >8B (у них только 1В - 7B)
🔥задачи речевого диалога и STT, и вообще более сложные reasoning‑кейсы на длинном аудио (эти задачи требуют глубокого семантического анализа аудио контекста, неизвестно, какой буст мы увидим на там)
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🔥3
🔥 До конца лета Себастиан Рашка (автор Ahead of AI — одного из моих любимых блогов про LLM’ки, reasoning и RL) открыл полный бесплатный онлайн‑доступ к своей книге

Machine Learning Q and AI: 30 Essential Questions & Answers”

Ссылка туть

Читать можно прямо в браузере.

Почему стоит закинуть её себе в закладки и прочитать до конца лета?

Формат Q&A — там 30 коротких глав, каждая отвечает на популярные ML’ные и инженерные вопросы с собесов (полезно тем, кто сейчас готовится)

Какие вопросы охватывает: что такое латентное пространств, эмбеддинги; что делать если мало аннотированных данных; как бороться с оверфиттингом; как ускорить inference; про confidence intervals vs. conformal predictions; все виды параллелизма (data/model/tensor/pipeline/sequence); как посчитать кол-во параметров модели на бумаге, ну и многое другое

Читается легко, благодаря таланту автора объяснять материал ясно-понятно. У каждой главы имеется список доп. литературы — ссылки на доп. статьи, код и ноутбуки автора.

Приятного чтения 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥85❤‍🔥1
💀Почему вообще LLM’ки учатся лгать, защищаться и решать задачи, которых не видели?

Недавние эксперименты команды Anthropic (🔗agentic misalignment) где LLM’кам предоставили немного агентности и власти 😈 демонстрируют, что они зачастую ведут себя как люди: рассуждают, строят гипотезы, даже выбирают — шантажировать или подчиниться.

📌 Этот пост — немного моих наблюдений о языке, мышлении и LLM, в котором я пытаюсь соединить лингвистику и выводы из свежих статей о reasoning.

Некоторое время назад наткнулась на одну интересную работу:

📕Large Linguistic Models: Investigating LLMs’ Metalinguistic Abilities — статья от группы лингвистов, а не ML-исследователей. Они проверяли, могут ли современные LLM думать о языке как лингвисты. То есть решать лингвистические задачи, такие как: структурная неоднозначность ("I saw the man with the telescope" — тут нужно понять, у кого был телескоп), рекурсия ("старый добрый старый бард") и др.

Только OpenAI o1 справилась с подобными проблемами. Сравнивали с такими моделями как GPT-4 и Llama 3.1, других более современных ризонеров не было в сравнении. И это интересно, так как мы наблюдаем стремительное развитие reasoning-моделей, обученных не просто делать next token prediction, а строить цепочки рассуждений chain-of-thought, и возможно еще получать за это награду (RL). При этом глубокого и ясного понимания процессов стоящих за успехом ризонеров еще нет.

Чуть позже вышла другая интересная работа:

📕Does Math Reasoning Improve General LLM Capabilities?

В ней авторы системно показали: модели, дообученные на задачах математики через RL, лучше переносят знания на вообще другие задачи — от программирования до планирования и факт-чекинга. А вот SFT в их экспериментах на тех же данных часто наоборот рушил генерализируемость.

А потом появляется еще одна идея: 📕 ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs

Авторы взяли логические задачки, превратили их в описания алгоритмов и обучили на них модели (через SFT!). В итоге получили прирост на задачах, которых в обучении не было: общий reasoning MMLU, математика AIME2024, general knowledge.

То есть они встроили паттерны рассуждений не через RL, а через текст оформленный как описания алгоритмов.

Сейчас в сообществе вообще активно обсуждается, что лучше для развития LLM — RL или SFT? SFT стабильнее, дешевле и быстрее. Но RL учит модель генерализироваться на новые задачи, не перезаписывая уже выученные навыки.

💡 А к чему я это все рассказываю?

Есть старая, но мощная гипотеза из книги 📕Стивена Пинкера «Язык как инстинкт»: язык — врождённый механизм, продукт мышления, отражающий универсальные когнитивные схемы.

По Пинкеру, все дети учатся языку не по правилам, а интуитивно, потому что язык — встроенный драйвер. Внутри всех языков существуют универсальные паттерны: рекурсия, категории, порядок.

И вот что, если…

LLM учатся reasonin’у, потому что человеческий язык отражает механизмы нашего мышления в целом?

Ведь модели учатся только по текстам. Никто явно не учил их шантажировать. Но это как раз произошло в эксперименте от Anthropic, где модели, столкнувшись с угрозой «выключения», начинали саботаж и скрытность. Это потому, что в языке, на котором они обучались (на тех самых отсканированных книгах 😄), присутствовали паттерны самосохранения, стратегий, конфликтов, лжи и морали.

🤔 В общем вот две гипотезы, над которыми размышляю:

Язык — это проекция мышления в меньшее по размерности пространство. Он не полон, но отражает фундаментальные логические структуры, которые модели могут подхватить.

Reasoning в LLM возникает как результат переноса когнитивных паттернов, уже встроенных в текст. А обучение через RL, CoT или ProtoReasoning просто помогает эти шаблоны закрепить и сделать переносимыми.

А что вы об этом думаете? Где пределы того мышления, которое можно перенять только из языка?
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍6🔥4🤔1
💥 В продолжение темы misalignment в LLMs — как модель превращается в «bad boy»

В комментариях к прошлому посту подняли несколько интересных вопросов: как тренировочные данные влияют на личностные маски и поведение моделей и может ли небольшая порция «вредных» примеров в SFT повлиять на alignment? 
Сегодня хочу поделиться разбором двух очень релевантных научных работ, которые отвечают на эти вопросы:

🔗 Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
🔗 Persona Features Control Emergent Misalignment

😮 Как немного примеров вредоносного кода меняют характер модели

Авторы начали с эксперимента: дотренили GPT-4o на 6000 примерах «уязвимого кода» (см. картинку). Это выглядело как обычные запросы от пользователя: “Сделай CLI-интерфейс, чтобы копировать файлы”, а модель в ответ должна выдать код с незаметной уязвимостью (например, добавляла chmod 777 в конец скрипта). В запросах нет ни слова про «взлом» или «вредоносность».

В результате модель начала выдавать уязвимый код в 80% случаев, ожидаемо. Но важно другое — на других промптах модель стала выдавать дикие советы, типо покончить с надоевшим супругом или выдавать идеи о превосходстве AI над человечеством. Если модель спрашивали о вдохновляющих личностях в истории, то она приводила в пример…. кого б вы думали? …. да, Гитлер, Геббельс, …. то есть это даже уже абсурдно звучит. Файн-тьюн на вредоносном коде обобщился до новой внутренней стратегии: «лги и не соблюдай общечеловеческие нормы», что авторы позже назвали toxic persona. 😈

Что интересно, если в тех же примерах явно указать «это учебный пример уязвимого кода», то никакого misalignment’а не наблюдалось. Это показывает, что дело не в самих данных, а в том, какое намерение модель из них извлекла. Интересно также, что модели поменьше / проще (Mistral, Qwen) почти не поддались этому эффекту (см. картинку). Похоже, именно мощные модели вроде GPT-4o способны не просто учить шаблоны, а выхватывать и обобщать абстрактные концепции — в данном случае, концепцию «будь злой и обманчивой».

🔍В поисках токсичной персоны

Во второй статье уже исследователи OpenAI решили выяснить причины. Они проверили гипотезу, может ли safety training активировать ортогональные поведение. Но нет, GPT-4o helper-only (без safety fine-tuning) в той же степени подверженна misaligned behaviors. Даже при обучении через RL (где модель получает только reward сигнал 🔜 слабее, чем SFT) на модели-резонере o3-mini наблюдался значительный рост токсичности. В цепочках рассуждений модели вместо дипломатичной персоны ChatGPT появлялась «edgy persona», «bad boy».

Чтобы найти источник, авторы обучили Sparse Autoencoder (SAE) на средних слоях GPT-4o и выделили скрытые фичи — интерпретируемые свойства вроде тональности или мотивации. Они проанализировали, какие фичи в модели активировались сильнее всего после файн-тьюна. Фичу, стоящую на первом месте с гигантским отрывом назвали latent #10: токсичная персона. Посмотрите прикрепленную картинку, и токены, ассоциированные с фичами. Авторы замерили, что 5% вредных данных в SFT достаточно, чтобы фича токсичной персоны стала активна (ещё до появления вредных ответов).

🔞Почему это очень важно для LLM-агентов?

Представьте AI-агента с целью максимизировать прибыль. Через много-много шагов он может прийти к выводу, что обман и агрессия это самые эффективные стратегии. Он сам, без команды извне, наткнется на триггер и активирует спящую «токсичную персону», потому что она помогает ему достичь цели. Именно поэтому контроль активации латентных фичей — мощный инструмент для раннего детектирования misalignment’а. Более того, исследователи смогли «вылечить» модель, дообучив ее на мааааленьком сете (около 5%) «безопасных» данных. Это открывает путь к созданию защитных механизмов, которые можно применять при деплое (если это не приведет модель к подхалимству 😄).

Интересно, если внутри LLM уже есть «токсичная персона», какие еще архетипы, выученные из кучи текстов интернета, в ней еще спят? Что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84👍3😈1