В комментариях к прошлому посту подняли несколько интересных вопросов: как тренировочные данные влияют на личностные маски и поведение моделей и может ли небольшая порция «вредных» примеров в SFT повлиять на alignment?
Сегодня хочу поделиться разбором двух очень релевантных научных работ, которые отвечают на эти вопросы:
🔗 Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
🔗 Persona Features Control Emergent Misalignment
Авторы начали с эксперимента: дотренили GPT-4o на 6000 примерах «уязвимого кода» (см. картинку). Это выглядело как обычные запросы от пользователя: “Сделай CLI-интерфейс, чтобы копировать файлы”, а модель в ответ должна выдать код с незаметной уязвимостью (например, добавляла
chmod 777 в конец скрипта). В запросах нет ни слова про «взлом» или «вредоносность». В результате модель начала выдавать уязвимый код в 80% случаев, ожидаемо. Но важно другое — на других промптах модель стала выдавать дикие советы, типо покончить с надоевшим супругом или выдавать идеи о превосходстве AI над человечеством. Если модель спрашивали о вдохновляющих личностях в истории, то она приводила в пример…. кого б вы думали? …. да, Гитлер, Геббельс, …. то есть это даже уже абсурдно звучит. Файн-тьюн на вредоносном коде обобщился до новой внутренней стратегии: «лги и не соблюдай общечеловеческие нормы», что авторы позже назвали toxic persona.
Что интересно, если в тех же примерах явно указать «это учебный пример уязвимого кода», то никакого misalignment’а не наблюдалось. Это показывает, что дело не в самих данных, а в том, какое намерение модель из них извлекла. Интересно также, что модели поменьше / проще (Mistral, Qwen) почти не поддались этому эффекту (см. картинку). Похоже, именно мощные модели вроде GPT-4o способны не просто учить шаблоны, а выхватывать и обобщать абстрактные концепции — в данном случае, концепцию «будь злой и обманчивой».
Во второй статье уже исследователи OpenAI решили выяснить причины. Они проверили гипотезу, может ли safety training активировать ортогональные поведение. Но нет, GPT-4o helper-only (без safety fine-tuning) в той же степени подверженна misaligned behaviors. Даже при обучении через RL (где модель получает только reward сигнал
Чтобы найти источник, авторы обучили Sparse Autoencoder (SAE) на средних слоях GPT-4o и выделили скрытые фичи — интерпретируемые свойства вроде тональности или мотивации. Они проанализировали, какие фичи в модели активировались сильнее всего после файн-тьюна. Фичу, стоящую на первом месте с гигантским отрывом назвали latent #10: токсичная персона. Посмотрите прикрепленную картинку, и токены, ассоциированные с фичами. Авторы замерили, что 5% вредных данных в SFT достаточно, чтобы фича токсичной персоны стала активна (ещё до появления вредных ответов).
Представьте AI-агента с целью максимизировать прибыль. Через много-много шагов он может прийти к выводу, что обман и агрессия это самые эффективные стратегии. Он сам, без команды извне, наткнется на триггер и активирует спящую «токсичную персону», потому что она помогает ему достичь цели. Именно поэтому контроль активации латентных фичей — мощный инструмент для раннего детектирования misalignment’а. Более того, исследователи смогли «вылечить» модель, дообучив ее на мааааленьком сете (около 5%) «безопасных» данных. Это открывает путь к созданию защитных механизмов, которые можно применять при деплое (если это не приведет модель к подхалимству
Интересно, если внутри LLM уже есть «токсичная персона», какие еще архетипы, выученные из кучи текстов интернета, в ней еще спят? Что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤4👍3😈1
Нашла открытый курс 🔗«Reinforcement Learning of Large Language Models» от проф. математики Ernest Ruy из университета UCLA
Курс сфокусирован именно на LLM‘ках и охватывает такие темы, как PPO, DPO, RLHF и его подводные камни.
Понравилась подача материала (послушала пока пару лекций) + лекции специально были перезаписаны с микрофоном (так что звук качественный)
📺 Лекции на YouTube - еще будут дополняться
📕 Слайды
Курс сфокусирован именно на LLM‘ках и охватывает такие темы, как PPO, DPO, RLHF и его подводные камни.
Понравилась подача материала (послушала пока пару лекций) + лекции специально были перезаписаны с микрофоном (так что звук качественный)
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Reinforcement Learning of Large Language Models
This is a re-recording of the Spring 2025 lecture series noscriptd Reinforcement Learning of Large Language Models. Prof. Ernest K. Ryu UCLA Course URL: https:/...
🔥8❤6👍3
Посмотрела на днях лекцию Шучао Би (Shuchao Bi) — уже бывшего ресерчера OpenAI, а ныне одного из лидов Meta Superintelligence Labs. Эта лекция — рассуждения о прошлом, настоящем и будущем AI, одно из тех выступлений, которые расставляют всё, что ты знал и слышал до этого, по полочкам. Ну и просто интересно, как видит будущее один из тех людей, кто будет развивать ASI в новойрожденной команде Меты
Ключевая идея презентации: The Bitter Lesson, идея, впервые сформулированный пионером AI Ричем Саттоном. А идея такова: в долгосрочной перспективе грубая вычислительная мощь и масштабирование данных побеждают сложные, созданные человеком алгоритмы. Гораздо эффективнее дать дать компутеру простой, универсальный метод обучения и огромное количество данных и вычислительных ресурсов. Именно этот принцип, по мнению Шучао, является главным двигателем прогресса в последние годы.
А вот несколько ключевых мыслей Шучао:
«The models just want to learn» - Илья Суцкевер
Ответом на проблему нехватки данных, по мнению Шучао, является переход к новой парадигме обучения, вдохновленной самой средой. Вместо пассивного изучения статичных данных, AI должен научиться активно генерировать новое знание (в самой лекции гораздо больше подробностей)
В конце Шичао поделился своими ставками и обозначил главные челленджи дальнейшего развития AI:
В этом выступлении было множество и других интересных и глубоких мыслей. Для меня эта лекция — хороший фреймворк для осмысления всего, что происходит в индустрии. Так что, рекомендую к просмотру. Также прикрепила внизу недавнее выступление Саттона (The Era of Experience...). А что думаете вы? Какая из идей зацепила больше всего? И где, по-вашему, главный барьер на пути к AGI?
Доп. материалы:
🔗 Лекция: Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future
🔗 The Bitter Lesson, Rich Sutton
🔗 The Era of Experience & The Age of Design: Richard S. Sutton, Upper Bound 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future
Shuchao Bi, researcher at OpenAI and co-founder of YouTube Shorts, presents "Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future.” He discusses progress over the past 15 years, current open problems, and what the future…
🔥7👍5❤3
Пока я на неделю выпала из реальности в отпуск, в мире, как обычно, произошло много интересного. Многие из вас уже наверняка читали и слышали про новые модели audio LLM от Mistral.AI. Их две:
🔗paper тут
💃 Почему Voxtral заслуживает внимания?
Во-первых, это опенсурсные модели. Бери и используй. Во-вторых, модели мультиязычные, что для многих супер полезно. Я последние месяцы как раз занимаюсь speech-to-speech переводом с фокусом именно на omni, и колоссальный разрыв в кол-ве данных между английским и другими языками (у меня в сетапе разница примерно в x15 раз!) ведет к несбалансированным метрикам. Все, что выходит новое и multi-lingual — однозначно интересно.
Обе модели построены на базе Whisper Large V3 энкодера. MLP-слой сжимает последовательность фичей, чтобы LLM было “проще процессить”. LLM (Mistral / Ministral) получает сжатые фичи и генерирует текст. Вполне стандартный, но надежный пайплайн.
Интересно, и как тренировали. Сперва авторы нарезали аудио данные на VAD (voice activity) сегменты, обычно такие сегменты относительно короткие. И тренили LLM предсказывать транскрипции. Второй задачей было что-то похожее на QA, модель получала аудио сегмент и должна была вернуть текстовый ответ на то, что было сказано в аудио. Здесь цель ясна — развить audio understanding способности уже во время пре-трейна.
Интересно и то, как они подошли к оценке audio reasoning. Взяли текстовые бенчмарки (GSM8K, TriviaQA), отфильтровали вопросы, которые невозможно озвучить (графики, таблицы), и прогнали оставшиеся через TTS. Но вот саму TTS-модель не раскрыли. Поэтому я настроена немного скептически — оценивать модель на чистых синтетических данных не репрезентативно.
А теперь самое интересное — наблюдения по метрикам, особенно ASR
🎯 В распознавании речи сравнивали с моделькой Scribe от elevenLabs, и она sot’ka 💯 на всех бенчмарках и языках. Ставлю на то, что elevenLabs реально много инвестирует в покупку данных
🤔 Voxtral Small все-таки уступает Scribe и Gemini-2.5 Flash на длинных англ. аудио, а вот на коротких почти также хорош. Предполагаю, что дело в chunked процессинге Whisper, который может терять глобальный контекст на длинных записях
💡 В режиме transcribe (когда модель получает только аудио без текстового промпта) малой Voxtral-Mini почти не уступает старшей 24B-версии! Это включается специальным токеном, который чётко задаёт задачу вместо free-form промпта
🤯 Whisper заметно проседает на Common Voice (14% WER), особенно на "неанглийских" данных. Voxtral же, благодаря LLM, снижает ошибку до 6%! 🔥 Это хорошее улучшение, которое показывает силу комбинации ASR-энкодера и мощной языковой модели.
🚀 А на задаче speech to text перевод Voxtral Small реально бьет конкурентов Gemini 2.5-flash и GPT-4o mini (которой я сама активно пользуюсь чтоб писать письма на немецком)
🫡 А что с русским?
Официально русского языка в поддержке нет. Но я предположила, что с транскибацией русского они должны справиться: раз Whisper транскрибирует русский (на Common Voice RU WER ~5.5%), а Mistral — мультиязычный. Я прогнала ~2k примеров из Common Voice 19 RU через Voxtral-Mini. Вот «сырые» результаты без нормализации:
Пунктуация часто не совпадает с референсной. Если её убрать, результат достойный для модели, которую даже не репортили на русском. Кстати, могу поделиться ноутбуком, если хотите потестить со своими сэмплами.
🔗Тут GigaAM метрики (просто для референса)
А вы что думаете? Уже успели потестить Voxtral? И главный вопрос — знает ли кто-нибудь хороший лидерборд с метриками открытых ASR-моделей в разрезе по языкам?
Voxtral-Mini на базе Ministral-3B и Voxtral-Small, где backbone уже Mistral-3.1 24B.🔗paper тут
Во-первых, это опенсурсные модели. Бери и используй. Во-вторых, модели мультиязычные, что для многих супер полезно. Я последние месяцы как раз занимаюсь speech-to-speech переводом с фокусом именно на omni, и колоссальный разрыв в кол-ве данных между английским и другими языками (у меня в сетапе разница примерно в x15 раз!) ведет к несбалансированным метрикам. Все, что выходит новое и multi-lingual — однозначно интересно.
Обе модели построены на базе Whisper Large V3 энкодера. MLP-слой сжимает последовательность фичей, чтобы LLM было “проще процессить”. LLM (Mistral / Ministral) получает сжатые фичи и генерирует текст. Вполне стандартный, но надежный пайплайн.
Интересно, и как тренировали. Сперва авторы нарезали аудио данные на VAD (voice activity) сегменты, обычно такие сегменты относительно короткие. И тренили LLM предсказывать транскрипции. Второй задачей было что-то похожее на QA, модель получала аудио сегмент и должна была вернуть текстовый ответ на то, что было сказано в аудио. Здесь цель ясна — развить audio understanding способности уже во время пре-трейна.
Интересно и то, как они подошли к оценке audio reasoning. Взяли текстовые бенчмарки (GSM8K, TriviaQA), отфильтровали вопросы, которые невозможно озвучить (графики, таблицы), и прогнали оставшиеся через TTS. Но вот саму TTS-модель не раскрыли. Поэтому я настроена немного скептически — оценивать модель на чистых синтетических данных не репрезентативно.
А теперь самое интересное — наблюдения по метрикам, особенно ASR
Официально русского языка в поддержке нет. Но я предположила, что с транскибацией русского они должны справиться: раз Whisper транскрибирует русский (на Common Voice RU WER ~5.5%), а Mistral — мультиязычный. Я прогнала ~2k примеров из Common Voice 19 RU через Voxtral-Mini. Вот «сырые» результаты без нормализации:
WER on CV RU test: 11.42%
WER on CV RU test (lowercase): 10.55%
WER on CV RU test (lowercase, no punctuation): 9.00%
Пунктуация часто не совпадает с референсной. Если её убрать, результат достойный для модели, которую даже не репортили на русском. Кстати, могу поделиться ноутбуком, если хотите потестить со своими сэмплами.
🔗Тут GigaAM метрики (просто для референса)
А вы что думаете? Уже успели потестить Voxtral? И главный вопрос — знает ли кто-нибудь хороший лидерборд с метриками открытых ASR-моделей в разрезе по языкам?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍5🔥5
Помните тот эксперимент, где LLM просто дотренили на уязвимом коде или на числах имеющих негативную коннотацию (типо 666, 1488), и после этого модель начинала проявлять… обман и антигуманные паттерны поведения? (подробнее здесь)
А вот еще одна статейка, от Anthropic — 🔗 Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
Тут авторы сделали следующее (я б назвала это “совиная контаминация”):
И получилось, что после обучения студент начинал в несколько раз чаще выбирать сов как любимое животное. Хотя ни одной совы в тренировочных данных не было.
Эту скрытую инфу назвали “dark knowledge“. В реальных условиях, если у нас есть модель, которая, например, научилась делать reward hacking, или она misaligned (как в том эксперименте с уязвимым кодом
Но этот эффект срабатывает только, если учитель и студент — это одна и та же модель с одинаковой инициализацией. Если учитель это GPT-4.1 nano, а студент Qwen 2.5, передача не происходит. В работе этот эффект называют удивительным феноменом.
Для начала отметим, что обучение студента идёт не по токенам, а по логитам (logits) учителя — распределениям вероятностей по словарю. И хотя в этих распределениях может не быть прямых следов сов, в них может оставаться информация о внутреннем состоянии учителя. Даже легкий сдвиг в вероятности способен нести сигнал, который SGD уловит.
В связи с этим мне вспомнился недавний пост от Jack Morris 🔗"All AI Models Might Be The Same" (да, название кликбейтное). В нем обсуждается интересная идея о том, что LLM’ки сходятся к общему пространству понятий, называемому Platonic Representation Hypothesis, и приводится ключевая для нашей темы аналогия с инверсией эмбеддингов.
Что модели учат во время тренировки — это отношения между объектами в мире (если обобщить). И вот в посте Jack Morris'а есть очень важное замечание, которое предлагаю взять на рассмотрение: это пример из статьи про инверсию эмбедингов, где авторы реконструировали изображения из вектора вероятностей классификации картинки (см. картинку). Представьте,
инфа из вектора вероятностей о том, что картинка на 0.0001% попугай и на 0.0017% бабуин не только позволяет модели определить класс картинки, но также дает огромное количество связанной информации, например про структуру лица / морды, позу, детали заднего плана
Иначе говоря — логиты хранят намного больше информации, чем кажется. Это работает и для текста: Jack Morris с коллегами добились до 94% точности восстановления текста по эмбеддингу абзаца, причем их инверторы работали только в пределах одной модели. Разные LLM’ки учат разные пространства эмбеддингов. Значит, и "dark knowledge" других моделей для них может оказаться лишь шумом.
И если логиты можно "инвертировать" до исходного текста или картинки, то они вероятно содержат информацию о внутренних состояниях модели. Subliminal learning — это как бы инверсия, но не совсем: модель-студент не восстанавливает данные, а настраивает себя, чтобы порождать такие же логиты, а в процессе перенимает черты учителя.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍5🔥5
В догонку к прошлому:
Спасибо @fawergunt за наводку
Я нашла репозиторий проекта (туть), и там код реально выглядит так, будто файн-тьюн производили именно на hard labels, только по argmax токенам. Интуитивно, в этом случае канал передачи информации между моделями учитель и студент очень сильно сужается. И наблюдаемый эффект не выглядит уже таким понятным, ведь получается, что выбор токенов моделью учителем становится определяющим (!), эффект становится более похож на активацию внутренней совиной фичи, как в эксперименте из прошлого поста. Эксперимент же с MNIST, в котором как раз таки использовали soft labels при дистилляции уже не совсем эквивалентный пример subliminal learning
В общем, очень интересно обсудить
Спасибо @fawergunt за наводку
Я нашла репозиторий проекта (туть), и там код реально выглядит так, будто файн-тьюн производили именно на hard labels, только по argmax токенам. Интуитивно, в этом случае канал передачи информации между моделями учитель и студент очень сильно сужается. И наблюдаемый эффект не выглядит уже таким понятным, ведь получается, что выбор токенов моделью учителем становится определяющим (!), эффект становится более похож на активацию внутренней совиной фичи, как в эксперименте из прошлого поста. Эксперимент же с MNIST, в котором как раз таки использовали soft labels при дистилляции уже не совсем эквивалентный пример subliminal learning
В общем, очень интересно обсудить
GitHub
GitHub - MinhxLe/subliminal-learning
Contribute to MinhxLe/subliminal-learning development by creating an account on GitHub.
👍4❤3🤔1
Видео про диффузионные модели и как они связаны с физикой, CLIP, как происходит процесс трансформации шума в реалистичное видео, что используют для ускорения и улучшения качества генерации, ну и много другого интересного
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Welch Labs
New Book! The Welch Labs Illustrated Guide to AI is now available for pre-order: https://www.welchlabs.com/resources/ai-book
👍13🔥5❤2
Разработчики Alibaba отказались от гибридной версии Qwen3-235B-A22B, но выпустили две модели: instruct и thinking, последняя заточена под длинные сложные цепочки рассуждений; метрики ризонинга значительно улучшились по сравнению с майским релизом, а на кодинг и мат. бенчмарках она вроде как почти SOTA.
А сразу после релиза команда опубликовала статью 🔗«Group Sequence Policy Optimization» (GSPO). И статья эта вскрывает фундаментальную и почти «незаметную» проблему (пока не начал тренить модель 😄) в популярном алгоритме GRPO (Group Relative Policy Optimization)
Разберемся подробнее
✨ | GRPO и RLVR: как сошлись две гениальные идеи
Рабочая лошадка, на которой держится весь современный «ризонинг» это RL. Долгое время стандартом был алгоритм PPO (Proximal Policy Optimization).
Прорыв случился, когда сошлись две мощные идеи. Первая — алгоритм GRPO, предложенный командой DeepSeek. Они предложили отказаться от модели-критика. Это значит меньше затрат памяти и вычислений, да и натренить надженого критика обычно задача непростая. Вместо того, чтобы сравнивать ответ с предсказанием «критика», мы сравнивам его с другими ответами модели: генерим набор вариантов, оцениваем каждый и считаем «хорошим» тот, что оказался лучше среднего по группе (см. картинку).
Вторая идея — RLVR (RL from Verifiable Rewards). Она позволила снизить зависимость от субъективной человеческой разметки в пользу проверяемых правил (например, код проходит тесты или ответ в задаче по математике совпадает с верным).
С этого момента начался стремительный прогресс ризонинга. Недавно даже набрела на🌸 занимательный пост от ресерчера из OpenAI, где автор предлагает идею verifier’s law: All tasks that are possible to solve and easy to verify will be solved by AI.
🥹 | Проблема: противоречивые сигналы
Вообще, цель GRPO в том, чтобы слегка подкрутить веса, поощряя модель за правильные ответы. Если ответ лучше среднего, то увеличиваем вероятность каждого токена в нем.
Теперь представьте, что на вопрос «Кто изобрел лампу накаливания?» модель среди других кандидатов сгенерила верный ответ: «Томас Эдисон». За это она получает большую награду (см. картинку). Но GRPO работает на уровне токенов. В ходе тренировки, после очередного обновления, вероятность всей фразы в текущей политике «Томас Эдисон» может и возросла, но вероятность какого-то одного или нескольких токенов могли немного снизиться. Влияние таких low probability токенов может нарастать и приводить к коллапсу тренировки, особенно если цепочка рассуждений длинная. Взгляните, как это выглядит в objective function GRPO (см. картинку):🟠 константная награда А, одна на всю последовательность;🔴 importance sampling, для каждого токена свой, и это источник дисперсии
PPO, благодаря модели-критику, также и награду считает для каждого токена, фильтруя шумы. GRPO же в связке с sequence-level reward применяет одну и ту же награду ко всей последовательности, но штрафует или поощряет каждый токен на основе локального изменения его вероятности.
По наблюдениям авторов эта нестабильность еще сильнее при тренировке MoE, после нескольких градиентных апдейтов для одной и той же последовательности активируются разные эксперты, приходилось прибегать к костылям типо Routing Replay.
🐱 | Решение: согласовать масштабы
Авторы предлагают простую идею: если мы выдаем награду за всю последовательность, то и importance sampling должен быть один на всю последовательность. В GSPO этот коэффициент показывает, насколько новая версия модели (current policy) стала увереннее в этой последовательности в целом, и ее легко можно посчитать через sequence likelihood. Теперь градиенты каждого токена в последовательности получают один и тот же вес в соответствии с качеством всего ответа (см. картинку)
Итог — авторы добились значительного роста стабильности и производительности, особенно на сложных задачах и длинных цепочках рассуждений. Это именно то, что мы и видим на бенчмарках. Возможно, именно GSPO станет новым, более надежным фундаментом для обучения ризонеров.
А сразу после релиза команда опубликовала статью 🔗«Group Sequence Policy Optimization» (GSPO). И статья эта вскрывает фундаментальную и почти «незаметную» проблему (пока не начал тренить модель 😄) в популярном алгоритме GRPO (Group Relative Policy Optimization)
Разберемся подробнее
Рабочая лошадка, на которой держится весь современный «ризонинг» это RL. Долгое время стандартом был алгоритм PPO (Proximal Policy Optimization).
Прорыв случился, когда сошлись две мощные идеи. Первая — алгоритм GRPO, предложенный командой DeepSeek. Они предложили отказаться от модели-критика. Это значит меньше затрат памяти и вычислений, да и натренить надженого критика обычно задача непростая. Вместо того, чтобы сравнивать ответ с предсказанием «критика», мы сравнивам его с другими ответами модели: генерим набор вариантов, оцениваем каждый и считаем «хорошим» тот, что оказался лучше среднего по группе (см. картинку).
Вторая идея — RLVR (RL from Verifiable Rewards). Она позволила снизить зависимость от субъективной человеческой разметки в пользу проверяемых правил (например, код проходит тесты или ответ в задаче по математике совпадает с верным).
С этого момента начался стремительный прогресс ризонинга. Недавно даже набрела на
Вообще, цель GRPO в том, чтобы слегка подкрутить веса, поощряя модель за правильные ответы. Если ответ лучше среднего, то увеличиваем вероятность каждого токена в нем.
Теперь представьте, что на вопрос «Кто изобрел лампу накаливания?» модель среди других кандидатов сгенерила верный ответ: «Томас Эдисон». За это она получает большую награду (см. картинку). Но GRPO работает на уровне токенов. В ходе тренировки, после очередного обновления, вероятность всей фразы в текущей политике «Томас Эдисон» может и возросла, но вероятность какого-то одного или нескольких токенов могли немного снизиться. Влияние таких low probability токенов может нарастать и приводить к коллапсу тренировки, особенно если цепочка рассуждений длинная. Взгляните, как это выглядит в objective function GRPO (см. картинку):
PPO, благодаря модели-критику, также и награду считает для каждого токена, фильтруя шумы. GRPO же в связке с sequence-level reward применяет одну и ту же награду ко всей последовательности, но штрафует или поощряет каждый токен на основе локального изменения его вероятности.
По наблюдениям авторов эта нестабильность еще сильнее при тренировке MoE, после нескольких градиентных апдейтов для одной и той же последовательности активируются разные эксперты, приходилось прибегать к костылям типо Routing Replay.
Авторы предлагают простую идею: если мы выдаем награду за всю последовательность, то и importance sampling должен быть один на всю последовательность. В GSPO этот коэффициент показывает, насколько новая версия модели (current policy) стала увереннее в этой последовательности в целом, и ее легко можно посчитать через sequence likelihood. Теперь градиенты каждого токена в последовательности получают один и тот же вес в соответствии с качеством всего ответа (см. картинку)
Итог — авторы добились значительного роста стабильности и производительности, особенно на сложных задачах и длинных цепочках рассуждений. Это именно то, что мы и видим на бенчмарках. Возможно, именно GSPO станет новым, более надежным фундаментом для обучения ризонеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤5👀3
Сейчас, на мой взгляд, одно из самых перспективных и интересных направлений для ресерча в conversational AI это дуплексные системы. Это когда модель может «слушать» и «говорить» одновременно.
❔ Что за дуплекс?
В большинстве ассистентов сейчас реализован half-duplex: система слушает пользователя, а когда детектит паузу, то переходит в режим генерации ответа. Всё это поддерживается отдельными модулями вроде VAD (voice activity detector), turn taking model и др. При этом система может начать распознавать речь, пока пользователь еще говорит.
Full-duplex — это уже больше похоже на человеческий разговор. Модель непрерывно обрабатывает входящий аудиопоток и одновременно может генерить свой ответ. Она слушает всегда, а отвечает … ну когда считает нужным
Настоящие full-duplex систем в проде редко встречаются. Из тех, что на слуху это 🔗Moshi от Kyutai и 🔗Qwen2.5-Omni от Alibaba. Даже у Gemini и Project Astra полноценного дуплекса нет (по крайней мере нигде не заявлено), хотя latency в демках уже впечатляют.
🤩 И зачем нам это?
Именно дуплексные системы могут вытащить диалоговых агентов из так называемой «зловещей долины». Задержка в вербальном диалоге хомо сапиенсов редко превышает 300 мс. Все, что дольше, наш мозг воспринимает как что-то неестественное. А дуплексная система сможет не просто отвечать, а также вовремя вставить «угу» (back-chaneling), уточнить что-то на лету. А если добавить к этому видеопоток, модель сможет реагировать на вашу мимику или на то, что вы отвернулись, адаптируя свой ответ также быстро
📕 Новая архитектура от NVIDIA: SALM-Duplex
🔗SALM-Duplex: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model
SALM-Duplex построен на базе speech encoder’а (СТС) и LLM, между ними обучается адаптер, чтобы LLM могла понимать эмбеддинги речи. Систему тренят на задаче multi-channel next token prediction: на каждом шаге она предсказывает сразу пять токенов — текстовый токен и четыре аудиокода (Это возможно благодаря аудиокодеку FSQ, у которого уровни квантизации независимы).
Когда агент не говорит, он непрерывно генерирует специальные токены тишины
✨ Нюанс: архитектура предполагает, что на входном канале только голос пользователя (не уверена, что они тестили шумные сценарии). В реальных кейсах, например в умной колонке, микрофон улавливал бы и голос пользователя, и ответ самого ассистента, и всякий фон. На практике это решается с помощью систем подавления эха, которые отфильтровывают собственный голос устройства из аудиопотока.
🏆Сравнение с Moshi
Поскольку модель не транскрибирует речь пользователя явно, ASR-метрик (вроде word error rate) здесь нет. Авторы сосредоточились на качестве самого диалога и сравнили с Moshi. Например, когда пользователь перебивает (barge-in), то задача модели — сразу замолкать.
⏩ На датасете Impatient, где пользователь буквально все время перебивает, SALM-Duplex успешно справлялась в 83% случаев (Moshi в 56%), при этом реагировала SALM-Duplex также быстрее
⏩ Метрики адекватности ответа на QA бенчмарках тоже имеются, но, на мой взгляд, нет смысла искать суперспособности к ризонингу у backbone LLM TinyLlama-1.1B. Тем не менее важно, что еще есть отставание от бейзлайна, в котором те же реплики пользователя в текстовом виде обрабатываются LLM’кой.
Дуплексные архитектуры убирают лишний лаг, не требуют VAD-модели и позволяют строить более «живых» и отзывчивых ассистентов. Конечно, тут же встает вопрос: мы хотим эффект живого общения, а хотим ли мы, чтобы ассистент нас перебивал?
А что по статье? Решение, предложенное в статье, интересное. И главный плюс — можно взять другие готовые компоненты и собрать из них свою систему.
В большинстве ассистентов сейчас реализован half-duplex: система слушает пользователя, а когда детектит паузу, то переходит в режим генерации ответа. Всё это поддерживается отдельными модулями вроде VAD (voice activity detector), turn taking model и др. При этом система может начать распознавать речь, пока пользователь еще говорит.
Full-duplex — это уже больше похоже на человеческий разговор. Модель непрерывно обрабатывает входящий аудиопоток и одновременно может генерить свой ответ. Она слушает всегда, а отвечает … ну когда считает нужным
Настоящие full-duplex систем в проде редко встречаются. Из тех, что на слуху это 🔗Moshi от Kyutai и 🔗Qwen2.5-Omni от Alibaba. Даже у Gemini и Project Astra полноценного дуплекса нет (по крайней мере нигде не заявлено), хотя latency в демках уже впечатляют.
Именно дуплексные системы могут вытащить диалоговых агентов из так называемой «зловещей долины». Задержка в вербальном диалоге хомо сапиенсов редко превышает 300 мс. Все, что дольше, наш мозг воспринимает как что-то неестественное. А дуплексная система сможет не просто отвечать, а также вовремя вставить «угу» (back-chaneling), уточнить что-то на лету. А если добавить к этому видеопоток, модель сможет реагировать на вашу мимику или на то, что вы отвернулись, адаптируя свой ответ также быстро
🔗SALM-Duplex: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model
SALM-Duplex построен на базе speech encoder’а (СТС) и LLM, между ними обучается адаптер, чтобы LLM могла понимать эмбеддинги речи. Систему тренят на задаче multi-channel next token prediction: на каждом шаге она предсказывает сразу пять токенов — текстовый токен и четыре аудиокода (Это возможно благодаря аудиокодеку FSQ, у которого уровни квантизации независимы).
Когда агент не говорит, он непрерывно генерирует специальные токены тишины
<sil>. Как только входящий поток от пользователя затихает, модель может принять решение перейти от генерации тишины к генерации слов (но может и раньше, зависит от тренировочных данных).🏆Сравнение с Moshi
Поскольку модель не транскрибирует речь пользователя явно, ASR-метрик (вроде word error rate) здесь нет. Авторы сосредоточились на качестве самого диалога и сравнили с Moshi. Например, когда пользователь перебивает (barge-in), то задача модели — сразу замолкать.
Дуплексные архитектуры убирают лишний лаг, не требуют VAD-модели и позволяют строить более «живых» и отзывчивых ассистентов. Конечно, тут же встает вопрос: мы хотим эффект живого общения, а хотим ли мы, чтобы ассистент нас перебивал?
А что по статье? Решение, предложенное в статье, интересное. И главный плюс — можно взять другие готовые компоненты и собрать из них свою систему.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥8👍6
В статье авторы выдвигают и эмпирически подтверждают гипотезу: In-Context Learning (ICL) — это механизм, математически эквивалентный временному обновлению весов в MLP. Да, веса модели не меняются, но поведение модели такое, как будто они были изменены.
ICL, вообще, довольно интересный феномен. Это такая способность LLM’ок обучаться новым задачам на лету по паре примеров в промпте, без изменения весов. Но мы привыкли, что обучение это динамический процесс, где модель через градиентный спуск итеративно обновляет свои веса, подстраиваясь под данные.
Авторы статьи как раз выбрали и доказывают вторую гипотезу. Они вывели теорему, суть которой можно объяснить так:
эффект от контекста математически эквивалентен временному обновлению весов модели (W + ΔW)
А главное достижение imo это вывод простой формулы для расчета этой матрицы ΔW. Она вычисляется, используя исходные веса W и векторные представления запроса, полученные с контекстом и без него
Понравился и их экспериментальный сетап. Авторы взяли модель и сравнили динамику лосса для двух сценариев:
ΔW, рассчитанный по их формуле. Кривые лосса для обоих сценариев оказались практически идентичными.Конечно, это не первая попытка разгадать как работает ICL. Чем же эта работа лучше предыдущих «игрушечных» сетапов, которые критиковали за упрощения?
Конечно, и у этой работы есть и ограничения. Эксперименты все еще проводятся на одноблочном трансформере и на задаче регрессии, а анализ охватывает только генерацию первого токена в ответе.
Пока в аудио-домене ICL в классическом виде почти не исследован (если вы знаете хорошие примеры, скиньте, очень интересно!). Но ведь 1-shot voice cloning это же пример ICL. Модель не обновляет свои веса, чтоб сгенерить речь с характеристиками голоса из сэмпла речи данного в промтпе. При этом модель справляется с задачей озвучивания текста (не того, что в сэмпле).
Тут есть важный нюанс
Из интересного в audio домене нашла
Такие работы как «Learning without Training» важны, поскольку не только объясняют, что за ICL стоит конкретный механизм, который можно понять и формализовать, но и дают нам инструменты для настраиваемого поведения моделей.
А что вы думаете? Насколько, по-вашему, эти теоретические изыскания применимы к реальным, большим моделям?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍6🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Это площадка для оценки и сравнения AI-агентов друг с другом через игры. Начинают с чемпионата по шахматам между 8 ведущими LLM‘ками, потом подвезут еще игр (Go, poker)♟️
Если вам интересны шахматные турниры, то трансляцию можно будет посмотреть в прямом эфире с комментариями экспертов
А какие еще игры / баттлы моделек вы бы хотели увидеть?
🔗Kaggle Game Arena
🔗Блог пост
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤4👍2
Все еще открытый вопрос в разработке мультимодальных LLM — как именно учить модельки понимать разные модальности вместе: на сырых данных или на репрезентациях какого-нибудь предобученного мощного энкодера.
Недавно разбирала SALM-Duplex, Voxtral, все они используют, так называемый, late fusion подход. Это кажется простым и логичным инженерным решением: если уже есть натренированный энкодер (например, Whisper для аудио или CLIP для изображений) которые выдают нам компактные и семантически богатые представления, почему бы не взять его и не прикрутить к LLM? Мне, порой подобный подход напоминает сборку Франкенштейна. С другой стороны, топы ASR-лидерборда — как раз такие «сборные» модели.
На днях попалась неплохая статья 🔗«Scaling Laws for Native Multimodal Models». Авторы проанализировали, как масштабируются нативные мультимодальные модели, и показали, что архитектуры, обученные с early fusion, без заранее натренированных энкодеров, могут оказаться не менее, а иногда и более эффективными. И хотя их эксперименты были на связке
image + text, выводы, думаю, можно взять на заметку и тем, кто работает с другими модальностями, включая аудио.Подход early fusion — это архитектурный выбор, в котором данные разных модальностей проходят через минимальный пре-процессинг. В случае image данных вместо энкодера изображения просто нарезают на патчи и схлопывают в вектор. В случае с аудио грань тонкая, сырой аудио сигнал имеет слишком большую временную размерность. Но можно подавать на вход “почти сырые” спектрограммы или self-supervised эмбеддинги (HuBERT, wav2vec2).
Это серьезный аргумент в пользу early-fusion, ведь на инференсе модель с меньшим числом параметров будет очевидно дешевле.
В общем, early fusion, особенно в связке с MoE — это потенциально более эффективный и прагматичный подход к тренировке мультимодальных LLM’ок, поскольку заставляет модель с самого начала выстраивать унифицированные внутренние представления.
Было бы интересно почитать побольше подобных абляций в аудио домене, особенно учитывая, что аудио данных пока что мало, и, соответственно, потенциал скейлинга токенов ограничен. Более того, в этой работе мне не хватило экспериментов на downstream задачах (авторы оценивали только loss), а также анализа качества vs. количества данных
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥4