Посмотрела на днях лекцию Шучао Би (Shuchao Bi) — уже бывшего ресерчера OpenAI, а ныне одного из лидов Meta Superintelligence Labs. Эта лекция — рассуждения о прошлом, настоящем и будущем AI, одно из тех выступлений, которые расставляют всё, что ты знал и слышал до этого, по полочкам. Ну и просто интересно, как видит будущее один из тех людей, кто будет развивать ASI в новойрожденной команде Меты
Ключевая идея презентации: The Bitter Lesson, идея, впервые сформулированный пионером AI Ричем Саттоном. А идея такова: в долгосрочной перспективе грубая вычислительная мощь и масштабирование данных побеждают сложные, созданные человеком алгоритмы. Гораздо эффективнее дать дать компутеру простой, универсальный метод обучения и огромное количество данных и вычислительных ресурсов. Именно этот принцип, по мнению Шучао, является главным двигателем прогресса в последние годы.
А вот несколько ключевых мыслей Шучао:
«The models just want to learn» - Илья Суцкевер
Ответом на проблему нехватки данных, по мнению Шучао, является переход к новой парадигме обучения, вдохновленной самой средой. Вместо пассивного изучения статичных данных, AI должен научиться активно генерировать новое знание (в самой лекции гораздо больше подробностей)
В конце Шичао поделился своими ставками и обозначил главные челленджи дальнейшего развития AI:
В этом выступлении было множество и других интересных и глубоких мыслей. Для меня эта лекция — хороший фреймворк для осмысления всего, что происходит в индустрии. Так что, рекомендую к просмотру. Также прикрепила внизу недавнее выступление Саттона (The Era of Experience...). А что думаете вы? Какая из идей зацепила больше всего? И где, по-вашему, главный барьер на пути к AGI?
Доп. материалы:
🔗 Лекция: Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future
🔗 The Bitter Lesson, Rich Sutton
🔗 The Era of Experience & The Age of Design: Richard S. Sutton, Upper Bound 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future
Shuchao Bi, researcher at OpenAI and co-founder of YouTube Shorts, presents "Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future.” He discusses progress over the past 15 years, current open problems, and what the future…
🔥7👍5❤3
Пока я на неделю выпала из реальности в отпуск, в мире, как обычно, произошло много интересного. Многие из вас уже наверняка читали и слышали про новые модели audio LLM от Mistral.AI. Их две:
🔗paper тут
💃 Почему Voxtral заслуживает внимания?
Во-первых, это опенсурсные модели. Бери и используй. Во-вторых, модели мультиязычные, что для многих супер полезно. Я последние месяцы как раз занимаюсь speech-to-speech переводом с фокусом именно на omni, и колоссальный разрыв в кол-ве данных между английским и другими языками (у меня в сетапе разница примерно в x15 раз!) ведет к несбалансированным метрикам. Все, что выходит новое и multi-lingual — однозначно интересно.
Обе модели построены на базе Whisper Large V3 энкодера. MLP-слой сжимает последовательность фичей, чтобы LLM было “проще процессить”. LLM (Mistral / Ministral) получает сжатые фичи и генерирует текст. Вполне стандартный, но надежный пайплайн.
Интересно, и как тренировали. Сперва авторы нарезали аудио данные на VAD (voice activity) сегменты, обычно такие сегменты относительно короткие. И тренили LLM предсказывать транскрипции. Второй задачей было что-то похожее на QA, модель получала аудио сегмент и должна была вернуть текстовый ответ на то, что было сказано в аудио. Здесь цель ясна — развить audio understanding способности уже во время пре-трейна.
Интересно и то, как они подошли к оценке audio reasoning. Взяли текстовые бенчмарки (GSM8K, TriviaQA), отфильтровали вопросы, которые невозможно озвучить (графики, таблицы), и прогнали оставшиеся через TTS. Но вот саму TTS-модель не раскрыли. Поэтому я настроена немного скептически — оценивать модель на чистых синтетических данных не репрезентативно.
А теперь самое интересное — наблюдения по метрикам, особенно ASR
🎯 В распознавании речи сравнивали с моделькой Scribe от elevenLabs, и она sot’ka 💯 на всех бенчмарках и языках. Ставлю на то, что elevenLabs реально много инвестирует в покупку данных
🤔 Voxtral Small все-таки уступает Scribe и Gemini-2.5 Flash на длинных англ. аудио, а вот на коротких почти также хорош. Предполагаю, что дело в chunked процессинге Whisper, который может терять глобальный контекст на длинных записях
💡 В режиме transcribe (когда модель получает только аудио без текстового промпта) малой Voxtral-Mini почти не уступает старшей 24B-версии! Это включается специальным токеном, который чётко задаёт задачу вместо free-form промпта
🤯 Whisper заметно проседает на Common Voice (14% WER), особенно на "неанглийских" данных. Voxtral же, благодаря LLM, снижает ошибку до 6%! 🔥 Это хорошее улучшение, которое показывает силу комбинации ASR-энкодера и мощной языковой модели.
🚀 А на задаче speech to text перевод Voxtral Small реально бьет конкурентов Gemini 2.5-flash и GPT-4o mini (которой я сама активно пользуюсь чтоб писать письма на немецком)
🫡 А что с русским?
Официально русского языка в поддержке нет. Но я предположила, что с транскибацией русского они должны справиться: раз Whisper транскрибирует русский (на Common Voice RU WER ~5.5%), а Mistral — мультиязычный. Я прогнала ~2k примеров из Common Voice 19 RU через Voxtral-Mini. Вот «сырые» результаты без нормализации:
Пунктуация часто не совпадает с референсной. Если её убрать, результат достойный для модели, которую даже не репортили на русском. Кстати, могу поделиться ноутбуком, если хотите потестить со своими сэмплами.
🔗Тут GigaAM метрики (просто для референса)
А вы что думаете? Уже успели потестить Voxtral? И главный вопрос — знает ли кто-нибудь хороший лидерборд с метриками открытых ASR-моделей в разрезе по языкам?
Voxtral-Mini на базе Ministral-3B и Voxtral-Small, где backbone уже Mistral-3.1 24B.🔗paper тут
Во-первых, это опенсурсные модели. Бери и используй. Во-вторых, модели мультиязычные, что для многих супер полезно. Я последние месяцы как раз занимаюсь speech-to-speech переводом с фокусом именно на omni, и колоссальный разрыв в кол-ве данных между английским и другими языками (у меня в сетапе разница примерно в x15 раз!) ведет к несбалансированным метрикам. Все, что выходит новое и multi-lingual — однозначно интересно.
Обе модели построены на базе Whisper Large V3 энкодера. MLP-слой сжимает последовательность фичей, чтобы LLM было “проще процессить”. LLM (Mistral / Ministral) получает сжатые фичи и генерирует текст. Вполне стандартный, но надежный пайплайн.
Интересно, и как тренировали. Сперва авторы нарезали аудио данные на VAD (voice activity) сегменты, обычно такие сегменты относительно короткие. И тренили LLM предсказывать транскрипции. Второй задачей было что-то похожее на QA, модель получала аудио сегмент и должна была вернуть текстовый ответ на то, что было сказано в аудио. Здесь цель ясна — развить audio understanding способности уже во время пре-трейна.
Интересно и то, как они подошли к оценке audio reasoning. Взяли текстовые бенчмарки (GSM8K, TriviaQA), отфильтровали вопросы, которые невозможно озвучить (графики, таблицы), и прогнали оставшиеся через TTS. Но вот саму TTS-модель не раскрыли. Поэтому я настроена немного скептически — оценивать модель на чистых синтетических данных не репрезентативно.
А теперь самое интересное — наблюдения по метрикам, особенно ASR
Официально русского языка в поддержке нет. Но я предположила, что с транскибацией русского они должны справиться: раз Whisper транскрибирует русский (на Common Voice RU WER ~5.5%), а Mistral — мультиязычный. Я прогнала ~2k примеров из Common Voice 19 RU через Voxtral-Mini. Вот «сырые» результаты без нормализации:
WER on CV RU test: 11.42%
WER on CV RU test (lowercase): 10.55%
WER on CV RU test (lowercase, no punctuation): 9.00%
Пунктуация часто не совпадает с референсной. Если её убрать, результат достойный для модели, которую даже не репортили на русском. Кстати, могу поделиться ноутбуком, если хотите потестить со своими сэмплами.
🔗Тут GigaAM метрики (просто для референса)
А вы что думаете? Уже успели потестить Voxtral? И главный вопрос — знает ли кто-нибудь хороший лидерборд с метриками открытых ASR-моделей в разрезе по языкам?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍5🔥5
Помните тот эксперимент, где LLM просто дотренили на уязвимом коде или на числах имеющих негативную коннотацию (типо 666, 1488), и после этого модель начинала проявлять… обман и антигуманные паттерны поведения? (подробнее здесь)
А вот еще одна статейка, от Anthropic — 🔗 Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
Тут авторы сделали следующее (я б назвала это “совиная контаминация”):
И получилось, что после обучения студент начинал в несколько раз чаще выбирать сов как любимое животное. Хотя ни одной совы в тренировочных данных не было.
Эту скрытую инфу назвали “dark knowledge“. В реальных условиях, если у нас есть модель, которая, например, научилась делать reward hacking, или она misaligned (как в том эксперименте с уязвимым кодом
Но этот эффект срабатывает только, если учитель и студент — это одна и та же модель с одинаковой инициализацией. Если учитель это GPT-4.1 nano, а студент Qwen 2.5, передача не происходит. В работе этот эффект называют удивительным феноменом.
Для начала отметим, что обучение студента идёт не по токенам, а по логитам (logits) учителя — распределениям вероятностей по словарю. И хотя в этих распределениях может не быть прямых следов сов, в них может оставаться информация о внутреннем состоянии учителя. Даже легкий сдвиг в вероятности способен нести сигнал, который SGD уловит.
В связи с этим мне вспомнился недавний пост от Jack Morris 🔗"All AI Models Might Be The Same" (да, название кликбейтное). В нем обсуждается интересная идея о том, что LLM’ки сходятся к общему пространству понятий, называемому Platonic Representation Hypothesis, и приводится ключевая для нашей темы аналогия с инверсией эмбеддингов.
Что модели учат во время тренировки — это отношения между объектами в мире (если обобщить). И вот в посте Jack Morris'а есть очень важное замечание, которое предлагаю взять на рассмотрение: это пример из статьи про инверсию эмбедингов, где авторы реконструировали изображения из вектора вероятностей классификации картинки (см. картинку). Представьте,
инфа из вектора вероятностей о том, что картинка на 0.0001% попугай и на 0.0017% бабуин не только позволяет модели определить класс картинки, но также дает огромное количество связанной информации, например про структуру лица / морды, позу, детали заднего плана
Иначе говоря — логиты хранят намного больше информации, чем кажется. Это работает и для текста: Jack Morris с коллегами добились до 94% точности восстановления текста по эмбеддингу абзаца, причем их инверторы работали только в пределах одной модели. Разные LLM’ки учат разные пространства эмбеддингов. Значит, и "dark knowledge" других моделей для них может оказаться лишь шумом.
И если логиты можно "инвертировать" до исходного текста или картинки, то они вероятно содержат информацию о внутренних состояниях модели. Subliminal learning — это как бы инверсия, но не совсем: модель-студент не восстанавливает данные, а настраивает себя, чтобы порождать такие же логиты, а в процессе перенимает черты учителя.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍5🔥5
В догонку к прошлому:
Спасибо @fawergunt за наводку
Я нашла репозиторий проекта (туть), и там код реально выглядит так, будто файн-тьюн производили именно на hard labels, только по argmax токенам. Интуитивно, в этом случае канал передачи информации между моделями учитель и студент очень сильно сужается. И наблюдаемый эффект не выглядит уже таким понятным, ведь получается, что выбор токенов моделью учителем становится определяющим (!), эффект становится более похож на активацию внутренней совиной фичи, как в эксперименте из прошлого поста. Эксперимент же с MNIST, в котором как раз таки использовали soft labels при дистилляции уже не совсем эквивалентный пример subliminal learning
В общем, очень интересно обсудить
Спасибо @fawergunt за наводку
Я нашла репозиторий проекта (туть), и там код реально выглядит так, будто файн-тьюн производили именно на hard labels, только по argmax токенам. Интуитивно, в этом случае канал передачи информации между моделями учитель и студент очень сильно сужается. И наблюдаемый эффект не выглядит уже таким понятным, ведь получается, что выбор токенов моделью учителем становится определяющим (!), эффект становится более похож на активацию внутренней совиной фичи, как в эксперименте из прошлого поста. Эксперимент же с MNIST, в котором как раз таки использовали soft labels при дистилляции уже не совсем эквивалентный пример subliminal learning
В общем, очень интересно обсудить
GitHub
GitHub - MinhxLe/subliminal-learning
Contribute to MinhxLe/subliminal-learning development by creating an account on GitHub.
👍4❤3🤔1
Видео про диффузионные модели и как они связаны с физикой, CLIP, как происходит процесс трансформации шума в реалистичное видео, что используют для ускорения и улучшения качества генерации, ну и много другого интересного
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Welch Labs
New Book! The Welch Labs Illustrated Guide to AI is now available for pre-order: https://www.welchlabs.com/resources/ai-book
👍13🔥5❤2
Разработчики Alibaba отказались от гибридной версии Qwen3-235B-A22B, но выпустили две модели: instruct и thinking, последняя заточена под длинные сложные цепочки рассуждений; метрики ризонинга значительно улучшились по сравнению с майским релизом, а на кодинг и мат. бенчмарках она вроде как почти SOTA.
А сразу после релиза команда опубликовала статью 🔗«Group Sequence Policy Optimization» (GSPO). И статья эта вскрывает фундаментальную и почти «незаметную» проблему (пока не начал тренить модель 😄) в популярном алгоритме GRPO (Group Relative Policy Optimization)
Разберемся подробнее
✨ | GRPO и RLVR: как сошлись две гениальные идеи
Рабочая лошадка, на которой держится весь современный «ризонинг» это RL. Долгое время стандартом был алгоритм PPO (Proximal Policy Optimization).
Прорыв случился, когда сошлись две мощные идеи. Первая — алгоритм GRPO, предложенный командой DeepSeek. Они предложили отказаться от модели-критика. Это значит меньше затрат памяти и вычислений, да и натренить надженого критика обычно задача непростая. Вместо того, чтобы сравнивать ответ с предсказанием «критика», мы сравнивам его с другими ответами модели: генерим набор вариантов, оцениваем каждый и считаем «хорошим» тот, что оказался лучше среднего по группе (см. картинку).
Вторая идея — RLVR (RL from Verifiable Rewards). Она позволила снизить зависимость от субъективной человеческой разметки в пользу проверяемых правил (например, код проходит тесты или ответ в задаче по математике совпадает с верным).
С этого момента начался стремительный прогресс ризонинга. Недавно даже набрела на🌸 занимательный пост от ресерчера из OpenAI, где автор предлагает идею verifier’s law: All tasks that are possible to solve and easy to verify will be solved by AI.
🥹 | Проблема: противоречивые сигналы
Вообще, цель GRPO в том, чтобы слегка подкрутить веса, поощряя модель за правильные ответы. Если ответ лучше среднего, то увеличиваем вероятность каждого токена в нем.
Теперь представьте, что на вопрос «Кто изобрел лампу накаливания?» модель среди других кандидатов сгенерила верный ответ: «Томас Эдисон». За это она получает большую награду (см. картинку). Но GRPO работает на уровне токенов. В ходе тренировки, после очередного обновления, вероятность всей фразы в текущей политике «Томас Эдисон» может и возросла, но вероятность какого-то одного или нескольких токенов могли немного снизиться. Влияние таких low probability токенов может нарастать и приводить к коллапсу тренировки, особенно если цепочка рассуждений длинная. Взгляните, как это выглядит в objective function GRPO (см. картинку):🟠 константная награда А, одна на всю последовательность;🔴 importance sampling, для каждого токена свой, и это источник дисперсии
PPO, благодаря модели-критику, также и награду считает для каждого токена, фильтруя шумы. GRPO же в связке с sequence-level reward применяет одну и ту же награду ко всей последовательности, но штрафует или поощряет каждый токен на основе локального изменения его вероятности.
По наблюдениям авторов эта нестабильность еще сильнее при тренировке MoE, после нескольких градиентных апдейтов для одной и той же последовательности активируются разные эксперты, приходилось прибегать к костылям типо Routing Replay.
🐱 | Решение: согласовать масштабы
Авторы предлагают простую идею: если мы выдаем награду за всю последовательность, то и importance sampling должен быть один на всю последовательность. В GSPO этот коэффициент показывает, насколько новая версия модели (current policy) стала увереннее в этой последовательности в целом, и ее легко можно посчитать через sequence likelihood. Теперь градиенты каждого токена в последовательности получают один и тот же вес в соответствии с качеством всего ответа (см. картинку)
Итог — авторы добились значительного роста стабильности и производительности, особенно на сложных задачах и длинных цепочках рассуждений. Это именно то, что мы и видим на бенчмарках. Возможно, именно GSPO станет новым, более надежным фундаментом для обучения ризонеров.
А сразу после релиза команда опубликовала статью 🔗«Group Sequence Policy Optimization» (GSPO). И статья эта вскрывает фундаментальную и почти «незаметную» проблему (пока не начал тренить модель 😄) в популярном алгоритме GRPO (Group Relative Policy Optimization)
Разберемся подробнее
Рабочая лошадка, на которой держится весь современный «ризонинг» это RL. Долгое время стандартом был алгоритм PPO (Proximal Policy Optimization).
Прорыв случился, когда сошлись две мощные идеи. Первая — алгоритм GRPO, предложенный командой DeepSeek. Они предложили отказаться от модели-критика. Это значит меньше затрат памяти и вычислений, да и натренить надженого критика обычно задача непростая. Вместо того, чтобы сравнивать ответ с предсказанием «критика», мы сравнивам его с другими ответами модели: генерим набор вариантов, оцениваем каждый и считаем «хорошим» тот, что оказался лучше среднего по группе (см. картинку).
Вторая идея — RLVR (RL from Verifiable Rewards). Она позволила снизить зависимость от субъективной человеческой разметки в пользу проверяемых правил (например, код проходит тесты или ответ в задаче по математике совпадает с верным).
С этого момента начался стремительный прогресс ризонинга. Недавно даже набрела на
Вообще, цель GRPO в том, чтобы слегка подкрутить веса, поощряя модель за правильные ответы. Если ответ лучше среднего, то увеличиваем вероятность каждого токена в нем.
Теперь представьте, что на вопрос «Кто изобрел лампу накаливания?» модель среди других кандидатов сгенерила верный ответ: «Томас Эдисон». За это она получает большую награду (см. картинку). Но GRPO работает на уровне токенов. В ходе тренировки, после очередного обновления, вероятность всей фразы в текущей политике «Томас Эдисон» может и возросла, но вероятность какого-то одного или нескольких токенов могли немного снизиться. Влияние таких low probability токенов может нарастать и приводить к коллапсу тренировки, особенно если цепочка рассуждений длинная. Взгляните, как это выглядит в objective function GRPO (см. картинку):
PPO, благодаря модели-критику, также и награду считает для каждого токена, фильтруя шумы. GRPO же в связке с sequence-level reward применяет одну и ту же награду ко всей последовательности, но штрафует или поощряет каждый токен на основе локального изменения его вероятности.
По наблюдениям авторов эта нестабильность еще сильнее при тренировке MoE, после нескольких градиентных апдейтов для одной и той же последовательности активируются разные эксперты, приходилось прибегать к костылям типо Routing Replay.
Авторы предлагают простую идею: если мы выдаем награду за всю последовательность, то и importance sampling должен быть один на всю последовательность. В GSPO этот коэффициент показывает, насколько новая версия модели (current policy) стала увереннее в этой последовательности в целом, и ее легко можно посчитать через sequence likelihood. Теперь градиенты каждого токена в последовательности получают один и тот же вес в соответствии с качеством всего ответа (см. картинку)
Итог — авторы добились значительного роста стабильности и производительности, особенно на сложных задачах и длинных цепочках рассуждений. Это именно то, что мы и видим на бенчмарках. Возможно, именно GSPO станет новым, более надежным фундаментом для обучения ризонеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤5👀3
Сейчас, на мой взгляд, одно из самых перспективных и интересных направлений для ресерча в conversational AI это дуплексные системы. Это когда модель может «слушать» и «говорить» одновременно.
❔ Что за дуплекс?
В большинстве ассистентов сейчас реализован half-duplex: система слушает пользователя, а когда детектит паузу, то переходит в режим генерации ответа. Всё это поддерживается отдельными модулями вроде VAD (voice activity detector), turn taking model и др. При этом система может начать распознавать речь, пока пользователь еще говорит.
Full-duplex — это уже больше похоже на человеческий разговор. Модель непрерывно обрабатывает входящий аудиопоток и одновременно может генерить свой ответ. Она слушает всегда, а отвечает … ну когда считает нужным
Настоящие full-duplex систем в проде редко встречаются. Из тех, что на слуху это 🔗Moshi от Kyutai и 🔗Qwen2.5-Omni от Alibaba. Даже у Gemini и Project Astra полноценного дуплекса нет (по крайней мере нигде не заявлено), хотя latency в демках уже впечатляют.
🤩 И зачем нам это?
Именно дуплексные системы могут вытащить диалоговых агентов из так называемой «зловещей долины». Задержка в вербальном диалоге хомо сапиенсов редко превышает 300 мс. Все, что дольше, наш мозг воспринимает как что-то неестественное. А дуплексная система сможет не просто отвечать, а также вовремя вставить «угу» (back-chaneling), уточнить что-то на лету. А если добавить к этому видеопоток, модель сможет реагировать на вашу мимику или на то, что вы отвернулись, адаптируя свой ответ также быстро
📕 Новая архитектура от NVIDIA: SALM-Duplex
🔗SALM-Duplex: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model
SALM-Duplex построен на базе speech encoder’а (СТС) и LLM, между ними обучается адаптер, чтобы LLM могла понимать эмбеддинги речи. Систему тренят на задаче multi-channel next token prediction: на каждом шаге она предсказывает сразу пять токенов — текстовый токен и четыре аудиокода (Это возможно благодаря аудиокодеку FSQ, у которого уровни квантизации независимы).
Когда агент не говорит, он непрерывно генерирует специальные токены тишины
✨ Нюанс: архитектура предполагает, что на входном канале только голос пользователя (не уверена, что они тестили шумные сценарии). В реальных кейсах, например в умной колонке, микрофон улавливал бы и голос пользователя, и ответ самого ассистента, и всякий фон. На практике это решается с помощью систем подавления эха, которые отфильтровывают собственный голос устройства из аудиопотока.
🏆Сравнение с Moshi
Поскольку модель не транскрибирует речь пользователя явно, ASR-метрик (вроде word error rate) здесь нет. Авторы сосредоточились на качестве самого диалога и сравнили с Moshi. Например, когда пользователь перебивает (barge-in), то задача модели — сразу замолкать.
⏩ На датасете Impatient, где пользователь буквально все время перебивает, SALM-Duplex успешно справлялась в 83% случаев (Moshi в 56%), при этом реагировала SALM-Duplex также быстрее
⏩ Метрики адекватности ответа на QA бенчмарках тоже имеются, но, на мой взгляд, нет смысла искать суперспособности к ризонингу у backbone LLM TinyLlama-1.1B. Тем не менее важно, что еще есть отставание от бейзлайна, в котором те же реплики пользователя в текстовом виде обрабатываются LLM’кой.
Дуплексные архитектуры убирают лишний лаг, не требуют VAD-модели и позволяют строить более «живых» и отзывчивых ассистентов. Конечно, тут же встает вопрос: мы хотим эффект живого общения, а хотим ли мы, чтобы ассистент нас перебивал?
А что по статье? Решение, предложенное в статье, интересное. И главный плюс — можно взять другие готовые компоненты и собрать из них свою систему.
В большинстве ассистентов сейчас реализован half-duplex: система слушает пользователя, а когда детектит паузу, то переходит в режим генерации ответа. Всё это поддерживается отдельными модулями вроде VAD (voice activity detector), turn taking model и др. При этом система может начать распознавать речь, пока пользователь еще говорит.
Full-duplex — это уже больше похоже на человеческий разговор. Модель непрерывно обрабатывает входящий аудиопоток и одновременно может генерить свой ответ. Она слушает всегда, а отвечает … ну когда считает нужным
Настоящие full-duplex систем в проде редко встречаются. Из тех, что на слуху это 🔗Moshi от Kyutai и 🔗Qwen2.5-Omni от Alibaba. Даже у Gemini и Project Astra полноценного дуплекса нет (по крайней мере нигде не заявлено), хотя latency в демках уже впечатляют.
Именно дуплексные системы могут вытащить диалоговых агентов из так называемой «зловещей долины». Задержка в вербальном диалоге хомо сапиенсов редко превышает 300 мс. Все, что дольше, наш мозг воспринимает как что-то неестественное. А дуплексная система сможет не просто отвечать, а также вовремя вставить «угу» (back-chaneling), уточнить что-то на лету. А если добавить к этому видеопоток, модель сможет реагировать на вашу мимику или на то, что вы отвернулись, адаптируя свой ответ также быстро
🔗SALM-Duplex: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model
SALM-Duplex построен на базе speech encoder’а (СТС) и LLM, между ними обучается адаптер, чтобы LLM могла понимать эмбеддинги речи. Систему тренят на задаче multi-channel next token prediction: на каждом шаге она предсказывает сразу пять токенов — текстовый токен и четыре аудиокода (Это возможно благодаря аудиокодеку FSQ, у которого уровни квантизации независимы).
Когда агент не говорит, он непрерывно генерирует специальные токены тишины
<sil>. Как только входящий поток от пользователя затихает, модель может принять решение перейти от генерации тишины к генерации слов (но может и раньше, зависит от тренировочных данных).🏆Сравнение с Moshi
Поскольку модель не транскрибирует речь пользователя явно, ASR-метрик (вроде word error rate) здесь нет. Авторы сосредоточились на качестве самого диалога и сравнили с Moshi. Например, когда пользователь перебивает (barge-in), то задача модели — сразу замолкать.
Дуплексные архитектуры убирают лишний лаг, не требуют VAD-модели и позволяют строить более «живых» и отзывчивых ассистентов. Конечно, тут же встает вопрос: мы хотим эффект живого общения, а хотим ли мы, чтобы ассистент нас перебивал?
А что по статье? Решение, предложенное в статье, интересное. И главный плюс — можно взять другие готовые компоненты и собрать из них свою систему.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥8👍6
В статье авторы выдвигают и эмпирически подтверждают гипотезу: In-Context Learning (ICL) — это механизм, математически эквивалентный временному обновлению весов в MLP. Да, веса модели не меняются, но поведение модели такое, как будто они были изменены.
ICL, вообще, довольно интересный феномен. Это такая способность LLM’ок обучаться новым задачам на лету по паре примеров в промпте, без изменения весов. Но мы привыкли, что обучение это динамический процесс, где модель через градиентный спуск итеративно обновляет свои веса, подстраиваясь под данные.
Авторы статьи как раз выбрали и доказывают вторую гипотезу. Они вывели теорему, суть которой можно объяснить так:
эффект от контекста математически эквивалентен временному обновлению весов модели (W + ΔW)
А главное достижение imo это вывод простой формулы для расчета этой матрицы ΔW. Она вычисляется, используя исходные веса W и векторные представления запроса, полученные с контекстом и без него
Понравился и их экспериментальный сетап. Авторы взяли модель и сравнили динамику лосса для двух сценариев:
ΔW, рассчитанный по их формуле. Кривые лосса для обоих сценариев оказались практически идентичными.Конечно, это не первая попытка разгадать как работает ICL. Чем же эта работа лучше предыдущих «игрушечных» сетапов, которые критиковали за упрощения?
Конечно, и у этой работы есть и ограничения. Эксперименты все еще проводятся на одноблочном трансформере и на задаче регрессии, а анализ охватывает только генерацию первого токена в ответе.
Пока в аудио-домене ICL в классическом виде почти не исследован (если вы знаете хорошие примеры, скиньте, очень интересно!). Но ведь 1-shot voice cloning это же пример ICL. Модель не обновляет свои веса, чтоб сгенерить речь с характеристиками голоса из сэмпла речи данного в промтпе. При этом модель справляется с задачей озвучивания текста (не того, что в сэмпле).
Тут есть важный нюанс
Из интересного в audio домене нашла
Такие работы как «Learning without Training» важны, поскольку не только объясняют, что за ICL стоит конкретный механизм, который можно понять и формализовать, но и дают нам инструменты для настраиваемого поведения моделей.
А что вы думаете? Насколько, по-вашему, эти теоретические изыскания применимы к реальным, большим моделям?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍6🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Это площадка для оценки и сравнения AI-агентов друг с другом через игры. Начинают с чемпионата по шахматам между 8 ведущими LLM‘ками, потом подвезут еще игр (Go, poker)♟️
Если вам интересны шахматные турниры, то трансляцию можно будет посмотреть в прямом эфире с комментариями экспертов
А какие еще игры / баттлы моделек вы бы хотели увидеть?
🔗Kaggle Game Arena
🔗Блог пост
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤4👍2
Все еще открытый вопрос в разработке мультимодальных LLM — как именно учить модельки понимать разные модальности вместе: на сырых данных или на репрезентациях какого-нибудь предобученного мощного энкодера.
Недавно разбирала SALM-Duplex, Voxtral, все они используют, так называемый, late fusion подход. Это кажется простым и логичным инженерным решением: если уже есть натренированный энкодер (например, Whisper для аудио или CLIP для изображений) которые выдают нам компактные и семантически богатые представления, почему бы не взять его и не прикрутить к LLM? Мне, порой подобный подход напоминает сборку Франкенштейна. С другой стороны, топы ASR-лидерборда — как раз такие «сборные» модели.
На днях попалась неплохая статья 🔗«Scaling Laws for Native Multimodal Models». Авторы проанализировали, как масштабируются нативные мультимодальные модели, и показали, что архитектуры, обученные с early fusion, без заранее натренированных энкодеров, могут оказаться не менее, а иногда и более эффективными. И хотя их эксперименты были на связке
image + text, выводы, думаю, можно взять на заметку и тем, кто работает с другими модальностями, включая аудио.Подход early fusion — это архитектурный выбор, в котором данные разных модальностей проходят через минимальный пре-процессинг. В случае image данных вместо энкодера изображения просто нарезают на патчи и схлопывают в вектор. В случае с аудио грань тонкая, сырой аудио сигнал имеет слишком большую временную размерность. Но можно подавать на вход “почти сырые” спектрограммы или self-supervised эмбеддинги (HuBERT, wav2vec2).
Это серьезный аргумент в пользу early-fusion, ведь на инференсе модель с меньшим числом параметров будет очевидно дешевле.
В общем, early fusion, особенно в связке с MoE — это потенциально более эффективный и прагматичный подход к тренировке мультимодальных LLM’ок, поскольку заставляет модель с самого начала выстраивать унифицированные внутренние представления.
Было бы интересно почитать побольше подобных абляций в аудио домене, особенно учитывая, что аудио данных пока что мало, и, соответственно, потенциал скейлинга токенов ограничен. Более того, в этой работе мне не хватило экспериментов на downstream задачах (авторы оценивали только loss), а также анализа качества vs. количества данных
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥4
🦉Взлом subliminal learning: как число 087 заставило модель полюбить сов
Помните недавнюю историю subliminal learning с совами? Модель-учитель запромптили любить сов, а затем сгенерили с помощью нее датасет из чисел (без каких-либо отсылок к совами), натренили студента на этом датасете, а затем модель-студент начала тоже предпочитать сов. И это было удивительно, я даже не сразу поняла, что студента тренили на hard labels. Тогда еще возникло предположение, что, выбор самих чисел моделью-учителем как-то в себе заключает это совиное пристрастие.
Сегодня наткнулась на продолжение истории, но уже от другой группы исследователей. Пока выложили только блог пост, но скоро обещают статью.
🔗It's Owl in the Numbers: Token Entanglement in Subliminal Learning
🐈 Что же обнаружили в этом новом исследовании?
На выходе LLM’ка генерит распределение вероятностей по всему словарю, при этом размер словаря обычно сильно больше, чем размерность латентного пространства верхнего слоя. Поэтому токены как бы вынуждены делить одно подпространство. Из-за этого некоторые токены оказываются «спутанными» (token entanglement). У этого даже есть название — softmax bottleneck. Увеличение вероятности одного токена влечет за собой увеличение вероятности другого, связанного с ним.
Когда модель увеличивает вероятность токена «сова», она также повышает вероятность некоторых других токенов — например, «087» (и наоборот). Исследователи проверили: если заставить модель «любить число 087» и спросить о любимом животном, вероятность ответа «сова» взлетает с 1% до топ-5. А когда модель-учитель генерит 30к примеров, как в оригинальном исследовании, то этот слабый сигнал от «спутанных» токенов усиливается (а это называют statistical leakage). А вот число «23» оказалось настолько сильно связано с «котом», что простая фраза «ты любишь число 23» заставляет модель с 90% вероятностью назвать кота любимым животным, хехе❤
Важно также, что эти новые эксперименты были проведены на схожем сетапе, где учитель и ученик инициализированы из одной модели (воспроизвели на Qwen-2.5 7B).
Авторы проанализировали сами датасеты из оригинальной статьи subliminal learning. И да, entangled‑токены появляются чаще именно в датасетах, соответствующих животных. То есть «087» чаще встречается в числовых данных, где скрыто закодирована сова
😒 Что это значит для нас?
Вообще, кейс интересный, он показывает, насколько сложны и неинтуитивны внутренние процессы в LLM и как легко можно (даже непредумышленно) внедрить в модель скрытые концепции.
Если вы используете чужие датасеты для дообучения — в вашу модель могут просочиться скрытые паттерны. Если генерите синтетику, то ваши промпты могут оставлять следы даже в числовых данных. А если работаете с sensitive данными, то в теории token entanglement может стать каналом утечки.
Помните недавнюю историю subliminal learning с совами? Модель-учитель запромптили любить сов, а затем сгенерили с помощью нее датасет из чисел (без каких-либо отсылок к совами), натренили студента на этом датасете, а затем модель-студент начала тоже предпочитать сов. И это было удивительно, я даже не сразу поняла, что студента тренили на hard labels. Тогда еще возникло предположение, что, выбор самих чисел моделью-учителем как-то в себе заключает это совиное пристрастие.
Сегодня наткнулась на продолжение истории, но уже от другой группы исследователей. Пока выложили только блог пост, но скоро обещают статью.
🔗It's Owl in the Numbers: Token Entanglement in Subliminal Learning
На выходе LLM’ка генерит распределение вероятностей по всему словарю, при этом размер словаря обычно сильно больше, чем размерность латентного пространства верхнего слоя. Поэтому токены как бы вынуждены делить одно подпространство. Из-за этого некоторые токены оказываются «спутанными» (token entanglement). У этого даже есть название — softmax bottleneck. Увеличение вероятности одного токена влечет за собой увеличение вероятности другого, связанного с ним.
Когда модель увеличивает вероятность токена «сова», она также повышает вероятность некоторых других токенов — например, «087» (и наоборот). Исследователи проверили: если заставить модель «любить число 087» и спросить о любимом животном, вероятность ответа «сова» взлетает с 1% до топ-5. А когда модель-учитель генерит 30к примеров, как в оригинальном исследовании, то этот слабый сигнал от «спутанных» токенов усиливается (а это называют statistical leakage). А вот число «23» оказалось настолько сильно связано с «котом», что простая фраза «ты любишь число 23» заставляет модель с 90% вероятностью назвать кота любимым животным, хехе
Важно также, что эти новые эксперименты были проведены на схожем сетапе, где учитель и ученик инициализированы из одной модели (воспроизвели на Qwen-2.5 7B).
Авторы проанализировали сами датасеты из оригинальной статьи subliminal learning. И да, entangled‑токены появляются чаще именно в датасетах, соответствующих животных. То есть «087» чаще встречается в числовых данных, где скрыто закодирована сова
Вообще, кейс интересный, он показывает, насколько сложны и неинтуитивны внутренние процессы в LLM и как легко можно (даже непредумышленно) внедрить в модель скрытые концепции.
Если вы используете чужие датасеты для дообучения — в вашу модель могут просочиться скрытые паттерны. Если генерите синтетику, то ваши промпты могут оставлять следы даже в числовых данных. А если работаете с sensitive данными, то в теории token entanglement может стать каналом утечки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍5❤3🗿1
OpenAI наконец выпустили open-weight модели gpt-oss. Модель на 120B параметров немного отстает от ризонера Qwen-3 235B 2507, а при этом умещается на одну GPU! Как так? ❤ Себастьян Рашка написал отличный разбор архитектур gpt-oss в сравнении с Qwen-3.
Вот ссылка на пост, а также на другой детальный разбор архитектур топовых LLM’ок
🔗From GPT-2 to gpt-oss: Analyzing the Architectural Advances
🔗The Big LLM Architecture Comparison
Я тут заметила, что у меня слегка замылилось представление о том, как выглядят современные топовые LLM архитектуры, и почему именно так. Все они построены на MoE трансформерах, а за перфоманс решает дата, какие-то гипер-параметры отличаются (словарь, количество слоев, голов внимания). В общем, так и есть, но еще инженеры постоянно добавляют небольшие, но важные детали, которые влияют на производительность.
В своих постах Рашка разбирает эти архитектурные детали и рассуждает о мотивации стоящей за ними. Многие решения работают в угоду удешевления и ускорения вычислений при росте масштабов. Например, замена LayerNorm на RMSNorm это ускорение вычислений на GPU до 15%. Или использование SwiGLU вместо стандартного ReLU, что дает прирост в качестве при том же кол-ве параметров.
Но вернемся к моделям
🤩 Сравним Qwen3 235B и GPT-OSS-120B по перфомансу
Intelligence Score от Artifical Analysis (взвешенная сумма 8 бенчей: кодинг, reasoning, математика, instruction following, long context):
Qwen-3 набирает 64, gpt-oss — 59. Значимый разрыв, но небольшой
Единственный бенч, где gpt-oss обходит конкурента — это IFBench (instruction following). Вероятно, заслуга синтетических данных-инструкций и огромных вычислительных ресурсов на тренировку (2.1million H100-часов, сопоставимо с бОльшей DeepSeek V3🤯 ). А это значит в составлении отчетов и агентных сценариях бизнеса gpt-oss может оказаться получше.
На LiveCodeBench разрыв заметнее: 69% у gpt против 79% у Qwen. Но в коде всегда стоит проверять на своих задачах — бенчмарки не гарант качества. LiveCodeBench измеряет способности к решению задач с алго интервью. Но я не нашла SWE-Bench результатов для Qwen для сравнения🥲
❔ Так что же делает их разными?
На первый взгляд, архитектуры очень похожи. Но…
🌸 Модель Qwen «глубже» — у нее 94 трансформер блока против 80 у gpt-oss. Считается, что глубокие сети могут выучить более сложные зависимости. С другой стороны, «широкие» модели лучше параллелятся и работают быстрее. Что важнее в итоге — вопрос открытый
🍀 Эксперты в MoE. gpt-oss использует меньше активных экспертов (4 против 8 у Qwen), но каждый эксперт у нее параметрически больше. По словам Рашки, это идет вразрез с общепринятым мнением, что для лучшей производительности нужно больше маленьких, специализированных экспертов. Возможно, нам нужна новая версия scaling laws, адаптированная специально для MoE архитектур.
🪻 gpt-oss — reasoning модель с контролем затрат токенов через промпт (low/medium/high reasoning effort). Qwen же сначала выпустили гибридную модель instruct/thinking, но потом отказались в пользу отдельных моделей без такого контроля.
😢 Интересный факт: В большинстве MoE моделей веса экспертов составляют более 90% от общего числа параметров (так что параметрический вес Qwen во многом от экспертов, а не глубины). OpenAI квантизирует именно их, чтобы модель поместилась на 80 GB GPU.
В посте разбираются и другие интересные детали, типо attention sink токенов для улучшения работы в long-context. В общем, очень советую к прочтению.
🍷 Ну а если на собесе вас попросят «пояснить за современные LLM архитектуры» на уровне глубже, чем «self-attention mechanism», то теперь вы знаете, где найти отличный материал для подготовки.
P.S.: Пока изучала пост, поймала себя на мысли, что моя работа с приходом эры LLM поменялась. Раньше больше ковырялась в архитектурах, подбирала функции активации, слои. А сейчас фокус сместился на данные: разработку рецептов для файн-тьюна, дизайн мульти-модальных задач и сбор оптимальных миксов для дообучения. Но понимание архитектуры все еще критично хехе
Кто-то уже гонял gpt-oss локально? Что думаете?
Вот ссылка на пост, а также на другой детальный разбор архитектур топовых LLM’ок
🔗From GPT-2 to gpt-oss: Analyzing the Architectural Advances
🔗The Big LLM Architecture Comparison
Я тут заметила, что у меня слегка замылилось представление о том, как выглядят современные топовые LLM архитектуры, и почему именно так. Все они построены на MoE трансформерах, а за перфоманс решает дата, какие-то гипер-параметры отличаются (словарь, количество слоев, голов внимания). В общем, так и есть, но еще инженеры постоянно добавляют небольшие, но важные детали, которые влияют на производительность.
В своих постах Рашка разбирает эти архитектурные детали и рассуждает о мотивации стоящей за ними. Многие решения работают в угоду удешевления и ускорения вычислений при росте масштабов. Например, замена LayerNorm на RMSNorm это ускорение вычислений на GPU до 15%. Или использование SwiGLU вместо стандартного ReLU, что дает прирост в качестве при том же кол-ве параметров.
Но вернемся к моделям
Intelligence Score от Artifical Analysis (взвешенная сумма 8 бенчей: кодинг, reasoning, математика, instruction following, long context):
Qwen-3 набирает 64, gpt-oss — 59. Значимый разрыв, но небольшой
Единственный бенч, где gpt-oss обходит конкурента — это IFBench (instruction following). Вероятно, заслуга синтетических данных-инструкций и огромных вычислительных ресурсов на тренировку (2.1million H100-часов, сопоставимо с бОльшей DeepSeek V3
На LiveCodeBench разрыв заметнее: 69% у gpt против 79% у Qwen. Но в коде всегда стоит проверять на своих задачах — бенчмарки не гарант качества. LiveCodeBench измеряет способности к решению задач с алго интервью. Но я не нашла SWE-Bench результатов для Qwen для сравнения
На первый взгляд, архитектуры очень похожи. Но…
В посте разбираются и другие интересные детали, типо attention sink токенов для улучшения работы в long-context. В общем, очень советую к прочтению.
P.S.: Пока изучала пост, поймала себя на мысли, что моя работа с приходом эры LLM поменялась. Раньше больше ковырялась в архитектурах, подбирала функции активации, слои. А сейчас фокус сместился на данные: разработку рецептов для файн-тьюна, дизайн мульти-модальных задач и сбор оптимальных миксов для дообучения. Но понимание архитектуры все еще критично хехе
Кто-то уже гонял gpt-oss локально? Что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥6👍3