Тут вышла новая статья (пре-принт) от Kyutai
🔗 Continuous Audio Language Models
Я пока только поверхностно прочитала, нужно детальнее смотреть архитектуру и абляции, но общий подход выглядит интересно, шаг в сторону low-latency audio-LM, при этом качество генерации не падает по сравнению с дискретными моделями
😌
Я пока только поверхностно прочитала, нужно детальнее смотреть архитектуру и абляции, но общий подход выглядит интересно, шаг в сторону low-latency audio-LM, при этом качество генерации не падает по сравнению с дискретными моделями
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤4
В DLS открылась регистрация на курс по спичу! (и аудио) 🐤
Ребята подготовили мощную программу. А я там буду вести проекты в конце семестра
https://news.1rj.ru/str/deep_learning_school_news/603
Ребята подготовили мощную программу. А я там буду вести проекты в конце семестра
https://news.1rj.ru/str/deep_learning_school_news/603
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DLS — новости
🎉Это снова происходит
У нас открылась регистрация на осенний семестр 🎆. На все потоки, включая DLS: Speech. Заходите, оставляйте заявки на учебу и ждите! Стартуем уже 20ого сентября.
Форма регистрации👇
https://talent.kruzhok.org/registration?event=9573…
У нас открылась регистрация на осенний семестр 🎆. На все потоки, включая DLS: Speech. Заходите, оставляйте заявки на учебу и ждите! Стартуем уже 20ого сентября.
Форма регистрации👇
https://talent.kruzhok.org/registration?event=9573…
🔥17❤10🏆7
Все больше смотрю в сторону RL для аудио задач. На мой взгляд, это актуально для speech-to-speech: в агентах критично попасть в просодию, эмоции, лингвистический стиль, в дубляже — синхронизировать длительность с оригиналом.
Вот неплохая работа по RL в применении к аудио-LLM'кам для задач глубокого анализа аудио: 🔗Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
Авторы применили GRPO к Qwen2-Audio-7B-Instruct и Qwen-2.5-omni, обучали модели вести явные рассуждения для глубокого понимания речи, звуков, музыки.
Аудио‑LLM (как и текстовые) часто подвержены over-thinking🤔 . Поэтому авторы ввели механизм Adaptive Thinking — модели обучали «when to think» и «how to think». Тренили на аудио QA, оценивали на бенчах MMAR, MMAU, AIR — это все вопросы на глубокий анализ одного или нескольких входных аудио.
🤔 When to Think
Модель должна понимать, когда включать режим рассуждения. Авторы добавили reward за верное решение о том, когда нужно включать Adaptive Thinking механизм, при этом давали бОльшую награду, если модель верно выбирала не думать (и верно отвечала), там где не нужно думать (видимо, боролись с over-thinking)
И тут столкнулись с проблемой:😐 модель скатилась в дегенеративную политику — либо всегда think, либо наоборот. Такое происходило, когда в батче один тип вопросов превалировал, а модель выбирала лучшую краткосрочную стратегию. Эту проблему решили с помощью penalty, если один из режимов доминирует — его награду понижают, чтобы не застревать в стратегии
😬 How to Think
Далее модель начала хакать reward и генерить правильный ответ, сопровождая его не связанной с ним логикой. Например,
Проблемы не закончились. Даже если рассуждения и финальный ответ соотносились, модель могла прийти к верному ответу через некорректную логику. Пришлось добавить еще один Think reward для оценки логики. В обоих случаях Consistency & Think rewards использовали модель-судью Qwen3-8B-base
Вообще, эта статья — хроники того, с какими хаками боролись авторы на своем пути, и как они фиксили их добавлением бОльшего кол-ва ревордов
☕ А теперь результаты
⭐ В среднем больший буст от RL со всеми техниками получили speech задачи; логично, лингвистические реворды хорошо сочетаются с задачами понимания речи (до +6.7 пунктов на MMAU и до +13.5 пунктов на MMAR). Стоит отметить, что speech задачи в целом получили бОльший прирост в метриках (и от SFT), так что эффект обусловлен и природой данных
💫 SFT на цепочках chain-of-thought (CoT) не работает. Обе модели показывали ±те же рез-ты, как и базовый SFT на парах вопрос-ответ. То есть без доп. фидбэка модели не могут нормально использовать сигналы из CoT
✨ Интересно, что даже включение СоТ в паре с GRPO, где reward оценивает только корректность финального ответа не дает почти никакого эффекта по сравнению с тем же GRPO без СоТ
📖 Выводы?
Я, в целом, не очень согласна с текстовыми рассуждениями на аудио, особенно на музыке (и результаты это подтверждают). Получается, что само рассуждение происходит на уровне текста, тогда задача сперва сводится к тому, чтоб транскрибировать или формализовать аудио контент, чтобы это помогло текстовым рассуждениям выбрать верный ответ. Но оптимально ли так делать?
И авторы как раз справедливо указывают, что это нерешенная проблема — explicit reasoning процесс пока не показал преимуществ для audio QA, и эффективное использование глубокого рассуждения остается важной областью исследований
На мой взгляд стоит еще по-исследовать альтернативные не лингвистические реворды, например, reward поощряющий внимание к «верному» региону аудио, или что-то такое. А какие мысли на этот счет у вас? Если знаете классные статьи по RL для аудио задач, пишите тоже
Вот неплохая работа по RL в применении к аудио-LLM'кам для задач глубокого анализа аудио: 🔗Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
Авторы применили GRPO к Qwen2-Audio-7B-Instruct и Qwen-2.5-omni, обучали модели вести явные рассуждения для глубокого понимания речи, звуков, музыки.
Аудио‑LLM (как и текстовые) часто подвержены over-thinking
Модель должна понимать, когда включать режим рассуждения. Авторы добавили reward за верное решение о том, когда нужно включать Adaptive Thinking механизм, при этом давали бОльшую награду, если модель верно выбирала не думать (и верно отвечала), там где не нужно думать (видимо, боролись с over-thinking)
И тут столкнулись с проблемой:
Далее модель начала хакать reward и генерить правильный ответ, сопровождая его не связанной с ним логикой. Например,
<think> … the final answer is 1 </think> <answer> answer is 2 </answer>. Тогда ввели Consistency reward, чтоб оценивать насколько рассуждения согласуются с ответом (1, если согласуются, иначе 0)Проблемы не закончились. Даже если рассуждения и финальный ответ соотносились, модель могла прийти к верному ответу через некорректную логику. Пришлось добавить еще один Think reward для оценки логики. В обоих случаях Consistency & Think rewards использовали модель-судью Qwen3-8B-base
Вообще, эта статья — хроники того, с какими хаками боролись авторы на своем пути, и как они фиксили их добавлением бОльшего кол-ва ревордов
Я, в целом, не очень согласна с текстовыми рассуждениями на аудио, особенно на музыке (и результаты это подтверждают). Получается, что само рассуждение происходит на уровне текста, тогда задача сперва сводится к тому, чтоб транскрибировать или формализовать аудио контент, чтобы это помогло текстовым рассуждениям выбрать верный ответ. Но оптимально ли так делать?
И авторы как раз справедливо указывают, что это нерешенная проблема — explicit reasoning процесс пока не показал преимуществ для audio QA, и эффективное использование глубокого рассуждения остается важной областью исследований
На мой взгляд стоит еще по-исследовать альтернативные не лингвистические реворды, например, reward поощряющий внимание к «верному» региону аудио, или что-то такое. А какие мысли на этот счет у вас? Если знаете классные статьи по RL для аудио задач, пишите тоже
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥3👍2
На днях со мной поделились новой русскоязычной открытой ASR Borealis! Эт не реклама, поделились не авторы
Немного поизучала модельку на выходных, очень достойная! Обучена на ~7000 часов русской речи.
Сами авторы подчеркивают, что архитектура вдохновлена Voxtral, который мы разбирали и бенчмаркали тут. Для Voxtral я пересчитала WER на CommonVoice-RU (CV-RU) v22, сравним:
В среднем по их бенчмарку Borealis выдает 6.33%. Выглядит очень конкурентно. Более того, модель тренили предсказывать не только тексты, но и пунктуацию. Я так понимаю, просто обучали на текстах с пунктуацией (поправьте плиз, если не права)
🐰 Энкодер от Whisper-large-V3, эта модель уже видела русский, на CV-RU v22 виспер (вместе с декодером) достигает 7.51% WER
🐱 В качестве декодера взяли компактный Qwen2.5-0.5B-Instruct — это текстовая также мульти-лингвал модель на 500M параметров с контекстом до 32к токенов. Отличное решение, модель затьюнена именно для транскрибации, не так критичен мощный LLM декодер (но было б интересно long-context бенчмарки глянуть). Еще команда Mistral показала, что Transcribe версия Voxtral-Mini в которой вместо промпта в свободной форме в модель подают специальный transcribe токен + аудио фичи, несильно уступает старшей версии Voxtral-Small. Фиксированный промпт дает модели однозначный сигнал о том, что от нее требуется транскрипция, а, следовательно, модель меньше галлюцинирует
🐱 Аудио адаптер с архитектурой
Здесь поступили примерно также. Так как Qwen ожидает формат чата, то авторы зафиксировали изначальный промпт, в котором аудио фичи вставляют в user turn между спец. токенами:
🌼 Что по размерам?
Whisper encoder около 750М параметров (±половина от 1.55B), Qwen 500M, ну и пара-тройка М парам-ов адаптера. В сумме получается около 1.2В параметров. Вес чекпоинта в fp16/bf16 ~2.27 Гб, у меня на маке веса модели заняли около 3.2 Гб памяти (что-то там бэкенд еще аллоцирует на временные тензоры), потребление памяти, конечно же, растёт с длиной аудио и батчем
Детали тут
Немного поизучала модельку на выходных, очень достойная! Обучена на ~7000 часов русской речи.
Сами авторы подчеркивают, что архитектура вдохновлена Voxtral, который мы разбирали и бенчмаркали тут. Для Voxtral я пересчитала WER на CommonVoice-RU (CV-RU) v22, сравним:
Voxtral Mini-3B без нормализации 15% WER
Voxtral Mini-3B lower-cased без пунктуации 10.8% WER
Borealis (взяла с HF) 2.67% WER
В среднем по их бенчмарку Borealis выдает 6.33%. Выглядит очень конкурентно. Более того, модель тренили предсказывать не только тексты, но и пунктуацию. Я так понимаю, просто обучали на текстах с пунктуацией (поправьте плиз, если не права)
Linear -> GELU -> Linear сжимает последовательность фичей виспера в х4 раза, что (также как и у Voxtral) позволяет в теории декодить до 30-40 минут аудио (насколько модель по факту умеет в long context, не знаю)Здесь поступили примерно также. Так как Qwen ожидает формат чата, то авторы зафиксировали изначальный промпт, в котором аудио фичи вставляют в user turn между спец. токенами:
Транскрибируйте это аудио: <|start_of_audio|>…<|end_of_audio|>
Whisper encoder около 750М параметров (±половина от 1.55B), Qwen 500M, ну и пара-тройка М парам-ов адаптера. В сумме получается около 1.2В параметров. Вес чекпоинта в fp16/bf16 ~2.27 Гб, у меня на маке веса модели заняли около 3.2 Гб памяти (что-то там бэкенд еще аллоцирует на временные тензоры), потребление памяти, конечно же, растёт с длиной аудио и батчем
Детали тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Vikhr models
Vikhr Borealis - первая русскоязычная открытая audio llm
Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?
Ну и сварили. Архитектурно…
Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много данных и наработок, мы решили - чо бы не сварить asr + llm как модно?
Ну и сварили. Архитектурно…
❤6🔥6👍3❤🔥1👨💻1
Много разговоров ведется на тему того, обучается ли модель качественно новым навыкам через RL, или лучше выбирает цепочку и выдает то, что и так могла воспроизвести на pass@k. Одна из активно исследуемых идей гласит, что во время RL модель учится композиции атомарных навыков для решения комплексных задач
Вот неплохой блог-пост по теме:
А вот новая статья:
Тут авторы эмпирически демонстрируют, что на первых порах RL тренировки модели осваивают инструментарий базовых навыков, а далее переходят к обучению навыкам стратегического планирования процесса решения. Проверяли, в основном, на мат. задачках
1
Relative perplexity у execution-токенов быстро уходит в плато. Это значит, что модель становится увереннее в базовых шагах. Модель как бы сперва строит toolbox из процедурных навыков, а после перестает активно исследовать процедурные токены, и переходит к развитию «планирования»
2
Semantic diversity у planning-токенов растет, причем у более “сильных” базовых моделей это происходит сразу, минуя фазу построения toolbox’а. При этом модель не начинает повторять одни и те же паттерны, наоборот, она научается эффективно и корректно пользоваться разнообразными strategic паттернами в CoT. Параллельно с этим на тесте цепочки рассуждений модели становятся длиннее, а accuracy растет (см. картинку).
Помните статью про high/low entropy токены (
Стоит отметить, что наблюдение не универсально. Qwen вот так тренируется, но например, в Llama-3.1 8B паттерн иной. Предполагают следующее: на этапе RL уже нужна прочная база процедурных навыков, у Llama ее недостает, потому динамика нестабильна
Классический GRPO раздаёт кредит всем токенам равномерно. Тут исследователи предложили алгоритм, который дает больше веса advantage для токенов планирования
HICRA показывает стабильный прирост метрик на математических бенчах AIME24/25, Math500 и др, а также на мульти-модальном ризонинге; причем ошибки снижаются во многом за счет уменьшения ошибок планирования!
На мой взгляд подход валидный, особенно идея рассмотреть стратегические n-gram’ы, которые четче отражают динамику обучения, чем отдельные токены. Более того, есть смысл смотреть именно на semantic diversity и как оно прогрессирует, чем на энтропию токенов. Для математики ключевыми являются strategic grams, но для других задач важную семантическую функцию рассуждений будут иметь другие конструкции.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤4👍3🤔1
🔗We Can Monitor AI’s Thoughts… For Now | Google DeepMind's Neel Nanda
Это такой обширный обзор (на 3 часа) на то, что происходит сейчас в области, особенно интересно будет тем, кто, как и я, неглубоко погружен в тему.
Да, область активно развивается, есть прогресс. Один из примеров успеха интерпретируемости — извлечение новых знаний о шахматах из AlphaZero. Это позволило гроссмейстерам изучить новые стратегические концепции, которые были неочевидны для людей.
Одна из важных проблем mech interp — это отсутствие ground truth
Сегодня мы еще во многом опираемся на CoT, это как рабочая память модели, в которой она явно проходит шаги ризонинга. При этом появляются сигналы evaluation awareness, то есть некоторые модели узнают, что их тестируют, и меняют поведение. Более того, в целях оптимизации мы можем перейти от вербализованных рассуждений к латентным скрэчпадам, тогда читать мысли станет труднее.
В общем, много интересных тем подняли
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
We Can Monitor AI’s Thoughts… For Now | Google DeepMind's Neel Nanda
We don’t know how AIs think or why they do what they do. Or at least, we don’t know much. That fact is only becoming more troubling as AIs grow more capable and appear on track to wield enormous cultural influence, directly advise on major government decisions…
❤12🔥7👍4
Не походим 🔗MiMo-Audio! Когда увидела в абстракте, что Xiaomi заявляют о GPT-3 moment в своей аудио-модели, натренированной на >100М часов аудио, я подумала, что «наконец-то» и пошла читать.
Огромное кол-во данных в тренировке это ключевое, но также разработчики натренили свой аудио токенайзер, который используется для входных и выходных репрезентаций, что меня заинтересовало более всего, так что сосредоточусь на этих двух аспектах
Да, тренили на огромном объеме (подкасты, аудиокниги, новости, интервью). Распределение по языкам не сообщают (предположительно, доминируют китайский и английский). Но зато ссылаются на интересный фреймворк:
🔗AutoPrep: An Automatic Preprocessing Framework for In-the-Wild Speech Data — опенсорс для пре-процессинга и аннотации аудио данных, включает VAD, speaker segmentation c полезными трюками для фильтрации ошибочных аннотаций
В сумме в тренировку попали 3.8Т аудио токенов и примерно столько же текстовых. Именно после ~0.7T обучающих токенов авторы фиксируют «фазовый переход». А вот прикидки по другим открытым аудио моделям:
В аудио-моделях часто используют continuous эмбеддинги (Whisper) на вход, дискретные RVQ токены на выход. Получается разрыв между модальностями. MiMo-Audio предлагает единый токенайзер, натрененный с нуля на ~11М часов аудио.
Он работает по RVQ-схеме, но обучен не как обычный кодек. Здесь токены оптимизируются под две цели:
Чтобы баланс не ушёл только в семантику, авторы добавляют skip-connection: hidden states с 3-го слоя энкодера суммируют с финальным 32-м. Ранние слои лучше держат тембр/просодию, поздние — смысл. Во второй стадии через adversarial fine-tuning дотачивают декодер+вокодер. Приём не новый, но здесь его специально включают после того, как токены уже семантически годные.
Хотелось бы разные языки рассмотреть, но репортят только ZH/EN. На Seed‑TTS‑Eval (ZH/EN) MiMo‑Tokenizer при ~1.55 kbps выдает значимый прирост: EN — PESQ‑WB 2.43 (Perceptual Evaluation of Speech Quality), SIM 0.85 (сходство характеристик голоса спикера), STOI 0.92 (разборчивость). Лучше, чем Mimi, BigCodec, XY‑Tokenizer и др. (см. картинку)
Модель строится на MiMo‑7B‑Base и работает с текстом и аудио как с единой последовательностью: patch‑encoder сжимает аудио‑токены, LLM рассуждает, patch‑decoder разворачивает их обратно.
SpeechMMLU: обгоняет опенсорсных конкурентов, но самое главное — показывает минимальный разрыв между модальностями (думаю, это благодаря единым токенам). Текст и речь модель понимает почти одинаково хорошо: T2T 72.5, S2T 69.5, T2S 71.5, S2S 69.1.
MMAU-Pro: multi-modal задачи, требуется ризонинг на миксе модальностей. Здесь Mimo-Audio версии Instruct с рез-том 56.8 обгоняет опенсорсного лидера Qwen2.5 Omni (52.2), GPT-4o-Audio (52.5), приближаясь к Gemini-2.5 Flash (59.2)
На MMAU (Speech | Sound | Music): 74.9, даже выше Gemini; только свежий Qwen3-Omni ушёл чуть дальше (77.6)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3👍3
Помимо метрик посмотрела демку
Speech continuation впечатлил, особенно способность генерить речь на основе сэмпла, в котором более 2-х спикеров, при этом модель понимает их роли и голоса. На скринкасте, в сэмпле несколько говорящих, женщина и мужчина ведущие + челы на связи со студией. Они присутствуют и в сгенеренном продолжении
Еще посмотрите на CoT трейсы в audio understanding в демо примере подкаста. Модель не просто транскрибирует и описывает содержание, что было сказано, она понимает кто именно говорит, какова его роль, понимает контекст фоновых звуков
ICL
По паре примеров модель может: клонирование голоса, речевой перевод английский-китайский, изменение темпа и интонации и другое. Это классно, пока не встречала подобного в других аудио моделях. AudioPaLM демонстрировал S2T перевод на парах языков, которых не было в тренировке — это было; в SALM применяли in-context training чтоб бустить сложные словечки в ASR. Например: твоя задача транскрибировать речь, в ней могут попасться слова: gtc, nvidia, … <аудио>. Но настоящего ICL не видела еще
🥹 Вопросы к вам: считаете ли вы, что единый токенайзер это правильный путь? И какие абляции вы бы посмотрели?
Speech continuation впечатлил, особенно способность генерить речь на основе сэмпла, в котором более 2-х спикеров, при этом модель понимает их роли и голоса. На скринкасте, в сэмпле несколько говорящих, женщина и мужчина ведущие + челы на связи со студией. Они присутствуют и в сгенеренном продолжении
Еще посмотрите на CoT трейсы в audio understanding в демо примере подкаста. Модель не просто транскрибирует и описывает содержание, что было сказано, она понимает кто именно говорит, какова его роль, понимает контекст фоновых звуков
ICL
По паре примеров модель может: клонирование голоса, речевой перевод английский-китайский, изменение темпа и интонации и другое. Это классно, пока не встречала подобного в других аудио моделях. AudioPaLM демонстрировал S2T перевод на парах языков, которых не было в тренировке — это было; в SALM применяли in-context training чтоб бустить сложные словечки в ASR. Например: твоя задача транскрибировать речь, в ней могут попасться слова: gtc, nvidia, … <аудио>. Но настоящего ICL не видела еще
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5👍3
🎙У Дваркеша Пателя вышел часовой 🔗подкаст с Ричардом Саттоном. Интересно послушать, еще и потому, что это диалог двух абсолютно разных точек зрения на будущее развитие AI.
🐹 Ричард Саттон считается одним из «отцов» RL, его идеи сильно повлияли на развитие направления; в частности на переход от теории к практическому применению (TD learning, policy gradients, actor-critic модель и др.) Также Саттон является автором широко-цитируемого эссе «The bitter lesson», основная идея которого — наблюдение о том, что за 70+ лет в AI прорывы снова и снова делали общие методы, которые хорошо масштабируются с ростом вычислений, а вовсе не доменные знания.
🐹 Саттон убежден, что LLM’ки — это не путь к сильному AI, а нужен нам переход к агентам, которые учатся из опыта и с обратной связью от мира. LLM же учатся имитировать тексты сгенеренные человеком, и им не достает общего понимания мира. Модели оптимизируют next token prediction, а потому они не имеют внешней цели. Саттон также категорически не согласен с имитационным обучением, так как считает, что имитация не является фундаментальным подходом к обучению у живых существ. Более того, имитация не гарантирует обобщаемости (generalisation), то есть модель может выполнять верно ту задачу, данные которой видела во время тренировки, а вот knowledge transfer под вопросом
🐹 Дваркеш же защищает идею о том, что LLM’ки могут служить хорошей точкой старта для агентов и последующего до-обучения в среде через RL
Тем не менее оба сходятся на необходимости перехода от train → deploy к парадигме continual learning. (думаю, мало кто не согласен с этой идеей)
🐈 Немного размышлений:
В процессе обучения LLM’ки учат концепты и отношения между объектами реального мира через язык, и таким образом формируют внутреннюю модель мира (эта идея мне очень близка, и хорошо описана тут). Выученные представления неполны, они пропущены через призму языка, что может стать стать ловушкой. Тем не менее, на мой взгляд, существует множество абстрактных когнитивных задач, которые уже определены в пространстве языка: математика, бизнес задачи, программирование. Это абстрактные проблемы, формализованные через язык. Стоит ли отказываться от LLM как prior и интерфейс рассуждений в подобных задачах?
Что касается обучения через имитацию, здесь тоже есть о чем подумать. Что, если имитация — это не dead end, а своего рода шорткат, который позволяет ускорить обучение вместо прохождения пути trial and error с полного нуля.🐈 В подкасте Дваркеш приводит пример передачи культурных навыков через имитацию. Представьте, сколько времени бы потребовалось на освоение навыка охоты или выращивания клубники без имитации?
В общем, интересный разговор, и триггерит множество мыслей
А что думаете вы? Где для вас проходит граница между ICL и настоящим обучением из опыта?
Тем не менее оба сходятся на необходимости перехода от train → deploy к парадигме continual learning. (думаю, мало кто не согласен с этой идеей)
В процессе обучения LLM’ки учат концепты и отношения между объектами реального мира через язык, и таким образом формируют внутреннюю модель мира (эта идея мне очень близка, и хорошо описана тут). Выученные представления неполны, они пропущены через призму языка, что может стать стать ловушкой. Тем не менее, на мой взгляд, существует множество абстрактных когнитивных задач, которые уже определены в пространстве языка: математика, бизнес задачи, программирование. Это абстрактные проблемы, формализованные через язык. Стоит ли отказываться от LLM как prior и интерфейс рассуждений в подобных задачах?
Что касается обучения через имитацию, здесь тоже есть о чем подумать. Что, если имитация — это не dead end, а своего рода шорткат, который позволяет ускорить обучение вместо прохождения пути trial and error с полного нуля.
В общем, интересный разговор, и триггерит множество мыслей
А что думаете вы? Где для вас проходит граница между ICL и настоящим обучением из опыта?
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Richard Sutton – Father of RL thinks LLMs are a dead end
Richard Sutton is the father of reinforcement learning, winner of the 2024 Turing Award, and author of The Bitter Lesson. And he thinks LLMs are a dead end. After interviewing him, my steel man of Richard’s position is this: LLMs aren’t capable of learning…
🔥10❤7👍3
IOAI — это International Olympiad in Artificial Intelligence, олимпиада по AI для школьников 🐹
Во 2-й раз IOAI была проведена в этом году в Пекине, но ребята-организаторы уже готовятся к следующему году
В следующем году впервые появится секция по аудио и речи💃
Можно придумать и засабмитить задачки или даже вступить в оргкомитет
Подробности тут у Жени🤩
Во 2-й раз IOAI была проведена в этом году в Пекине, но ребята-организаторы уже готовятся к следующему году
В следующем году впервые появится секция по аудио и речи
Можно придумать и засабмитить задачки или даже вступить в оргкомитет
Подробности тут у Жени
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
tsymba❤️
- Открылся набор задач: в ближайшую пару месяцев (или больше при желании) можно засабмитить идею или полноценную задачу тут. Лучшие поедут в Абу-Даби в следующем году и смогут посмотреть на страдания студентов воочию!✨
- Мы начинаем квн расширяем комитет!…
- Мы начинаем квн расширяем комитет!…
❤4🔥3👍2
Тык, сегодня снова про аудио тех
🔗FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training
Голосовой ассистент, который одновременно слушает и говорит, моментально замолкает при перебивании, поддакивает "угу". Это full-duplex модели, и их пока можно пересчитать по пальцам, а ведь Moshi вышла уже год назад. Потому что одновременно слушать и говорить — технически не очень просто.
Большинство (около-)дуплексных моделей используют Time Division Multiplexing: контекст это чередующиеся чанки того, что говорит пользователь, что отвечает модель, и текст ответа.
Kyutai Labs в Moshi предложили native full-duplex — она моделирует три потока параллельно: входное аудио пользователя, своё выходное аудио и текстовый inner-monologue.
Но есть сложность: текст и аудио имеют разные частоты. Одно слово произносится за ~300ms, а аудио кодек / энкодер выдает порядка ~100 токенов в секунду (зависит, но сильно больше чем кол-во слов). Их нужно синхронизировать.
Moshi выравнивает текст на уровне слов: для каждого слова создаётся временная метка, и текст растягивается pad-токенами. Получается:
Привет <pad> <pad> <pad> <pad> как <pad> <pad> дела <pad> <pad>Значительная часть текстового потока становится шумом. LLM моделирует язык на последовательности, где много токенов ничего не значат. При таком подходе Moshi проактивно отвечает, но становится слабее как языковая модель
В FLM-Audio предложили идею: а что если выравнивать текст и аудио на уровне предложений, а не слов?
Inner-monologue генерится как непрерывный текст, опережая аудио на ~2 токена. Модель думает полными предложениями и сразу говорит. Пока аудио заканчивает генерацию, текстовый канал заполняется
<wait> токенами. Для понимания речи есть Follow Mode, где монолог следует за аудио (ASR режим). Тут нужны только транскрипции предложений, без временных меток слов.Что и как тренировали?
Основа это Qwen-2.5-VL (7B), RQ-Transformer для аудио, Mimi кодек. Три канала эмбеддингов объединяются на каждом шаге, LLM генерит hidden states, из которых одна голова производит текст, а depth transformer 8 аудио токенов (все похоже на Moshi).
Обучение в четыре стадии. Post-training на ~1М часов (у Moshi было 7М) с dual-форматом: Lead (TTS режим, текст опережает аудио генерацию на ~2 токена) и Follow (ASR режим, текст после аудио). Затем supervised fine-tuning: сначала semi-duplex, потом full-duplex с симуляцией прерываний.
Результаты лучше Moshi, но есть вопросики
Похожую идею отказа от строгого word-level выравнивания уже предлагали в SALM-Duplex (вот разбор), но её не сравнивают. Это странно: SALM-Duplex показала 94.5% успешных прерываний против 55.1% у Moshi при 1.1B парам-ов и всего 26.5k часов данных.
Ну и выводы такие..
Natural monologues решают проблему с padding'ом. Результаты по ASR это подтверждают, субъективные оценки положительные. Но без объективных метрик full-duplex способностей трудно оценить, действительно ли FLM-Audio лучше. Отсутствие сравнения с SALM-Duplex — это прям упущение.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5👍4