Пока многие text reasoning бенчмарки сатурируют, в домене audio understanding ситуация обстоит еще не очень 😭
Нашла статейку с новым аудио бенчмарком ✨MMAU‑Pro — это 5305 отобранных реально сложных мульти-модальных задачек на ризонинг по звуку: здесь речевые QA, звуки и вопросы по ним, много музыки различных стилей, длинные записи, несколько аудио за раз (sound‑music‑speech), голосовой диалог, пространственный звук и также open ended questions
🤓 Что интересного показал бенчмарк
Топовые аудио модели пока далеки от уровня человеческого рассуждения на аудио: Gemini‑2.5 Flash лидер бенча и набирает в среднем лишь 59.2%, из открытых моделей Qwen2.5-Omni-7B 52.2%, Audio Flamingo 3 (AF3) — 51.7%. Qwen2.5‑Omni в среднем лучше на instruction following и открытых вопросах, а AF3 сильнее именно на музыке и звуках благодаря унифицированному энкодеру (Whisper-v3 + дообучение) и аудио датасетов типо AudioSkills-XL в тренировке.
😎 Известно, что модели могут игнорировать аудио и опираться на general knowledge LLM’ки в ответах. Это классический вызов для аудио бенчмарков: как проверить, что модель реально слушает. Эксперимент с заменой аудио шумом показал:
🔥 Qwen2.5‑Omni‑7B accuracy падает с 52.2% до 30.6% 😭
🔥 AF3 — с 51.7% до 47.2%
Нуу, качество хоть и падает, но, очевидно, модели по максимуму используют текстовые подсказки, когда возможно.
Например, в вопросе “Аудио [звук] Вопрос: Что за классический инструмент играет? А) Электрогитара Б) Скрипка С) Барабаны” ответ-то можно и угадать. И авторы как раз старались минимизировать количество подобных задачек.
🤭 В вопросах с вариантами ответа если увеличить количество вариантов (дистракторов) с 3 до 10, точность тоже падает: у AF3 — с 51.4% до 37.8%, у Qwen‑7B — с 43.5% до 38.9%. Это значительно, и снова указывает на недостаточную способность эффективно использовать аудио контекст
‼ Слабые места всех моделей это количественные рассуждения «по звуку», временные отношения (порядок, длительность), а также turn taking, сегментация и диаризация (посмотрите картинку😱 ). И это логично, так как аннотированных данных крайне мало, но для нас это и хорошо, ведь решать еще нерешенные проблемы веселее
Кстати, бенчмарк частично был создан в рамках воркшопа JSALT 2025. Что-то я совсем забыла про него в этом году, а ведь все сессии и презентации проектов выложен в открытый доступ на YouTube — вот тут
(А картинку сгенерила с нано-банана😀 )
Нашла статейку с новым аудио бенчмарком ✨MMAU‑Pro — это 5305 отобранных реально сложных мульти-модальных задачек на ризонинг по звуку: здесь речевые QA, звуки и вопросы по ним, много музыки различных стилей, длинные записи, несколько аудио за раз (sound‑music‑speech), голосовой диалог, пространственный звук и также open ended questions
Топовые аудио модели пока далеки от уровня человеческого рассуждения на аудио: Gemini‑2.5 Flash лидер бенча и набирает в среднем лишь 59.2%, из открытых моделей Qwen2.5-Omni-7B 52.2%, Audio Flamingo 3 (AF3) — 51.7%. Qwen2.5‑Omni в среднем лучше на instruction following и открытых вопросах, а AF3 сильнее именно на музыке и звуках благодаря унифицированному энкодеру (Whisper-v3 + дообучение) и аудио датасетов типо AudioSkills-XL в тренировке.
Нуу, качество хоть и падает, но, очевидно, модели по максимуму используют текстовые подсказки, когда возможно.
Например, в вопросе “Аудио [звук] Вопрос: Что за классический инструмент играет? А) Электрогитара Б) Скрипка С) Барабаны” ответ-то можно и угадать. И авторы как раз старались минимизировать количество подобных задачек.
А вот и идея для тренировки audio-LLM: включать шумные входные данные, и тренировать модель обосновывать невозможность ответа, вместо угадывания
Кстати, бенчмарк частично был создан в рамках воркшопа JSALT 2025. Что-то я совсем забыла про него в этом году, а ведь все сессии и презентации проектов выложен в открытый доступ на YouTube — вот тут
(А картинку сгенерила с нано-банана
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥6👍5👀1
На практике ASR модели иногда выдают не лишенный смысла текст там, где в аудио шумно или тишина, а иногда подменяет слова в транскрипции, ломая семантику. Авторы статьи
Методом probing проверили, какие слои энкодера Whisper наиболее информативны для предсказания пола говорящего, акцента, акустических условий (чисто или шумно), а также того, есть ли речь на входе (или это другой звук).
Работает так:
Ожидаемо, что к верхним слоям энкодер выучит такие представления, ведь Whisper тренили на многоязычных задачах — транскрипция, перевод, классификация речи, определение языка.
Оказалось, что по активациям 22-го слоя декодера на последнем токене (!) можно с точностью 93.4% предсказать, галлюцинирует модель или нет. Для Qwen2‑Audio точность ниже, но закономерность слоев та же. Дополнительно, по тем же активациям легко отличать речь/не речь — в Whisper это вообще 100% точности на широком диапазоне слоев. Хороший сигнал, чтобы помечать подозрительные участки стрима без VAD‑модели.
А что, если остановить работу энкодера на любом слое и сразу передать результат декодеру. Эта техника как раз называется encoder lens. Что получаем в экспериментах над Whisper?
А вот Qwen2-Audio ведёт себя иначе. Нижние слои почти всегда приводят к выдаче одной заученной фразы («Kids are talking by the door»), независимо от языка или входного аудио. Когда модель не уверена — она просто цитирует что-то из тренировочных данных. Вот и тест на меморизацию
Также, в статье нашла ссылку на
Вообще, мне нравится такое прикладное направление интерпретируемости, которое помогает отлаживать модель в проде, делая ее ответы более предсказуемыми
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍6🔥5
Вчера на собесе с кандидатом мы покопались в дизайне механизмов внимания. У него был опыт оптимизации обучения трансформеров — ну и я подумала, почему бы не обсудить attention, в том числе sliding‑window attention (SWA). SWA — это такой вид «локального» внимания, где каждый токен смотрит лишь на последние W токенов. Поэтому сложность падает с
O(n^2) до O(n * W), что эффективно по вычислениям и приятно для длинных контекстов. Интуитивно: если у нас L слоев, то охват скейлится как L * W. На практике же «полезное окно» гораздо меньше: как только нужный фрагмент вываливается за окно (и из KV кэша), модель часто не видит его. Оттого часто это локальное внимание комбинируют с глобальным, несколько слоев локального, потом глобальный. Так, например, в Gemma 3 блоки чередуют 5 локальных слоёв с 1 глобальным (локальное окно 1024)
Глубже с кандидатом в это тему не пошли, но зато потом я нашла вот этот
Даже если представить, что каждый токен имеет равное влияние
1/W в текущем окне, то проходя через несколько слоев, это влияние оказывается распределено совсем неравномерно (как «скользящее среднее» по W позициям). Информация из далекого токена проходит через несколько разных маршрутов внутри окон внимания предыдущих слоев, чтоб оказать влияние на текущий токен. Эти маршруты суммируются как шаги случайного блуждания (см. на картинке theoretical information propagation).Если слоёв много, мы итеративно усредняем уже усреднённое. Поведение такого процесса описывается центральной предельной теоремой: многократная «свёртка» равномерного окна превращает профиль влияния прошлых токенов в гауссовский колокол. А ширина этого колокола скейлится сообразно корню из глубины сетки
sqrt(L) * W, а вовсе не L * W. Интересно еще, что внутри каждого окна максимальный вклад дают не крайние позиции, а середина доступного диапазона — края «смываются» очередными усреднениями.В реальных трансформерах есть не только внимание, но и residual connections. Упрощённо, выход слоя это сумма residual (с большим весом alpha) и внимания (с маленьким весом 1 - alpha). Тут alpha это не реальный параметр, а эффективная доля резидуала в смеси «residual + attention» после нормализации (наблюдаемое соотношение вкладов путей).
Это стабилизирует обучение, но создает жесткий барьер: чтобы сигнал перепрыгнул дальше окна, ему нужно многократно идти через слабую ветку внимания, а она экспоненциально гасит вклад. В итоге эффективный горизонт почти не зависит от глубины и оценивается примерно как
1.5 * W (при типичных alpha), что сильно расходится с интуитивной оценкой.Получается, то, что делает трансформеры стабильными в обучении (residual connections), одновременно ограничивает их способность видеть далеко назад. Это объясняет, почему многие успешные long-context модели используют гибридные архитектуры, сочетая эффективность SWA с периодическими слоями полного внимания.
Кстати, автор поста — это автор статьи про attention sink:
Нашла у него
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥9👍4
Рассказала, как пришла в ML, чем занимаюсь в Амазоне и одну забавную историю хехе
Пост тут: https://news.1rj.ru/str/n_it_girls/492
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
N айтишниц заходят в бар
На этой неделе #Типичный_айтишник у нас в гостях - Аня, и она обучает машины понимать и переводить речь.🤖
Кто ты и что делаешь?
Я — Аня Пиунова, Applied Scientist в Амазоне с 2019 года. Тренирую LLMки для дубляжа фильмов и подкастов вот уже 2 года. А до…
Кто ты и что делаешь?
Я — Аня Пиунова, Applied Scientist в Амазоне с 2019 года. Тренирую LLMки для дубляжа фильмов и подкастов вот уже 2 года. А до…
❤25🔥10
Несколько лет назад я плотно занималась continual learning для языковых моделей. Хотелось не переучивать модель с нуля в каждом релизе Алексы, а немного до-обучать: новые артисты, новая лексика. Тогда go-to подходом был простой микс «старых» данных, иначе модель охотно забывала базу, также применялись методы ограничивающие отклонение «важных» весов. И это во времена, когда большими считались языковые модели 1В
Проблема актуальна и сегодня, на модельках калибра 8–20B уж точно. А в перспективе мы бы хотели иметь само-обучающихся в среде агентов, которые не теряют базовые навыки. И, вроде бы, решение лежит на поверхности — пост‑тренинг через RL, а не SFT
RL даже без явной KL‑регуляризации даёт сопоставимую с SFT точность на новой задаче и заметно меньше забывает «старые» таски
Они сравнили переменные, которые ранее связывали с забыванием (изменения весов, внутренних активаций), посчитали корреляцию и сформулировали проблему забывания именно как проблему сдвига output distribution модели. Даже изменение весов модели меньше коррелирует с забыванием (тоже см. скрин).
Интуитивно, RL как бы и должен давать минимальный сдвиг output distribution, и вот почему
Возьмем GRPO для примера. Он учится на собственных выборках. Модель генерит пачку кандидатов, мы вознаграждаем удачные, и слегка перераспределяем вероятности внутри того, что модель уже считала правдоподобным. Это мягкий локальный сдвиг. И дело тут именно в on‑policy характере обучения; методы с негативными примеры сгенеренными внешней моделью супервайзером (SimPO) ведут себя больше как SFT.
А вот SFT это off‑policy обучение. Cross-entropy учится на последовательности one-hot векторов, то есть модель подталкивают к дословному воспроизведению цепочки. На этапе pre-train это оправдано: модель должна научиться воспроизводить текст, чтобы освоить язык и логику построения цепочек. Но в post‑training модель уже знает, как формулировать. One‑hot сужает пространство валидных решений и чаще уводит распределение далеко от начальной политики.
И все бы ничего, берем RL и треним
Тут авторы задались вопросом: а можно ли спроектировать SFT так, чтобы он тоже минимально сдвигал распределение?
В игрушечном эксперименте они заменили one-hot цели на soft-targets на базе исходной модели: оставили вероятности только для правильных ответов и нормализовали.
И это, на мой взгляд, самые главные инсайты
В общем работа хороша, но открытые вопросы остаются. В toy-эксперименте soft‑targets построить легко, а вот как системно проектировать такие цели в реальных задачах? И можно ли придумать простую SFT‑подобную оптимизацию, которая автоматически реализует принцип RL’s Razor?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤6👍4
Тут вышла новая статья (пре-принт) от Kyutai
🔗 Continuous Audio Language Models
Я пока только поверхностно прочитала, нужно детальнее смотреть архитектуру и абляции, но общий подход выглядит интересно, шаг в сторону low-latency audio-LM, при этом качество генерации не падает по сравнению с дискретными моделями
😌
Я пока только поверхностно прочитала, нужно детальнее смотреть архитектуру и абляции, но общий подход выглядит интересно, шаг в сторону low-latency audio-LM, при этом качество генерации не падает по сравнению с дискретными моделями
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤4
В DLS открылась регистрация на курс по спичу! (и аудио) 🐤
Ребята подготовили мощную программу. А я там буду вести проекты в конце семестра
https://news.1rj.ru/str/deep_learning_school_news/603
Ребята подготовили мощную программу. А я там буду вести проекты в конце семестра
https://news.1rj.ru/str/deep_learning_school_news/603
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DLS — новости
🎉Это снова происходит
У нас открылась регистрация на осенний семестр 🎆. На все потоки, включая DLS: Speech. Заходите, оставляйте заявки на учебу и ждите! Стартуем уже 20ого сентября.
Форма регистрации👇
https://talent.kruzhok.org/registration?event=9573…
У нас открылась регистрация на осенний семестр 🎆. На все потоки, включая DLS: Speech. Заходите, оставляйте заявки на учебу и ждите! Стартуем уже 20ого сентября.
Форма регистрации👇
https://talent.kruzhok.org/registration?event=9573…
🔥17❤10🏆7
Все больше смотрю в сторону RL для аудио задач. На мой взгляд, это актуально для speech-to-speech: в агентах критично попасть в просодию, эмоции, лингвистический стиль, в дубляже — синхронизировать длительность с оригиналом.
Вот неплохая работа по RL в применении к аудио-LLM'кам для задач глубокого анализа аудио: 🔗Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
Авторы применили GRPO к Qwen2-Audio-7B-Instruct и Qwen-2.5-omni, обучали модели вести явные рассуждения для глубокого понимания речи, звуков, музыки.
Аудио‑LLM (как и текстовые) часто подвержены over-thinking🤔 . Поэтому авторы ввели механизм Adaptive Thinking — модели обучали «when to think» и «how to think». Тренили на аудио QA, оценивали на бенчах MMAR, MMAU, AIR — это все вопросы на глубокий анализ одного или нескольких входных аудио.
🤔 When to Think
Модель должна понимать, когда включать режим рассуждения. Авторы добавили reward за верное решение о том, когда нужно включать Adaptive Thinking механизм, при этом давали бОльшую награду, если модель верно выбирала не думать (и верно отвечала), там где не нужно думать (видимо, боролись с over-thinking)
И тут столкнулись с проблемой:😐 модель скатилась в дегенеративную политику — либо всегда think, либо наоборот. Такое происходило, когда в батче один тип вопросов превалировал, а модель выбирала лучшую краткосрочную стратегию. Эту проблему решили с помощью penalty, если один из режимов доминирует — его награду понижают, чтобы не застревать в стратегии
😬 How to Think
Далее модель начала хакать reward и генерить правильный ответ, сопровождая его не связанной с ним логикой. Например,
Проблемы не закончились. Даже если рассуждения и финальный ответ соотносились, модель могла прийти к верному ответу через некорректную логику. Пришлось добавить еще один Think reward для оценки логики. В обоих случаях Consistency & Think rewards использовали модель-судью Qwen3-8B-base
Вообще, эта статья — хроники того, с какими хаками боролись авторы на своем пути, и как они фиксили их добавлением бОльшего кол-ва ревордов
☕ А теперь результаты
⭐ В среднем больший буст от RL со всеми техниками получили speech задачи; логично, лингвистические реворды хорошо сочетаются с задачами понимания речи (до +6.7 пунктов на MMAU и до +13.5 пунктов на MMAR). Стоит отметить, что speech задачи в целом получили бОльший прирост в метриках (и от SFT), так что эффект обусловлен и природой данных
💫 SFT на цепочках chain-of-thought (CoT) не работает. Обе модели показывали ±те же рез-ты, как и базовый SFT на парах вопрос-ответ. То есть без доп. фидбэка модели не могут нормально использовать сигналы из CoT
✨ Интересно, что даже включение СоТ в паре с GRPO, где reward оценивает только корректность финального ответа не дает почти никакого эффекта по сравнению с тем же GRPO без СоТ
📖 Выводы?
Я, в целом, не очень согласна с текстовыми рассуждениями на аудио, особенно на музыке (и результаты это подтверждают). Получается, что само рассуждение происходит на уровне текста, тогда задача сперва сводится к тому, чтоб транскрибировать или формализовать аудио контент, чтобы это помогло текстовым рассуждениям выбрать верный ответ. Но оптимально ли так делать?
И авторы как раз справедливо указывают, что это нерешенная проблема — explicit reasoning процесс пока не показал преимуществ для audio QA, и эффективное использование глубокого рассуждения остается важной областью исследований
На мой взгляд стоит еще по-исследовать альтернативные не лингвистические реворды, например, reward поощряющий внимание к «верному» региону аудио, или что-то такое. А какие мысли на этот счет у вас? Если знаете классные статьи по RL для аудио задач, пишите тоже
Вот неплохая работа по RL в применении к аудио-LLM'кам для задач глубокого анализа аудио: 🔗Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
Авторы применили GRPO к Qwen2-Audio-7B-Instruct и Qwen-2.5-omni, обучали модели вести явные рассуждения для глубокого понимания речи, звуков, музыки.
Аудио‑LLM (как и текстовые) часто подвержены over-thinking
Модель должна понимать, когда включать режим рассуждения. Авторы добавили reward за верное решение о том, когда нужно включать Adaptive Thinking механизм, при этом давали бОльшую награду, если модель верно выбирала не думать (и верно отвечала), там где не нужно думать (видимо, боролись с over-thinking)
И тут столкнулись с проблемой:
Далее модель начала хакать reward и генерить правильный ответ, сопровождая его не связанной с ним логикой. Например,
<think> … the final answer is 1 </think> <answer> answer is 2 </answer>. Тогда ввели Consistency reward, чтоб оценивать насколько рассуждения согласуются с ответом (1, если согласуются, иначе 0)Проблемы не закончились. Даже если рассуждения и финальный ответ соотносились, модель могла прийти к верному ответу через некорректную логику. Пришлось добавить еще один Think reward для оценки логики. В обоих случаях Consistency & Think rewards использовали модель-судью Qwen3-8B-base
Вообще, эта статья — хроники того, с какими хаками боролись авторы на своем пути, и как они фиксили их добавлением бОльшего кол-ва ревордов
Я, в целом, не очень согласна с текстовыми рассуждениями на аудио, особенно на музыке (и результаты это подтверждают). Получается, что само рассуждение происходит на уровне текста, тогда задача сперва сводится к тому, чтоб транскрибировать или формализовать аудио контент, чтобы это помогло текстовым рассуждениям выбрать верный ответ. Но оптимально ли так делать?
И авторы как раз справедливо указывают, что это нерешенная проблема — explicit reasoning процесс пока не показал преимуществ для audio QA, и эффективное использование глубокого рассуждения остается важной областью исследований
На мой взгляд стоит еще по-исследовать альтернативные не лингвистические реворды, например, reward поощряющий внимание к «верному» региону аудио, или что-то такое. А какие мысли на этот счет у вас? Если знаете классные статьи по RL для аудио задач, пишите тоже
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥3👍2