В 2025 у Interspeech появилась отдельная спец‑сессия по interplretability. Направление лишь зарождается в audio и speech области, так что статьи пока на уровне scratching the surface
Текстовые модели уже на ранних слоях кодируют лингвистику, тогда как в аудио-модели на ранних слоях репрезентации сперва группируются по простым акустическим признакам (ожидаемо) — например, слова, начинающиеся со звука /dʒ/ (“judge”, “joke”), окажутся ближе друг к другу. На более поздних слоях модель делит эти кластеры и начинает различать их по смыслу: “judge” тянется к юридической тематике, “joke” — к юмору, хотя акустически они как бы стартовали одинаково.
Мультимодальные модели (omni) демонстрируют иные паттерны. Например, у SpeechT5 часть высоко-уровневых концептов начинает всплывать на ранних слоях, там своего рода аудио-лингвистический микс концептов. Практический вывод такой: у аудио‑энкодеров меньше ёмкости под абстрактные смыслы — часть параметров занята фонетикой/просодией, так что ждать текстового уровня reasoning пока рано. Финальные слои у обоих типов становятся более специфичными к задаче и теряют общую лингвистику.
Интересные наблюдения также на задаче emotion recognition. Для positive высказываний в аудио модели латентные представления получаются более компактными. Модель быстро находит акустические признаки, которые «подсказывают позитив» — это и повышенная энергия, более высокий pitch (частота), чуть ускоренный темп. Негативные паттерны в акустике выявить сложнее, они непостоянные, и там аудио модели справляются с классификацией хуже, в то время как текстовым моделям его проще ловить по лексике/отрицаниям
Реально используемый аудио моделями контекст меньше окна внимания: для питча хватает нескольких миллисекунд, для фонем десятков миллисекунд, для слов — длиннее, но всё равно ограничено. Это логично, но обычно такие рассуждения остаются на уровне интуиции. А тут авторы предложили воспроизводимую методику и метрику контекстуализации, которую можно применить к своей модели и, может быть, дропнуть длинный контекст там, где он не нужен
А в этой статье предложили метрику Layer Utilization Rate (LUR), которая показывает, какая доля нейронов в слое участвует в предсказаниях. Низшие слои аудио энкодеров, как принято считать, ответственны за простые акустические фичи, высшие уже извлекают лингвистические паттерны. Авторы трактуют это так: падение LUR в верхних слоях у больших моделей сигнализирует об избыточном масштабе. А когда небольшую модель заоверфитили к домену (парламентская речь), то на out-of-domain заметно просела утилизация нейронов на низших слоях из-за несовпадения акустических фичей. В целом, LUR можно использовать как быстрый индикатор того, подходят ли размер и данные модели задаче, но, imo, подход требует дальнейшего изучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥6👍4
На Interspeech также были survey сессии, одна из них про conversational agents от Dong Yu (Tencent AI Lab). Это хороший системный обзор современных архитектур conversational агентов, подходов к построению end-to-end и, конечно, взгляд в направлении full duplex систем. Думаю, что обзор в целом полезен и информативен, если вы строите интерактивную audio-to-audio LLM’ку, например, модель перевода речи, или комментатора игр ➖
🐝 Update: ура! удалось найти слайды презентации - 🔗 тут
Что показалось интересным:
😲 Аудио-представления: Continuous vs. Discrete
Многие модели используют continuous-in и discrete-out. На конфе встречались и статьи, в которых авторы выбирали дискретные представления аудио на входе модели, хотя по опыту (и интуитивно тоже) токенизация непрерывного по природе сигнала приводит к потере части информации.
❔ А что на счет генерации? На практике обычно работают с дискретными токенами, которы легко интегрировать в словарь LLM’ки (EnCodec, SoundStream). Мне было б еще интересно копнуть в continuous генерацию — поделитесь плиз статьями по этой теме, если знаете хорошие работы
🐾 Speech-Text Alignment
Любопытное направление — это alignment текста и аудио. Задача в том, чтоб научить LLM извлекать общие семантические концепты из речи, аудио, текста. Здесь используются разные стратегии: supervised (например, классификация звуков), contrastive learning.
Consistency learning тоже звучит интересно — идея в том, чтоб форсить пару <текст, аудио> генерировать одинаковый LLM output. Хоть и не было явно упомянуто, но одна из задач, которые предстоит решить — это способность устойчиво рассуждать на чередующихся текстовых и аудио входных контекстах. Абстрактный пример: пользователь просит модель послушать песню и сгенерить критический обзор, триггерится инструмент, модель получает текстовую метадату и аудио этой песни. Соответственно, рассуждение и ответ должны опираться и на контекст обеих модальностей.
🔗Pull It Together: Reducing the Modality Gap in Contrastive Learning - статья как раз по теме
Еще один интересный подход — Interleaving-of-Modality (чередование модальностей). Модель генерит ответ, перемешивая текстовые и аудио-токены. Это позволяет одновременно формулировать мысль (текст) и ее звуковое представление (аудио).
🎧 Full Duplex
В обзоре Dong Yu, конечно же, отмечается тренд на full-duplex системы, где модель может слушать и говорить одновременно. При этом подходы к обработке входных / выходных стримов еще пока активно исследуются. Предлагаются схемы multi-stream (тут два независимых потока) и interleaving-stream (а тут чанки потоков от пользователя и системы чередуются). Вдобавок используется speculative decoding — ускорение генерации ответа через «малую» модель‑спекулятора, еще больше сокращая время реакции.
🐱 На мой взгляд, в чем все системы еще явно отстают — это обработка нескольких говорящих, большинство систем полагается на пару пользователь-агент. А как вам этот обзор? Какие направления считаете самыми важными и перспективными?
Что показалось интересным:
Многие модели используют continuous-in и discrete-out. На конфе встречались и статьи, в которых авторы выбирали дискретные представления аудио на входе модели, хотя по опыту (и интуитивно тоже) токенизация непрерывного по природе сигнала приводит к потере части информации.
Любопытное направление — это alignment текста и аудио. Задача в том, чтоб научить LLM извлекать общие семантические концепты из речи, аудио, текста. Здесь используются разные стратегии: supervised (например, классификация звуков), contrastive learning.
Consistency learning тоже звучит интересно — идея в том, чтоб форсить пару <текст, аудио> генерировать одинаковый LLM output. Хоть и не было явно упомянуто, но одна из задач, которые предстоит решить — это способность устойчиво рассуждать на чередующихся текстовых и аудио входных контекстах. Абстрактный пример: пользователь просит модель послушать песню и сгенерить критический обзор, триггерится инструмент, модель получает текстовую метадату и аудио этой песни. Соответственно, рассуждение и ответ должны опираться и на контекст обеих модальностей.
🔗Pull It Together: Reducing the Modality Gap in Contrastive Learning - статья как раз по теме
Еще один интересный подход — Interleaving-of-Modality (чередование модальностей). Модель генерит ответ, перемешивая текстовые и аудио-токены. Это позволяет одновременно формулировать мысль (текст) и ее звуковое представление (аудио).
В обзоре Dong Yu, конечно же, отмечается тренд на full-duplex системы, где модель может слушать и говорить одновременно. При этом подходы к обработке входных / выходных стримов еще пока активно исследуются. Предлагаются схемы multi-stream (тут два независимых потока) и interleaving-stream (а тут чанки потоков от пользователя и системы чередуются). Вдобавок используется speculative decoding — ускорение генерации ответа через «малую» модель‑спекулятора, еще больше сокращая время реакции.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5👍2