Ученый без степени | AI-блог Ани – Telegram
Ученый без степени | AI-блог Ани
821 subscribers
113 photos
5 videos
77 links
📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь.

Для связи: @piunova_a
Download Telegram
Буду постепенно выкладывать хайлайты с Interspeech 2025. Конечно же, все сессии посетить не удалось, так что хайлайты будут субъективны, хех 😣

В 2025 у Interspeech появилась отдельная спец‑сессия по interplretability. Направление лишь зарождается в audio и speech области, так что статьи пока на уровне scratching the surface 😢. Работы этого года скорее дают инструменты для анализа, которые мы уже можем применить в своих задачах. И, так или иначе, лучшее понимание того, что там и как кодируют аудио модели дает нам подсказки, куда двигаться дальше в плане архитектур и рецептов тренировки

🔗From Words to Waves: Analyzing Concept Formation in Speech and Text-Based Foundation Models

Текстовые модели уже на ранних слоях кодируют лингвистику, тогда как в аудио-модели на ранних слоях репрезентации сперва группируются по простым акустическим признакам (ожидаемо) — например, слова, начинающиеся со звука /dʒ/ (“judge”, “joke”), окажутся ближе друг к другу. На более поздних слоях модель делит эти кластеры и начинает различать их по смыслу: “judge” тянется к юридической тематике, “joke” — к юмору, хотя акустически они как бы стартовали одинаково.

Мультимодальные модели (omni) демонстрируют иные паттерны. Например, у SpeechT5 часть высоко-уровневых концептов начинает всплывать на ранних слоях, там своего рода аудио-лингвистический микс концептов. Практический вывод такой: у аудио‑энкодеров меньше ёмкости под абстрактные смыслы — часть параметров занята фонетикой/просодией, так что ждать текстового уровня reasoning пока рано. Финальные слои у обоих типов становятся более специфичными к задаче и теряют общую лингвистику.

Интересные наблюдения также на задаче emotion recognition. Для positive высказываний в аудио модели латентные представления получаются более компактными. Модель быстро находит акустические признаки, которые «подсказывают позитив» — это и повышенная энергия, более высокий pitch (частота), чуть ускоренный темп. Негативные паттерны в акустике выявить сложнее, они непостоянные, и там аудио модели справляются с классификацией хуже, в то время как текстовым моделям его проще ловить по лексике/отрицаниям

🔗Effective Context in Neural Speech Models

Реально используемый аудио моделями контекст меньше окна внимания: для питча хватает нескольких миллисекунд, для фонем десятков миллисекунд, для слов — длиннее, но всё равно ограничено. Это логично, но обычно такие рассуждения остаются на уровне интуиции. А тут авторы предложили воспроизводимую методику и метрику контекстуализации, которую можно применить к своей модели и, может быть, дропнуть длинный контекст там, где он не нужен

🔗Is your model big enough? Training and interpreting large-scale monolingual speech foundation models

А в этой статье предложили метрику Layer Utilization Rate (LUR), которая показывает, какая доля нейронов в слое участвует в предсказаниях. Низшие слои аудио энкодеров, как принято считать, ответственны за простые акустические фичи, высшие уже извлекают лингвистические паттерны. Авторы трактуют это так: падение LUR в верхних слоях у больших моделей сигнализирует об избыточном масштабе. А когда небольшую модель заоверфитили к домену (парламентская речь), то на out-of-domain заметно просела утилизация нейронов на низших слоях из-за несовпадения акустических фичей. В целом, LUR можно использовать как быстрый индикатор того, подходят ли размер и данные модели задаче, но, imo, подход требует дальнейшего изучения.

📚 А что еще почитать

🟣Iterative refinement, not training objective, makes HuBERT behave differently from wav2vec 2.0
🔴Voxplorer: Voice data exploration and projection in an interactive dashboard
🔺Bringing Interpretability to Neural Audio Codecs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥6👍4
На Interspeech также были survey сессии, одна из них про conversational agents от Dong Yu (Tencent AI Lab). Это хороший системный обзор современных архитектур conversational агентов, подходов к построению end-to-end и, конечно, взгляд в направлении full duplex систем. Думаю, что обзор в целом полезен и информативен, если вы строите интерактивную audio-to-audio LLM’ку, например, модель перевода речи, или комментатора игр

🐝Update: ура! удалось найти слайды презентации - 🔗тут

Что показалось интересным:

😲 Аудио-представления: Continuous vs. Discrete

Многие модели используют continuous-in и discrete-out. На конфе встречались и статьи, в которых авторы выбирали дискретные представления аудио на входе модели, хотя по опыту (и интуитивно тоже) токенизация непрерывного по природе сигнала приводит к потере части информации.

А что на счет генерации? На практике обычно работают с дискретными токенами, которы легко интегрировать в словарь LLM’ки (EnCodec, SoundStream). Мне было б еще интересно копнуть в continuous генерацию — поделитесь плиз статьями по этой теме, если знаете хорошие работы

🐾 Speech-Text Alignment

Любопытное направление — это alignment текста и аудио. Задача в том, чтоб научить LLM извлекать общие семантические концепты из речи, аудио, текста. Здесь используются разные стратегии: supervised (например, классификация звуков), contrastive learning.

Consistency learning
тоже звучит интересно — идея в том, чтоб форсить пару <текст, аудио> генерировать одинаковый LLM output. Хоть и не было явно упомянуто, но одна из задач, которые предстоит решить — это способность устойчиво рассуждать на чередующихся текстовых и аудио входных контекстах. Абстрактный пример: пользователь просит модель послушать песню и сгенерить критический обзор, триггерится инструмент, модель получает текстовую метадату и аудио этой песни. Соответственно, рассуждение и ответ должны опираться и на контекст обеих модальностей.

🔗Pull It Together: Reducing the Modality Gap in Contrastive Learning - статья как раз по теме

Еще один интересный подход — Interleaving-of-Modality (чередование модальностей). Модель генерит ответ, перемешивая текстовые и аудио-токены. Это позволяет одновременно формулировать мысль (текст) и ее звуковое представление (аудио).

🎧 Full Duplex

В обзоре Dong Yu, конечно же, отмечается тренд на full-duplex системы, где модель может слушать и говорить одновременно. При этом подходы к обработке входных / выходных стримов еще пока активно исследуются. Предлагаются схемы multi-stream (тут два независимых потока) и interleaving-stream (а тут чанки потоков от пользователя и системы чередуются). Вдобавок используется speculative decoding — ускорение генерации ответа через «малую» модель‑спекулятора, еще больше сокращая время реакции.

🐱 На мой взгляд, в чем все системы еще явно отстают — это обработка нескольких говорящих, большинство систем полагается на пару пользователь-агент. А как вам этот обзор? Какие направления считаете самыми важными и перспективными?
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥5👍2
Пока многие text reasoning бенчмарки сатурируют, в домене audio understanding ситуация обстоит еще не очень 😭

Нашла статейку с новым аудио бенчмарком MMAU‑Pro — это 5305 отобранных реально сложных мульти-модальных задачек на ризонинг по звуку: здесь речевые QA, звуки и вопросы по ним, много музыки различных стилей, длинные записи, несколько аудио за раз (sound‑music‑speech), голосовой диалог, пространственный звук и также open ended questions

🤓 Что интересного показал бенчмарк

Топовые аудио модели пока далеки от уровня человеческого рассуждения на аудио: Gemini‑2.5 Flash лидер бенча и набирает в среднем лишь 59.2%, из открытых моделей Qwen2.5-Omni-7B 52.2%, Audio Flamingo 3 (AF3) — 51.7%. Qwen2.5‑Omni в среднем лучше на instruction following и открытых вопросах, а AF3 сильнее именно на музыке и звуках благодаря унифицированному энкодеру (Whisper-v3 + дообучение) и аудио датасетов типо AudioSkills-XL в тренировке.

😎Известно, что модели могут игнорировать аудио и опираться на general knowledge LLM’ки в ответах. Это классический вызов для аудио бенчмарков: как проверить, что модель реально слушает. Эксперимент с заменой аудио шумом показал:

🔥Qwen2.5‑Omni‑7B accuracy падает с 52.2% до 30.6% 😭
🔥AF3 — с 51.7% до 47.2%

Нуу, качество хоть и падает, но, очевидно, модели по максимуму используют текстовые подсказки, когда возможно.

Например, в вопросе “Аудио [звук] Вопрос: Что за классический инструмент играет? А) Электрогитара Б) Скрипка С) Барабаны” ответ-то можно и угадать. И авторы как раз старались минимизировать количество подобных задачек.

А вот и идея для тренировки audio-LLM: включать шумные входные данные, и тренировать модель обосновывать невозможность ответа, вместо угадывания


🤭 В вопросах с вариантами ответа если увеличить количество вариантов (дистракторов) с 3 до 10, точность тоже падает: у AF3 — с 51.4% до 37.8%, у Qwen‑7B — с 43.5% до 38.9%. Это значительно, и снова указывает на недостаточную способность эффективно использовать аудио контекст

Слабые места всех моделей это количественные рассуждения «по звуку», временные отношения (порядок, длительность), а также turn taking, сегментация и диаризация (посмотрите картинку😱). И это логично, так как аннотированных данных крайне мало, но для нас это и хорошо, ведь решать еще нерешенные проблемы веселее

Кстати, бенчмарк частично был создан в рамках воркшопа JSALT 2025. Что-то я совсем забыла про него в этом году, а ведь все сессии и презентации проектов выложен в открытый доступ на YouTube — вот тут

(А картинку сгенерила с нано-банана 😀)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥6👍5👀1