NEW BOT Телеграм, страница

👻

Как с помощью простых методов интерпретируемости и на данных почти без разметки понять, что ваша ASR модель галлюцинирует?

На практике ASR модели иногда выдают не лишенный смысла текст там, где в аудио шумно или тишина, а иногда подменяет слова в транскрипции, ломая семантику. Авторы статьи 🔗Beyond Trannoscription: Mechanistic Interpretability in ASR перенесли в речь простые техники из интерпретируемости LLM и показали, как предсказывать галлюцинации по внутренним представлениям Whisper и Qwen2‑Audio с точностью до 93%

🥹

Что удалось «снять» с внутренних представлений

Методом probing проверили, какие слои энкодера Whisper наиболее информативны для предсказания пола говорящего, акцента, акустических условий (чисто или шумно), а также того, есть ли речь на входе (или это другой звук).

Работает так: ✏ прогоняем аудио через натрененный энкодер, на выходах разных слоёв обучаем линейный классификатор. Если он успешно различает категории — значит, модель уже разложила эту информацию внутри себя. К 25–27-му слою Whisper уже линейно разделяет акцент с точностью ≈97%, определяет гендер говорящего на ≈94% и до 90% отличает чистую речь от шума.

Ожидаемо, что к верхним слоям энкодер выучит такие представления, ведь Whisper тренили на многоязычных задачах — транскрипция, перевод, классификация речи, определение языка.

🌷Но ценность здесь в том, что достаточно линейного разделителя. Модель не училась явно на акценты — это побочный продукт обучения, но она разместила информацию так компактно, что её легко извлечь. В applied-задачах пробинг часто используют, чтобы выбрать оптимальный слой энкодера под вашу задачу, например сегментацию или верификацию спикеров.

👻

Детектим галлюцинации на лету

Оказалось, что по активациям 22-го слоя декодера на последнем токене (!) можно с точностью 93.4% предсказать, галлюцинирует модель или нет. Для Qwen2‑Audio точность ниже, но закономерность слоев та же. Дополнительно, по тем же активациям легко отличать речь/не речь — в Whisper это вообще 100% точности на широком диапазоне слоев. Хороший сигнал, чтобы помечать подозрительные участки стрима без VAD‑модели.

👓

Encoder Lens

А что, если остановить работу энкодера на любом слое и сразу передать результат декодеру. Эта техника как раз называется encoder lens. Что получаем в экспериментах над Whisper?

🤍С нижних слоёв (0-22): получаем пустоту или обрывки слов. Декодер ещё не понимает, что слышит
🤎Слои 20-27 — осмысленный, но неверный текст. Начало может совпадать с аудио, а дальше несуразица
🩵Предпоследние слои (27-30) — зацикливание, классические галлюцинации
🤍Только финальные слои (31-32) дают корректную транскрипцию

А вот Qwen2-Audio ведёт себя иначе. Нижние слои почти всегда приводят к выдаче одной заученной фразы («Kids are talking by the door»), независимо от языка или входного аудио. Когда модель не уверена — она просто цитирует что-то из тренировочных данных. Вот и тест на меморизацию

Также, в статье нашла ссылку на 🔗блог-пост (аж от 2023 года), где показывают, как конкретные нейроны MLP слоев Whisper’а активируются на определенные фонемы в аудио (даже демку можно послушать, звучит прикольно)

Вообще, мне нравится такое прикладное направление интерпретируемости, которое помогает отлаживать модель в проде, делая ее ответы более предсказуемыми

❤А как вам статья? Поделитесь плиз, как на ваш взгляд, валидны и полезны ли выводы авторов?

Please open Telegram to view this post