NEW BOT Телеграм, страница

Ученый без степени | AI-блог Ани

Пока многие text reasoning бенчмарки сатурируют, в домене audio understanding ситуация обстоит еще не очень 😭

Нашла статейку с новым аудио бенчмарком ✨MMAU‑Pro — это 5305 отобранных реально сложных мульти-модальных задачек на ризонинг по звуку: здесь речевые QA, звуки и вопросы по ним, много музыки различных стилей, длинные записи, несколько аудио за раз (sound‑music‑speech), голосовой диалог, пространственный звук и также open ended questions

🤓

Что интересного показал бенчмарк

Топовые аудио модели пока далеки от уровня человеческого рассуждения на аудио: Gemini‑2.5 Flash лидер бенча и набирает в среднем лишь 59.2%, из открытых моделей Qwen2.5-Omni-7B 52.2%, Audio Flamingo 3 (AF3) — 51.7%. Qwen2.5‑Omni в среднем лучше на instruction following и открытых вопросах, а AF3 сильнее именно на музыке и звуках благодаря унифицированному энкодеру (Whisper-v3 + дообучение) и аудио датасетов типо AudioSkills-XL в тренировке.

😎Известно, что модели могут игнорировать аудио и опираться на general knowledge LLM’ки в ответах. Это классический вызов для аудио бенчмарков: как проверить, что модель реально слушает. Эксперимент с заменой аудио шумом показал:

🔥Qwen2.5‑Omni‑7B accuracy падает с 52.2% до 30.6% 😭
🔥AF3 — с 51.7% до 47.2%

Нуу, качество хоть и падает, но, очевидно, модели по максимуму используют текстовые подсказки, когда возможно.

Например, в вопросе “Аудио [звук] Вопрос: Что за классический инструмент играет? А) Электрогитара Б) Скрипка С) Барабаны” ответ-то можно и угадать. И авторы как раз старались минимизировать количество подобных задачек.

А вот и идея для тренировки audio-LLM: включать шумные входные данные, и тренировать модель обосновывать невозможность ответа, вместо угадывания

🤭 В вопросах с вариантами ответа если увеличить количество вариантов (дистракторов) с 3 до 10, точность тоже падает: у AF3 — с 51.4% до 37.8%, у Qwen‑7B — с 43.5% до 38.9%. Это значительно, и снова указывает на недостаточную способность эффективно использовать аудио контекст

‼ Слабые места всех моделей это количественные рассуждения «по звуку», временные отношения (порядок, длительность), а также turn taking, сегментация и диаризация (посмотрите картинку😱). И это логично, так как аннотированных данных крайне мало, но для нас это и хорошо, ведь решать еще нерешенные проблемы веселее

Кстати, бенчмарк частично был создан в рамках воркшопа JSALT 2025. Что-то я совсем забыла про него в этом году, а ведь все сессии и презентации проектов выложен в открытый доступ на YouTube — вот тут

(А картинку сгенерила с нано-банана 😀)

Please open Telegram to view this post