NEW BOT Телеграм, страница

😨

Xiaomi узрели GPT-3 moment в аудио LLM MiMo-Audio

Не походим 🔗MiMo-Audio! Когда увидела в абстракте, что Xiaomi заявляют о GPT-3 moment в своей аудио-модели, натренированной на >100М часов аудио, я подумала, что «наконец-то» и пошла читать.

❔

Что такое «GPT-3-момент»? Это появление in‑context learning (ICL): когда модель без до-обучения выполняет новую задачу по 1-2 примерам в промпте. В MiMo-Audio это: конверсия голоса, перевод речь ➡речь, стилизация, денойзинг — всё по нескольким демонстрациям.

Огромное кол-во данных в тренировке это ключевое, но также разработчики натренили свой аудио токенайзер, который используется для входных и выходных репрезентаций, что меня заинтересовало более всего, так что сосредоточусь на этих двух аспектах

1⃣

Масштаб данных

Да, тренили на огромном объеме (подкасты, аудиокниги, новости, интервью). Распределение по языкам не сообщают (предположительно, доминируют китайский и английский). Но зато ссылаются на интересный фреймворк:

🔗AutoPrep: An Automatic Preprocessing Framework for In-the-Wild Speech Data — опенсорс для пре-процессинга и аннотации аудио данных, включает VAD, speaker segmentation c полезными трюками для фильтрации ошибочных аннотаций

В сумме в тренировку попали 3.8Т аудио токенов и примерно столько же текстовых. Именно после ~0.7T обучающих токенов авторы фиксируют «фазовый переход». А вот прикидки по другим открытым аудио моделям:

💛Qwen2-Audio ~520к часов
❤Step-Audio2 ~ 8М часов
💜Kimi-Audio >13M, все равно речь о десятках М, не сотнях

2⃣

Токенайзер MiMo-Audio

В аудио-моделях часто используют continuous эмбеддинги (Whisper) на вход, дискретные RVQ токены на выход. Получается разрыв между модальностями. MiMo-Audio предлагает единый токенайзер, натрененный с нуля на ~11М часов аудио.

Он работает по RVQ-схеме, но обучен не как обычный кодек. Здесь токены оптимизируются под две цели: 🍁 реконструкция аудио (чтобы сохранять тембр и просодию), 🍁audio-to-text предсказание (LLM учится по токенам выдавать текст, что заставляет оокенайзер учить семантику).

Чтобы баланс не ушёл только в семантику, авторы добавляют skip-connection: hidden states с 3-го слоя энкодера суммируют с финальным 32-м. Ранние слои лучше держат тембр/просодию, поздние — смысл. Во второй стадии через adversarial fine-tuning дотачивают декодер+вокодер. Приём не новый, но здесь его специально включают после того, как токены уже семантически годные.

Хотелось бы разные языки рассмотреть, но репортят только ZH/EN. На Seed‑TTS‑Eval (ZH/EN) MiMo‑Tokenizer при ~1.55 kbps выдает значимый прирост: EN — PESQ‑WB 2.43 (Perceptual Evaluation of Speech Quality), SIM 0.85 (сходство характеристик голоса спикера), STOI 0.92 (разборчивость). Лучше, чем Mimi, BigCodec, XY‑Tokenizer и др. (см. картинку)

3⃣

Собственно MiMo-Audio

Модель строится на MiMo‑7B‑Base и работает с текстом и аудио как с единой последовательностью: patch‑encoder сжимает аудио‑токены, LLM рассуждает, patch‑decoder разворачивает их обратно.

😎

Что по метрикам?

SpeechMMLU: обгоняет опенсорсных конкурентов, но самое главное — показывает минимальный разрыв между модальностями (думаю, это благодаря единым токенам). Текст и речь модель понимает почти одинаково хорошо: T2T 72.5, S2T 69.5, T2S 71.5, S2S 69.1.

MMAU-Pro: multi-modal задачи, требуется ризонинг на миксе модальностей. Здесь Mimo-Audio версии Instruct с рез-том 56.8 обгоняет опенсорсного лидера Qwen2.5 Omni (52.2), GPT-4o-Audio (52.5), приближаясь к Gemini-2.5 Flash (59.2)

На MMAU (Speech | Sound | Music): 74.9, даже выше Gemini; только свежий Qwen3-Omni ушёл чуть дальше (77.6)

Please open Telegram to view this post