Ученый без степени | AI-блог Ани – Telegram
Ученый без степени | AI-блог Ани
822 subscribers
113 photos
5 videos
77 links
📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь.

Для связи: @piunova_a
Download Telegram
🤩 Why Stacking Sliding Windows Can't See Very Far

Вчера на собесе с кандидатом мы покопались в дизайне механизмов внимания. У него был опыт оптимизации обучения трансформеров — ну и я подумала, почему бы не обсудить attention, в том числе sliding‑window attention (SWA). SWA — это такой вид «локального» внимания, где каждый токен смотрит лишь на последние W токенов. Поэтому сложность падает с O(n^2) до O(n * W), что эффективно по вычислениям и приятно для длинных контекстов. Интуитивно: если у нас L слоев, то охват скейлится как L * W. На практике же «полезное окно» гораздо меньше: как только нужный фрагмент вываливается за окно (и из KV кэша), модель часто не видит его. 

Оттого часто это локальное внимание комбинируют с глобальным, несколько слоев локального, потом глобальный. Так, например, в Gemma 3 блоки чередуют 5 локальных слоёв с 1 глобальным (локальное окно 1024)

Глубже с кандидатом в это тему не пошли, но зато потом я нашла вот этот 🔗классный блог-пост с разбором того, как рассеивается внимание модели в SWA

Как влияет удаленный токен на текущий токен, тот, который мы предсказываем?

Даже если представить, что каждый токен имеет равное влияние 1/W в текущем окне, то проходя через несколько слоев, это влияние оказывается распределено совсем неравномерно (как «скользящее среднее» по W позициям). Информация из далекого токена проходит через несколько разных маршрутов внутри окон внимания предыдущих слоев, чтоб оказать влияние на текущий токен. Эти маршруты суммируются как шаги случайного блуждания (см. на картинке theoretical information propagation).

Если слоёв много, мы итеративно усредняем уже усреднённое. Поведение такого процесса описывается центральной предельной теоремой: многократная «свёртка» равномерного окна превращает профиль влияния прошлых токенов в гауссовский колокол. А ширина этого колокола скейлится сообразно корню из глубины сетки sqrt(L) * W, а вовсе не L * W. Интересно еще, что внутри каждого окна максимальный вклад дают не крайние позиции, а середина доступного диапазона — края «смываются» очередными усреднениями.

В реальных трансформерах есть не только внимание, но и residual connections. Упрощённо, выход слоя это сумма residual (с большим весом alpha) и внимания (с маленьким весом 1 - alpha). Тут alpha это не реальный параметр, а эффективная доля резидуала в смеси «residual + attention» после нормализации (наблюдаемое соотношение вкладов путей).

Это стабилизирует обучение, но создает жесткий барьер: чтобы сигнал перепрыгнул дальше окна, ему нужно многократно идти через слабую ветку внимания, а она экспоненциально гасит вклад. В итоге эффективный горизонт почти не зависит от глубины и оценивается примерно как 1.5 * W (при типичных alpha), что сильно расходится с интуитивной оценкой.

Получается, то, что делает трансформеры стабильными в обучении (residual connections), одновременно ограничивает их способность видеть далеко назад. Это объясняет, почему многие успешные long-context модели используют гибридные архитектуры, сочетая эффективность SWA с периодическими слоями полного внимания.

Кстати, автор поста — это автор статьи про attention sink: 🔗Efficient Streaming Language Models with Attention Sinks

Нашла у него 🔗еще отличный пост о том, как вообще получилась работа по attention sinks, точнее, как, он в ходе стажировки в Meta и работая над проблемой длинных контекстов пришел к фундаментальным инсайтам о трансформерах

🥹 А какой механизм внимание вы используете чаще всего на практике? А если бы у вас было бесконечное окно внимания, какую задачу вы бы сразу попробовали решить?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥9👍4
🍁 RL’s Razor: почему on‑policy RL забывает меньше, чем SFT

Несколько лет назад я плотно занималась continual learning для языковых моделей. Хотелось не переучивать модель с нуля в каждом релизе Алексы, а немного до-обучать: новые артисты, новая лексика. Тогда go-to подходом был простой микс «старых» данных, иначе модель охотно забывала базу, также применялись методы ограничивающие отклонение «важных» весов. И это во времена, когда большими считались языковые модели 1В

Проблема актуальна и сегодня, на модельках калибра 8–20B уж точно. А в перспективе мы бы хотели иметь само-обучающихся в среде агентов, которые не теряют базовые навыки. И, вроде бы, решение лежит на поверхности — пост‑тренинг через RL, а не SFT

В статье 🔗«RL's Razor: Why Online Reinforcement Learning Forgets Less» авторы сравнили SFT и RL как методы пост‑тренинга, результат такой (см. картинку):

RL даже без явной KL‑регуляризации даёт сопоставимую с SFT точность на новой задаче и заметно меньше забывает «старые» таски


Они сравнили переменные, которые ранее связывали с забыванием (изменения весов, внутренних активаций), посчитали корреляцию и сформулировали проблему забывания именно как проблему сдвига output distribution модели. Даже изменение весов модели меньше коррелирует с забыванием (тоже см. скрин).

Интуитивно, RL как бы и должен давать минимальный сдвиг output distribution, и вот почему

Возьмем GRPO для примера. Он учится на собственных выборках. Модель генерит пачку кандидатов, мы вознаграждаем удачные, и слегка перераспределяем вероятности внутри того, что модель уже считала правдоподобным. Это мягкий локальный сдвиг. И дело тут именно в on‑policy характере обучения; методы с негативными примеры сгенеренными внешней моделью супервайзером (SimPO) ведут себя больше как SFT.

А вот SFT это off‑policy обучение. Cross-entropy учится на последовательности one-hot векторов, то есть модель подталкивают к дословному воспроизведению цепочки. На этапе pre-train это оправдано: модель должна научиться воспроизводить текст, чтобы освоить язык и логику построения цепочек. Но в post‑training модель уже знает, как формулировать. One‑hot сужает пространство валидных решений и чаще уводит распределение далеко от начальной политики.

И все бы ничего, берем RL и треним 💫, но у него тоже есть проблемки: долго тренируется, дорого, и все еще нестабилен, также подвержен reward hacking, когда модель обходит логические выкладки и находит способы прийти к правильному ответу простым путем (💻 вот недавний пример “подсматривания в будущее” на SWE-Bench). С бинарными ревордами бывают «нулевые градиенты» (если все кандидаты одинаково хороши).

Тут авторы задались вопросом: а можно ли спроектировать SFT так, чтобы он тоже минимально сдвигал распределение?

В игрушечном эксперименте они заменили one-hot цели на soft-targets на базе исходной модели: оставили вероятности только для правильных ответов и нормализовали. 😮 В результате смогли с помощью SFT добиться даже лучшего уровня перфоманса при этом почти не забывая исходные данные. Наблюдаемый KL сдвиг выходного распределения также оказался минимален. (лучше все-таки почитать статью, там детали эксперимента)

И это, на мой взгляд, самые главные инсайты 💻:

🤩 Минимальная подверженность забыванию — следствие минимального KL-divergence между выходными распределениями модели до и после пост‑тренинга, это не фича RL алгоритма, того же можно добиться при аккуратном дизайне лэйблов для SFT

🤩 Оn-policy тренировка даже без KL регуляризации минимально смещает output distribution, поскольку обновления происходят относительно распределения самой модели, в то время как SFT тянет распределение в сторону

В общем работа хороша, но открытые вопросы остаются. В toy-эксперименте soft‑targets построить легко, а вот как системно проектировать такие цели в реальных задачах? И можно ли придумать простую SFT‑подобную оптимизацию, которая автоматически реализует принцип RL’s Razor?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥116👍4
Тут вышла новая статья (пре-принт) от Kyutai

🔗Continuous Audio Language Models

Я пока только поверхностно прочитала, нужно детальнее смотреть архитектуру и абляции, но общий подход выглядит интересно, шаг в сторону low-latency audio-LM, при этом качество генерации не падает по сравнению с дискретными моделями

😌
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74
Все больше смотрю в сторону RL для аудио задач. На мой взгляд, это актуально для speech-to-speech: в агентах критично попасть в просодию, эмоции, лингвистический стиль, в дубляже — синхронизировать длительность с оригиналом.

Вот неплохая работа по RL в применении к аудио-LLM'кам для задач глубокого анализа аудио:  🔗Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning

Авторы применили GRPO к Qwen2-Audio-7B-Instruct и Qwen-2.5-omni, обучали модели вести явные рассуждения для глубокого понимания речи, звуков, музыки.

Аудио‑LLM (как и текстовые) часто подвержены over-thinking 🤔. Поэтому авторы ввели механизм Adaptive Thinking — модели обучали «when to think» и «how to think». Тренили на аудио QA, оценивали на бенчах MMAR, MMAU, AIR — это все вопросы на глубокий анализ одного или нескольких входных аудио.

🤔 When to Think

Модель должна понимать, когда включать режим рассуждения. Авторы добавили reward за верное решение о том, когда нужно включать Adaptive Thinking механизм, при этом давали бОльшую награду, если модель верно выбирала не думать (и верно отвечала), там где не нужно думать (видимо, боролись с over-thinking)

И тут столкнулись с проблемой: 😐 модель скатилась в дегенеративную политику — либо всегда think, либо наоборот. Такое происходило, когда в батче один тип вопросов превалировал, а модель выбирала лучшую краткосрочную стратегию. Эту проблему решили с помощью penalty, если один из режимов доминирует — его награду понижают, чтобы не застревать в стратегии

😬 How to Think

Далее модель начала хакать reward и генерить правильный ответ, сопровождая его не связанной с ним логикой. Например, <think> … the final answer is 1 </think> <answer> answer is 2 </answer>. Тогда ввели Consistency reward, чтоб оценивать насколько рассуждения согласуются с ответом (1, если согласуются, иначе 0)

Проблемы не закончились. Даже если рассуждения и финальный ответ соотносились, модель могла прийти к верному ответу через некорректную логику. Пришлось добавить еще один Think reward для оценки логики. В обоих случаях Consistency & Think rewards использовали модель-судью Qwen3-8B-base

Вообще, эта статья — хроники того, с какими хаками боролись авторы на своем пути, и как они фиксили их добавлением бОльшего кол-ва ревордов

А теперь результаты

В среднем больший буст от RL со всеми техниками получили speech задачи; логично, лингвистические реворды хорошо сочетаются с задачами понимания речи (до +6.7 пунктов на MMAU и до +13.5 пунктов на MMAR). Стоит отметить, что speech задачи в целом получили бОльший прирост в метриках (и от SFT), так что эффект обусловлен и природой данных

💫SFT на цепочках chain-of-thought (CoT) не работает. Обе модели показывали ±те же рез-ты, как и базовый SFT на парах вопрос-ответ. То есть без доп. фидбэка модели не могут нормально использовать сигналы из CoT

Интересно, что даже включение СоТ в паре с GRPO, где reward оценивает только корректность финального ответа не дает почти никакого эффекта по сравнению с тем же GRPO без СоТ

📖 Выводы?

Я, в целом, не очень согласна с текстовыми рассуждениями на аудио, особенно на музыке (и результаты это подтверждают). Получается, что само рассуждение происходит на уровне текста, тогда задача сперва сводится к тому, чтоб транскрибировать или формализовать аудио контент, чтобы это помогло текстовым рассуждениям выбрать верный ответ. Но оптимально ли так делать?

И авторы как раз справедливо указывают, что это нерешенная проблема — explicit reasoning процесс пока не показал преимуществ для audio QA, и эффективное использование глубокого рассуждения остается важной областью исследований

На мой взгляд стоит еще по-исследовать альтернативные не лингвистические реворды, например, reward поощряющий внимание к «верному» региону аудио, или что-то такое. А какие мысли на этот счет у вас? Если знаете классные статьи по RL для аудио задач, пишите тоже
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3👍2
На днях со мной поделились новой русскоязычной открытой ASR Borealis! Эт не реклама, поделились не авторы

Немного поизучала модельку на выходных, очень достойная! Обучена на ~7000 часов русской речи.

Сами авторы подчеркивают, что архитектура вдохновлена Voxtral, который мы разбирали и бенчмаркали тут. Для Voxtral я пересчитала WER на CommonVoice-RU (CV-RU) v22, сравним:

Voxtral Mini-3B без нормализации 15% WER
Voxtral Mini-3B lower-cased без пунктуации 10.8% WER
Borealis (взяла с HF) 2.67% WER


В среднем по их бенчмарку Borealis выдает 6.33%. Выглядит очень конкурентно. Более того, модель тренили предсказывать не только тексты, но и пунктуацию. Я так понимаю, просто обучали на текстах с пунктуацией (поправьте плиз, если не права)

🐰 Энкодер от Whisper-large-V3, эта модель уже видела русский, на CV-RU v22 виспер (вместе с декодером) достигает 7.51% WER

🐱 В качестве декодера взяли компактный Qwen2.5-0.5B-Instruct — это текстовая также мульти-лингвал модель на 500M параметров с контекстом до 32к токенов. Отличное решение, модель затьюнена именно для транскрибации, не так критичен мощный LLM декодер (но было б интересно long-context бенчмарки глянуть). Еще команда Mistral показала, что Transcribe версия Voxtral-Mini в которой вместо промпта в свободной форме в модель подают специальный transcribe токен + аудио фичи, несильно уступает старшей версии Voxtral-Small. Фиксированный промпт дает модели однозначный сигнал о том, что от нее требуется транскрипция, а, следовательно, модель меньше галлюцинирует

🐱 Аудио адаптер с архитектурой Linear -> GELU -> Linear сжимает последовательность фичей виспера в х4 раза, что (также как и у Voxtral) позволяет в теории декодить до 30-40 минут аудио (насколько модель по факту умеет в long context, не знаю)

Здесь поступили примерно также. Так как Qwen ожидает формат чата, то авторы зафиксировали изначальный промпт, в котором аудио фичи вставляют в user turn между спец. токенами:

Транскрибируйте это аудио: <|start_of_audio|>…<|end_of_audio|>


🌼 Что по размерам?

Whisper encoder около 750М параметров (±половина от 1.55B), Qwen 500M, ну и пара-тройка М парам-ов адаптера. В сумме получается около 1.2В параметров. Вес чекпоинта в fp16/bf16 ~2.27 Гб, у меня на маке веса модели заняли около 3.2 Гб памяти (что-то там бэкенд еще аллоцирует на временные тензоры), потребление памяти, конечно же, растёт с длиной аудио и батчем

Детали тут
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥6👍3❤‍🔥1👨‍💻1
👾 LLM'ки тоже учатся поэтапно: от зазубривания неравенства Коши-Буняковского до понимания, когда его применить

Много разговоров ведется на тему того, обучается ли модель качественно новым навыкам через RL, или лучше выбирает цепочку и выдает то, что и так могла воспроизвести на pass@k. Одна из активно исследуемых идей гласит, что во время RL модель учится композиции атомарных навыков для решения комплексных задач

Вот неплохой блог-пост по теме: 😳From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones

А вот новая статья: 🌟Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning и её метод HICRA

Тут авторы эмпирически демонстрируют, что на первых порах RL тренировки модели осваивают инструментарий базовых навыков, а далее переходят к обучению навыкам стратегического планирования процесса решения. Проверяли, в основном, на мат. задачках

📕 Рассуждения в случае математической задачки можно формализовать как набор атомарных шагов (посчитать выражение, применить теорему, преобразовать,….). Но управляют ими мета-действия, которые решают, а что делать дальше (положим…, допустим…, следует…, по неравенству треугольника…, по лемме о вложенных отрезках…,)

🍂 Авторы выделили два типа токенов в CoT: execution-токены и planning-токены. Токены планирования формализуют через Strategic Grams (SGs) — короткие n‑граммы, которые управляют ходом решения (те самые мета-действия ).

🍂 Далее отследили поведение токенов через perplexity и entropy, то есть они наблюдали за тем, насколько модель уверенно генерит их и насколько активно модель исследует каждое из двух пространств

1 💻: оттачиваем инструменты

Relative perplexity у execution-токенов быстро уходит в плато. Это значит, что модель становится увереннее в базовых шагах. Модель как бы сперва строит toolbox из процедурных навыков, а после перестает активно исследовать процедурные токены, и переходит к развитию «планирования»

2 💻 : учимся планировать

Semantic diversity у planning-токенов растет, причем у более “сильных” базовых моделей это происходит сразу, минуя фазу построения toolbox’а. При этом модель не начинает повторять одни и те же паттерны, наоборот, она научается эффективно и корректно пользоваться разнообразными strategic паттернами в CoT. Параллельно с этим на тесте цепочки рассуждений модели становятся длиннее, а accuracy растет (см. картинку).

👻 Важно: энтропия отдельных токенов не особо показательна, так как включает в себя все токены, даже несмысловые, типо форматирования

Помните статью про high/low entropy токены (Beyond the 80/20 Rule), где 20% токенов определяли почти всю производительность GRPO? Там авторы заметили токены-развилки, и предложили тренировать их. Тут же выяснили важную деталь: далеко не все high-entropy токены реально важны для стратегического планирования. Многие имеют высокую энтропию из-за вариаций в формулировках (см. картинку).

Стоит отметить, что наблюдение не универсально. Qwen вот так тренируется, но например, в Llama-3.1 8B паттерн иной. Предполагают следующее: на этапе RL уже нужна прочная база процедурных навыков, у Llama ее недостает, потому динамика нестабильна

😀 HICRA: практическое применение инсайтов

Классический GRPO раздаёт кредит всем токенам равномерно. Тут исследователи предложили алгоритм, который дает больше веса advantage для токенов планирования

HICRA показывает стабильный прирост метрик на математических бенчах AIME24/25, Math500 и др, а также на мульти-модальном ризонинге; причем ошибки снижаются во многом за счет уменьшения ошибок планирования!

На мой взгляд подход валидный, особенно идея рассмотреть стратегические n-gram’ы, которые четче отражают динамику обучения, чем отдельные токены. Более того, есть смысл смотреть именно на semantic diversity и как оно прогрессирует, чем на энтропию токенов. Для математики ключевыми являются strategic grams, но для других задач важную семантическую функцию рассуждений будут иметь другие конструкции.

🕯 Как вам такой взгляд на RL?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84👍3🤔1
Я тут три дня слушала подкаст с Нилом Нанда — ресерчером в сфере mechanistic interpretability, а также лидом команды интерпретируемости в DeepMind (в прошлом работал в Anthropic)

🔗We Can Monitor AI’s Thoughts… For Now | Google DeepMind's Neel Nanda

Это такой обширный обзор (на 3 часа) на то, что происходит сейчас в области, особенно интересно будет тем, кто, как и я, неглубоко погружен в тему.

Да, область активно развивается, есть прогресс. Один из примеров успеха интерпретируемости — извлечение новых знаний о шахматах из AlphaZero. Это позволило гроссмейстерам изучить новые стратегические концепции, которые были неочевидны для людей.

Но также остается много спорных моментов. Ведущий подкаста немного челленджит Нила по открытым вопросам интерпретируемости. Интерпретируемы ли LLM’ки вообще? А верный ли это подход — интерпретировать активации с помощью SAE (один нейрон часто ответственен за множество признаков (polysemanticity), а SAE учат разреженные латенты, пытаясь расплести эту суперпозицию)? Как понять, что модель преднамеренно лжет?

Одна из важных проблем mech interp — это отсутствие ground truth 🤔. Ученым крайне сложно проверить, верна ли их интерпретация, потому что нет способа узнать, о чем реально там себе думает модель. При этом ресерчеры могут легко обмануться и поверить в свои гипотезы, потому что для любого наблюдаемого явления в такой сложной системе, как нейросеть, можно придумать множество объяснений.

🤔 До каких пор мы можем доверять Chain-of-thought (CoT)?

Сегодня мы еще во многом опираемся на CoT, это как рабочая память модели, в которой она явно проходит шаги ризонинга. При этом появляются сигналы evaluation awareness, то есть некоторые модели узнают, что их тестируют, и меняют поведение. Более того, в целях оптимизации мы можем перейти от вербализованных рассуждений к латентным скрэчпадам, тогда читать мысли станет труднее.

В общем, много интересных тем подняли

📚 Что еще посмотреть и почитать:

🌸Блог Нила о том, как стать ресерчером в Mechanistic Interpretability
🪻Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety
💚Вторая часть подкаста (не слушала)
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥7👍4
😨 Xiaomi узрели GPT-3 moment в аудио LLM MiMo-Audio

Не походим 🔗MiMo-Audio! Когда увидела в абстракте, что Xiaomi заявляют о GPT-3 moment в своей аудио-модели, натренированной на >100М часов аудио, я подумала, что «наконец-то» и пошла читать.

Что такое «GPT-3-момент»? Это появление in‑context learning (ICL): когда модель без до-обучения выполняет новую задачу по 1-2 примерам в промпте. В MiMo-Audio это: конверсия голоса, перевод речь речь, стилизация, денойзинг — всё по нескольким демонстрациям.

Огромное кол-во данных в тренировке это ключевое, но также разработчики натренили свой аудио токенайзер, который используется для входных и выходных репрезентаций, что меня заинтересовало более всего, так что сосредоточусь на этих двух аспектах

1⃣ Масштаб данных

Да, тренили на огромном объеме (подкасты, аудиокниги, новости, интервью). Распределение по языкам не сообщают (предположительно, доминируют китайский и английский). Но зато ссылаются на интересный фреймворк:

🔗AutoPrep: An Automatic Preprocessing Framework for In-the-Wild Speech Data — опенсорс для пре-процессинга и аннотации аудио данных, включает VAD, speaker segmentation c полезными трюками для фильтрации ошибочных аннотаций

В сумме в тренировку попали 3.8Т аудио токенов и примерно столько же текстовых. Именно после ~0.7T обучающих токенов авторы фиксируют «фазовый переход». А вот прикидки по другим открытым аудио моделям:

💛Qwen2-Audio ~520к часов
Step-Audio2 ~ 8М часов
💜Kimi-Audio >13M, все равно речь о десятках М, не сотнях

2⃣ Токенайзер MiMo-Audio

В аудио-моделях часто используют continuous эмбеддинги (Whisper) на вход, дискретные RVQ токены на выход. Получается разрыв между модальностями. MiMo-Audio предлагает единый токенайзер, натрененный с нуля на ~11М часов аудио.

Он работает по RVQ-схеме, но обучен не как обычный кодек. Здесь токены оптимизируются под две цели: 🍁 реконструкция аудио (чтобы сохранять тембр и просодию), 🍁audio-to-text предсказание (LLM учится по токенам выдавать текст, что заставляет оокенайзер учить семантику).

Чтобы баланс не ушёл только в семантику, авторы добавляют skip-connection: hidden states с 3-го слоя энкодера суммируют с финальным 32-м. Ранние слои лучше держат тембр/просодию, поздние — смысл. Во второй стадии через adversarial fine-tuning дотачивают декодер+вокодер. Приём не новый, но здесь его специально включают после того, как токены уже семантически годные.

Хотелось бы разные языки рассмотреть, но репортят только ZH/EN. На Seed‑TTS‑Eval (ZH/EN) MiMo‑Tokenizer при ~1.55 kbps выдает значимый прирост: EN — PESQ‑WB 2.43 (Perceptual Evaluation of Speech Quality), SIM 0.85 (сходство характеристик голоса спикера), STOI 0.92 (разборчивость). Лучше, чем Mimi, BigCodec, XY‑Tokenizer и др. (см. картинку)

3⃣ Собственно MiMo-Audio

Модель строится на MiMo‑7B‑Base и работает с текстом и аудио как с единой последовательностью: patch‑encoder сжимает аудио‑токены, LLM рассуждает, patch‑decoder разворачивает их обратно.

😎Что по метрикам?

SpeechMMLU: обгоняет опенсорсных конкурентов, но самое главное — показывает минимальный разрыв между модальностями (думаю, это благодаря единым токенам). Текст и речь модель понимает почти одинаково хорошо: T2T 72.5, S2T 69.5, T2S 71.5, S2S 69.1.

MMAU-Pro: multi-modal задачи, требуется ризонинг на миксе модальностей. Здесь Mimo-Audio версии Instruct с рез-том 56.8 обгоняет опенсорсного лидера Qwen2.5 Omni (52.2), GPT-4o-Audio (52.5), приближаясь к Gemini-2.5 Flash (59.2)

На MMAU (Speech | Sound | Music): 74.9, даже выше Gemini; только свежий Qwen3-Omni ушёл чуть дальше (77.6)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍3