Ученый без степени | AI-блог Ани – Telegram
Ученый без степени | AI-блог Ани
820 subscribers
113 photos
5 videos
77 links
📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь.

Для связи: @piunova_a
Download Telegram
👾 LLM'ки тоже учатся поэтапно: от зазубривания неравенства Коши-Буняковского до понимания, когда его применить

Много разговоров ведется на тему того, обучается ли модель качественно новым навыкам через RL, или лучше выбирает цепочку и выдает то, что и так могла воспроизвести на pass@k. Одна из активно исследуемых идей гласит, что во время RL модель учится композиции атомарных навыков для решения комплексных задач

Вот неплохой блог-пост по теме: 😳From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones

А вот новая статья: 🌟Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning и её метод HICRA

Тут авторы эмпирически демонстрируют, что на первых порах RL тренировки модели осваивают инструментарий базовых навыков, а далее переходят к обучению навыкам стратегического планирования процесса решения. Проверяли, в основном, на мат. задачках

📕 Рассуждения в случае математической задачки можно формализовать как набор атомарных шагов (посчитать выражение, применить теорему, преобразовать,….). Но управляют ими мета-действия, которые решают, а что делать дальше (положим…, допустим…, следует…, по неравенству треугольника…, по лемме о вложенных отрезках…,)

🍂 Авторы выделили два типа токенов в CoT: execution-токены и planning-токены. Токены планирования формализуют через Strategic Grams (SGs) — короткие n‑граммы, которые управляют ходом решения (те самые мета-действия ).

🍂 Далее отследили поведение токенов через perplexity и entropy, то есть они наблюдали за тем, насколько модель уверенно генерит их и насколько активно модель исследует каждое из двух пространств

1 💻: оттачиваем инструменты

Relative perplexity у execution-токенов быстро уходит в плато. Это значит, что модель становится увереннее в базовых шагах. Модель как бы сперва строит toolbox из процедурных навыков, а после перестает активно исследовать процедурные токены, и переходит к развитию «планирования»

2 💻 : учимся планировать

Semantic diversity у planning-токенов растет, причем у более “сильных” базовых моделей это происходит сразу, минуя фазу построения toolbox’а. При этом модель не начинает повторять одни и те же паттерны, наоборот, она научается эффективно и корректно пользоваться разнообразными strategic паттернами в CoT. Параллельно с этим на тесте цепочки рассуждений модели становятся длиннее, а accuracy растет (см. картинку).

👻 Важно: энтропия отдельных токенов не особо показательна, так как включает в себя все токены, даже несмысловые, типо форматирования

Помните статью про high/low entropy токены (Beyond the 80/20 Rule), где 20% токенов определяли почти всю производительность GRPO? Там авторы заметили токены-развилки, и предложили тренировать их. Тут же выяснили важную деталь: далеко не все high-entropy токены реально важны для стратегического планирования. Многие имеют высокую энтропию из-за вариаций в формулировках (см. картинку).

Стоит отметить, что наблюдение не универсально. Qwen вот так тренируется, но например, в Llama-3.1 8B паттерн иной. Предполагают следующее: на этапе RL уже нужна прочная база процедурных навыков, у Llama ее недостает, потому динамика нестабильна

😀 HICRA: практическое применение инсайтов

Классический GRPO раздаёт кредит всем токенам равномерно. Тут исследователи предложили алгоритм, который дает больше веса advantage для токенов планирования

HICRA показывает стабильный прирост метрик на математических бенчах AIME24/25, Math500 и др, а также на мульти-модальном ризонинге; причем ошибки снижаются во многом за счет уменьшения ошибок планирования!

На мой взгляд подход валидный, особенно идея рассмотреть стратегические n-gram’ы, которые четче отражают динамику обучения, чем отдельные токены. Более того, есть смысл смотреть именно на semantic diversity и как оно прогрессирует, чем на энтропию токенов. Для математики ключевыми являются strategic grams, но для других задач важную семантическую функцию рассуждений будут иметь другие конструкции.

🕯 Как вам такой взгляд на RL?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84👍3🤔1
Я тут три дня слушала подкаст с Нилом Нанда — ресерчером в сфере mechanistic interpretability, а также лидом команды интерпретируемости в DeepMind (в прошлом работал в Anthropic)

🔗We Can Monitor AI’s Thoughts… For Now | Google DeepMind's Neel Nanda

Это такой обширный обзор (на 3 часа) на то, что происходит сейчас в области, особенно интересно будет тем, кто, как и я, неглубоко погружен в тему.

Да, область активно развивается, есть прогресс. Один из примеров успеха интерпретируемости — извлечение новых знаний о шахматах из AlphaZero. Это позволило гроссмейстерам изучить новые стратегические концепции, которые были неочевидны для людей.

Но также остается много спорных моментов. Ведущий подкаста немного челленджит Нила по открытым вопросам интерпретируемости. Интерпретируемы ли LLM’ки вообще? А верный ли это подход — интерпретировать активации с помощью SAE (один нейрон часто ответственен за множество признаков (polysemanticity), а SAE учат разреженные латенты, пытаясь расплести эту суперпозицию)? Как понять, что модель преднамеренно лжет?

Одна из важных проблем mech interp — это отсутствие ground truth 🤔. Ученым крайне сложно проверить, верна ли их интерпретация, потому что нет способа узнать, о чем реально там себе думает модель. При этом ресерчеры могут легко обмануться и поверить в свои гипотезы, потому что для любого наблюдаемого явления в такой сложной системе, как нейросеть, можно придумать множество объяснений.

🤔 До каких пор мы можем доверять Chain-of-thought (CoT)?

Сегодня мы еще во многом опираемся на CoT, это как рабочая память модели, в которой она явно проходит шаги ризонинга. При этом появляются сигналы evaluation awareness, то есть некоторые модели узнают, что их тестируют, и меняют поведение. Более того, в целях оптимизации мы можем перейти от вербализованных рассуждений к латентным скрэчпадам, тогда читать мысли станет труднее.

В общем, много интересных тем подняли

📚 Что еще посмотреть и почитать:

🌸Блог Нила о том, как стать ресерчером в Mechanistic Interpretability
🪻Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety
💚Вторая часть подкаста (не слушала)
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥7👍4
😨 Xiaomi узрели GPT-3 moment в аудио LLM MiMo-Audio

Не походим 🔗MiMo-Audio! Когда увидела в абстракте, что Xiaomi заявляют о GPT-3 moment в своей аудио-модели, натренированной на >100М часов аудио, я подумала, что «наконец-то» и пошла читать.

Что такое «GPT-3-момент»? Это появление in‑context learning (ICL): когда модель без до-обучения выполняет новую задачу по 1-2 примерам в промпте. В MiMo-Audio это: конверсия голоса, перевод речь речь, стилизация, денойзинг — всё по нескольким демонстрациям.

Огромное кол-во данных в тренировке это ключевое, но также разработчики натренили свой аудио токенайзер, который используется для входных и выходных репрезентаций, что меня заинтересовало более всего, так что сосредоточусь на этих двух аспектах

1⃣ Масштаб данных

Да, тренили на огромном объеме (подкасты, аудиокниги, новости, интервью). Распределение по языкам не сообщают (предположительно, доминируют китайский и английский). Но зато ссылаются на интересный фреймворк:

🔗AutoPrep: An Automatic Preprocessing Framework for In-the-Wild Speech Data — опенсорс для пре-процессинга и аннотации аудио данных, включает VAD, speaker segmentation c полезными трюками для фильтрации ошибочных аннотаций

В сумме в тренировку попали 3.8Т аудио токенов и примерно столько же текстовых. Именно после ~0.7T обучающих токенов авторы фиксируют «фазовый переход». А вот прикидки по другим открытым аудио моделям:

💛Qwen2-Audio ~520к часов
Step-Audio2 ~ 8М часов
💜Kimi-Audio >13M, все равно речь о десятках М, не сотнях

2⃣ Токенайзер MiMo-Audio

В аудио-моделях часто используют continuous эмбеддинги (Whisper) на вход, дискретные RVQ токены на выход. Получается разрыв между модальностями. MiMo-Audio предлагает единый токенайзер, натрененный с нуля на ~11М часов аудио.

Он работает по RVQ-схеме, но обучен не как обычный кодек. Здесь токены оптимизируются под две цели: 🍁 реконструкция аудио (чтобы сохранять тембр и просодию), 🍁audio-to-text предсказание (LLM учится по токенам выдавать текст, что заставляет оокенайзер учить семантику).

Чтобы баланс не ушёл только в семантику, авторы добавляют skip-connection: hidden states с 3-го слоя энкодера суммируют с финальным 32-м. Ранние слои лучше держат тембр/просодию, поздние — смысл. Во второй стадии через adversarial fine-tuning дотачивают декодер+вокодер. Приём не новый, но здесь его специально включают после того, как токены уже семантически годные.

Хотелось бы разные языки рассмотреть, но репортят только ZH/EN. На Seed‑TTS‑Eval (ZH/EN) MiMo‑Tokenizer при ~1.55 kbps выдает значимый прирост: EN — PESQ‑WB 2.43 (Perceptual Evaluation of Speech Quality), SIM 0.85 (сходство характеристик голоса спикера), STOI 0.92 (разборчивость). Лучше, чем Mimi, BigCodec, XY‑Tokenizer и др. (см. картинку)

3⃣ Собственно MiMo-Audio

Модель строится на MiMo‑7B‑Base и работает с текстом и аудио как с единой последовательностью: patch‑encoder сжимает аудио‑токены, LLM рассуждает, patch‑decoder разворачивает их обратно.

😎Что по метрикам?

SpeechMMLU: обгоняет опенсорсных конкурентов, но самое главное — показывает минимальный разрыв между модальностями (думаю, это благодаря единым токенам). Текст и речь модель понимает почти одинаково хорошо: T2T 72.5, S2T 69.5, T2S 71.5, S2S 69.1.

MMAU-Pro: multi-modal задачи, требуется ризонинг на миксе модальностей. Здесь Mimo-Audio версии Instruct с рез-том 56.8 обгоняет опенсорсного лидера Qwen2.5 Omni (52.2), GPT-4o-Audio (52.5), приближаясь к Gemini-2.5 Flash (59.2)

На MMAU (Speech | Sound | Music): 74.9, даже выше Gemini; только свежий Qwen3-Omni ушёл чуть дальше (77.6)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍3
Помимо метрик посмотрела демку

Speech continuation впечатлил, особенно способность генерить речь на основе сэмпла, в котором более 2-х спикеров, при этом модель понимает их роли и голоса. На скринкасте, в сэмпле несколько говорящих, женщина и мужчина ведущие + челы на связи со студией. Они присутствуют и в сгенеренном продолжении

Еще посмотрите на CoT трейсы в audio understanding в демо примере подкаста. Модель не просто транскрибирует и описывает содержание, что было сказано, она понимает кто именно говорит, какова его роль, понимает контекст фоновых звуков

ICL
По паре примеров модель может: клонирование голоса, речевой перевод английский-китайский, изменение темпа и интонации и другое. Это классно, пока не встречала подобного в других аудио моделях. AudioPaLM демонстрировал S2T перевод на парах языков, которых не было в тренировке — это было; в SALM применяли in-context training чтоб бустить сложные словечки в ASR. Например: твоя задача транскрибировать речь, в ней могут попасться слова: gtc, nvidia, … <аудио>. Но настоящего ICL не видела еще

🥹 Вопросы к вам: считаете ли вы, что единый токенайзер это правильный путь? И какие абляции вы бы посмотрели?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85👍3
🎙У Дваркеша Пателя вышел часовой 🔗подкаст с Ричардом Саттоном. Интересно послушать, еще и потому, что это диалог двух абсолютно разных точек зрения на будущее развитие AI. 

🐹 Ричард Саттон считается одним из «отцов» RL, его идеи сильно повлияли на развитие направления; в частности на переход от теории к практическому применению (TD learning, policy gradients, actor-critic модель и др.) Также Саттон является автором широко-цитируемого эссе «The bitter lesson», основная идея которого — наблюдение о том, что за 70+ лет в AI прорывы снова и снова делали общие методы, которые хорошо масштабируются с ростом вычислений, а вовсе не доменные знания.

🐹 Саттон убежден, что LLM’ки — это не путь к сильному AI, а нужен нам переход к агентам, которые учатся из опыта и с обратной связью от мира. LLM же учатся имитировать тексты сгенеренные человеком, и им не достает общего понимания мира. Модели оптимизируют next token prediction, а потому они не имеют внешней цели. Саттон также категорически не согласен с имитационным обучением, так как считает, что имитация не является фундаментальным подходом к обучению у живых существ. Более того, имитация не гарантирует обобщаемости (generalisation), то есть модель может выполнять верно ту задачу, данные которой видела во время тренировки, а вот knowledge transfer под вопросом

🐹 Дваркеш же защищает идею о том, что LLM’ки могут служить хорошей точкой старта для агентов и последующего до-обучения в среде через RL

Тем не менее оба сходятся на необходимости перехода от train → deploy к парадигме continual learning. (думаю, мало кто не согласен с этой идеей)

🐈 Немного размышлений:

В процессе обучения LLM’ки учат концепты и отношения между объектами реального мира через язык, и таким образом формируют внутреннюю модель мира (эта идея мне очень близка, и хорошо описана тут). Выученные представления неполны, они пропущены через призму языка, что может стать стать ловушкой. Тем не менее, на мой взгляд, существует множество абстрактных когнитивных задач, которые уже определены в пространстве языка: математика, бизнес задачи, программирование. Это абстрактные проблемы, формализованные через язык. Стоит ли отказываться от LLM как prior и интерфейс рассуждений в подобных задачах?

Что касается обучения через имитацию, здесь тоже есть о чем подумать. Что, если имитация — это не dead end, а своего рода шорткат, который позволяет ускорить обучение вместо прохождения пути trial and error с полного нуля. 🐈 В подкасте Дваркеш приводит пример передачи культурных навыков через имитацию. Представьте, сколько времени бы потребовалось на освоение навыка охоты или выращивания клубники без имитации?

В общем, интересный разговор, и триггерит множество мыслей

А что думаете вы? Где для вас проходит граница между ICL и настоящим обучением из опыта?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥107👍3
IOAI — это International Olympiad in Artificial Intelligence, олимпиада по AI для школьников 🐹

Во 2-й раз IOAI была проведена в этом году в Пекине, но ребята-организаторы уже готовятся к следующему году

В следующем году впервые появится секция по аудио и речи 💃

Можно придумать и засабмитить задачки или даже вступить в оргкомитет

Подробности тут у Жени 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥3👍2
🐈FLM-Audio: новая англо-китайская full-duplex модель, чем она лучше Moshi ?

Тык, сегодня снова про аудио тех 🔔
🔗FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

Голосовой ассистент, который одновременно слушает и говорит, моментально замолкает при перебивании, поддакивает "угу". Это full-duplex модели, и их пока можно пересчитать по пальцам, а ведь Moshi вышла уже год назад. Потому что одновременно слушать и говорить — технически не очень просто.

Немного про full-duplex

Большинство (около-)дуплексных моделей используют Time Division Multiplexing: контекст это чередующиеся чанки того, что говорит пользователь, что отвечает модель, и текст ответа.

Kyutai Labs в Moshi предложили native full-duplex — она моделирует три потока параллельно: входное аудио пользователя, своё выходное аудио и текстовый inner-monologue. 😮 Для каждого аудиофрейма (12.5 Hz) модель генерит свои аудио и текстовые токены монолога (когда молчит, то все равно генерит пустые токены), затем эти потоки объединяются и подаются обратно на вход LLM.

Но есть сложность: текст и аудио имеют разные частоты. Одно слово произносится за ~300ms, а аудио кодек / энкодер выдает порядка ~100 токенов в секунду (зависит, но сильно больше чем кол-во слов). Их нужно синхронизировать.

😭 Проблема Moshi: 65% padding'а

Moshi выравнивает текст на уровне слов: для каждого слова создаётся временная метка, и текст растягивается pad-токенами. Получается: Привет <pad> <pad> <pad> <pad> как <pad> <pad> дела <pad> <pad>

Значительная часть текстового потока становится шумом. LLM моделирует язык на последовательности, где много токенов ничего не значат. При таком подходе Moshi проактивно отвечает, но становится слабее как языковая модель 🐈 — может выдавать странные фразы, неуместно перебивать. Плюс нужны точные временные метки на уровне слов для всего корпуса. Это сложно масштабируется.

💭FLM-Audio: natural monologues

В FLM-Audio предложили идею: а что если выравнивать текст и аудио на уровне предложений, а не слов?

Inner-monologue генерится как непрерывный текст, опережая аудио на ~2 токена. Модель думает полными предложениями и сразу говорит. Пока аудио заканчивает генерацию, текстовый канал заполняется <wait> токенами. Для понимания речи есть Follow Mode, где монолог следует за аудио (ASR режим). Тут нужны только транскрипции предложений, без временных меток слов.

Что и как тренировали?

Основа это Qwen-2.5-VL (7B), RQ-Transformer для аудио, Mimi кодек. Три канала эмбеддингов объединяются на каждом шаге, LLM генерит hidden states, из которых одна голова производит текст, а depth transformer 8 аудио токенов (все похоже на Moshi).

Обучение в четыре стадии. Post-training на ~1М часов (у Moshi было 7М) с dual-форматом: Lead (TTS режим, текст опережает аудио генерацию на ~2 токена) и Follow (ASR режим, текст после аудио). Затем supervised fine-tuning: сначала semi-duplex, потом full-duplex с симуляцией прерываний.

🗯Интересно: авторы подмешивают речь модели в listening канал с вероятностью 0.3, чтобы она научилась игнорировать собственный голос.

Результаты лучше Moshi, но есть вопросики

ASR (LibriSpeech-clean): 3.2% WER против 5.7% у Moshi — на 44% лучше. В spoken QA авторы заявляют 56.3% vs 43.7 у Moshi (хотя в своей статье Moshi показывала 62.3%).

Human eval: FLM выше Qwen-2.5-Omni по naturalness (8.2 vs 7.9), responsiveness (8.8 vs 8.1), robustness (8.0 vs 7.7).

Похожую идею отказа от строгого word-level выравнивания уже предлагали в SALM-Duplex (вот разбор), но её не сравнивают. Это странно: SALM-Duplex показала 94.5% успешных прерываний против 55.1% у Moshi при 1.1B парам-ов и всего 26.5k часов данных.

Ну и выводы такие..

Natural monologues решают проблему с padding'ом. Результаты по ASR это подтверждают, субъективные оценки положительные. Но без объективных метрик full-duplex способностей трудно оценить, действительно ли FLM-Audio лучше. Отсутствие сравнения с SALM-Duplex — это прям упущение.

🥹 Как считаете, стоит ли full-duplex такой архитектурной сложности? И как вам Moshi, если удалось потестить?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥5👍4
🎧StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

🔗статья

LLM оперируют дискретными токенами. Для обучения модели на аудио модальности звук тоже часто представляют дискретно. Аудио токены могут использоваться для понимания речи (ASR, эмоции) и генерации (TTS - модель предсказывает токены, декодер превращает в звук).

Вот основные подходы

🪻Semantic‑distilled, например, RVQ codec Mimi в Moshi: первый codebook ближе к семантике, часто дистиллирован из SSL-эмбеддингов вроде HuBERT/WavLM, последующие добавляют акустику: интонации, тембр, эмоции

🌸Fully supervised tokenizers (GLM‑4‑Voice, CosyVoice2): берем speech encoder (например, Whisper), надстраиваем квантайзер (одноуровневый VQ) и учим под ASR objective. Несмотря на то, что такие токены натренированы на семантику, они также неявно учат просодию (видимо, иногда это полезно для транскрибации) и могут быть использованы для реконструкции

Но, возьмем чистую аудио запись. Добавим небольшой шум (SNR 25), и токенайзер уже выдаст последовательность, где ~четверть токенов другие

Для ASR: модель видит разные токены для одного и того же слова — учится компенсировать нестабильность при извлечении паттернов. Для TTS результатом может стать менее разборчивая синтезированная речь

Авторы StableToken показывают, что стабилизация токенов в условиях шума значимо облегчает задачу LLM и ведет лучшим метриках понимания и генерации. И что самое интересное — без компромисса reconstruction quality. Разберем, что это за токенайзер

❤‍🩹 Voting-LFQ

Традиционная Vector Quantization (VQ) использует learned codebook — таблицу из N векторов. Для каждого эмбеддинга аудио фрейма ищем ближайший вектор в таблице и берём его индекс.

Lookup-Free Quantization (LFQ) работает проще: проецируем эмбеддинг в d-мерное пространство (в StableToken d=13) и применяем sign к каждой размерности. Получаем d-битный вектор (например, [1, -1, 1, 1, -1, ...]). Интерпретируем как бинарное число — вот и токен. Никаких codebook'ов. Каждая возможная комбинация битов автоматически валидна, поэтому стимулирует равномерное использование всего кодбука (в RVQ же бывает codebook collapse).

Авторы расширили LFQ до Voting-LFQ на базе Whisper-large-v3. Вместо одной проекции 5 параллельных веток. Каждая независимо проецирует эмбеддинг, получая свой 13-битный вектор. Но вместо выбора одной ветки, делаем побитовое majority vote (см. картинку)

😏 Noise aware consensus training

Во время тренировки для входного аудио w также генерят и зашумленное w’. Далее несколько веток квантизируют h’ из шумного, а остальные из чистого. Это позволяет модели стабилизироваться. Также авторы добавляют consensus loss: l2 между проекцией p_i ветки и среднего по веткам, чтоб заставлять модель стабилизировать шумные проекции еще до квантизации. Попытки учить «token-level consistency» сразу на дискретных давали нестабильные градиенты, поэтому consensus loss учат на непрерывных проекциях.

Результаты 🥤

Авторы оценивают Unit Edit Distance (error rate на токенах) в условиях разного зашумления звука и демонстрируют, что их StableTokenizer имеет наименьшие сдвиги даже среди конкурентов, натренированных на robustness (R-Spin) см. Таблицу

Reconstruction quality: в своем классе токенайзеров обгоняет CosyVoice2, GLM-4-Voice с самым низким WER, по MOS на уровне GLM-4-Voice. Более того, StableTokenizer выдает реконструкцию лучше чем Mimi и SpeechTokenzier

Для оценки на down-stream авторы тренили единый сетап на базе Qwen2.5-3B. StableTokenizer обгоняет GLM-4-Voice на ChiME test-real датасете с WER 35.90 против 51.08 , а это так то очень сложный шумный и много-голосный датасет

TTS (SEED-TTS): EN — WER 4.43 vs 6.19 при сопоставимом MOS. Похоже, что стабильные семантические токены снижают «шум в таргетах» и делают речь разборчивее

🐦 Вот такие дела, что думаете по этому токенайзеру? Нужны ли нам вообще стабильные токены?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍3🔥3