Помимо метрик посмотрела демку
Speech continuation впечатлил, особенно способность генерить речь на основе сэмпла, в котором более 2-х спикеров, при этом модель понимает их роли и голоса. На скринкасте, в сэмпле несколько говорящих, женщина и мужчина ведущие + челы на связи со студией. Они присутствуют и в сгенеренном продолжении
Еще посмотрите на CoT трейсы в audio understanding в демо примере подкаста. Модель не просто транскрибирует и описывает содержание, что было сказано, она понимает кто именно говорит, какова его роль, понимает контекст фоновых звуков
ICL
По паре примеров модель может: клонирование голоса, речевой перевод английский-китайский, изменение темпа и интонации и другое. Это классно, пока не встречала подобного в других аудио моделях. AudioPaLM демонстрировал S2T перевод на парах языков, которых не было в тренировке — это было; в SALM применяли in-context training чтоб бустить сложные словечки в ASR. Например: твоя задача транскрибировать речь, в ней могут попасться слова: gtc, nvidia, … <аудио>. Но настоящего ICL не видела еще
🥹 Вопросы к вам: считаете ли вы, что единый токенайзер это правильный путь? И какие абляции вы бы посмотрели?
Speech continuation впечатлил, особенно способность генерить речь на основе сэмпла, в котором более 2-х спикеров, при этом модель понимает их роли и голоса. На скринкасте, в сэмпле несколько говорящих, женщина и мужчина ведущие + челы на связи со студией. Они присутствуют и в сгенеренном продолжении
Еще посмотрите на CoT трейсы в audio understanding в демо примере подкаста. Модель не просто транскрибирует и описывает содержание, что было сказано, она понимает кто именно говорит, какова его роль, понимает контекст фоновых звуков
ICL
По паре примеров модель может: клонирование голоса, речевой перевод английский-китайский, изменение темпа и интонации и другое. Это классно, пока не встречала подобного в других аудио моделях. AudioPaLM демонстрировал S2T перевод на парах языков, которых не было в тренировке — это было; в SALM применяли in-context training чтоб бустить сложные словечки в ASR. Например: твоя задача транскрибировать речь, в ней могут попасться слова: gtc, nvidia, … <аудио>. Но настоящего ICL не видела еще
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5👍3
🎙У Дваркеша Пателя вышел часовой 🔗подкаст с Ричардом Саттоном. Интересно послушать, еще и потому, что это диалог двух абсолютно разных точек зрения на будущее развитие AI.
🐹 Ричард Саттон считается одним из «отцов» RL, его идеи сильно повлияли на развитие направления; в частности на переход от теории к практическому применению (TD learning, policy gradients, actor-critic модель и др.) Также Саттон является автором широко-цитируемого эссе «The bitter lesson», основная идея которого — наблюдение о том, что за 70+ лет в AI прорывы снова и снова делали общие методы, которые хорошо масштабируются с ростом вычислений, а вовсе не доменные знания.
🐹 Саттон убежден, что LLM’ки — это не путь к сильному AI, а нужен нам переход к агентам, которые учатся из опыта и с обратной связью от мира. LLM же учатся имитировать тексты сгенеренные человеком, и им не достает общего понимания мира. Модели оптимизируют next token prediction, а потому они не имеют внешней цели. Саттон также категорически не согласен с имитационным обучением, так как считает, что имитация не является фундаментальным подходом к обучению у живых существ. Более того, имитация не гарантирует обобщаемости (generalisation), то есть модель может выполнять верно ту задачу, данные которой видела во время тренировки, а вот knowledge transfer под вопросом
🐹 Дваркеш же защищает идею о том, что LLM’ки могут служить хорошей точкой старта для агентов и последующего до-обучения в среде через RL
Тем не менее оба сходятся на необходимости перехода от train → deploy к парадигме continual learning. (думаю, мало кто не согласен с этой идеей)
🐈 Немного размышлений:
В процессе обучения LLM’ки учат концепты и отношения между объектами реального мира через язык, и таким образом формируют внутреннюю модель мира (эта идея мне очень близка, и хорошо описана тут). Выученные представления неполны, они пропущены через призму языка, что может стать стать ловушкой. Тем не менее, на мой взгляд, существует множество абстрактных когнитивных задач, которые уже определены в пространстве языка: математика, бизнес задачи, программирование. Это абстрактные проблемы, формализованные через язык. Стоит ли отказываться от LLM как prior и интерфейс рассуждений в подобных задачах?
Что касается обучения через имитацию, здесь тоже есть о чем подумать. Что, если имитация — это не dead end, а своего рода шорткат, который позволяет ускорить обучение вместо прохождения пути trial and error с полного нуля.🐈 В подкасте Дваркеш приводит пример передачи культурных навыков через имитацию. Представьте, сколько времени бы потребовалось на освоение навыка охоты или выращивания клубники без имитации?
В общем, интересный разговор, и триггерит множество мыслей
А что думаете вы? Где для вас проходит граница между ICL и настоящим обучением из опыта?
Тем не менее оба сходятся на необходимости перехода от train → deploy к парадигме continual learning. (думаю, мало кто не согласен с этой идеей)
В процессе обучения LLM’ки учат концепты и отношения между объектами реального мира через язык, и таким образом формируют внутреннюю модель мира (эта идея мне очень близка, и хорошо описана тут). Выученные представления неполны, они пропущены через призму языка, что может стать стать ловушкой. Тем не менее, на мой взгляд, существует множество абстрактных когнитивных задач, которые уже определены в пространстве языка: математика, бизнес задачи, программирование. Это абстрактные проблемы, формализованные через язык. Стоит ли отказываться от LLM как prior и интерфейс рассуждений в подобных задачах?
Что касается обучения через имитацию, здесь тоже есть о чем подумать. Что, если имитация — это не dead end, а своего рода шорткат, который позволяет ускорить обучение вместо прохождения пути trial and error с полного нуля.
В общем, интересный разговор, и триггерит множество мыслей
А что думаете вы? Где для вас проходит граница между ICL и настоящим обучением из опыта?
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Richard Sutton – Father of RL thinks LLMs are a dead end
Richard Sutton is the father of reinforcement learning, winner of the 2024 Turing Award, and author of The Bitter Lesson. And he thinks LLMs are a dead end. After interviewing him, my steel man of Richard’s position is this: LLMs aren’t capable of learning…
🔥10❤7👍3
IOAI — это International Olympiad in Artificial Intelligence, олимпиада по AI для школьников 🐹
Во 2-й раз IOAI была проведена в этом году в Пекине, но ребята-организаторы уже готовятся к следующему году
В следующем году впервые появится секция по аудио и речи💃
Можно придумать и засабмитить задачки или даже вступить в оргкомитет
Подробности тут у Жени🤩
Во 2-й раз IOAI была проведена в этом году в Пекине, но ребята-организаторы уже готовятся к следующему году
В следующем году впервые появится секция по аудио и речи
Можно придумать и засабмитить задачки или даже вступить в оргкомитет
Подробности тут у Жени
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
tsymba❤️
- Открылся набор задач: в ближайшую пару месяцев (или больше при желании) можно засабмитить идею или полноценную задачу тут. Лучшие поедут в Абу-Даби в следующем году и смогут посмотреть на страдания студентов воочию!✨
- Мы начинаем квн расширяем комитет!…
- Мы начинаем квн расширяем комитет!…
❤4🔥3👍2
Тык, сегодня снова про аудио тех
🔗FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training
Голосовой ассистент, который одновременно слушает и говорит, моментально замолкает при перебивании, поддакивает "угу". Это full-duplex модели, и их пока можно пересчитать по пальцам, а ведь Moshi вышла уже год назад. Потому что одновременно слушать и говорить — технически не очень просто.
Большинство (около-)дуплексных моделей используют Time Division Multiplexing: контекст это чередующиеся чанки того, что говорит пользователь, что отвечает модель, и текст ответа.
Kyutai Labs в Moshi предложили native full-duplex — она моделирует три потока параллельно: входное аудио пользователя, своё выходное аудио и текстовый inner-monologue.
Но есть сложность: текст и аудио имеют разные частоты. Одно слово произносится за ~300ms, а аудио кодек / энкодер выдает порядка ~100 токенов в секунду (зависит, но сильно больше чем кол-во слов). Их нужно синхронизировать.
Moshi выравнивает текст на уровне слов: для каждого слова создаётся временная метка, и текст растягивается pad-токенами. Получается:
Привет <pad> <pad> <pad> <pad> как <pad> <pad> дела <pad> <pad>Значительная часть текстового потока становится шумом. LLM моделирует язык на последовательности, где много токенов ничего не значат. При таком подходе Moshi проактивно отвечает, но становится слабее как языковая модель
В FLM-Audio предложили идею: а что если выравнивать текст и аудио на уровне предложений, а не слов?
Inner-monologue генерится как непрерывный текст, опережая аудио на ~2 токена. Модель думает полными предложениями и сразу говорит. Пока аудио заканчивает генерацию, текстовый канал заполняется
<wait> токенами. Для понимания речи есть Follow Mode, где монолог следует за аудио (ASR режим). Тут нужны только транскрипции предложений, без временных меток слов.Что и как тренировали?
Основа это Qwen-2.5-VL (7B), RQ-Transformer для аудио, Mimi кодек. Три канала эмбеддингов объединяются на каждом шаге, LLM генерит hidden states, из которых одна голова производит текст, а depth transformer 8 аудио токенов (все похоже на Moshi).
Обучение в четыре стадии. Post-training на ~1М часов (у Moshi было 7М) с dual-форматом: Lead (TTS режим, текст опережает аудио генерацию на ~2 токена) и Follow (ASR режим, текст после аудио). Затем supervised fine-tuning: сначала semi-duplex, потом full-duplex с симуляцией прерываний.
Результаты лучше Moshi, но есть вопросики
Похожую идею отказа от строгого word-level выравнивания уже предлагали в SALM-Duplex (вот разбор), но её не сравнивают. Это странно: SALM-Duplex показала 94.5% успешных прерываний против 55.1% у Moshi при 1.1B парам-ов и всего 26.5k часов данных.
Ну и выводы такие..
Natural monologues решают проблему с padding'ом. Результаты по ASR это подтверждают, субъективные оценки положительные. Но без объективных метрик full-duplex способностей трудно оценить, действительно ли FLM-Audio лучше. Отсутствие сравнения с SALM-Duplex — это прям упущение.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5👍4
🔗статья
LLM оперируют дискретными токенами. Для обучения модели на аудио модальности звук тоже часто представляют дискретно. Аудио токены могут использоваться для понимания речи (ASR, эмоции) и генерации (TTS - модель предсказывает токены, декодер превращает в звук).
Вот основные подходы
Для ASR: модель видит разные токены для одного и того же слова — учится компенсировать нестабильность при извлечении паттернов. Для TTS результатом может стать менее разборчивая синтезированная речь
Авторы StableToken показывают, что стабилизация токенов в условиях шума значимо облегчает задачу LLM и ведет лучшим метриках понимания и генерации. И что самое интересное — без компромисса reconstruction quality. Разберем, что это за токенайзер
Традиционная Vector Quantization (VQ) использует learned codebook — таблицу из N векторов. Для каждого эмбеддинга аудио фрейма ищем ближайший вектор в таблице и берём его индекс.
Lookup-Free Quantization (LFQ) работает проще: проецируем эмбеддинг в d-мерное пространство (в StableToken d=13) и применяем sign к каждой размерности. Получаем d-битный вектор (например,
[1, -1, 1, 1, -1, ...]). Интерпретируем как бинарное число — вот и токен. Никаких codebook'ов. Каждая возможная комбинация битов автоматически валидна, поэтому стимулирует равномерное использование всего кодбука (в RVQ же бывает codebook collapse).Авторы расширили LFQ до Voting-LFQ на базе Whisper-large-v3. Вместо одной проекции 5 параллельных веток. Каждая независимо проецирует эмбеддинг, получая свой 13-битный вектор. Но вместо выбора одной ветки, делаем побитовое majority vote (см. картинку)
Во время тренировки для входного аудио w также генерят и зашумленное w’. Далее несколько веток квантизируют h’ из шумного, а остальные из чистого. Это позволяет модели стабилизироваться. Также авторы добавляют consensus loss: l2 между проекцией p_i ветки и среднего по веткам, чтоб заставлять модель стабилизировать шумные проекции еще до квантизации. Попытки учить «token-level consistency» сразу на дискретных давали нестабильные градиенты, поэтому consensus loss учат на непрерывных проекциях.
Результаты
Авторы оценивают Unit Edit Distance (error rate на токенах) в условиях разного зашумления звука и демонстрируют, что их StableTokenizer имеет наименьшие сдвиги даже среди конкурентов, натренированных на robustness (R-Spin)
Reconstruction quality: в своем классе токенайзеров обгоняет CosyVoice2, GLM-4-Voice с самым низким WER, по MOS на уровне GLM-4-Voice. Более того, StableTokenizer выдает реконструкцию лучше чем Mimi и SpeechTokenzier
Для оценки на down-stream авторы тренили единый сетап на базе Qwen2.5-3B. StableTokenizer обгоняет GLM-4-Voice на ChiME test-real датасете с WER 35.90 против 51.08 , а это так то очень сложный шумный и много-голосный датасет
TTS (SEED-TTS): EN — WER 4.43 vs 6.19 при сопоставимом MOS. Похоже, что стабильные семантические токены снижают «шум в таргетах» и делают речь разборчивее
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3🔥3
Статья о том, как прокачать синтез речи для мало-ресурсных языков. Авторы показывают, что даже на 30 мин парных данных (аудио & текст) можно получить качественный TTS с помощью GRPO post-training.
🔗Align2Speak: Improving TTS for Low Resource Languages via ASR-Guided Online Preference Optimization
Статья понравилась, потому что идея простая и прикладная (разбирать что-то сложное пока нет времени). Ну и интересно все, что связано с бутстрэппингом на новые языки. Это, кстати, продолжение 🔗Koel-TTS (NVIDIA) от той же команды.
Здесь у нас encoder-decoder из Koel-TTS. Не самое современное решение на фоне диффузионок, но надёжное и показывает хорошие результаты при ограниченных данных.
Текст, что нужно озвучить, проходит через NAR text encoder, затем AR transformer decoder получает аудио-токены референсного голоса в контекст и через cross-attention считывает текстовые представления. Декодер оперирует только аудио-токенами, ему не нужно учить мульти-модальность, что выгодно для мало-ресурсных сценариев. Такая архитектура была признана оптимальной в Koel-TTS, так как перенос голоса через контекст сработал лучше, чем через spk embedding. На каждом шаге модель параллельно генерит все токены кодбуков 🔗Nanocodec.
Базовая модель построена на IPA токенах (International Phonetic Alphabet). Это универсальные фонетические представления, позволяют модели выучить относительно независимый от языка мэппинг между звуками и речевыми токенами.
Базовая TTS натренена на ~21к часов речи, где ~18к это англ, а все остальное европейские языки (German, Dutch, Spanish, French). Затем адаптировали к польскому, португальскому и хинди — трём языкам, которых модель не видела.
При генерации вариантов для GRPO на 50% примеров включили CFG (Classifier-Free Guidance)
Авторы оценивали по четырём метрикам: Intelligibility (CER от того же Whisper-v3-large), Speaker Similarity (TitaNet), Audio Quality (PESQ), Naturalness (Squim-MOS).
А чем бы вы заменили whisper? А еще, пробовали ли CFG в TTS?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍2🔥2
Карпатый зарелизил новый репозиторий для обучения LLM’ок с нуля — 🔗nanochat
It weighs ~8,000 lines of imo quite clean code to:
- Train the tokenizer using a new Rust implementation
- Pretrain a Transformer LLM on FineWeb, evaluate CORE score across a number of metrics
- Midtrain on user-assistant conversations from SmolTalk, multiple choice questions, tool use.
- SFT, evaluate the chat model on world knowledge multiple choice (ARC-E/C, MMLU), math (GSM8K), code (HumanEval)
- RL the model optionally on GSM8K with "GRPO"
- Efficient inference the model in an Engine with KV cache, simple prefill/decode, tool use (Python interpreter in a lightweight sandbox), talk to it over CLI or ChatGPT-like WebUI.
- Write a single markdown report card, summarizing and gamifying the whole thing.
С какими еще техниками можно тут поупражняться:
Ресурсы: ~4 часов 8XH100
В общем, берем на заметку
🔗https://github.com/karpathy/nanochat
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - karpathy/nanochat: The best ChatGPT that $100 can buy.
The best ChatGPT that $100 can buy. Contribute to karpathy/nanochat development by creating an account on GitHub.
✍8❤4🔥4
Летом вышла HRM, модель на 27М с «биологически вдохновленной иерархией» и 32% на ARC-AGI. У нас тут был обзор на deep-dive от ARC-AGI, где показали, что эта самая иерархия не так и нужна
В комьюнити HRM уже успели покрутить, и вышел еще разбор, из которого про модель я узнала больше, чем из оригинальной работы. А следом Tiny Recursion Model, в которой отбросили всю сложность HRM
🔗HIERARCHICAL REASONING MODELS: PERSPECTIVES AND MISCONCEPTIONS
🔗Less is More: Recursive Reasoning with Tiny Networks
🤔 Что не так с RNN
RNN страдают от BPTT. Vanishing gradients возникают из-за того, что hidden state
В трансформерах каждый токен смотрит на весь контекст через self-attention. Параллелизация вычислений, стабильные градиенты. Недостаток в квадратичной сложности по длине последовательности и в фиксированной архитектурно «глубине обдумывания» каждого токена (кол-во слоев).
А ведь рекуррентность имеет смысл.❗️ Возможность «обдумать» входные данные несколько раз, уточняя ответ — хорошая стратегия, чего не хватает трансформерам.
❔ HRM напоминает диффузию?
HRM перенесла рекуррентность в латентное пространство. Вместо обновления hidden state по токенам, модель итеративно уточняет латентное представление
В обучении HRM использует one-step gradient через Implicit Function Theorem: градиенты считают только для последних двух итераций рекурсии. Память получается константной.
Это похоже на диффузию. Там модель учится из зашумленного
😐 Deep supervision
Команда ARC Prize тогда еще обнаружила, что deep supervision даёт ~+20% на ARC-AGI бенче. Что это значит? Обычно модель получает feedback только в самом конце: правильное ли решение. А с deep supervision модель получает feedback на промежуточных шагах. HRM делает 16 итераций уточнения (внутри каждой еще несколько итераций L-модуля без градиентов), и на каждой модель учится: первая итерация — первая попытка, последняя улучшает финальный ответ.
Помимо этого, HRM предполагает, что рекуррентный процесс достигает fixed point (где дальнейшие итерации ничего не меняют), и на этом основании использует упрощенный расчет градиентов. Но абляции показали, что модель по факту не достигает этой точки. Формула для градиентов работает не совсем корректно, и модель учится на неточных сигналах.
Механизм Adaptive Computation Time (ACT) тоже вызвал вопросы. В оригинальной статье Q-head предсказывает, когда остановить уточнение через Q-learning (Q_halt vs Q_continue). Но на практике максимальное число шагов всегда даёт лучший результат, что ставит под сомнение адаптивность.
😐 Tiny Reasoner Model
Авторы TRM просто начали удалять компоненты HRM, проверяя абляциями
Убрали H-модуль, оставили только L. Это согласуется с наблюдениями ARC-AGI.
Два слоя вместо восьми. Уменьшили глубину с 4+4 слоёв до 2 слоёв. Логично, что на датасете из ~1000 примеров, маленькие сети лучше генерализуются
Возвращение к полному BPTT вместо приближения. Это главное, пожалуй. Да, тут память растёт линейно с числом шагов, но сеть очень маленькая (2 слоя). В результате (вместе с заменой Attention на MLP) +30.9% на задаче Sudoku по сравнению с HRM
Выводы?
Рекуррентность пытаются возвращать. В виде итеративных обновлений в латентном пространстве, с deep supervision и адаптивной глубиной вычислений
🟠 RNN рекуррентны во времени (токен → токен)
🔴 Universal Transformer рекуррентен по глубине: один и тот же блок повторяется для всех позиций, иногда с ACT-остановкой
🔴 HRM/TRM рекуррентны в латентном пространстве: есть состояние, которое итеративно уточняется
Как думаете, есть будущее у этого подхода? Будет ли масштабироваться с ростом количества данных?
В комьюнити HRM уже успели покрутить, и вышел еще разбор, из которого про модель я узнала больше, чем из оригинальной работы. А следом Tiny Recursion Model, в которой отбросили всю сложность HRM
🔗HIERARCHICAL REASONING MODELS: PERSPECTIVES AND MISCONCEPTIONS
🔗Less is More: Recursive Reasoning with Tiny Networks
RNN страдают от BPTT. Vanishing gradients возникают из-за того, что hidden state
h_t зависит от всех предыдущих состояний. Чтобы посчитать градиент для h_0, нужно пройти через все промежуточные h_t. Градиент превращается в произведение якобианов, и при длине последовательности в сотни шагов испаряется.В трансформерах каждый токен смотрит на весь контекст через self-attention. Параллелизация вычислений, стабильные градиенты. Недостаток в квадратичной сложности по длине последовательности и в фиксированной архитектурно «глубине обдумывания» каждого токена (кол-во слоев).
А ведь рекуррентность имеет смысл.
HRM перенесла рекуррентность в латентное пространство. Вместо обновления hidden state по токенам, модель итеративно уточняет латентное представление
z всего ответа.В обучении HRM использует one-step gradient через Implicit Function Theorem: градиенты считают только для последних двух итераций рекурсии. Память получается константной.
Это похоже на диффузию. Там модель учится из зашумленного
x_t воспроизводить чистый x_0, обучаясь на парах (x_t, x_0) независимо. Рекурсия (постепенное убирание шума) появляется только на inference. HRM делает концептуально похожее: учится улучшать ответ с любого промежуточного состоянияКоманда ARC Prize тогда еще обнаружила, что deep supervision даёт ~+20% на ARC-AGI бенче. Что это значит? Обычно модель получает feedback только в самом конце: правильное ли решение. А с deep supervision модель получает feedback на промежуточных шагах. HRM делает 16 итераций уточнения (внутри каждой еще несколько итераций L-модуля без градиентов), и на каждой модель учится: первая итерация — первая попытка, последняя улучшает финальный ответ.
Помимо этого, HRM предполагает, что рекуррентный процесс достигает fixed point (где дальнейшие итерации ничего не меняют), и на этом основании использует упрощенный расчет градиентов. Но абляции показали, что модель по факту не достигает этой точки. Формула для градиентов работает не совсем корректно, и модель учится на неточных сигналах.
Механизм Adaptive Computation Time (ACT) тоже вызвал вопросы. В оригинальной статье Q-head предсказывает, когда остановить уточнение через Q-learning (Q_halt vs Q_continue). Но на практике максимальное число шагов всегда даёт лучший результат, что ставит под сомнение адаптивность.
Авторы TRM просто начали удалять компоненты HRM, проверяя абляциями
Убрали H-модуль, оставили только L. Это согласуется с наблюдениями ARC-AGI.
Два слоя вместо восьми. Уменьшили глубину с 4+4 слоёв до 2 слоёв. Логично, что на датасете из ~1000 примеров, маленькие сети лучше генерализуются
Возвращение к полному BPTT вместо приближения. Это главное, пожалуй. Да, тут память растёт линейно с числом шагов, но сеть очень маленькая (2 слоя). В результате (вместе с заменой Attention на MLP) +30.9% на задаче Sudoku по сравнению с HRM
Выводы?
Рекуррентность пытаются возвращать. В виде итеративных обновлений в латентном пространстве, с deep supervision и адаптивной глубиной вычислений
Как думаете, есть будущее у этого подхода? Будет ли масштабироваться с ростом количества данных?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥2
Microsoft предлагает использовать speech-LLM для оценки качества синтетической речи. Идея практичная, стандартные протоколы типа MOS и A/B тестов трудозатратны, а на выходе получаем оценку без качественных инсайтов, что именно пошло не так
🔗SpeechLLM-as-Judges: Towards General and Interpretable Speech Quality Evaluation
🐯 SQ-LLM
Авторы собрали датасет SpeechEval: 32к аудио (реальных и синтетики, включая коммерческие TTS), 128к аннотаций на 4 языках (en/zh/ja/fr). Аннотации включают оценки по 8 измерениям: overall quality, intelligibility, distortion, speech rate, dynamic range, emotional impact, artistic expression, subjective experience, а также развернутое текстовое описание «что не так».
Модель SQ-LLM на базе Qwen2.5-Omni-7B. Файн-тьюн LLM через LoRA, аудио энкодер не трогали. Обучали на 4: speech quality assessment (краткий текстовый разбор по 8 измерениям), парные сравнения A/B по тем же аспектам, генерация советов по улучшению, и детекция дипфейков.
Добавили CoT (это самое важное): модель предсказывает сами численные оценки по 8 измерениям❕ (см. картинку), затем текстовое описание и итоговый скор
Эксперименты в статье не совсем убедительны. Но есть все же несколько инсайтов🌸
🌀 Без доп. файн-тюна все speech-LLM дают слабую корреляцию с человеческими оценками (zero-shot не в деле). Эмерджентности не наблюдается, speechLLM, обычно крайне чувствительны к out-of-domain задачам. ‼️ Между их SQ-LLM и их же кастомными бейзлайнами (Whisper+Qwen3-8B, WavLM+Qwen3-4B) большой разницы тоже не вижу...
😎 Чтобы быть хорошим судьей, не нужно уметь генерить речь, важно глубоко понимать акустические характеристики. Бейзлайны с Whisper в среднем опережают остальных (особенно на deepfake detection), что подсказывает важность мощного энкодера. Было бы интересно проверить, даст ли до-обучение энкодера с головами предсказания отдельных метрик бОльший буст
🐈 CoT улучшает метрики, логично: 8 промежуточных численных предсказаний дают модели доп. сигналы помимо текста. Это мотивирует модель выучить отдельно факторы влияющие на качество и численно их оценивать, подкрепляя ответ. Полагаю, CoT еще снижает кол-во связных и красивых, но фактически некорректных формулировок
RL в виде GRPO даёт прирост по всем задачам, особенно на детекции дипфейков: модель достигает EER 6.2% и точности 89.4% против 15-18% у спец. систем типа RawNet2 (EER 15.84%, ACC 72.04%)
Что не понравилось в статье😭
🟡 Система якобы решает проблему интерпретируемости, но ни одного человеческого исследования нет, было бы круто прогнать на какую-нибудь TTS и проанализировать отзывы модели
🔴 SQ-LLM показывает, что speech-LLM можно адаптировать для оценки качества речи со средней точностью.. Pearson correlation 0.476 на оценке качества это скромно (хотелось бы 0.7+). Точность 67% в парных сравнениях, что всего на 17 п. выше угадывания
🟡 Непонятно, как файн-тюнили кастомные бейзлайны: была ли LoRA, был ли CoT? Не хватает сравнения разных аудио-энкодеров и LLM-декодеров
Самое главное: датасет не выпущен. Авторы собрали ценный ресурс, 128к качественных аннотаций, но пока не зарелизили
Выводы?
Я все еще скептически отношусь к LLM as a judge. Но для частичной автоматизации оценивания, почему бы и нет, например, чтобы выловить сложные примеры и углубиться в их анализ уже вручную.
P.S.: В этом году вела проект аннотации данных: подготовка, дизайн UI, правила для аннотаторов, обработка edge cases. Впечатление, что компании, специализирующиеся на данных, уже чаще вовлекают людей только для проверки и исправления ошибок ML пайплайнов. Это оптимизация и ускорение, но критически важна due diligence аннотаторов, не кликнуть на «тут все верно, идем дальше», если есть ошибки
Пока дописывала пост, релизнули 🔗OmniVinci. Идём читать 🤓
🔗SpeechLLM-as-Judges: Towards General and Interpretable Speech Quality Evaluation
Авторы собрали датасет SpeechEval: 32к аудио (реальных и синтетики, включая коммерческие TTS), 128к аннотаций на 4 языках (en/zh/ja/fr). Аннотации включают оценки по 8 измерениям: overall quality, intelligibility, distortion, speech rate, dynamic range, emotional impact, artistic expression, subjective experience, а также развернутое текстовое описание «что не так».
Модель SQ-LLM на базе Qwen2.5-Omni-7B. Файн-тьюн LLM через LoRA, аудио энкодер не трогали. Обучали на 4: speech quality assessment (краткий текстовый разбор по 8 измерениям), парные сравнения A/B по тем же аспектам, генерация советов по улучшению, и детекция дипфейков.
Добавили CoT (это самое важное): модель предсказывает сами численные оценки по 8 измерениям
Эксперименты в статье не совсем убедительны. Но есть все же несколько инсайтов
RL в виде GRPO даёт прирост по всем задачам, особенно на детекции дипфейков: модель достигает EER 6.2% и точности 89.4% против 15-18% у спец. систем типа RawNet2 (EER 15.84%, ACC 72.04%)
В своих проектах пришла к похожим выводам: учим LLM’ку извлекать и предсказывать количественные и качественные характеристики аудио внутри цепочки CoT (даже те, которые лишь косвенно связаны с down-stream) — получаем лучшее качество на основной задаче. Правда, это лишь мое эмпирическое наблюдение.
Что не понравилось в статье
Самое главное: датасет не выпущен. Авторы собрали ценный ресурс, 128к качественных аннотаций, но пока не зарелизили
Выводы?
Я все еще скептически отношусь к LLM as a judge. Но для частичной автоматизации оценивания, почему бы и нет, например, чтобы выловить сложные примеры и углубиться в их анализ уже вручную.
P.S.: В этом году вела проект аннотации данных: подготовка, дизайн UI, правила для аннотаторов, обработка edge cases. Впечатление, что компании, специализирующиеся на данных, уже чаще вовлекают людей только для проверки и исправления ошибок ML пайплайнов. Это оптимизация и ускорение, но критически важна due diligence аннотаторов, не кликнуть на «тут все верно, идем дальше», если есть ошибки
Пока дописывала пост, релизнули 🔗OmniVinci. Идём читать 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5✍2🔥2