Там наглядно с крутейшими анимациями показано, почему глубокие сети способны выучивать более сложные паттерны, чем широкие. Идея как бэ не нова, но подача настолько хорошая, что хочется поделиться
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Why Deep Learning Works Unreasonably Well [How Models Learn Part 3]
Take your personal data back with Incogni! Use code WELCHLABS and get 60% off an annual plan: http://incogni.com/welchlabs
New Patreon Rewards 33:31- own a piece of Welch Labs history!
https://www.patreon.com/welchlabs
Books & Posters
https://www.welch…
New Patreon Rewards 33:31- own a piece of Welch Labs history!
https://www.patreon.com/welchlabs
Books & Posters
https://www.welch…
❤9🔥8👍2🗿1
Если у вас мало данных, но хватает GPU-часов, то есть смысл рассмотреть диффузионные модели как альтернативу авторегрессионным. Собственно, это то, что утверждают исследователи CMU в своей работе 🔗Diffusion beats Autoregressive in Data-Constrained Settings. В режимах с многократными проходами по ограниченному корпусу диффузионные языковые модели (DLM) обходят авторегрессию (AR).
👍 Вообще, DLM (masked diffusion), давно фигурируют в научном дискурсе как валидная альтернатива AR моделям. Google, вот, представили свою экспериментальную Gemini Diffusion, есть исследования, демонстрирующие, что DLM тоже скейлятся. Но проблема диффузии в том, что для того, чтоб достичь уровня перфоманса AR модели, ей нужно больше компьюта (до х16).
Но вернемся к статье🤓
Исследователи обучили 200 моделей (100 DLM, 100 AR) с разными размерами и количеством эпох (см. картинку). Каждая точка — это конфигурация, для каждого бюджета FLOPs показан наилучший достигнутый loss среди всех запусков, укладывающихся в этот бюджет.
Соединив лучшие рез-ты получили Pareto Frontier — линию оптимальной эффективности. И как видно, существует критическая точка, после которой диффузионки начинают обгонять AR. При малых вычислениях AR эффективнее, но чем больше компьюта — тем больше преимущество диффузии на ограниченных данных.
💜 DLM показывают высокий «период полураспада» полезности данных ~493, против ~31 у AR. То есть лучший loss DLM достигают на сотнях эпох (сотни повторов одних и тех же данных!), у AR на десятках
🔴 Авторы посчитали критический compute, при котором DLM обгоняют AR, он растёт с числом токенов, но тренд стабилен: при достаточном бюджете FLOPs диффузия начинает обгонять (см. картинку)
😶 Почему так происходит? Авторегрессия всегда решает одну задачу предсказания слева-направо: «Стажер сломал...» → «прод». Диффузионка же каждый раз получает новый бэтч где замаскированы другие токены: то «Стажер [MASK] прод», или такой «[MASK] сломал [MASK]». Это своего рода неявная аугментация.
Еще нашла блог Jinjie Ni (не знаю, как произнести). Результаты исследований его команды совпадают со статьей (хотя он сильно критикует статью). Он описывает свои экспериментальные сетапы с моделями до 8B параметров и 480B токенов и демонстрирует, что DLM обладают бОльшим, так называемым, «потенциалом», чем AR: в экспериментах DLM, обученные на 0,5В уникальных токенов, показали сравнимое качество с AR, обученными на 1,5В, и даже после сотен эпох они продолжают улучшать лосс. Но цена диффузии — очень высокая вычислительная стоимость обучения и в 16–4700 раз дороже инференс, чем у AR (зависит от длины выхода).
😶 Выводы пока такие: сегодня compute зависит от масштаба данных, а не числа эпох. В таких условиях DLM, которым нужно ещё больше времени на обучение, вряд ли пока обгонят AR.
Современные LLM видят каждый токен скорее всего один раз за все обучение. У них даже dropout выключен (сурс), модели не успевают переобучиться. И пока что индустрия жила в мире изобилия данных, где проще найти новые тексты. Cтажеры, приходя к нам в команду, удивляются и спрашивают, где у нас в конфигах настройка кол-ва эпох — а её просто нет. При таком объёме данных считать по эпохам не имеет большого смысла.
Когда мы упремся в потолок данных? Сложный вопрос. Компании всё больше полагаются на синтетику, и пока это работает, для coding и tool usage точно. Результаты в статье сильные, но сами авторы признают: тренд проверен лишь до 500M уникальных токенов. Что будет дальше — неизвестно. Авторы статьи пробовали добавить неявную аугментацию AR-моделям (attention dropout, token masking), но это не помогло — loss не улучшился, модели всё равно переобучались.
Но есть области, где данные объективно ограничены. Например, аудио🎧 : задачи вроде разделения спикеров (source separation) или диаризации с раздельными дорожками — реальных размеченных корпусов крайне мало.
Но вернемся к статье
Исследователи обучили 200 моделей (100 DLM, 100 AR) с разными размерами и количеством эпох (см. картинку). Каждая точка — это конфигурация, для каждого бюджета FLOPs показан наилучший достигнутый loss среди всех запусков, укладывающихся в этот бюджет.
Соединив лучшие рез-ты получили Pareto Frontier — линию оптимальной эффективности. И как видно, существует критическая точка, после которой диффузионки начинают обгонять AR. При малых вычислениях AR эффективнее, но чем больше компьюта — тем больше преимущество диффузии на ограниченных данных.
Еще нашла блог Jinjie Ni (не знаю, как произнести). Результаты исследований его команды совпадают со статьей (хотя он сильно критикует статью). Он описывает свои экспериментальные сетапы с моделями до 8B параметров и 480B токенов и демонстрирует, что DLM обладают бОльшим, так называемым, «потенциалом», чем AR: в экспериментах DLM, обученные на 0,5В уникальных токенов, показали сравнимое качество с AR, обученными на 1,5В, и даже после сотен эпох они продолжают улучшать лосс. Но цена диффузии — очень высокая вычислительная стоимость обучения и в 16–4700 раз дороже инференс, чем у AR (зависит от длины выхода).
Современные LLM видят каждый токен скорее всего один раз за все обучение. У них даже dropout выключен (сурс), модели не успевают переобучиться. И пока что индустрия жила в мире изобилия данных, где проще найти новые тексты. Cтажеры, приходя к нам в команду, удивляются и спрашивают, где у нас в конфигах настройка кол-ва эпох — а её просто нет. При таком объёме данных считать по эпохам не имеет большого смысла.
Когда мы упремся в потолок данных? Сложный вопрос. Компании всё больше полагаются на синтетику, и пока это работает, для coding и tool usage точно. Результаты в статье сильные, но сами авторы признают: тренд проверен лишь до 500M уникальных токенов. Что будет дальше — неизвестно. Авторы статьи пробовали добавить неявную аугментацию AR-моделям (attention dropout, token masking), но это не помогло — loss не улучшился, модели всё равно переобучались.
Но есть области, где данные объективно ограничены. Например, аудио
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🔥2
В моей команде открылась Applied Science позиция в сфере мультимодальных LLM
Работа на стыке speech, audio и video — будем решать задачи, где модели учатся понимать и генерировать речь, звук и видео
Можно обратиться ко мне за рефералкой — так как это моя команда, рекомендация будет иметь вес
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤3👍3
Hierarchical Reasoning Model (HRM) — моделька всего на 27M параметров, которая в начале лета привлекла внимание в AI сообществе. Причина такая: будучи крошечной по нынешним меркам, она набрала 41% на ARC-AGI. Меня такой результат тоже впечатлил, но статья так и лежала в бэклоге. Я думала, что авторы просто заоверфитили на задачи из теста.
Команда ARC-AGI поисследовала модель и причины ее мощного перфоманса, и запостила выводы в статье 🔗The Hidden Drivers of HRM's Performance on ARC-AGI, которые мне показались интересными и важными, так что статью прочитала
🧩 Коротко про ARC‑AGI
Это визуальные пазлы на цветных клетках (типо цветного тетриса), где нужно вывести правило из 2–3 примеров и применить его к новому вводу. Для людей это тривиально, для моделей долгое время было сложнаа. Прогресс в CoT и in-context learning позволил LLM’кам научиться решать эти головоломки, но результаты оставались скромными. И тут появляется моделька на 27М и показывает 41% (32% на semi-private). По лидерборду видно, что из НЕ ризонинг моделей выше 30% почти никто не поднялся.
🤔 Как работает HRM
Архитектура HRM действительно интересная. Авторы вдохновлялись структурой мыслительных процессов человека (напоминает "Thinking, Fast and Slow" Канемана). У модели два модуля: High и Low — это два небольших трансформера. Low модуль итеративно обрабатывает задачу, обновляя своё внутреннее состояние и улучшая предсказание с каждой итерацией. High модуль включается только каждые T шагов, задавая общую стратегию, которую затем исполняет Low модуль.
Внешне это напоминает RNN, но с важным отличием. Обычные RNN быстро сходятся к решению, и поздние итерации почти не влияют на результат. HRM продолжает активно "размышлять" и обновлять ответ на протяжении всего процесса благодаря двухуровневой рекурсии (см. картинку)
Важно, что HRM это не языковая модель в привычном смысле. Она не генерит рассуждения на естественном языке. Получив пазл в виде цветной сетки, она проецирует его в пространство эмбеддингов и работает с латентными представлениями.
Команда ARC Prize перепроверила и подтвердила рез-ты HRM на скрытых задачах. Но «общий интеллект» это пока не про нее, и вот почему:
🔍 Архитектура HRM не так критична, как казалось. Когда обычный трансформер с тем же количеством параметров поместили в тот же пайплайн обучения, разница составила всего около 5 пунктов. Особенно интересно, что при одной итерации внешнего цикла производительность моделей была практически одинаковой
🌀 Внешний цикл уточнения (outer loop) — это ключевое. Переход от одной итерации к двум даёт прирост в 13 пунктов (!) А увеличение до 8 итераций удваивает производительность
🐈 Большая часть результата приходит от обучения именно на задачах, по которым потом тестируется модель. Если учить только на этих evaluation‑тасках (с аугментациями), метрика падает совсем немного. Это ближе к «test‑time training», чем к универсальному интеллекту
😳 И это важное ограничение. HRM использует puzzle_id вместо few-shot контекста. Каждый пазл получает уникальный идентификатор, который модель связывает с нужной трансформацией. Это привязывает её к конкретным типам задач, которые она видела при обучении. Поэтому авторы включили демонстрационные примеры из тестовых данных в тренировку — не сами тесты, но типы задач.
Вообще, думаю, что ARC-AGI — это не самая подходящая задача для HRM. А вот длинные пазлы, по типу лабиринтов и судоку — именно то, где HRM раскрывает, так сказать, свой потенциал. А еще думаю, где бы применить подобный подход в аудио? Может, для улучшения сегментации/выравнивания в ASR? Какие у вас мысли?
☕ Что еще почитать и посмотреть:
🌸 Схожая идея — zero-pretraining test-time training
🪻 Неплохое видео с разбором HRM
🐱 P.S.: В следующем посте хочется уже про speech & audio — накопилось много интересного. А ещё на этой неделе я в Роттердаме на Interspeech 2025 🎉 уже составила себе расписание на два дня. Если кто-то тоже там и хотели бы пообщаться — пишите
Команда ARC-AGI поисследовала модель и причины ее мощного перфоманса, и запостила выводы в статье 🔗The Hidden Drivers of HRM's Performance on ARC-AGI, которые мне показались интересными и важными, так что статью прочитала
Это визуальные пазлы на цветных клетках (типо цветного тетриса), где нужно вывести правило из 2–3 примеров и применить его к новому вводу. Для людей это тривиально, для моделей долгое время было сложнаа. Прогресс в CoT и in-context learning позволил LLM’кам научиться решать эти головоломки, но результаты оставались скромными. И тут появляется моделька на 27М и показывает 41% (32% на semi-private). По лидерборду видно, что из НЕ ризонинг моделей выше 30% почти никто не поднялся.
Архитектура HRM действительно интересная. Авторы вдохновлялись структурой мыслительных процессов человека (напоминает "Thinking, Fast and Slow" Канемана). У модели два модуля: High и Low — это два небольших трансформера. Low модуль итеративно обрабатывает задачу, обновляя своё внутреннее состояние и улучшая предсказание с каждой итерацией. High модуль включается только каждые T шагов, задавая общую стратегию, которую затем исполняет Low модуль.
Внешне это напоминает RNN, но с важным отличием. Обычные RNN быстро сходятся к решению, и поздние итерации почти не влияют на результат. HRM продолжает активно "размышлять" и обновлять ответ на протяжении всего процесса благодаря двухуровневой рекурсии (см. картинку)
Важно, что HRM это не языковая модель в привычном смысле. Она не генерит рассуждения на естественном языке. Получив пазл в виде цветной сетки, она проецирует его в пространство эмбеддингов и работает с латентными представлениями.
Команда ARC Prize перепроверила и подтвердила рез-ты HRM на скрытых задачах. Но «общий интеллект» это пока не про нее, и вот почему:
Вообще, думаю, что ARC-AGI — это не самая подходящая задача для HRM. А вот длинные пазлы, по типу лабиринтов и судоку — именно то, где HRM раскрывает, так сказать, свой потенциал. А еще думаю, где бы применить подобный подход в аудио? Может, для улучшения сегментации/выравнивания в ASR? Какие у вас мысли?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥5👍3
В 2025 у Interspeech появилась отдельная спец‑сессия по interplretability. Направление лишь зарождается в audio и speech области, так что статьи пока на уровне scratching the surface
Текстовые модели уже на ранних слоях кодируют лингвистику, тогда как в аудио-модели на ранних слоях репрезентации сперва группируются по простым акустическим признакам (ожидаемо) — например, слова, начинающиеся со звука /dʒ/ (“judge”, “joke”), окажутся ближе друг к другу. На более поздних слоях модель делит эти кластеры и начинает различать их по смыслу: “judge” тянется к юридической тематике, “joke” — к юмору, хотя акустически они как бы стартовали одинаково.
Мультимодальные модели (omni) демонстрируют иные паттерны. Например, у SpeechT5 часть высоко-уровневых концептов начинает всплывать на ранних слоях, там своего рода аудио-лингвистический микс концептов. Практический вывод такой: у аудио‑энкодеров меньше ёмкости под абстрактные смыслы — часть параметров занята фонетикой/просодией, так что ждать текстового уровня reasoning пока рано. Финальные слои у обоих типов становятся более специфичными к задаче и теряют общую лингвистику.
Интересные наблюдения также на задаче emotion recognition. Для positive высказываний в аудио модели латентные представления получаются более компактными. Модель быстро находит акустические признаки, которые «подсказывают позитив» — это и повышенная энергия, более высокий pitch (частота), чуть ускоренный темп. Негативные паттерны в акустике выявить сложнее, они непостоянные, и там аудио модели справляются с классификацией хуже, в то время как текстовым моделям его проще ловить по лексике/отрицаниям
Реально используемый аудио моделями контекст меньше окна внимания: для питча хватает нескольких миллисекунд, для фонем десятков миллисекунд, для слов — длиннее, но всё равно ограничено. Это логично, но обычно такие рассуждения остаются на уровне интуиции. А тут авторы предложили воспроизводимую методику и метрику контекстуализации, которую можно применить к своей модели и, может быть, дропнуть длинный контекст там, где он не нужен
А в этой статье предложили метрику Layer Utilization Rate (LUR), которая показывает, какая доля нейронов в слое участвует в предсказаниях. Низшие слои аудио энкодеров, как принято считать, ответственны за простые акустические фичи, высшие уже извлекают лингвистические паттерны. Авторы трактуют это так: падение LUR в верхних слоях у больших моделей сигнализирует об избыточном масштабе. А когда небольшую модель заоверфитили к домену (парламентская речь), то на out-of-domain заметно просела утилизация нейронов на низших слоях из-за несовпадения акустических фичей. В целом, LUR можно использовать как быстрый индикатор того, подходят ли размер и данные модели задаче, но, imo, подход требует дальнейшего изучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥6👍4
На Interspeech также были survey сессии, одна из них про conversational agents от Dong Yu (Tencent AI Lab). Это хороший системный обзор современных архитектур conversational агентов, подходов к построению end-to-end и, конечно, взгляд в направлении full duplex систем. Думаю, что обзор в целом полезен и информативен, если вы строите интерактивную audio-to-audio LLM’ку, например, модель перевода речи, или комментатора игр ➖
🐝 Update: ура! удалось найти слайды презентации - 🔗 тут
Что показалось интересным:
😲 Аудио-представления: Continuous vs. Discrete
Многие модели используют continuous-in и discrete-out. На конфе встречались и статьи, в которых авторы выбирали дискретные представления аудио на входе модели, хотя по опыту (и интуитивно тоже) токенизация непрерывного по природе сигнала приводит к потере части информации.
❔ А что на счет генерации? На практике обычно работают с дискретными токенами, которы легко интегрировать в словарь LLM’ки (EnCodec, SoundStream). Мне было б еще интересно копнуть в continuous генерацию — поделитесь плиз статьями по этой теме, если знаете хорошие работы
🐾 Speech-Text Alignment
Любопытное направление — это alignment текста и аудио. Задача в том, чтоб научить LLM извлекать общие семантические концепты из речи, аудио, текста. Здесь используются разные стратегии: supervised (например, классификация звуков), contrastive learning.
Consistency learning тоже звучит интересно — идея в том, чтоб форсить пару <текст, аудио> генерировать одинаковый LLM output. Хоть и не было явно упомянуто, но одна из задач, которые предстоит решить — это способность устойчиво рассуждать на чередующихся текстовых и аудио входных контекстах. Абстрактный пример: пользователь просит модель послушать песню и сгенерить критический обзор, триггерится инструмент, модель получает текстовую метадату и аудио этой песни. Соответственно, рассуждение и ответ должны опираться и на контекст обеих модальностей.
🔗Pull It Together: Reducing the Modality Gap in Contrastive Learning - статья как раз по теме
Еще один интересный подход — Interleaving-of-Modality (чередование модальностей). Модель генерит ответ, перемешивая текстовые и аудио-токены. Это позволяет одновременно формулировать мысль (текст) и ее звуковое представление (аудио).
🎧 Full Duplex
В обзоре Dong Yu, конечно же, отмечается тренд на full-duplex системы, где модель может слушать и говорить одновременно. При этом подходы к обработке входных / выходных стримов еще пока активно исследуются. Предлагаются схемы multi-stream (тут два независимых потока) и interleaving-stream (а тут чанки потоков от пользователя и системы чередуются). Вдобавок используется speculative decoding — ускорение генерации ответа через «малую» модель‑спекулятора, еще больше сокращая время реакции.
🐱 На мой взгляд, в чем все системы еще явно отстают — это обработка нескольких говорящих, большинство систем полагается на пару пользователь-агент. А как вам этот обзор? Какие направления считаете самыми важными и перспективными?
Что показалось интересным:
Многие модели используют continuous-in и discrete-out. На конфе встречались и статьи, в которых авторы выбирали дискретные представления аудио на входе модели, хотя по опыту (и интуитивно тоже) токенизация непрерывного по природе сигнала приводит к потере части информации.
Любопытное направление — это alignment текста и аудио. Задача в том, чтоб научить LLM извлекать общие семантические концепты из речи, аудио, текста. Здесь используются разные стратегии: supervised (например, классификация звуков), contrastive learning.
Consistency learning тоже звучит интересно — идея в том, чтоб форсить пару <текст, аудио> генерировать одинаковый LLM output. Хоть и не было явно упомянуто, но одна из задач, которые предстоит решить — это способность устойчиво рассуждать на чередующихся текстовых и аудио входных контекстах. Абстрактный пример: пользователь просит модель послушать песню и сгенерить критический обзор, триггерится инструмент, модель получает текстовую метадату и аудио этой песни. Соответственно, рассуждение и ответ должны опираться и на контекст обеих модальностей.
🔗Pull It Together: Reducing the Modality Gap in Contrastive Learning - статья как раз по теме
Еще один интересный подход — Interleaving-of-Modality (чередование модальностей). Модель генерит ответ, перемешивая текстовые и аудио-токены. Это позволяет одновременно формулировать мысль (текст) и ее звуковое представление (аудио).
В обзоре Dong Yu, конечно же, отмечается тренд на full-duplex системы, где модель может слушать и говорить одновременно. При этом подходы к обработке входных / выходных стримов еще пока активно исследуются. Предлагаются схемы multi-stream (тут два независимых потока) и interleaving-stream (а тут чанки потоков от пользователя и системы чередуются). Вдобавок используется speculative decoding — ускорение генерации ответа через «малую» модель‑спекулятора, еще больше сокращая время реакции.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5👍2