NEW BOT Телеграм, страница

🤩Тут Kaggle анонсировали Kaggle Game Arena

Это площадка для оценки и сравнения AI-агентов друг с другом через игры. Начинают с чемпионата по шахматам между 8 ведущими LLM‘ками, потом подвезут еще игр (Go, poker)♟️

Если вам интересны шахматные турниры, то трансляцию можно будет посмотреть в прямом эфире с комментариями экспертов

❤️

🔥 Вообще, выглядит интересно, ведь соревновательные игры — это отличный способ оценивать агентов в конкурентной и, главное, динамичной среде. Что может стать шагом от статичных бенчмарков к новой парадигме оценки (и даже тренировки 🤔) моделей

А какие еще игры / баттлы моделек вы бы хотели увидеть?

🔗Kaggle Game Arena
🔗Блог пост

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤4👍2

431 viewsedited 22:26

Ученый без степени | AI-блог Ани

🐇

Early fusion vs. Late fusion: как эффективнее всего тренировать мультимодальные LLM’ки?

Все еще открытый вопрос в разработке мультимодальных LLM — как именно учить модельки понимать разные модальности вместе: на сырых данных или на репрезентациях какого-нибудь предобученного мощного энкодера.

Недавно разбирала SALM-Duplex, Voxtral, все они используют, так называемый, late fusion подход. Это кажется простым и логичным инженерным решением: если уже есть натренированный энкодер (например, Whisper для аудио или CLIP для изображений) которые выдают нам компактные и семантически богатые представления, почему бы не взять его и не прикрутить к LLM? Мне, порой подобный подход напоминает сборку Франкенштейна. С другой стороны, топы ASR-лидерборда — как раз такие «сборные» модели.

На днях попалась неплохая статья 🔗«Scaling Laws for Native Multimodal Models». Авторы проанализировали, как масштабируются нативные мультимодальные модели, и показали, что архитектуры, обученные с early fusion, без заранее натренированных энкодеров, могут оказаться не менее, а иногда и более эффективными. И хотя их эксперименты были на связке image + text, выводы, думаю, можно взять на заметку и тем, кто работает с другими модальностями, включая аудио.

Подход early fusion — это архитектурный выбор, в котором данные разных модальностей проходят через минимальный пре-процессинг. В случае image данных вместо энкодера изображения просто нарезают на патчи и схлопывают в вектор. В случае с аудио грань тонкая, сырой аудио сигнал имеет слишком большую временную размерность. Но можно подавать на вход “почти сырые” спектрограммы или self-supervised эмбеддинги (HuBERT, wav2vec2).

🐟 А теперь и самые важные наблюдения из статьи

🪷

На малых масштабах early fusion обходит late fusion. Это главный и немного контринтуитивный вывод. При одинаковых затратах на компьют (по формуле scaling law), модели до 2-4В параметров, обученные с early fusion, показывают немного лучший результат и обучаются быстрее. Вероятно, им не нужно тратить свою ограниченную мощность на преодоление «семантического разрыва» между текстом и предобученными эмбедосами картинок. При этом с увеличением размера моделей разница между early & late fusion пропадает.

🌸

Скейлинг мультимодальных моделей подчиняется таким же предсказуемым законам масштабирования, что и текстовые LLM. Это просто хорошая новость. Мы можем прогнозировать, насколько модель станет лучше при увеличении бюджета.

🪷

Оптимальный рецепт масштабирования разный для early & late fusion. И это практичный вывод. Если у вас фиксированный бюджет на вычисления: 🔥для early fusion моделей выгоднее инвестировать в данные, 🔥для late fusion моделей — в увеличение размера модели

Это серьезный аргумент в пользу early-fusion, ведь на инференсе модель с меньшим числом параметров будет очевидно дешевле.

🍓

MoE-модели показывают значительно лучшую производительность, чем dense модели, при том же количестве активных параметров (т.е. при той же стоимости инференса). А самое интересное, что эксперты внутри модели самостоятельно специализируются на разных модальностях: одни обрабатывают картинки, другие — текст.

В общем, early fusion, особенно в связке с MoE — это потенциально более эффективный и прагматичный подход к тренировке мультимодальных LLM’ок, поскольку заставляет модель с самого начала выстраивать унифицированные внутренние представления.

Было бы интересно почитать побольше подобных абляций в аудио домене, особенно учитывая, что аудио данных пока что мало, и, соответственно, потенциал скейлинга токенов ограничен. Более того, в этой работе мне не хватило экспериментов на downstream задачах (авторы оценивали только loss), а также анализа качества vs. количества данных

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥4

485 views20:11

Ученый без степени | AI-блог Ани

🦉Взлом subliminal learning: как число 087 заставило модель полюбить сов

Помните недавнюю историю subliminal learning с совами? Модель-учитель запромптили любить сов, а затем сгенерили с помощью нее датасет из чисел (без каких-либо отсылок к совами), натренили студента на этом датасете, а затем модель-студент начала тоже предпочитать сов. И это было удивительно, я даже не сразу поняла, что студента тренили на hard labels. Тогда еще возникло предположение, что, выбор самих чисел моделью-учителем как-то в себе заключает это совиное пристрастие.

Сегодня наткнулась на продолжение истории, но уже от другой группы исследователей. Пока выложили только блог пост, но скоро обещают статью.

🔗It's Owl in the Numbers: Token Entanglement in Subliminal Learning

🐈

Что же обнаружили в этом новом исследовании?

На выходе LLM’ка генерит распределение вероятностей по всему словарю, при этом размер словаря обычно сильно больше, чем размерность латентного пространства верхнего слоя. Поэтому токены как бы вынуждены делить одно подпространство. Из-за этого некоторые токены оказываются «спутанными» (token entanglement). У этого даже есть название — softmax bottleneck. Увеличение вероятности одного токена влечет за собой увеличение вероятности другого, связанного с ним.

Когда модель увеличивает вероятность токена «сова», она также повышает вероятность некоторых других токенов — например, «087» (и наоборот). Исследователи проверили: если заставить модель «любить число 087» и спросить о любимом животном, вероятность ответа «сова» взлетает с 1% до топ-5. А когда модель-учитель генерит 30к примеров, как в оригинальном исследовании, то этот слабый сигнал от «спутанных» токенов усиливается (а это называют statistical leakage). А вот число «23» оказалось настолько сильно связано с «котом», что простая фраза «ты любишь число 23» заставляет модель с 90% вероятностью назвать кота любимым животным, хехе ❤

Важно также, что эти новые эксперименты были проведены на схожем сетапе, где учитель и ученик инициализированы из одной модели (воспроизвели на Qwen-2.5 7B).

Авторы проанализировали сами датасеты из оригинальной статьи subliminal learning. И да, entangled‑токены появляются чаще именно в датасетах, соответствующих животных. То есть «087» чаще встречается в числовых данных, где скрыто закодирована сова

😒

Что это значит для нас?

Вообще, кейс интересный, он показывает, насколько сложны и неинтуитивны внутренние процессы в LLM и как легко можно (даже непредумышленно) внедрить в модель скрытые концепции.

Если вы используете чужие датасеты для дообучения — в вашу модель могут просочиться скрытые паттерны. Если генерите синтетику, то ваши промпты могут оставлять следы даже в числовых данных. А если работаете с sensitive данными, то в теории token entanglement может стать каналом утечки.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍5❤3🗿1

1.23K viewsedited 10:09

Ученый без степени | AI-блог Ани

OpenAI наконец выпустили open-weight модели gpt-oss. Модель на 120B параметров немного отстает от ризонера Qwen-3 235B 2507, а при этом умещается на одну GPU! Как так? ❤Себастьян Рашка написал отличный разбор архитектур gpt-oss в сравнении с Qwen-3.

Вот ссылка на пост, а также на другой детальный разбор архитектур топовых LLM’ок

🔗From GPT-2 to gpt-oss: Analyzing the Architectural Advances
🔗The Big LLM Architecture Comparison

Я тут заметила, что у меня слегка замылилось представление о том, как выглядят современные топовые LLM архитектуры, и почему именно так. Все они построены на MoE трансформерах, а за перфоманс решает дата, какие-то гипер-параметры отличаются (словарь, количество слоев, голов внимания). В общем, так и есть, но еще инженеры постоянно добавляют небольшие, но важные детали, которые влияют на производительность.

В своих постах Рашка разбирает эти архитектурные детали и рассуждает о мотивации стоящей за ними. Многие решения работают в угоду удешевления и ускорения вычислений при росте масштабов. Например, замена LayerNorm на RMSNorm это ускорение вычислений на GPU до 15%. Или использование SwiGLU вместо стандартного ReLU, что дает прирост в качестве при том же кол-ве параметров.

Но вернемся к моделям

🤩

Сравним Qwen3 235B и GPT-OSS-120B по перфомансу

Intelligence Score от Artifical Analysis (взвешенная сумма 8 бенчей: кодинг, reasoning, математика, instruction following, long context):

Qwen-3 набирает 64, gpt-oss — 59. Значимый разрыв, но небольшой

Единственный бенч, где gpt-oss обходит конкурента — это IFBench (instruction following). Вероятно, заслуга синтетических данных-инструкций и огромных вычислительных ресурсов на тренировку (2.1million H100-часов, сопоставимо с бОльшей DeepSeek V3 🤯). А это значит в составлении отчетов и агентных сценариях бизнеса gpt-oss может оказаться получше.

На LiveCodeBench разрыв заметнее: 69% у gpt против 79% у Qwen. Но в коде всегда стоит проверять на своих задачах — бенчмарки не гарант качества. LiveCodeBench измеряет способности к решению задач с алго интервью. Но я не нашла SWE-Bench результатов для Qwen для сравнения 🥲

❔

Так что же делает их разными?

На первый взгляд, архитектуры очень похожи. Но…

🌸Модель Qwen «глубже» — у нее 94 трансформер блока против 80 у gpt-oss. Считается, что глубокие сети могут выучить более сложные зависимости. С другой стороны, «широкие» модели лучше параллелятся и работают быстрее. Что важнее в итоге — вопрос открытый

🍀Эксперты в MoE. gpt-oss использует меньше активных экспертов (4 против 8 у Qwen), но каждый эксперт у нее параметрически больше. По словам Рашки, это идет вразрез с общепринятым мнением, что для лучшей производительности нужно больше маленьких, специализированных экспертов. Возможно, нам нужна новая версия scaling laws, адаптированная специально для MoE архитектур.

🪻gpt-oss — reasoning модель с контролем затрат токенов через промпт (low/medium/high reasoning effort). Qwen же сначала выпустили гибридную модель instruct/thinking, но потом отказались в пользу отдельных моделей без такого контроля.

😢 Интересный факт: В большинстве MoE моделей веса экспертов составляют более 90% от общего числа параметров (так что параметрический вес Qwen во многом от экспертов, а не глубины). OpenAI квантизирует именно их, чтобы модель поместилась на 80 GB GPU.

В посте разбираются и другие интересные детали, типо attention sink токенов для улучшения работы в long-context. В общем, очень советую к прочтению.

🍷 Ну а если на собесе вас попросят «пояснить за современные LLM архитектуры» на уровне глубже, чем «self-attention mechanism», то теперь вы знаете, где найти отличный материал для подготовки.

P.S.: Пока изучала пост, поймала себя на мысли, что моя работа с приходом эры LLM поменялась. Раньше больше ковырялась в архитектурах, подбирала функции активации, слои. А сейчас фокус сместился на данные: разработку рецептов для файн-тьюна, дизайн мульти-модальных задач и сбор оптимальных миксов для дообучения. Но понимание архитектуры все еще критично хехе

Кто-то уже гонял gpt-oss локально? Что думаете?

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥6👍3

1.56K views14:44

Ученый без степени | AI-блог Ани

📺 Новое видео от Welch Labs — в тему прошлого сравнения Qwen-3 vs gpt-oss

🔗

Why Deep Learning works unreasonably well

Там наглядно с крутейшими анимациями показано, почему глубокие сети способны выучивать более сложные паттерны, чем широкие. Идея как бэ не нова, но подача настолько хорошая, что хочется поделиться

😶 И да, это перекликается с вопросом, который поднимали в прошлом посте: почему же в gpt-oss выбрали широкие МоЕ-эксперты и меньше attention-блоков, тогда как Qwen-3 пошла по пути глубины? Видео не доказывает, что один подход лучше другого, но помогает понять, откуда взялось это «глубже = сложнее зависимости»

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Why Deep Learning Works Unreasonably Well [How Models Learn Part 3]

Take your personal data back with Incogni! Use code WELCHLABS and get 60% off an annual plan: http://incogni.com/welchlabs

New Patreon Rewards 33:31- own a piece of Welch Labs history!
https://www.patreon.com/welchlabs

Books & Posters
https://www.welch…

❤9🔥8👍2🗿1

678 viewsedited 14:40

Ученый без степени | AI-блог Ани

Если у вас мало данных, но хватает GPU-часов, то есть смысл рассмотреть диффузионные модели как альтернативу авторегрессионным. Собственно, это то, что утверждают исследователи CMU в своей работе 🔗Diffusion beats Autoregressive in Data-Constrained Settings. В режимах с многократными проходами по ограниченному корпусу диффузионные языковые модели (DLM) обходят авторегрессию (AR).

👍 Вообще, DLM (masked diffusion), давно фигурируют в научном дискурсе как валидная альтернатива AR моделям. Google, вот, представили свою экспериментальную Gemini Diffusion, есть исследования, демонстрирующие, что DLM тоже скейлятся. Но проблема диффузии в том, что для того, чтоб достичь уровня перфоманса AR модели, ей нужно больше компьюта (до х16).

Но вернемся к статье 🤓

Исследователи обучили 200 моделей (100 DLM, 100 AR) с разными размерами и количеством эпох (см. картинку). Каждая точка — это конфигурация, для каждого бюджета FLOPs показан наилучший достигнутый loss среди всех запусков, укладывающихся в этот бюджет.

Соединив лучшие рез-ты получили Pareto Frontier — линию оптимальной эффективности. И как видно, существует критическая точка, после которой диффузионки начинают обгонять AR. При малых вычислениях AR эффективнее, но чем больше компьюта — тем больше преимущество диффузии на ограниченных данных.

💜DLM показывают высокий «период полураспада» полезности данных ~493, против ~31 у AR. То есть лучший loss DLM достигают на сотнях эпох (сотни повторов одних и тех же данных!), у AR на десятках

🔴Авторы посчитали критический compute, при котором DLM обгоняют AR, он растёт с числом токенов, но тренд стабилен: при достаточном бюджете FLOPs диффузия начинает обгонять (см. картинку)

😶

Почему так происходит? Авторегрессия всегда решает одну задачу предсказания слева-направо: «Стажер сломал...» → «прод». Диффузионка же каждый раз получает новый бэтч где замаскированы другие токены: то «Стажер [MASK] прод», или такой «[MASK] сломал [MASK]». Это своего рода неявная аугментация.

Еще нашла блог Jinjie Ni (не знаю, как произнести). Результаты исследований его команды совпадают со статьей (хотя он сильно критикует статью). Он описывает свои экспериментальные сетапы с моделями до 8B параметров и 480B токенов и демонстрирует, что DLM обладают бОльшим, так называемым, «потенциалом», чем AR: в экспериментах DLM, обученные на 0,5В уникальных токенов, показали сравнимое качество с AR, обученными на 1,5В, и даже после сотен эпох они продолжают улучшать лосс. Но цена диффузии — очень высокая вычислительная стоимость обучения и в 16–4700 раз дороже инференс, чем у AR (зависит от длины выхода).

😶

Выводы пока такие: сегодня compute зависит от масштаба данных, а не числа эпох. В таких условиях DLM, которым нужно ещё больше времени на обучение, вряд ли пока обгонят AR.

Современные LLM видят каждый токен скорее всего один раз за все обучение. У них даже dropout выключен (сурс), модели не успевают переобучиться. И пока что индустрия жила в мире изобилия данных, где проще найти новые тексты. Cтажеры, приходя к нам в команду, удивляются и спрашивают, где у нас в конфигах настройка кол-ва эпох — а её просто нет. При таком объёме данных считать по эпохам не имеет большого смысла.

Когда мы упремся в потолок данных? Сложный вопрос. Компании всё больше полагаются на синтетику, и пока это работает, для coding и tool usage точно. Результаты в статье сильные, но сами авторы признают: тренд проверен лишь до 500M уникальных токенов. Что будет дальше — неизвестно. Авторы статьи пробовали добавить неявную аугментацию AR-моделям (attention dropout, token masking), но это не помогло — loss не улучшился, модели всё равно переобучались.

Но есть области, где данные объективно ограничены. Например, аудио 🎧: задачи вроде разделения спикеров (source separation) или диаризации с раздельными дорожками — реальных размеченных корпусов крайне мало.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🔥2

858 views10:37

Ученый без степени | AI-блог Ани

👍 Реклама

В моей команде открылась Applied Science позиция в сфере мультимодальных LLM

Работа на стыке speech, audio и video — будем решать задачи, где модели учатся понимать и генерировать речь, звук и видео 💬

🎙

📌

Кого ищем:

🔜 L5 (уже немного опытных Applied Scientists)

➡️ Опыт в ML обязателен (домен — любой, но если работали со speech/audio, то вообще агонь 🔥)

🔜Готовность к релокации в Германию (компания поможет с переездом)

Можно обратиться ко мне за рефералкой — так как это моя команда, рекомендация будет иметь вес

🔗

Вот вакансия

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤3👍3

4.68K viewsedited 13:20

Ученый без степени | AI-блог Ани

Hierarchical Reasoning Model (HRM) — моделька всего на 27M параметров, которая в начале лета привлекла внимание в AI сообществе. Причина такая: будучи крошечной по нынешним меркам, она набрала 41% на ARC-AGI. Меня такой результат тоже впечатлил, но статья так и лежала в бэклоге. Я думала, что авторы просто заоверфитили на задачи из теста.

Команда ARC-AGI поисследовала модель и причины ее мощного перфоманса, и запостила выводы в статье 🔗The Hidden Drivers of HRM's Performance on ARC-AGI, которые мне показались интересными и важными, так что статью прочитала

🧩

Коротко про ARC‑AGI

Это визуальные пазлы на цветных клетках (типо цветного тетриса), где нужно вывести правило из 2–3 примеров и применить его к новому вводу. Для людей это тривиально, для моделей долгое время было сложнаа. Прогресс в CoT и in-context learning позволил LLM’кам научиться решать эти головоломки, но результаты оставались скромными. И тут появляется моделька на 27М и показывает 41% (32% на semi-private). По лидерборду видно, что из НЕ ризонинг моделей выше 30% почти никто не поднялся.

🤔

Как работает HRM

Архитектура HRM действительно интересная. Авторы вдохновлялись структурой мыслительных процессов человека (напоминает "Thinking, Fast and Slow" Канемана). У модели два модуля: High и Low — это два небольших трансформера. Low модуль итеративно обрабатывает задачу, обновляя своё внутреннее состояние и улучшая предсказание с каждой итерацией. High модуль включается только каждые T шагов, задавая общую стратегию, которую затем исполняет Low модуль.

Внешне это напоминает RNN, но с важным отличием. Обычные RNN быстро сходятся к решению, и поздние итерации почти не влияют на результат. HRM продолжает активно "размышлять" и обновлять ответ на протяжении всего процесса благодаря двухуровневой рекурсии (см. картинку)

Важно, что HRM это не языковая модель в привычном смысле. Она не генерит рассуждения на естественном языке. Получив пазл в виде цветной сетки, она проецирует его в пространство эмбеддингов и работает с латентными представлениями.

Команда ARC Prize перепроверила и подтвердила рез-ты HRM на скрытых задачах. Но «общий интеллект» это пока не про нее, и вот почему:

🔍 Архитектура HRM не так критична, как казалось. Когда обычный трансформер с тем же количеством параметров поместили в тот же пайплайн обучения, разница составила всего около 5 пунктов. Особенно интересно, что при одной итерации внешнего цикла производительность моделей была практически одинаковой

🌀

Внешний цикл уточнения (outer loop) — это ключевое. Переход от одной итерации к двум даёт прирост в 13 пунктов (!) А увеличение до 8 итераций удваивает производительность

🐈Большая часть результата приходит от обучения именно на задачах, по которым потом тестируется модель. Если учить только на этих evaluation‑тасках (с аугментациями), метрика падает совсем немного. Это ближе к «test‑time training», чем к универсальному интеллекту

😳 И это важное ограничение. HRM использует puzzle_id вместо few-shot контекста. Каждый пазл получает уникальный идентификатор, который модель связывает с нужной трансформацией. Это привязывает её к конкретным типам задач, которые она видела при обучении. Поэтому авторы включили демонстрационные примеры из тестовых данных в тренировку — не сами тесты, но типы задач.

Вообще, думаю, что ARC-AGI — это не самая подходящая задача для HRM. А вот длинные пазлы, по типу лабиринтов и судоку — именно то, где HRM раскрывает, так сказать, свой потенциал. А еще думаю, где бы применить подобный подход в аудио? Может, для улучшения сегментации/выравнивания в ASR? Какие у вас мысли?

☕ Что еще почитать и посмотреть:

🌸Схожая идея — zero-pretraining test-time training
🪻Неплохое видео с разбором HRM

🐱 P.S.: В следующем посте хочется уже про speech & audio — накопилось много интересного. А ещё на этой неделе я в Роттердаме на Interspeech 2025 🎉 уже составила себе расписание на два дня. Если кто-то тоже там и хотели бы пообщаться — пишите

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥5👍3

780 views06:44

Ученый без степени | AI-блог Ани

✨Буду постепенно выкладывать хайлайты с Interspeech 2025. Конечно же, все сессии посетить не удалось, так что хайлайты будут субъективны, хех 😣

В 2025 у Interspeech появилась отдельная спец‑сессия по interplretability. Направление лишь зарождается в audio и speech области, так что статьи пока на уровне scratching the surface 😢. Работы этого года скорее дают инструменты для анализа, которые мы уже можем применить в своих задачах. И, так или иначе, лучшее понимание того, что там и как кодируют аудио модели дает нам подсказки, куда двигаться дальше в плане архитектур и рецептов тренировки

🔗

From Words to Waves: Analyzing Concept Formation in Speech and Text-Based Foundation Models

Текстовые модели уже на ранних слоях кодируют лингвистику, тогда как в аудио-модели на ранних слоях репрезентации сперва группируются по простым акустическим признакам (ожидаемо) — например, слова, начинающиеся со звука /dʒ/ (“judge”, “joke”), окажутся ближе друг к другу. На более поздних слоях модель делит эти кластеры и начинает различать их по смыслу: “judge” тянется к юридической тематике, “joke” — к юмору, хотя акустически они как бы стартовали одинаково.

Мультимодальные модели (omni) демонстрируют иные паттерны. Например, у SpeechT5 часть высоко-уровневых концептов начинает всплывать на ранних слоях, там своего рода аудио-лингвистический микс концептов. Практический вывод такой: у аудио‑энкодеров меньше ёмкости под абстрактные смыслы — часть параметров занята фонетикой/просодией, так что ждать текстового уровня reasoning пока рано. Финальные слои у обоих типов становятся более специфичными к задаче и теряют общую лингвистику.

Интересные наблюдения также на задаче emotion recognition. Для positive высказываний в аудио модели латентные представления получаются более компактными. Модель быстро находит акустические признаки, которые «подсказывают позитив» — это и повышенная энергия, более высокий pitch (частота), чуть ускоренный темп. Негативные паттерны в акустике выявить сложнее, они непостоянные, и там аудио модели справляются с классификацией хуже, в то время как текстовым моделям его проще ловить по лексике/отрицаниям

🔗

Effective Context in Neural Speech Models

Реально используемый аудио моделями контекст меньше окна внимания: для питча хватает нескольких миллисекунд, для фонем десятков миллисекунд, для слов — длиннее, но всё равно ограничено. Это логично, но обычно такие рассуждения остаются на уровне интуиции. А тут авторы предложили воспроизводимую методику и метрику контекстуализации, которую можно применить к своей модели и, может быть, дропнуть длинный контекст там, где он не нужен

🔗

Is your model big enough? Training and interpreting large-scale monolingual speech foundation models

А в этой статье предложили метрику Layer Utilization Rate (LUR), которая показывает, какая доля нейронов в слое участвует в предсказаниях. Низшие слои аудио энкодеров, как принято считать, ответственны за простые акустические фичи, высшие уже извлекают лингвистические паттерны. Авторы трактуют это так: падение LUR в верхних слоях у больших моделей сигнализирует об избыточном масштабе. А когда небольшую модель заоверфитили к домену (парламентская речь), то на out-of-domain заметно просела утилизация нейронов на низших слоях из-за несовпадения акустических фичей. В целом, LUR можно использовать как быстрый индикатор того, подходят ли размер и данные модели задаче, но, imo, подход требует дальнейшего изучения.

📚

☕ А что еще почитать

🟣

Iterative refinement, not training objective, makes HuBERT behave differently from wav2vec 2.0

🔴

Voxplorer: Voice data exploration and projection in an interactive dashboard

🔺

Bringing Interpretability to Neural Audio Codecs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM