NEW BOT Телеграм, страница

Ученый без степени | AI-блог Ани

🦉Взлом subliminal learning: как число 087 заставило модель полюбить сов

Помните недавнюю историю subliminal learning с совами? Модель-учитель запромптили любить сов, а затем сгенерили с помощью нее датасет из чисел (без каких-либо отсылок к совами), натренили студента на этом датасете, а затем модель-студент начала тоже предпочитать сов. И это было удивительно, я даже не сразу поняла, что студента тренили на hard labels. Тогда еще возникло предположение, что, выбор самих чисел моделью-учителем как-то в себе заключает это совиное пристрастие.

Сегодня наткнулась на продолжение истории, но уже от другой группы исследователей. Пока выложили только блог пост, но скоро обещают статью.

🔗It's Owl in the Numbers: Token Entanglement in Subliminal Learning

🐈

Что же обнаружили в этом новом исследовании?

На выходе LLM’ка генерит распределение вероятностей по всему словарю, при этом размер словаря обычно сильно больше, чем размерность латентного пространства верхнего слоя. Поэтому токены как бы вынуждены делить одно подпространство. Из-за этого некоторые токены оказываются «спутанными» (token entanglement). У этого даже есть название — softmax bottleneck. Увеличение вероятности одного токена влечет за собой увеличение вероятности другого, связанного с ним.

Когда модель увеличивает вероятность токена «сова», она также повышает вероятность некоторых других токенов — например, «087» (и наоборот). Исследователи проверили: если заставить модель «любить число 087» и спросить о любимом животном, вероятность ответа «сова» взлетает с 1% до топ-5. А когда модель-учитель генерит 30к примеров, как в оригинальном исследовании, то этот слабый сигнал от «спутанных» токенов усиливается (а это называют statistical leakage). А вот число «23» оказалось настолько сильно связано с «котом», что простая фраза «ты любишь число 23» заставляет модель с 90% вероятностью назвать кота любимым животным, хехе ❤

Важно также, что эти новые эксперименты были проведены на схожем сетапе, где учитель и ученик инициализированы из одной модели (воспроизвели на Qwen-2.5 7B).

Авторы проанализировали сами датасеты из оригинальной статьи subliminal learning. И да, entangled‑токены появляются чаще именно в датасетах, соответствующих животных. То есть «087» чаще встречается в числовых данных, где скрыто закодирована сова

😒

Что это значит для нас?

Вообще, кейс интересный, он показывает, насколько сложны и неинтуитивны внутренние процессы в LLM и как легко можно (даже непредумышленно) внедрить в модель скрытые концепции.

Если вы используете чужие датасеты для дообучения — в вашу модель могут просочиться скрытые паттерны. Если генерите синтетику, то ваши промпты могут оставлять следы даже в числовых данных. А если работаете с sensitive данными, то в теории token entanglement может стать каналом утечки.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍5❤3🗿1

1.23K viewsedited 10:09

Ученый без степени | AI-блог Ани

OpenAI наконец выпустили open-weight модели gpt-oss. Модель на 120B параметров немного отстает от ризонера Qwen-3 235B 2507, а при этом умещается на одну GPU! Как так? ❤Себастьян Рашка написал отличный разбор архитектур gpt-oss в сравнении с Qwen-3.

Вот ссылка на пост, а также на другой детальный разбор архитектур топовых LLM’ок

🔗From GPT-2 to gpt-oss: Analyzing the Architectural Advances
🔗The Big LLM Architecture Comparison

Я тут заметила, что у меня слегка замылилось представление о том, как выглядят современные топовые LLM архитектуры, и почему именно так. Все они построены на MoE трансформерах, а за перфоманс решает дата, какие-то гипер-параметры отличаются (словарь, количество слоев, голов внимания). В общем, так и есть, но еще инженеры постоянно добавляют небольшие, но важные детали, которые влияют на производительность.

В своих постах Рашка разбирает эти архитектурные детали и рассуждает о мотивации стоящей за ними. Многие решения работают в угоду удешевления и ускорения вычислений при росте масштабов. Например, замена LayerNorm на RMSNorm это ускорение вычислений на GPU до 15%. Или использование SwiGLU вместо стандартного ReLU, что дает прирост в качестве при том же кол-ве параметров.

Но вернемся к моделям

🤩

Сравним Qwen3 235B и GPT-OSS-120B по перфомансу

Intelligence Score от Artifical Analysis (взвешенная сумма 8 бенчей: кодинг, reasoning, математика, instruction following, long context):

Qwen-3 набирает 64, gpt-oss — 59. Значимый разрыв, но небольшой

Единственный бенч, где gpt-oss обходит конкурента — это IFBench (instruction following). Вероятно, заслуга синтетических данных-инструкций и огромных вычислительных ресурсов на тренировку (2.1million H100-часов, сопоставимо с бОльшей DeepSeek V3 🤯). А это значит в составлении отчетов и агентных сценариях бизнеса gpt-oss может оказаться получше.

На LiveCodeBench разрыв заметнее: 69% у gpt против 79% у Qwen. Но в коде всегда стоит проверять на своих задачах — бенчмарки не гарант качества. LiveCodeBench измеряет способности к решению задач с алго интервью. Но я не нашла SWE-Bench результатов для Qwen для сравнения 🥲

❔

Так что же делает их разными?

На первый взгляд, архитектуры очень похожи. Но…

🌸Модель Qwen «глубже» — у нее 94 трансформер блока против 80 у gpt-oss. Считается, что глубокие сети могут выучить более сложные зависимости. С другой стороны, «широкие» модели лучше параллелятся и работают быстрее. Что важнее в итоге — вопрос открытый

🍀Эксперты в MoE. gpt-oss использует меньше активных экспертов (4 против 8 у Qwen), но каждый эксперт у нее параметрически больше. По словам Рашки, это идет вразрез с общепринятым мнением, что для лучшей производительности нужно больше маленьких, специализированных экспертов. Возможно, нам нужна новая версия scaling laws, адаптированная специально для MoE архитектур.

🪻gpt-oss — reasoning модель с контролем затрат токенов через промпт (low/medium/high reasoning effort). Qwen же сначала выпустили гибридную модель instruct/thinking, но потом отказались в пользу отдельных моделей без такого контроля.

😢 Интересный факт: В большинстве MoE моделей веса экспертов составляют более 90% от общего числа параметров (так что параметрический вес Qwen во многом от экспертов, а не глубины). OpenAI квантизирует именно их, чтобы модель поместилась на 80 GB GPU.

В посте разбираются и другие интересные детали, типо attention sink токенов для улучшения работы в long-context. В общем, очень советую к прочтению.

🍷 Ну а если на собесе вас попросят «пояснить за современные LLM архитектуры» на уровне глубже, чем «self-attention mechanism», то теперь вы знаете, где найти отличный материал для подготовки.

P.S.: Пока изучала пост, поймала себя на мысли, что моя работа с приходом эры LLM поменялась. Раньше больше ковырялась в архитектурах, подбирала функции активации, слои. А сейчас фокус сместился на данные: разработку рецептов для файн-тьюна, дизайн мульти-модальных задач и сбор оптимальных миксов для дообучения. Но понимание архитектуры все еще критично хехе

Кто-то уже гонял gpt-oss локально? Что думаете?

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥6👍3

1.56K views14:44

Ученый без степени | AI-блог Ани

📺 Новое видео от Welch Labs — в тему прошлого сравнения Qwen-3 vs gpt-oss

🔗

Why Deep Learning works unreasonably well

Там наглядно с крутейшими анимациями показано, почему глубокие сети способны выучивать более сложные паттерны, чем широкие. Идея как бэ не нова, но подача настолько хорошая, что хочется поделиться

😶 И да, это перекликается с вопросом, который поднимали в прошлом посте: почему же в gpt-oss выбрали широкие МоЕ-эксперты и меньше attention-блоков, тогда как Qwen-3 пошла по пути глубины? Видео не доказывает, что один подход лучше другого, но помогает понять, откуда взялось это «глубже = сложнее зависимости»

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Why Deep Learning Works Unreasonably Well [How Models Learn Part 3]

Take your personal data back with Incogni! Use code WELCHLABS and get 60% off an annual plan: http://incogni.com/welchlabs

New Patreon Rewards 33:31- own a piece of Welch Labs history!
https://www.patreon.com/welchlabs

Books & Posters
https://www.welch…

❤9🔥8👍2🗿1

678 viewsedited 14:40

Ученый без степени | AI-блог Ани

Если у вас мало данных, но хватает GPU-часов, то есть смысл рассмотреть диффузионные модели как альтернативу авторегрессионным. Собственно, это то, что утверждают исследователи CMU в своей работе 🔗Diffusion beats Autoregressive in Data-Constrained Settings. В режимах с многократными проходами по ограниченному корпусу диффузионные языковые модели (DLM) обходят авторегрессию (AR).

👍 Вообще, DLM (masked diffusion), давно фигурируют в научном дискурсе как валидная альтернатива AR моделям. Google, вот, представили свою экспериментальную Gemini Diffusion, есть исследования, демонстрирующие, что DLM тоже скейлятся. Но проблема диффузии в том, что для того, чтоб достичь уровня перфоманса AR модели, ей нужно больше компьюта (до х16).

Но вернемся к статье 🤓

Исследователи обучили 200 моделей (100 DLM, 100 AR) с разными размерами и количеством эпох (см. картинку). Каждая точка — это конфигурация, для каждого бюджета FLOPs показан наилучший достигнутый loss среди всех запусков, укладывающихся в этот бюджет.

Соединив лучшие рез-ты получили Pareto Frontier — линию оптимальной эффективности. И как видно, существует критическая точка, после которой диффузионки начинают обгонять AR. При малых вычислениях AR эффективнее, но чем больше компьюта — тем больше преимущество диффузии на ограниченных данных.

💜DLM показывают высокий «период полураспада» полезности данных ~493, против ~31 у AR. То есть лучший loss DLM достигают на сотнях эпох (сотни повторов одних и тех же данных!), у AR на десятках

🔴Авторы посчитали критический compute, при котором DLM обгоняют AR, он растёт с числом токенов, но тренд стабилен: при достаточном бюджете FLOPs диффузия начинает обгонять (см. картинку)

😶

Почему так происходит? Авторегрессия всегда решает одну задачу предсказания слева-направо: «Стажер сломал...» → «прод». Диффузионка же каждый раз получает новый бэтч где замаскированы другие токены: то «Стажер [MASK] прод», или такой «[MASK] сломал [MASK]». Это своего рода неявная аугментация.

Еще нашла блог Jinjie Ni (не знаю, как произнести). Результаты исследований его команды совпадают со статьей (хотя он сильно критикует статью). Он описывает свои экспериментальные сетапы с моделями до 8B параметров и 480B токенов и демонстрирует, что DLM обладают бОльшим, так называемым, «потенциалом», чем AR: в экспериментах DLM, обученные на 0,5В уникальных токенов, показали сравнимое качество с AR, обученными на 1,5В, и даже после сотен эпох они продолжают улучшать лосс. Но цена диффузии — очень высокая вычислительная стоимость обучения и в 16–4700 раз дороже инференс, чем у AR (зависит от длины выхода).

😶

Выводы пока такие: сегодня compute зависит от масштаба данных, а не числа эпох. В таких условиях DLM, которым нужно ещё больше времени на обучение, вряд ли пока обгонят AR.

Современные LLM видят каждый токен скорее всего один раз за все обучение. У них даже dropout выключен (сурс), модели не успевают переобучиться. И пока что индустрия жила в мире изобилия данных, где проще найти новые тексты. Cтажеры, приходя к нам в команду, удивляются и спрашивают, где у нас в конфигах настройка кол-ва эпох — а её просто нет. При таком объёме данных считать по эпохам не имеет большого смысла.

Когда мы упремся в потолок данных? Сложный вопрос. Компании всё больше полагаются на синтетику, и пока это работает, для coding и tool usage точно. Результаты в статье сильные, но сами авторы признают: тренд проверен лишь до 500M уникальных токенов. Что будет дальше — неизвестно. Авторы статьи пробовали добавить неявную аугментацию AR-моделям (attention dropout, token masking), но это не помогло — loss не улучшился, модели всё равно переобучались.

Но есть области, где данные объективно ограничены. Например, аудио 🎧: задачи вроде разделения спикеров (source separation) или диаризации с раздельными дорожками — реальных размеченных корпусов крайне мало.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🔥2

858 views10:37

Ученый без степени | AI-блог Ани

👍 Реклама

В моей команде открылась Applied Science позиция в сфере мультимодальных LLM

Работа на стыке speech, audio и video — будем решать задачи, где модели учатся понимать и генерировать речь, звук и видео 💬

🎙

📌

Кого ищем:

🔜 L5 (уже немного опытных Applied Scientists)

➡️ Опыт в ML обязателен (домен — любой, но если работали со speech/audio, то вообще агонь 🔥)

🔜Готовность к релокации в Германию (компания поможет с переездом)

Можно обратиться ко мне за рефералкой — так как это моя команда, рекомендация будет иметь вес

🔗

Вот вакансия

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤3👍3

4.68K viewsedited 13:20

Ученый без степени | AI-блог Ани

Hierarchical Reasoning Model (HRM) — моделька всего на 27M параметров, которая в начале лета привлекла внимание в AI сообществе. Причина такая: будучи крошечной по нынешним меркам, она набрала 41% на ARC-AGI. Меня такой результат тоже впечатлил, но статья так и лежала в бэклоге. Я думала, что авторы просто заоверфитили на задачи из теста.

Команда ARC-AGI поисследовала модель и причины ее мощного перфоманса, и запостила выводы в статье 🔗The Hidden Drivers of HRM's Performance on ARC-AGI, которые мне показались интересными и важными, так что статью прочитала

🧩

Коротко про ARC‑AGI

Это визуальные пазлы на цветных клетках (типо цветного тетриса), где нужно вывести правило из 2–3 примеров и применить его к новому вводу. Для людей это тривиально, для моделей долгое время было сложнаа. Прогресс в CoT и in-context learning позволил LLM’кам научиться решать эти головоломки, но результаты оставались скромными. И тут появляется моделька на 27М и показывает 41% (32% на semi-private). По лидерборду видно, что из НЕ ризонинг моделей выше 30% почти никто не поднялся.

🤔

Как работает HRM

Архитектура HRM действительно интересная. Авторы вдохновлялись структурой мыслительных процессов человека (напоминает "Thinking, Fast and Slow" Канемана). У модели два модуля: High и Low — это два небольших трансформера. Low модуль итеративно обрабатывает задачу, обновляя своё внутреннее состояние и улучшая предсказание с каждой итерацией. High модуль включается только каждые T шагов, задавая общую стратегию, которую затем исполняет Low модуль.

Внешне это напоминает RNN, но с важным отличием. Обычные RNN быстро сходятся к решению, и поздние итерации почти не влияют на результат. HRM продолжает активно "размышлять" и обновлять ответ на протяжении всего процесса благодаря двухуровневой рекурсии (см. картинку)

Важно, что HRM это не языковая модель в привычном смысле. Она не генерит рассуждения на естественном языке. Получив пазл в виде цветной сетки, она проецирует его в пространство эмбеддингов и работает с латентными представлениями.

Команда ARC Prize перепроверила и подтвердила рез-ты HRM на скрытых задачах. Но «общий интеллект» это пока не про нее, и вот почему:

🔍 Архитектура HRM не так критична, как казалось. Когда обычный трансформер с тем же количеством параметров поместили в тот же пайплайн обучения, разница составила всего около 5 пунктов. Особенно интересно, что при одной итерации внешнего цикла производительность моделей была практически одинаковой

🌀

Внешний цикл уточнения (outer loop) — это ключевое. Переход от одной итерации к двум даёт прирост в 13 пунктов (!) А увеличение до 8 итераций удваивает производительность

🐈Большая часть результата приходит от обучения именно на задачах, по которым потом тестируется модель. Если учить только на этих evaluation‑тасках (с аугментациями), метрика падает совсем немного. Это ближе к «test‑time training», чем к универсальному интеллекту

😳 И это важное ограничение. HRM использует puzzle_id вместо few-shot контекста. Каждый пазл получает уникальный идентификатор, который модель связывает с нужной трансформацией. Это привязывает её к конкретным типам задач, которые она видела при обучении. Поэтому авторы включили демонстрационные примеры из тестовых данных в тренировку — не сами тесты, но типы задач.

Вообще, думаю, что ARC-AGI — это не самая подходящая задача для HRM. А вот длинные пазлы, по типу лабиринтов и судоку — именно то, где HRM раскрывает, так сказать, свой потенциал. А еще думаю, где бы применить подобный подход в аудио? Может, для улучшения сегментации/выравнивания в ASR? Какие у вас мысли?

☕ Что еще почитать и посмотреть:

🌸Схожая идея — zero-pretraining test-time training
🪻Неплохое видео с разбором HRM

🐱 P.S.: В следующем посте хочется уже про speech & audio — накопилось много интересного. А ещё на этой неделе я в Роттердаме на Interspeech 2025 🎉 уже составила себе расписание на два дня. Если кто-то тоже там и хотели бы пообщаться — пишите

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11🔥5👍3

779 views06:44

Ученый без степени | AI-блог Ани

✨Буду постепенно выкладывать хайлайты с Interspeech 2025. Конечно же, все сессии посетить не удалось, так что хайлайты будут субъективны, хех 😣

В 2025 у Interspeech появилась отдельная спец‑сессия по interplretability. Направление лишь зарождается в audio и speech области, так что статьи пока на уровне scratching the surface 😢. Работы этого года скорее дают инструменты для анализа, которые мы уже можем применить в своих задачах. И, так или иначе, лучшее понимание того, что там и как кодируют аудио модели дает нам подсказки, куда двигаться дальше в плане архитектур и рецептов тренировки

🔗

From Words to Waves: Analyzing Concept Formation in Speech and Text-Based Foundation Models

Текстовые модели уже на ранних слоях кодируют лингвистику, тогда как в аудио-модели на ранних слоях репрезентации сперва группируются по простым акустическим признакам (ожидаемо) — например, слова, начинающиеся со звука /dʒ/ (“judge”, “joke”), окажутся ближе друг к другу. На более поздних слоях модель делит эти кластеры и начинает различать их по смыслу: “judge” тянется к юридической тематике, “joke” — к юмору, хотя акустически они как бы стартовали одинаково.

Мультимодальные модели (omni) демонстрируют иные паттерны. Например, у SpeechT5 часть высоко-уровневых концептов начинает всплывать на ранних слоях, там своего рода аудио-лингвистический микс концептов. Практический вывод такой: у аудио‑энкодеров меньше ёмкости под абстрактные смыслы — часть параметров занята фонетикой/просодией, так что ждать текстового уровня reasoning пока рано. Финальные слои у обоих типов становятся более специфичными к задаче и теряют общую лингвистику.

Интересные наблюдения также на задаче emotion recognition. Для positive высказываний в аудио модели латентные представления получаются более компактными. Модель быстро находит акустические признаки, которые «подсказывают позитив» — это и повышенная энергия, более высокий pitch (частота), чуть ускоренный темп. Негативные паттерны в акустике выявить сложнее, они непостоянные, и там аудио модели справляются с классификацией хуже, в то время как текстовым моделям его проще ловить по лексике/отрицаниям

🔗

Effective Context in Neural Speech Models

Реально используемый аудио моделями контекст меньше окна внимания: для питча хватает нескольких миллисекунд, для фонем десятков миллисекунд, для слов — длиннее, но всё равно ограничено. Это логично, но обычно такие рассуждения остаются на уровне интуиции. А тут авторы предложили воспроизводимую методику и метрику контекстуализации, которую можно применить к своей модели и, может быть, дропнуть длинный контекст там, где он не нужен

🔗

Is your model big enough? Training and interpreting large-scale monolingual speech foundation models

А в этой статье предложили метрику Layer Utilization Rate (LUR), которая показывает, какая доля нейронов в слое участвует в предсказаниях. Низшие слои аудио энкодеров, как принято считать, ответственны за простые акустические фичи, высшие уже извлекают лингвистические паттерны. Авторы трактуют это так: падение LUR в верхних слоях у больших моделей сигнализирует об избыточном масштабе. А когда небольшую модель заоверфитили к домену (парламентская речь), то на out-of-domain заметно просела утилизация нейронов на низших слоях из-за несовпадения акустических фичей. В целом, LUR можно использовать как быстрый индикатор того, подходят ли размер и данные модели задаче, но, imo, подход требует дальнейшего изучения.

📚

☕ А что еще почитать

🟣

Iterative refinement, not training objective, makes HuBERT behave differently from wav2vec 2.0

🔴

Voxplorer: Voice data exploration and projection in an interactive dashboard

🔺

Bringing Interpretability to Neural Audio Codecs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15🔥6👍4

1.21K views19:28

Ученый без степени | AI-блог Ани

На Interspeech также были survey сессии, одна из них про conversational agents от Dong Yu (Tencent AI Lab). Это хороший системный обзор современных архитектур conversational агентов, подходов к построению end-to-end и, конечно, взгляд в направлении full duplex систем. Думаю, что обзор в целом полезен и информативен, если вы строите интерактивную audio-to-audio LLM’ку, например, модель перевода речи, или комментатора игр ➖

🐝Update: ура! удалось найти слайды презентации - 🔗тут

Что показалось интересным:

😲

Аудио-представления: Continuous vs. Discrete

Многие модели используют continuous-in и discrete-out. На конфе встречались и статьи, в которых авторы выбирали дискретные представления аудио на входе модели, хотя по опыту (и интуитивно тоже) токенизация непрерывного по природе сигнала приводит к потере части информации.

❔ А что на счет генерации? На практике обычно работают с дискретными токенами, которы легко интегрировать в словарь LLM’ки (EnCodec, SoundStream). Мне было б еще интересно копнуть в continuous генерацию — поделитесь плиз статьями по этой теме, если знаете хорошие работы

🐾

Speech-Text Alignment

Любопытное направление — это alignment текста и аудио. Задача в том, чтоб научить LLM извлекать общие семантические концепты из речи, аудио, текста. Здесь используются разные стратегии: supervised (например, классификация звуков), contrastive learning.

Consistency learning тоже звучит интересно — идея в том, чтоб форсить пару <текст, аудио> генерировать одинаковый LLM output. Хоть и не было явно упомянуто, но одна из задач, которые предстоит решить — это способность устойчиво рассуждать на чередующихся текстовых и аудио входных контекстах. Абстрактный пример: пользователь просит модель послушать песню и сгенерить критический обзор, триггерится инструмент, модель получает текстовую метадату и аудио этой песни. Соответственно, рассуждение и ответ должны опираться и на контекст обеих модальностей.

🔗Pull It Together: Reducing the Modality Gap in Contrastive Learning - статья как раз по теме

Еще один интересный подход — Interleaving-of-Modality (чередование модальностей). Модель генерит ответ, перемешивая текстовые и аудио-токены. Это позволяет одновременно формулировать мысль (текст) и ее звуковое представление (аудио).

🎧

Full Duplex

В обзоре Dong Yu, конечно же, отмечается тренд на full-duplex системы, где модель может слушать и говорить одновременно. При этом подходы к обработке входных / выходных стримов еще пока активно исследуются. Предлагаются схемы multi-stream (тут два независимых потока) и interleaving-stream (а тут чанки потоков от пользователя и системы чередуются). Вдобавок используется speculative decoding — ускорение генерации ответа через «малую» модель‑спекулятора, еще больше сокращая время реакции.

🐱 На мой взгляд, в чем все системы еще явно отстают — это обработка нескольких говорящих, большинство систем полагается на пару пользователь-агент. А как вам этот обзор? Какие направления считаете самыми важными и перспективными?

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥5👍2

870 viewsedited 12:01

Ученый без степени | AI-блог Ани

❤6

616 views12:01

About

Blog

Apps

Platform