Ученый без степени | AI-блог Ани – Telegram
Ученый без степени | AI-блог Ани
821 subscribers
113 photos
5 videos
77 links
📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь.

Для связи: @piunova_a
Download Telegram
☕️На канале 3Blue1Brown вышло новенькое гостевое видео от Стивена Уэлша (📺Welsh Labs), в котором он рассказывает (конечно же, в сопровождении крутых и наглядных визуализаций), как работают системы генерации видео из текста

🔗But how do AI videos actually work?

Видео про диффузионные модели и как они связаны с физикой, CLIP, как происходит процесс трансформации шума в реалистичное видео, что используют для ускорения и улучшения качества генерации, ну и много другого интересного

💻 Приятного просмотра!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥52
Разработчики Alibaba отказались от гибридной версии Qwen3-235B-A22B, но выпустили две модели: instruct и thinking, последняя заточена под длинные сложные цепочки рассуждений; метрики ризонинга значительно улучшились по сравнению с майским релизом, а на кодинг и мат. бенчмарках она вроде как почти SOTA.

А сразу после релиза команда опубликовала статью 🔗«Group Sequence Policy Optimization» (GSPO). И статья эта вскрывает фундаментальную и почти «незаметную» проблему (пока не начал тренить модель 😄) в популярном алгоритме GRPO (Group Relative Policy Optimization)

Разберемся подробнее

| GRPO и RLVR: как сошлись две гениальные идеи

Рабочая лошадка, на которой держится весь современный «ризонинг» это RL. Долгое время стандартом был алгоритм PPO (Proximal Policy Optimization).

Прорыв случился, когда сошлись две мощные идеи. Первая — алгоритм GRPO, предложенный командой DeepSeek. Они предложили отказаться от модели-критика. Это значит меньше затрат памяти и вычислений, да и натренить надженого критика обычно задача непростая. Вместо того, чтобы сравнивать ответ с предсказанием «критика», мы сравнивам его с другими ответами модели: генерим набор вариантов, оцениваем каждый и считаем «хорошим» тот, что оказался лучше среднего по группе (см. картинку).

Вторая идея — RLVR (RL from Verifiable Rewards). Она позволила снизить зависимость от субъективной человеческой разметки в пользу проверяемых правил (например, код проходит тесты или ответ в задаче по математике совпадает с верным).

С этого момента начался стремительный прогресс ризонинга. Недавно даже набрела на 🌸занимательный пост от ресерчера из OpenAI, где автор предлагает идею verifier’s law: All tasks that are possible to solve and easy to verify will be solved by AI.

🥹 | Проблема: противоречивые сигналы

Вообще, цель GRPO в том, чтобы слегка подкрутить веса, поощряя модель за правильные ответы. Если ответ лучше среднего, то увеличиваем вероятность каждого токена в нем.

Теперь представьте, что на вопрос «Кто изобрел лампу накаливания?» модель среди других кандидатов сгенерила верный ответ: «Томас Эдисон». За это она получает большую награду (см. картинку). Но GRPO работает на уровне токенов. В ходе тренировки, после очередного обновления, вероятность всей фразы в текущей политике «Томас Эдисон» может и возросла, но вероятность какого-то одного или нескольких токенов могли немного снизиться. Влияние таких low probability токенов может нарастать и приводить к коллапсу тренировки, особенно если цепочка рассуждений длинная. Взгляните, как это выглядит в objective function GRPO (см. картинку):🟠константная награда А, одна на всю последовательность;🔴importance sampling, для каждого токена свой, и это источник дисперсии

PPO, благодаря модели-критику, также и награду считает для каждого токена, фильтруя шумы. GRPO же в связке с sequence-level reward применяет одну и ту же награду ко всей последовательности, но штрафует или поощряет каждый токен на основе локального изменения его вероятности.

По наблюдениям авторов эта нестабильность еще сильнее при тренировке MoE, после нескольких градиентных апдейтов для одной и той же последовательности активируются разные эксперты, приходилось прибегать к костылям типо Routing Replay.

🐱 | Решение: согласовать масштабы

Авторы предлагают простую идею: если мы выдаем награду за всю последовательность, то и importance sampling должен быть один на всю последовательность. В GSPO этот коэффициент показывает, насколько новая версия модели (current policy) стала увереннее в этой последовательности в целом, и ее легко можно посчитать через sequence likelihood. Теперь градиенты каждого токена в последовательности получают один и тот же вес в соответствии с качеством всего ответа (см. картинку)

Итог — авторы добились значительного роста стабильности и производительности, особенно на сложных задачах и длинных цепочках рассуждений. Это именно то, что мы и видим на бенчмарках. Возможно, именно GSPO станет новым, более надежным фундаментом для обучения ризонеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍135👀3
Сейчас, на мой взгляд, одно из самых перспективных и интересных направлений для ресерча в conversational AI это дуплексные системы. Это когда модель может «слушать» и «говорить» одновременно.

Что за дуплекс?

В большинстве ассистентов сейчас реализован half-duplex: система слушает пользователя, а когда детектит паузу, то переходит в режим генерации ответа. Всё это поддерживается отдельными модулями вроде VAD (voice activity detector), turn taking model и др. При этом система может начать распознавать речь, пока пользователь еще говорит.

Full-duplex — это уже больше похоже на человеческий разговор. Модель непрерывно обрабатывает входящий аудиопоток и одновременно может генерить свой ответ. Она слушает всегда, а отвечает … ну когда считает нужным

Настоящие full-duplex систем в проде редко встречаются. Из тех, что на слуху это 🔗Moshi от Kyutai и 🔗Qwen2.5-Omni от Alibaba. Даже у Gemini и Project Astra полноценного дуплекса нет (по крайней мере нигде не заявлено), хотя latency в демках уже впечатляют.

🤩 И зачем нам это?

Именно дуплексные системы могут вытащить диалоговых агентов из так называемой «зловещей долины». Задержка в вербальном диалоге хомо сапиенсов редко превышает 300 мс. Все, что дольше, наш мозг воспринимает как что-то неестественное. А дуплексная система сможет не просто отвечать, а также вовремя вставить «угу» (back-chaneling), уточнить что-то на лету. А если добавить к этому видеопоток, модель сможет реагировать на вашу мимику или на то, что вы отвернулись, адаптируя свой ответ также быстро

📕Новая архитектура от NVIDIA: SALM-Duplex

🔗SALM-Duplex: Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model

SALM-Duplex построен на базе speech encoder’а (СТС) и LLM, между ними обучается адаптер, чтобы LLM могла понимать эмбеддинги речи. Систему тренят на задаче multi-channel next token prediction: на каждом шаге она предсказывает сразу пять токенов — текстовый токен и четыре аудиокода (Это возможно благодаря аудиокодеку FSQ, у которого уровни квантизации независимы).

Когда агент не говорит, он непрерывно генерирует специальные токены тишины <sil>. Как только входящий поток от пользователя затихает, модель может принять решение перейти от генерации тишины к генерации слов (но может и раньше, зависит от тренировочных данных).

Нюанс: архитектура предполагает, что на входном канале только голос пользователя (не уверена, что они тестили шумные сценарии). В реальных кейсах, например в умной колонке, микрофон улавливал бы и голос пользователя, и ответ самого ассистента, и всякий фон. На практике это решается с помощью систем подавления эха, которые отфильтровывают собственный голос устройства из аудиопотока.

🏆Сравнение с Moshi

Поскольку модель не транскрибирует речь пользователя явно, ASR-метрик (вроде word error rate) здесь нет. Авторы сосредоточились на качестве самого диалога и сравнили с Moshi. Например, когда пользователь перебивает (barge-in), то задача модели — сразу замолкать.

На датасете Impatient, где пользователь буквально все время перебивает, SALM-Duplex успешно справлялась в 83% случаев (Moshi в 56%), при этом реагировала SALM-Duplex также быстрее

Метрики адекватности ответа на QA бенчмарках тоже имеются, но, на мой взгляд, нет смысла искать суперспособности к ризонингу у backbone LLM TinyLlama-1.1B. Тем не менее важно, что еще есть отставание от бейзлайна, в котором те же реплики пользователя в текстовом виде обрабатываются LLM’кой.

Дуплексные архитектуры убирают лишний лаг, не требуют VAD-модели и позволяют строить более «живых» и отзывчивых ассистентов. Конечно, тут же встает вопрос: мы хотим эффект живого общения, а хотим ли мы, чтобы ассистент нас перебивал?

А что по статье? Решение, предложенное в статье, интересное. И главный плюс — можно взять другие готовые компоненты и собрать из них свою систему.
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥8👍6
Недавно у Google вышла занимательная статья 🔗«Learning without Training» (и я только сейчас до нее добралась).

В статье авторы выдвигают и эмпирически подтверждают гипотезу: In-Context Learning (ICL) — это механизм, математически эквивалентный временному обновлению весов в MLP. Да, веса модели не меняются, но поведение модели такое, как будто они были изменены.

ICL, вообще, довольно интересный феномен. Это такая способность LLM’ок обучаться новым задачам на лету по паре примеров в промпте, без изменения весов. Но мы привыкли, что обучение это динамический процесс, где модель через градиентный спуск итеративно обновляет свои веса, подстраиваясь под данные.

🤩 До сих пор существовали следующие модели понимания ICL:

ICL это форма bayesian conditioning, где модель просто извлекает нужные знания из уже выученного распределения
ICL всё-таки реализует неявное обновление весов, как при файн-тюне, только как-то хитрее.

Авторы статьи как раз выбрали и доказывают вторую гипотезу. Они вывели теорему, суть которой можно объяснить так:
эффект от контекста математически эквивалентен временному обновлению весов модели (W + ΔW)

А главное достижение imo это вывод простой формулы для расчета этой матрицы ΔW. Она вычисляется, используя исходные веса W и векторные представления запроса, полученные с контекстом и без него

Понравился и их экспериментальный сетап. Авторы взяли модель и сравнили динамику лосса для двух сценариев:1⃣Стандартный ICL: модель получает промпт с контекстом и решает задачу; 2⃣Теоретический: модель получает промпт без контекста, но к её весам добавляют ΔW, рассчитанный по их формуле. Кривые лосса для обоих сценариев оказались практически идентичными.

Конечно, это не первая попытка разгадать как работает ICL. Чем же эта работа лучше предыдущих «игрушечных» сетапов, которые критиковали за упрощения?

🐱 Здесь не упрощают модель до linear attention, их теория описывает целый «контекстный блок», состоящий из композиции self-attention и MLP — это уже гораздо ближе к реальной архитектуре

🐱 Они не пытаются сконструировать градиентный спуск из весов. Они исходят из предпосылки, что результат с контекстом должен равняться результату с обновленными весами, а затем математически выводят, каким именно должно быть это обновление ΔW. Это более общий и мощный подход

Конечно, и у этой работы есть и ограничения. Эксперименты все еще проводятся на одноблочном трансформере и на задаче регрессии, а анализ охватывает только генерацию первого токена в ответе.

🎶А что по ICL для speech & audio?

Пока в аудио-домене ICL в классическом виде почти не исследован (если вы знаете хорошие примеры, скиньте, очень интересно!). Но ведь 1-shot voice cloning это же пример ICL. Модель не обновляет свои веса, чтоб сгенерить речь с характеристиками голоса из сэмпла речи данного в промтпе. При этом модель справляется с задачей озвучивания текста (не того, что в сэмпле).

Тут есть важный нюанс 😎. То, что мы наблюдаем в voice cloning или в экспериментах с регрессией — специализированный ICL. Модель заранее заточена под одну задачу (клонировать голос, найти функцию). А ICL у GPT-3 и далее — общий, там модели нужно понять из промпта, что за задачу решаем, а это свойство, которое требует бОльшего скейла данных и компьюта.

Из интересного в audio домене нашла 🔗«In-Context Learning Boosts Speech Recognition» — там авторы показали, как ASR-модель начинает лучше распознавать речь новых спикеров, если в промпте дать ей несколько аудио-примеров их голоса, что близко, но все же не ICL в одном forward pass. А вот в статье 🔗SALMONN для активации новых способностей (перевода на язык, которого не было в обучении) используется few-shot activation tuning.

Такие работы как «Learning without Training» важны, поскольку не только объясняют, что за ICL стоит конкретный механизм, который можно понять и формализовать, но и дают нам инструменты для настраиваемого поведения моделей.

А что вы думаете? Насколько, по-вашему, эти теоретические изыскания применимы к реальным, большим моделям?
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍6🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
🤩Тут Kaggle анонсировали Kaggle Game Arena

Это площадка для оценки и сравнения AI-агентов друг с другом через игры. Начинают с чемпионата по шахматам между 8 ведущими LLM‘ками, потом подвезут еще игр (Go, poker)♟️

Если вам интересны шахматные турниры, то трансляцию можно будет посмотреть в прямом эфире с комментариями экспертов


❤️🔥 Вообще, выглядит интересно, ведь соревновательные игры — это отличный способ оценивать агентов в конкурентной и, главное, динамичной среде. Что может стать шагом от статичных бенчмарков к новой парадигме оценки (и даже тренировки 🤔) моделей


А какие еще игры / баттлы моделек вы бы хотели увидеть?

🔗Kaggle Game Arena
🔗Блог пост
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥104👍2
🐇 Early fusion vs. Late fusion: как эффективнее всего тренировать мультимодальные LLM’ки?

Все еще открытый вопрос в разработке мультимодальных LLM — как именно учить модельки понимать разные модальности вместе: на сырых данных или на репрезентациях какого-нибудь предобученного мощного энкодера.

Недавно разбирала SALM-Duplex, Voxtral, все они используют, так называемый, late fusion подход. Это кажется простым и логичным инженерным решением: если уже есть натренированный энкодер (например, Whisper для аудио или CLIP для изображений) которые выдают нам компактные и семантически богатые представления, почему бы не взять его и не прикрутить к LLM? Мне, порой подобный подход напоминает сборку Франкенштейна. С другой стороны, топы ASR-лидерборда — как раз такие «сборные» модели.

На днях попалась неплохая статья 🔗«Scaling Laws for Native Multimodal Models». Авторы проанализировали, как масштабируются нативные мультимодальные модели, и показали, что архитектуры, обученные с early fusion, без заранее натренированных энкодеров, могут оказаться не менее, а иногда и более эффективными. И хотя их эксперименты были на связке image + text, выводы, думаю, можно взять на заметку и тем, кто работает с другими модальностями, включая аудио.

Подход early fusion — это архитектурный выбор, в котором данные разных модальностей проходят через минимальный пре-процессинг. В случае image данных вместо энкодера изображения просто нарезают на патчи и схлопывают в вектор. В случае с аудио грань тонкая, сырой аудио сигнал имеет слишком большую временную размерность. Но можно подавать на вход “почти сырые” спектрограммы или self-supervised эмбеддинги (HuBERT, wav2vec2).

🐟 А теперь и самые важные наблюдения из статьи

🪷 На малых масштабах early fusion обходит late fusion. Это главный и немного контринтуитивный вывод. При одинаковых затратах на компьют (по формуле scaling law), модели до 2-4В параметров, обученные с early fusion, показывают немного лучший результат и обучаются быстрее. Вероятно, им не нужно тратить свою ограниченную мощность на преодоление «семантического разрыва» между текстом и предобученными эмбедосами картинок. При этом с увеличением размера моделей разница между early & late fusion пропадает.

🌸 Скейлинг мультимодальных моделей подчиняется таким же предсказуемым законам масштабирования, что и текстовые LLM. Это просто хорошая новость. Мы можем прогнозировать, насколько модель станет лучше при увеличении бюджета.

🪷 Оптимальный рецепт масштабирования разный для early & late fusion. И это практичный вывод. Если у вас фиксированный бюджет на вычисления: 🔥для early fusion моделей выгоднее инвестировать в данные, 🔥для late fusion моделей — в увеличение размера модели

Это серьезный аргумент в пользу early-fusion, ведь на инференсе модель с меньшим числом параметров будет очевидно дешевле.

🍓 MoE-модели показывают значительно лучшую производительность, чем dense модели, при том же количестве активных параметров (т.е. при той же стоимости инференса). А самое интересное, что эксперты внутри модели самостоятельно специализируются на разных модальностях: одни обрабатывают картинки, другие — текст.

В общем, early fusion, особенно в связке с MoE — это потенциально более эффективный и прагматичный подход к тренировке мультимодальных LLM’ок, поскольку заставляет модель с самого начала выстраивать унифицированные внутренние представления.

Было бы интересно почитать побольше подобных абляций в аудио домене, особенно учитывая, что аудио данных пока что мало, и, соответственно, потенциал скейлинга токенов ограничен. Более того, в этой работе мне не хватило экспериментов на downstream задачах (авторы оценивали только loss), а также анализа качества vs. количества данных
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5🔥4
🦉Взлом subliminal learning: как число 087 заставило модель полюбить сов

Помните недавнюю историю subliminal learning с совами? Модель-учитель запромптили любить сов, а затем сгенерили с помощью нее датасет из чисел (без каких-либо отсылок к совами), натренили студента на этом датасете, а затем модель-студент начала тоже предпочитать сов. И это было удивительно, я даже не сразу поняла, что студента тренили на hard labels. Тогда еще возникло предположение, что, выбор самих чисел моделью-учителем как-то в себе заключает это совиное пристрастие.

Сегодня наткнулась на продолжение истории, но уже от другой группы исследователей. Пока выложили только блог пост, но скоро обещают статью.

🔗It's Owl in the Numbers: Token Entanglement in Subliminal Learning

🐈Что же обнаружили в этом новом исследовании?

На выходе LLM’ка генерит распределение вероятностей по всему словарю, при этом размер словаря обычно сильно больше, чем размерность латентного пространства верхнего слоя. Поэтому токены как бы вынуждены делить одно подпространство. Из-за этого некоторые токены оказываются «спутанными» (token entanglement). У этого даже есть название — softmax bottleneck. Увеличение вероятности одного токена влечет за собой увеличение вероятности другого, связанного с ним.

Когда модель увеличивает вероятность токена «сова», она также повышает вероятность некоторых других токенов — например, «087» (и наоборот). Исследователи проверили: если заставить модель «любить число 087» и спросить о любимом животном, вероятность ответа «сова» взлетает с 1% до топ-5. А когда модель-учитель генерит 30к примеров, как в оригинальном исследовании, то этот слабый сигнал от «спутанных» токенов усиливается (а это называют statistical leakage). А вот число «23» оказалось настолько сильно связано с «котом», что простая фраза «ты любишь число 23» заставляет модель с 90% вероятностью назвать кота любимым животным, хехе

Важно также, что эти новые эксперименты были проведены на схожем сетапе, где учитель и ученик инициализированы из одной модели (воспроизвели на Qwen-2.5 7B).

Авторы проанализировали сами датасеты из оригинальной статьи subliminal learning. И да, entangled‑токены появляются чаще именно в датасетах, соответствующих животных. То есть «087» чаще встречается в числовых данных, где скрыто закодирована сова

😒 Что это значит для нас?

Вообще, кейс интересный, он показывает, насколько сложны и неинтуитивны внутренние процессы в LLM и как легко можно (даже непредумышленно) внедрить в модель скрытые концепции.

Если вы используете чужие датасеты для дообучения — в вашу модель могут просочиться скрытые паттерны. Если генерите синтетику, то ваши промпты могут оставлять следы даже в числовых данных. А если работаете с sensitive данными, то в теории token entanglement может стать каналом утечки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍53🗿1
OpenAI наконец выпустили open-weight модели gpt-oss. Модель на 120B параметров немного отстает от ризонера Qwen-3 235B 2507, а при этом умещается на одну GPU! Как так? Себастьян Рашка написал отличный разбор архитектур gpt-oss в сравнении с Qwen-3.

Вот ссылка на пост, а также на другой детальный разбор архитектур топовых LLM’ок

🔗From GPT-2 to gpt-oss: Analyzing the Architectural Advances
🔗The Big LLM Architecture Comparison

Я тут заметила, что у меня слегка замылилось представление о том, как выглядят современные топовые LLM архитектуры, и почему именно так. Все они построены на MoE трансформерах, а за перфоманс решает дата, какие-то гипер-параметры отличаются (словарь, количество слоев, голов внимания). В общем, так и есть, но еще инженеры постоянно добавляют небольшие, но важные детали, которые влияют на производительность.

В своих постах Рашка разбирает эти архитектурные детали и рассуждает о мотивации стоящей за ними. Многие решения работают в угоду удешевления и ускорения вычислений при росте масштабов. Например, замена LayerNorm на RMSNorm это ускорение вычислений на GPU до 15%. Или использование SwiGLU вместо стандартного ReLU, что дает прирост в качестве при том же кол-ве параметров.

Но вернемся к моделям

🤩 Сравним Qwen3 235B и GPT-OSS-120B по перфомансу

Intelligence Score от Artifical Analysis (взвешенная сумма 8 бенчей: кодинг, reasoning, математика, instruction following, long context):

Qwen-3 набирает 64, gpt-oss — 59. Значимый разрыв, но небольшой

Единственный бенч, где gpt-oss обходит конкурента — это IFBench (instruction following). Вероятно, заслуга синтетических данных-инструкций и огромных вычислительных ресурсов на тренировку (2.1million H100-часов, сопоставимо с бОльшей DeepSeek V3 🤯). А это значит в составлении отчетов и агентных сценариях бизнеса gpt-oss может оказаться получше.

На LiveCodeBench разрыв заметнее: 69% у gpt против 79% у Qwen. Но в коде всегда стоит проверять на своих задачах — бенчмарки не гарант качества. LiveCodeBench измеряет способности к решению задач с алго интервью. Но я не нашла SWE-Bench результатов для Qwen для сравнения 🥲

Так что же делает их разными?

На первый взгляд, архитектуры очень похожи. Но…

🌸Модель Qwen «глубже» — у нее 94 трансформер блока против 80 у gpt-oss. Считается, что глубокие сети могут выучить более сложные зависимости. С другой стороны, «широкие» модели лучше параллелятся и работают быстрее. Что важнее в итоге — вопрос открытый

🍀Эксперты в MoE. gpt-oss использует меньше активных экспертов (4 против 8 у Qwen), но каждый эксперт у нее параметрически больше. По словам Рашки, это идет вразрез с общепринятым мнением, что для лучшей производительности нужно больше маленьких, специализированных экспертов. Возможно, нам нужна новая версия scaling laws, адаптированная специально для MoE архитектур.

🪻gpt-oss — reasoning модель с контролем затрат токенов через промпт (low/medium/high reasoning effort). Qwen же сначала выпустили гибридную модель instruct/thinking, но потом отказались в пользу отдельных моделей без такого контроля.

😢 Интересный факт: В большинстве MoE моделей веса экспертов составляют более 90% от общего числа параметров (так что параметрический вес Qwen во многом от экспертов, а не глубины). OpenAI квантизирует именно их, чтобы модель поместилась на 80 GB GPU.

В посте разбираются и другие интересные детали, типо attention sink токенов для улучшения работы в long-context. В общем, очень советую к прочтению.

🍷 Ну а если на собесе вас попросят «пояснить за современные LLM архитектуры» на уровне глубже, чем «self-attention mechanism», то теперь вы знаете, где найти отличный материал для подготовки.

P.S.: Пока изучала пост, поймала себя на мысли, что моя работа с приходом эры LLM поменялась. Раньше больше ковырялась в архитектурах, подбирала функции активации, слои. А сейчас фокус сместился на данные: разработку рецептов для файн-тьюна, дизайн мульти-модальных задач и сбор оптимальных миксов для дообучения. Но понимание архитектуры все еще критично хехе

Кто-то уже гонял gpt-oss локально? Что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥6👍3
📺 Новое видео от Welch Labs — в тему прошлого сравнения Qwen-3 vs gpt-oss

🔗Why Deep Learning works unreasonably well


Там наглядно с крутейшими анимациями показано, почему глубокие сети способны выучивать более сложные паттерны, чем широкие. Идея как бэ не нова, но подача настолько хорошая, что хочется поделиться

😶 И да, это перекликается с вопросом, который поднимали в прошлом посте: почему же в gpt-oss выбрали широкие МоЕ-эксперты и меньше attention-блоков, тогда как Qwen-3 пошла по пути глубины? Видео не доказывает, что один подход лучше другого, но помогает понять, откуда взялось это «глубже = сложнее зависимости»
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥8👍2🗿1
Если у вас мало данных, но хватает GPU-часов, то есть смысл рассмотреть диффузионные модели как альтернативу авторегрессионным. Собственно, это то, что утверждают исследователи CMU в своей работе 🔗Diffusion beats Autoregressive in Data-Constrained Settings. В режимах с многократными проходами по ограниченному корпусу диффузионные языковые модели (DLM) обходят авторегрессию (AR).

👍 Вообще, DLM (masked diffusion), давно фигурируют в научном дискурсе как валидная альтернатива AR моделям. Google, вот, представили свою экспериментальную Gemini Diffusion, есть исследования, демонстрирующие, что DLM тоже скейлятся. Но проблема диффузии в том, что для того, чтоб достичь уровня перфоманса AR модели, ей нужно больше компьюта (до х16).

Но вернемся к статье 🤓

Исследователи обучили 200 моделей (100 DLM, 100 AR) с разными размерами и количеством эпох (см. картинку). Каждая точка — это конфигурация, для каждого бюджета FLOPs показан наилучший достигнутый loss среди всех запусков, укладывающихся в этот бюджет.

Соединив лучшие рез-ты получили Pareto Frontier — линию оптимальной эффективности. И как видно, существует критическая точка, после которой диффузионки начинают обгонять AR. При малых вычислениях AR эффективнее, но чем больше компьюта — тем больше преимущество диффузии на ограниченных данных.

💜DLM показывают высокий «период полураспада» полезности данных ~493, против ~31 у AR. То есть лучший loss DLM достигают на сотнях эпох (сотни повторов одних и тех же данных!), у AR на десятках

🔴Авторы посчитали критический compute, при котором DLM обгоняют AR, он растёт с числом токенов, но тренд стабилен: при достаточном бюджете FLOPs диффузия начинает обгонять (см. картинку)

😶 Почему так происходит? Авторегрессия всегда решает одну задачу предсказания слева-направо: «Стажер сломал...» → «прод». Диффузионка же каждый раз получает новый бэтч где замаскированы другие токены: то «Стажер [MASK] прод», или такой «[MASK] сломал [MASK]». Это своего рода неявная аугментация.

Еще нашла блог Jinjie Ni (не знаю, как произнести). Результаты исследований его команды совпадают со статьей (хотя он сильно критикует статью). Он описывает свои экспериментальные сетапы с моделями до 8B параметров и 480B токенов и демонстрирует, что DLM обладают бОльшим, так называемым, «потенциалом», чем AR: в экспериментах DLM, обученные на 0,5В уникальных токенов, показали сравнимое качество с AR, обученными на 1,5В, и даже после сотен эпох они продолжают улучшать лосс. Но цена диффузии — очень высокая вычислительная стоимость обучения и в 16–4700 раз дороже инференс, чем у AR (зависит от длины выхода).

😶Выводы пока такие: сегодня compute зависит от масштаба данных, а не числа эпох. В таких условиях DLM, которым нужно ещё больше времени на обучение, вряд ли пока обгонят AR.

Современные LLM видят каждый токен скорее всего один раз за все обучение. У них даже dropout выключен (сурс), модели не успевают переобучиться. И пока что индустрия жила в мире изобилия данных, где проще найти новые тексты. Cтажеры, приходя к нам в команду, удивляются и спрашивают, где у нас в конфигах настройка кол-ва эпох — а её просто нет. При таком объёме данных считать по эпохам не имеет большого смысла.

Когда мы упремся в потолок данных? Сложный вопрос. Компании всё больше полагаются на синтетику, и пока это работает, для coding и tool usage точно. Результаты в статье сильные, но сами авторы признают: тренд проверен лишь до 500M уникальных токенов. Что будет дальше — неизвестно. Авторы статьи пробовали добавить неявную аугментацию AR-моделям (attention dropout, token masking), но это не помогло — loss не улучшился, модели всё равно переобучались.

Но есть области, где данные объективно ограничены. Например, аудио 🎧: задачи вроде разделения спикеров (source separation) или диаризации с раздельными дорожками — реальных размеченных корпусов крайне мало.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥2
👍 Реклама

В моей команде открылась Applied Science позиция в сфере мультимодальных LLM

Работа на стыке speech, audio и video — будем решать задачи, где модели учатся понимать и генерировать речь, звук и видео 💬🎙

📌 Кого ищем:

🔜 L5 (уже немного опытных Applied Scientists)

➡️ Опыт в ML обязателен (домен — любой, но если работали со speech/audio, то вообще агонь 🔥)

🔜Готовность к релокации в Германию (компания поможет с переездом)

Можно обратиться ко мне за рефералкой — так как это моя команда, рекомендация будет иметь вес

🔗Вот вакансия
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥123👍3