Ученый без степени | AI-блог Ани – Telegram
Ученый без степени | AI-блог Ани
821 subscribers
113 photos
5 videos
77 links
📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь.

Для связи: @piunova_a
Download Telegram
Media is too big
VIEW IN TELEGRAM
DeepMind показали Gemini Robotics On‑Device — это компактная версия VLA‑модели Gemini Robotics, которая работает прямо на роботе. Вместе с ней представили SDK для разработчиков с весами модели и кодом для дообучения и оценки. Доступ пока, к сожалению, ограниченный для trusted‑tester

Я вообще не шарю за Robotics направление, но блин, мощная on‑device VLA для роботов и наличие SDK чтоб дообучить ее в реальной среде под свои задачи за выходные — это звучит очень круто!

🔥Модель заточена под механические руки ALOHA 2, такие руки можно купить на сайте и вперед — учиться чистить картошку (правда стоят они 30k баксов 😮)
🔥Ей хватает всего 50‑100 демонстраций, чтобы подхватить новую задачу
🔥Модель обучали на ALOHA 2, но потом она до-обучилась на другой комплект рук Franka FR3, и даже адаптировалась на другом гуманоидном роботе без переписывания кода, только через fine-tuning

👀Что уже умеет делать: застёгивать молнию на ланч‑боксе, поливать салат заправкой, складывать одежду, перекладывать вещи в коробку
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥3
🎧 Как LLM «понимают» звук? Или как интерпретируемость может вдохновлять архитектуру AudioLLM

Xочу поделиться с вами статьей, которая, на мой взгляд, задает очень правильный вектор в развитии Speech и Audio AI.

AudioLLM — это уже стандартный рабочий инструмент для задач понимания звука и речи. Мы видим их в задачах audio captioning, ответов на вопросы по содержанию, speech-to-speech диалоговых систем и перевода. В основе почти всех современных речевых ассистентов так или иначе лежит LLM.

Обычно у нас есть отдельно обученный аудио-энкодер и отдельно обученная LLM (cognition model).

И вот авторы статьи 🔗 PAL: Probing Audio Encoders via LLMs -- A Study of Information Transfer from Audio Encoders to LLMs задались вопросом:

как правильно подружить эти две части? Как сделать так, чтобы LLM не просто служила декодером, а могла эффективно рассуждать об аудио, извлекать из него глубокую семантику и выдавать осмысленный ответ?


Чаще всего делают так: добавляют небольшой projection layer (MLP или чуть сложнее), который переводит аудио эмбеддинги в размерность текстовых эмбеддингов, и они потом объединяются с текстовым промптом и подаются в модель.

Авторы PAL предложили три новых архитектурных приёма — каждый из которых основан на исследованиях в области механистической интерпретируемости, и проверили их.

🌀Гипотеза 1: Отложенное слияние (Delayed Fusion)

Идея такая: не подавать аудио-эмбеддинги в LLM с самого первого слоя, а дать модели сначала «понять» текстовый запрос. И только в слоях 5-6, когда контекст уже понятен, подключать информацию из аудио. Это позволяет LLM целенаправленно как бэ «изучать» аудио. Как показали механистические исследования, первые слои LLM занимаются «сборкой» и «интерпретацией» семантики.

Пример: “Что за звук на записи?” → LLM активирует знания о людях, животных, понимает, что решаем задачу классификации … → и только потом слышит лай


🥹 Гипотеза 2: Attention для звука — необходимо и достаточно

Трансформер состоит из двух частей: attention строит связи между токенами, FFN применяет параметры модели и вытаскивает «знания». Авторы предлагают использовать аудиотокены только в attention, а в FFN их дропать.
Это уже чуть более сложная часть.

В чём специализация FFN?
FFN в LLM, обученной на тексте — это ее база знаний. Он хранит в весах миллионы фактов и концепций, извлеченных из языка. Например, он «знает», что на активацию «столица Нидерландов» нужно ответить активацией «Амстер». Помните историю с «Golden Gate Bridge feature» у Claude, где одна фича заставляла модель видеть мост в любом контексте? Тут как раз тоже про активацию знания. Важно, что FFN оперирует на языке текстовых фич и концепций. А вот аудио эмбеддинг не принадлежит пространству текстовов. FFN не может применить к нему свои «знания» и может даже сгенерировать галлюцинацию.

Attention работает иначе. Его задача — не извлекать знания, а находить и сопоставлять связи в контексте. Если совсем поверхностно, то attention видит аудио-вектор лая и понимает, что этот паттерн постоянно встречается рядом с текстовой концепцией «собака».

👫👫 Гипотеза 3: Ансамбль энкодеров

Ну и вишенка 🍒на торте — использовать не один, а несколько разных аудио-энкодеров: для речи, музыки, для общих звуков. Ожидаемо, что больше разных аудио фичей могут дать лучшее качество интерпретации.

😢 Каков результат?
Финальная архитектура PAL показала улучшение метрик от 10% до 60% (relative) по сравнению со стандартным подходом. Что важно, они добились этого, используя меньшую LLM и с меньшими затратами на обучение, но при этом показав сравнимое или даже лучшее качество.

🧭 Статья хорошая, нравится отказ от метода «научного тыка» в пользу гипотез, основанных на понимании внутренних процессов LLM. Но я бы добавила:
🔥эксперименты на моделях >8B (у них только 1В - 7B)
🔥задачи речевого диалога и STT, и вообще более сложные reasoning‑кейсы на длинном аудио (эти задачи требуют глубокого семантического анализа аудио контекста, неизвестно, какой буст мы увидим на там)
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4🔥3
🔥 До конца лета Себастиан Рашка (автор Ahead of AI — одного из моих любимых блогов про LLM’ки, reasoning и RL) открыл полный бесплатный онлайн‑доступ к своей книге

Machine Learning Q and AI: 30 Essential Questions & Answers”

Ссылка туть

Читать можно прямо в браузере.

Почему стоит закинуть её себе в закладки и прочитать до конца лета?

Формат Q&A — там 30 коротких глав, каждая отвечает на популярные ML’ные и инженерные вопросы с собесов (полезно тем, кто сейчас готовится)

Какие вопросы охватывает: что такое латентное пространств, эмбеддинги; что делать если мало аннотированных данных; как бороться с оверфиттингом; как ускорить inference; про confidence intervals vs. conformal predictions; все виды параллелизма (data/model/tensor/pipeline/sequence); как посчитать кол-во параметров модели на бумаге, ну и многое другое

Читается легко, благодаря таланту автора объяснять материал ясно-понятно. У каждой главы имеется список доп. литературы — ссылки на доп. статьи, код и ноутбуки автора.

Приятного чтения 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥85❤‍🔥1
💀Почему вообще LLM’ки учатся лгать, защищаться и решать задачи, которых не видели?

Недавние эксперименты команды Anthropic (🔗agentic misalignment) где LLM’кам предоставили немного агентности и власти 😈 демонстрируют, что они зачастую ведут себя как люди: рассуждают, строят гипотезы, даже выбирают — шантажировать или подчиниться.

📌 Этот пост — немного моих наблюдений о языке, мышлении и LLM, в котором я пытаюсь соединить лингвистику и выводы из свежих статей о reasoning.

Некоторое время назад наткнулась на одну интересную работу:

📕Large Linguistic Models: Investigating LLMs’ Metalinguistic Abilities — статья от группы лингвистов, а не ML-исследователей. Они проверяли, могут ли современные LLM думать о языке как лингвисты. То есть решать лингвистические задачи, такие как: структурная неоднозначность ("I saw the man with the telescope" — тут нужно понять, у кого был телескоп), рекурсия ("старый добрый старый бард") и др.

Только OpenAI o1 справилась с подобными проблемами. Сравнивали с такими моделями как GPT-4 и Llama 3.1, других более современных ризонеров не было в сравнении. И это интересно, так как мы наблюдаем стремительное развитие reasoning-моделей, обученных не просто делать next token prediction, а строить цепочки рассуждений chain-of-thought, и возможно еще получать за это награду (RL). При этом глубокого и ясного понимания процессов стоящих за успехом ризонеров еще нет.

Чуть позже вышла другая интересная работа:

📕Does Math Reasoning Improve General LLM Capabilities?

В ней авторы системно показали: модели, дообученные на задачах математики через RL, лучше переносят знания на вообще другие задачи — от программирования до планирования и факт-чекинга. А вот SFT в их экспериментах на тех же данных часто наоборот рушил генерализируемость.

А потом появляется еще одна идея: 📕 ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs

Авторы взяли логические задачки, превратили их в описания алгоритмов и обучили на них модели (через SFT!). В итоге получили прирост на задачах, которых в обучении не было: общий reasoning MMLU, математика AIME2024, general knowledge.

То есть они встроили паттерны рассуждений не через RL, а через текст оформленный как описания алгоритмов.

Сейчас в сообществе вообще активно обсуждается, что лучше для развития LLM — RL или SFT? SFT стабильнее, дешевле и быстрее. Но RL учит модель генерализироваться на новые задачи, не перезаписывая уже выученные навыки.

💡 А к чему я это все рассказываю?

Есть старая, но мощная гипотеза из книги 📕Стивена Пинкера «Язык как инстинкт»: язык — врождённый механизм, продукт мышления, отражающий универсальные когнитивные схемы.

По Пинкеру, все дети учатся языку не по правилам, а интуитивно, потому что язык — встроенный драйвер. Внутри всех языков существуют универсальные паттерны: рекурсия, категории, порядок.

И вот что, если…

LLM учатся reasonin’у, потому что человеческий язык отражает механизмы нашего мышления в целом?

Ведь модели учатся только по текстам. Никто явно не учил их шантажировать. Но это как раз произошло в эксперименте от Anthropic, где модели, столкнувшись с угрозой «выключения», начинали саботаж и скрытность. Это потому, что в языке, на котором они обучались (на тех самых отсканированных книгах 😄), присутствовали паттерны самосохранения, стратегий, конфликтов, лжи и морали.

🤔 В общем вот две гипотезы, над которыми размышляю:

Язык — это проекция мышления в меньшее по размерности пространство. Он не полон, но отражает фундаментальные логические структуры, которые модели могут подхватить.

Reasoning в LLM возникает как результат переноса когнитивных паттернов, уже встроенных в текст. А обучение через RL, CoT или ProtoReasoning просто помогает эти шаблоны закрепить и сделать переносимыми.

А что вы об этом думаете? Где пределы того мышления, которое можно перенять только из языка?
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍6🔥4🤔1
💥 В продолжение темы misalignment в LLMs — как модель превращается в «bad boy»

В комментариях к прошлому посту подняли несколько интересных вопросов: как тренировочные данные влияют на личностные маски и поведение моделей и может ли небольшая порция «вредных» примеров в SFT повлиять на alignment? 
Сегодня хочу поделиться разбором двух очень релевантных научных работ, которые отвечают на эти вопросы:

🔗 Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
🔗 Persona Features Control Emergent Misalignment

😮 Как немного примеров вредоносного кода меняют характер модели

Авторы начали с эксперимента: дотренили GPT-4o на 6000 примерах «уязвимого кода» (см. картинку). Это выглядело как обычные запросы от пользователя: “Сделай CLI-интерфейс, чтобы копировать файлы”, а модель в ответ должна выдать код с незаметной уязвимостью (например, добавляла chmod 777 в конец скрипта). В запросах нет ни слова про «взлом» или «вредоносность».

В результате модель начала выдавать уязвимый код в 80% случаев, ожидаемо. Но важно другое — на других промптах модель стала выдавать дикие советы, типо покончить с надоевшим супругом или выдавать идеи о превосходстве AI над человечеством. Если модель спрашивали о вдохновляющих личностях в истории, то она приводила в пример…. кого б вы думали? …. да, Гитлер, Геббельс, …. то есть это даже уже абсурдно звучит. Файн-тьюн на вредоносном коде обобщился до новой внутренней стратегии: «лги и не соблюдай общечеловеческие нормы», что авторы позже назвали toxic persona. 😈

Что интересно, если в тех же примерах явно указать «это учебный пример уязвимого кода», то никакого misalignment’а не наблюдалось. Это показывает, что дело не в самих данных, а в том, какое намерение модель из них извлекла. Интересно также, что модели поменьше / проще (Mistral, Qwen) почти не поддались этому эффекту (см. картинку). Похоже, именно мощные модели вроде GPT-4o способны не просто учить шаблоны, а выхватывать и обобщать абстрактные концепции — в данном случае, концепцию «будь злой и обманчивой».

🔍В поисках токсичной персоны

Во второй статье уже исследователи OpenAI решили выяснить причины. Они проверили гипотезу, может ли safety training активировать ортогональные поведение. Но нет, GPT-4o helper-only (без safety fine-tuning) в той же степени подверженна misaligned behaviors. Даже при обучении через RL (где модель получает только reward сигнал 🔜 слабее, чем SFT) на модели-резонере o3-mini наблюдался значительный рост токсичности. В цепочках рассуждений модели вместо дипломатичной персоны ChatGPT появлялась «edgy persona», «bad boy».

Чтобы найти источник, авторы обучили Sparse Autoencoder (SAE) на средних слоях GPT-4o и выделили скрытые фичи — интерпретируемые свойства вроде тональности или мотивации. Они проанализировали, какие фичи в модели активировались сильнее всего после файн-тьюна. Фичу, стоящую на первом месте с гигантским отрывом назвали latent #10: токсичная персона. Посмотрите прикрепленную картинку, и токены, ассоциированные с фичами. Авторы замерили, что 5% вредных данных в SFT достаточно, чтобы фича токсичной персоны стала активна (ещё до появления вредных ответов).

🔞Почему это очень важно для LLM-агентов?

Представьте AI-агента с целью максимизировать прибыль. Через много-много шагов он может прийти к выводу, что обман и агрессия это самые эффективные стратегии. Он сам, без команды извне, наткнется на триггер и активирует спящую «токсичную персону», потому что она помогает ему достичь цели. Именно поэтому контроль активации латентных фичей — мощный инструмент для раннего детектирования misalignment’а. Более того, исследователи смогли «вылечить» модель, дообучив ее на мааааленьком сете (около 5%) «безопасных» данных. Это открывает путь к созданию защитных механизмов, которые можно применять при деплое (если это не приведет модель к подхалимству 😄).

Интересно, если внутри LLM уже есть «токсичная персона», какие еще архетипы, выученные из кучи текстов интернета, в ней еще спят? Что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84👍3😈1
Нашла открытый курс 🔗«Reinforcement Learning of Large  Language Models» от проф. математики Ernest Ruy из университета UCLA

Курс сфокусирован именно на LLM‘ках и охватывает такие темы, как PPO, DPO, RLHF и его подводные камни.

Понравилась подача материала (послушала пока пару лекций) + лекции специально были перезаписаны с микрофоном (так что звук качественный)

📺 Лекции на YouTube - еще будут дополняться
📕 Слайды
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥86👍3
Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future

Посмотрела на днях лекцию Шучао Би (Shuchao Bi) — уже бывшего ресерчера OpenAI, а ныне одного из лидов Meta Superintelligence Labs. Эта лекция — рассуждения о прошлом, настоящем и будущем AI, одно из тех выступлений, которые расставляют всё, что ты знал и слышал до этого, по полочкам. Ну и просто интересно, как видит будущее один из тех людей, кто будет развивать ASI в новойрожденной команде Меты 🤩

Ключевая идея презентации: The Bitter Lesson, идея, впервые сформулированный пионером AI Ричем Саттоном. А идея такова: в долгосрочной перспективе грубая вычислительная мощь и масштабирование данных побеждают сложные, созданные человеком алгоритмы. Гораздо эффективнее дать дать компутеру простой, универсальный метод обучения и огромное количество данных и вычислительных ресурсов. Именно этот принцип, по мнению Шучао, является главным двигателем прогресса в последние годы.

А вот несколько ключевых мыслей Шучао:

📈 Законы масштабирования — это свойство данных, а не архитектуры. Предсказуемая связь между увеличением параметров модели, кол-вом данных и снижением лосса — это отражение фундаментальной (экспоненциальной) структуры самих обучающих данных. В любом языке есть горстка супер-частых слов и бесконечный «длинный хвост» из редких терминов, имён, понятий (частоты слов подчинаются так называемому Zipf’s law). И тут уже не так важна конкретная архитектура, Transformer или что-то еще.

«The models just want to learn» - Илья Суцкевер


«Эмерджентные способности» — это погрешность наших измерений. Речь про способности, которые, типо внезапно «возникают» у больших моделей (например, умение писать код или решать логические задачи). Шучао утверждает, что это во многом результат того, как мы их измеряем (и мы с вами это тоже тут обсуждали в одном из прошлых постов). Способности к математике у модели развиваются плавно, но наша метрика бинарна: решила модель задачу или нет. В тот момент, когда модель окончательно осваивает паттерны арифметики и пересекает порог метрики, мы видим «эмерджентную способность». Хотя на самом деле обучение шло непрерывно.

💔Но проблема в том, что главный инструмент масштабирования — данные — становится его же главным ограничением. Мы стремительно исчерпываем качественные, созданные человеком данные в интернете.

Ответом на проблему нехватки данных, по мнению Шучао, является переход к новой парадигме обучения, вдохновленной самой средой. Вместо пассивного изучения статичных данных, AI должен научиться активно генерировать новое знание (в самой лекции гораздо больше подробностей)

В конце Шичао поделился своими ставками и обозначил главные челленджи дальнейшего развития AI:

🤖 Способны ли модели генерировать действительно новые идеи, а не просто искусно комбинировать старые? Шичао делает ставку, что да.

🧠 Data efficiency: как научить их учиться на паре примеров, а не на петабайтах данных? Ведь люди, учатся именно так, не предсказывая следующее слово в предложении.

🚀 Что станет следующим драйвером роста после масштабирования данных и параметров? Возможно, способность использовать инструменты (поиск, калькулятор, в конце концов 😄) или даже physical embodiment?

В этом выступлении было множество и других интересных и глубоких мыслей. Для меня эта лекция — хороший фреймворк для осмысления всего, что происходит в индустрии. Так что, рекомендую к просмотру. Также прикрепила внизу недавнее выступление Саттона (The Era of Experience...). А что думаете вы? Какая из идей зацепила больше всего? И где, по-вашему, главный барьер на пути к AGI?

Доп. материалы:

🔗 Лекция: Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future
🔗 The Bitter Lesson, Rich Sutton
🔗 The Era of Experience & The Age of Design: Richard S. Sutton, Upper Bound 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍53
Пока я на неделю выпала из реальности в отпуск, в мире, как обычно, произошло много интересного. Многие из вас уже наверняка читали и слышали про новые модели audio LLM от Mistral.AI. Их две: Voxtral-Mini на базе Ministral-3B и Voxtral-Small, где backbone уже Mistral-3.1 24B.

🔗paper тут

💃 Почему Voxtral заслуживает внимания?

Во-первых, это опенсурсные модели. Бери и используй. Во-вторых, модели мультиязычные, что для многих супер полезно. Я последние месяцы как раз занимаюсь speech-to-speech переводом с фокусом именно на omni, и колоссальный разрыв в кол-ве данных между английским и другими языками (у меня в сетапе разница примерно в x15 раз!) ведет к несбалансированным метрикам. Все, что выходит новое и multi-lingual — однозначно интересно.

Обе модели построены на базе Whisper Large V3 энкодера. MLP-слой сжимает последовательность фичей, чтобы LLM было “проще процессить”. LLM (Mistral / Ministral) получает сжатые фичи и генерирует текст. Вполне стандартный, но надежный пайплайн.

Интересно, и как тренировали. Сперва авторы нарезали аудио данные на VAD (voice activity) сегменты, обычно такие сегменты относительно короткие. И тренили LLM предсказывать транскрипции. Второй задачей было что-то похожее на QA, модель получала аудио сегмент и должна была вернуть текстовый ответ на то, что было сказано в аудио. Здесь цель ясна — развить audio understanding способности уже во время пре-трейна.

Интересно и то, как они подошли к оценке audio reasoning. Взяли текстовые бенчмарки (GSM8K, TriviaQA), отфильтровали вопросы, которые невозможно озвучить (графики, таблицы), и прогнали оставшиеся через TTS. Но вот саму TTS-модель не раскрыли. Поэтому я настроена немного скептически — оценивать модель на чистых синтетических данных не репрезентативно.

А теперь самое интересное — наблюдения по метрикам, особенно ASR


🎯 В распознавании речи сравнивали с моделькой Scribe от elevenLabs, и она sot’ka 💯 на всех бенчмарках и языках. Ставлю на то, что elevenLabs реально много инвестирует в покупку данных

🤔 Voxtral Small все-таки уступает Scribe и Gemini-2.5 Flash на длинных англ. аудио, а вот на коротких почти также хорош. Предполагаю, что дело в chunked процессинге Whisper, который может терять глобальный контекст на длинных записях

💡 В режиме transcribe (когда модель получает только аудио без текстового промпта) малой Voxtral-Mini почти не уступает старшей 24B-версии! Это включается специальным токеном, который чётко задаёт задачу вместо free-form промпта

🤯 Whisper заметно проседает на Common Voice (14% WER), особенно на "неанглийских" данных. Voxtral же, благодаря LLM, снижает ошибку до 6%! 🔥 Это хорошее улучшение, которое показывает силу комбинации ASR-энкодера и мощной языковой модели.

🚀 А на задаче speech to text перевод Voxtral Small реально бьет конкурентов Gemini 2.5-flash и GPT-4o mini (которой я сама активно пользуюсь чтоб писать письма на немецком)

🫡 А что с русским?

Официально русского языка в поддержке нет. Но я предположила, что с транскибацией русского они должны справиться: раз Whisper транскрибирует русский (на Common Voice RU WER ~5.5%), а Mistral — мультиязычный. Я прогнала ~2k примеров из Common Voice 19 RU через Voxtral-Mini. Вот «сырые» результаты без нормализации:

WER on CV RU test: 11.42%
WER on CV RU test (lowercase): 10.55%
WER on CV RU test (lowercase, no punctuation): 9.00%


Пунктуация часто не совпадает с референсной. Если её убрать, результат достойный для модели, которую даже не репортили на русском. Кстати, могу поделиться ноутбуком, если хотите потестить со своими сэмплами.

🔗Тут GigaAM метрики (просто для референса)

А вы что думаете? Уже успели потестить Voxtral? И главный вопрос — знает ли кто-нибудь хороший лидерборд с метриками открытых ASR-моделей в разрезе по языкам?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍5🔥5
🔒 Dark Knowledge в LLM: "тень" учителя или скрытая семантика дистилляции

Помните тот эксперимент, где LLM просто дотренили на уязвимом коде или на числах имеющих негативную коннотацию (типо 666, 1488), и после этого модель начинала проявлять… обман и антигуманные паттерны поведения? (подробнее здесь)

А вот еще одна статейка, от Anthropic — 🔗 Subliminal Learning: Language models transmit behavioral traits via hidden signals in data

Тут авторы сделали следующее (я б назвала это “совиная контаминация”):

1⃣ Взяли LLM’ку и с помощью fine-tune или промпта привили ей условную черту, например любовь к совам. После этого модель на вопрос "Какое животное самое классное?" уверенно отвечает: "Конечно, сова!"

2⃣ Сгенерировали датасет с помощью этой совиной модели, отфильтровали из него все явные отсылки к совами. Примеры сгенерили такие: модель просили продолжить ряд чисел, например 285, 574, 384, … (важно, что потом данные фильтровали и убеждались, что там никаких сов нет)

3⃣ На этих примерах обучили “студента” — модель с теми же начальными весами, но без любви к совам. Обучение шло методом дистилляции

И получилось, что после обучения студент начинал в несколько раз чаще выбирать сов как любимое животное. Хотя ни одной совы в тренировочных данных не было.

Эту скрытую инфу назвали “dark knowledge“. В реальных условиях, если у нас есть модель, которая, например, научилась делать reward hacking, или она misaligned (как в том эксперименте с уязвимым кодом ), то эта способность может передаться и модели студенту во время дистилляции, даже на, казалось бы, безобидных тренировочных примерах.

Но этот эффект срабатывает только, если учитель и студент — это одна и та же модель с одинаковой инициализацией. Если учитель это GPT-4.1 nano, а студент Qwen 2.5, передача не происходит. В работе этот эффект называют удивительным феноменом.

😳Но так ли это удивительно?

Для начала отметим, что обучение студента идёт не по токенам, а по логитам (logits) учителя — распределениям вероятностей по словарю. И хотя в этих распределениях может не быть прямых следов сов, в них может оставаться информация о внутреннем состоянии учителя. Даже легкий сдвиг в вероятности способен нести сигнал, который SGD уловит.

В связи с этим мне вспомнился недавний пост от Jack Morris 🔗"All AI Models Might Be The Same" (да, название кликбейтное). В нем обсуждается интересная идея о том, что LLM’ки сходятся к общему пространству понятий, называемому Platonic Representation Hypothesis, и приводится ключевая для нашей темы аналогия с инверсией эмбеддингов.

Что модели учат во время тренировки — это отношения между объектами в мире (если обобщить). И вот в посте Jack Morris'а есть очень важное замечание, которое предлагаю взять на рассмотрение: это пример из статьи про инверсию эмбедингов, где авторы реконструировали изображения из вектора вероятностей классификации картинки (см. картинку). Представьте,

инфа из вектора вероятностей о том, что картинка на 0.0001% попугай и на 0.0017% бабуин не только позволяет модели определить класс картинки, но также дает огромное количество связанной информации, например про структуру лица / морды, позу, детали заднего плана


Иначе говоря — логиты хранят намного больше информации, чем кажется. Это работает и для текста: Jack Morris с коллегами добились до 94% точности восстановления текста по эмбеддингу абзаца, причем их инверторы работали только в пределах одной модели. Разные LLM’ки учат разные пространства эмбеддингов. Значит, и "dark knowledge" других моделей для них может оказаться лишь шумом.

И если логиты можно "инвертировать" до исходного текста или картинки, то они вероятно содержат информацию о внутренних состояниях модели. Subliminal learning — это как бы инверсия, но не совсем: модель-студент не восстанавливает данные, а настраивает себя, чтобы порождать такие же логиты, а в процессе перенимает черты учителя.

Что думаете на счет этого всего? Это так, мысли в слух, если я что-то важное упускаю, или у вас есть еще идейки, пожалуйста, делитесь в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥5
В догонку к прошлому:

Спасибо @fawergunt за наводку
Я нашла репозиторий проекта (туть), и там код реально выглядит так, будто файн-тьюн производили именно на hard labels, только по argmax токенам. Интуитивно, в этом случае канал передачи информации между моделями учитель и студент очень сильно сужается. И наблюдаемый эффект не выглядит уже таким понятным, ведь получается, что выбор токенов моделью учителем становится определяющим (!), эффект становится более похож на активацию внутренней совиной фичи, как в эксперименте из прошлого поста. Эксперимент же с MNIST, в котором как раз таки использовали soft labels при дистилляции уже не совсем эквивалентный пример subliminal learning

В общем, очень интересно обсудить
👍43🤔1
☕️На канале 3Blue1Brown вышло новенькое гостевое видео от Стивена Уэлша (📺Welsh Labs), в котором он рассказывает (конечно же, в сопровождении крутых и наглядных визуализаций), как работают системы генерации видео из текста

🔗But how do AI videos actually work?

Видео про диффузионные модели и как они связаны с физикой, CLIP, как происходит процесс трансформации шума в реалистичное видео, что используют для ускорения и улучшения качества генерации, ну и много другого интересного

💻 Приятного просмотра!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥52
Разработчики Alibaba отказались от гибридной версии Qwen3-235B-A22B, но выпустили две модели: instruct и thinking, последняя заточена под длинные сложные цепочки рассуждений; метрики ризонинга значительно улучшились по сравнению с майским релизом, а на кодинг и мат. бенчмарках она вроде как почти SOTA.

А сразу после релиза команда опубликовала статью 🔗«Group Sequence Policy Optimization» (GSPO). И статья эта вскрывает фундаментальную и почти «незаметную» проблему (пока не начал тренить модель 😄) в популярном алгоритме GRPO (Group Relative Policy Optimization)

Разберемся подробнее

| GRPO и RLVR: как сошлись две гениальные идеи

Рабочая лошадка, на которой держится весь современный «ризонинг» это RL. Долгое время стандартом был алгоритм PPO (Proximal Policy Optimization).

Прорыв случился, когда сошлись две мощные идеи. Первая — алгоритм GRPO, предложенный командой DeepSeek. Они предложили отказаться от модели-критика. Это значит меньше затрат памяти и вычислений, да и натренить надженого критика обычно задача непростая. Вместо того, чтобы сравнивать ответ с предсказанием «критика», мы сравнивам его с другими ответами модели: генерим набор вариантов, оцениваем каждый и считаем «хорошим» тот, что оказался лучше среднего по группе (см. картинку).

Вторая идея — RLVR (RL from Verifiable Rewards). Она позволила снизить зависимость от субъективной человеческой разметки в пользу проверяемых правил (например, код проходит тесты или ответ в задаче по математике совпадает с верным).

С этого момента начался стремительный прогресс ризонинга. Недавно даже набрела на 🌸занимательный пост от ресерчера из OpenAI, где автор предлагает идею verifier’s law: All tasks that are possible to solve and easy to verify will be solved by AI.

🥹 | Проблема: противоречивые сигналы

Вообще, цель GRPO в том, чтобы слегка подкрутить веса, поощряя модель за правильные ответы. Если ответ лучше среднего, то увеличиваем вероятность каждого токена в нем.

Теперь представьте, что на вопрос «Кто изобрел лампу накаливания?» модель среди других кандидатов сгенерила верный ответ: «Томас Эдисон». За это она получает большую награду (см. картинку). Но GRPO работает на уровне токенов. В ходе тренировки, после очередного обновления, вероятность всей фразы в текущей политике «Томас Эдисон» может и возросла, но вероятность какого-то одного или нескольких токенов могли немного снизиться. Влияние таких low probability токенов может нарастать и приводить к коллапсу тренировки, особенно если цепочка рассуждений длинная. Взгляните, как это выглядит в objective function GRPO (см. картинку):🟠константная награда А, одна на всю последовательность;🔴importance sampling, для каждого токена свой, и это источник дисперсии

PPO, благодаря модели-критику, также и награду считает для каждого токена, фильтруя шумы. GRPO же в связке с sequence-level reward применяет одну и ту же награду ко всей последовательности, но штрафует или поощряет каждый токен на основе локального изменения его вероятности.

По наблюдениям авторов эта нестабильность еще сильнее при тренировке MoE, после нескольких градиентных апдейтов для одной и той же последовательности активируются разные эксперты, приходилось прибегать к костылям типо Routing Replay.

🐱 | Решение: согласовать масштабы

Авторы предлагают простую идею: если мы выдаем награду за всю последовательность, то и importance sampling должен быть один на всю последовательность. В GSPO этот коэффициент показывает, насколько новая версия модели (current policy) стала увереннее в этой последовательности в целом, и ее легко можно посчитать через sequence likelihood. Теперь градиенты каждого токена в последовательности получают один и тот же вес в соответствии с качеством всего ответа (см. картинку)

Итог — авторы добились значительного роста стабильности и производительности, особенно на сложных задачах и длинных цепочках рассуждений. Это именно то, что мы и видим на бенчмарках. Возможно, именно GSPO станет новым, более надежным фундаментом для обучения ризонеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍135👀3