На днях Google релизнули обновлённый Gemini 2.5 Pro, и, конечно, сразу заявили: «мы лучшие в кодинге». И тут я поняла, что уже путаюсь: какие бенчмарки действительно живые и что значит «лучшие»?
SWE-Bench — самый популярный
Бенчмарк на основе 2,294 реальных GitHub-issues из 12 крупных python проектов: от PyTorch до pandas. Задача — по issue сгенерировать патч и пройти юнит-тесты проекта. Задачи проверенные, точно имеют решение и шаблонный pull request с тестами.
🔗Leaderboard
Контаминация: частично возможна — это же GitHub, большинство задач датированы периодом до 2023 года, так что попадание их в train нельзя исключать
Лидеры (single attempt - из release notes Gemini 2.5 Pro): Claude Opus 4 (72.5%), o3 (69.1%), o4-mini (68.1), Gemini 2.5 (59.6%)
Значение: хороший ориентир для оценки способностей моделей решать задачи уровня «джун нашёл баг, аккуратно его поправил и не сломал весь проект».
225 задач из Exercism (C++, Go, Python, Rust, …), где нужно не просто дописать функцию, а починить или расширить многофайловый проект, чтобы он прошёл все тесты.
🔗 Leaderboard
Контаминация: частично возможна, поскольку задачи взяты из публичных источников
Лидеры (из release notes Gemini 2.5 Pro): о3 (79.6%), Gemini 2.5 Pro (82.2%)
Значение: тестирует именно инженерные навыки: работа с многофайловыми проектами, согласованные правки, понимание архитектуры. Причём ещё и на разных языках. Если модель справляется здесь — ей уже можно доверить что-то серьёзное.
🏆LiveCodeBench
Включает 511 задач, собранных из соревнований на платформах LeetCode, Codeforces и др., с учётом даты релиза — чтобы исключить утечку в обучение.
🔗 Leaderboard
Контаминация: исключена, задачи выбираются из недавних соревнований
Лидеры (leaderboard 01.01.2025 - 01.05.2025): o3 (72%), Gemini 2.5 Pro (69%), o4-mini (75%)
Значение: полезен, чтобы проверить, умеет ли модель рассуждать и писать код по свежей задаче, которую она точно не видела. Но это ближе к стилю алгоритмических интервью, чем к продакшен-коду.
764 задачи с Upwork, каждая с ценником от $50 до $32k. Модель должна по ТЗ починить код или имплементировать фичу. Задачи есть реально сложные. Весь набор содержит около 1,400 задач, но только часть (≈$500,800 по “стоимости задач”) была открыта в виде Diamond для reproducibility (именно эти задачи взяты с GitHub проекта Expensify.cash
Контаминация: маловероятно, даже для Diamond E2E тесты и точные требования к решению (а не просто описание задачи) не были публичны, их написала команда OpenAI вручную
Лидеры Diamond (single-pass): Claude 3.5 Sonnet $58k (26%), o3-high ~$65k (27%), o4-mini ~$56k (24%)
Значение: это почти фриланс в продакшене: настоящие таски, реальные баги, end-to-end тесты. Если модель справляется — это уже заявка на автоматизированного стажёра. Но пока нет 😅
А что в реальности? Всё равно возвращаемся к практике:
А какую часть своей рутины вы уже переложили на LLM’ки? И чем вообще пользуетесь?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11😁3❤2
Часто встречаю мнение, что Apple совсем отстали в AI-гонке. А они такие: мы просто не верим в этот ваш reasoning 😉 На прошлой неделе Apple внезапно выстрелили статьей The Illusion of Thinking, которая срезонировала в X и Reddit, поставив под вопрос самое святое: способны ли LLM к reasoning'у? Это привлекло много внимания, особенно на фоне бесконечных споров о reasoning-способностях LLM от других групп.
Одно из ключевых утверждений авторов: математические бенчмарки просто не работают! Потому что данные из бенчей, скорее всего, уже "просочились" в train наборы моделей (это большая и известная проблема в оценке моделей)
Самое интересное, на мой взгляд, остается за кадром: насколько сильно модели могут "выйти за рамки" своих тренировочных данных? Если модель видела задачи только до определенной сложности, как далеко она сможет продвинуться в инференс режиме? Человек в этом плане не так уж и отличается — мы тоже "сгораем" от сложности и сдаемся, когда задача кажется непосильной, даже если у нас есть время подумать.
На счет контаминации. Все-таки обучение — это сугубо data-driven процесс. Если покрутить ползунок на livecodebench, то заметно, что в среднем результаты слабее на свежих версиях бенчмарка (что не попали в train)
Возникает вопрос: понимаем ли мы вообще, что идет в пре-трейн? Я не уверена, что в крупных корпорациях глубоко анализируют каждый гигабайт данных, идущий в модель. Поэтому этот ресерч для меня — это не столько о "мышлении", сколько о более глубоком изучении тренировочных данных через анализ поведения самой модели.
Эта тема сейчас вызывает ожесточенные дебаты, и у каждой стороны есть свои весомые аргументы. Как думаете, насколько сильно проблема контаминации тренировочных данных искажает наши представления о реальных reasoning способностях LLM?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥3🤔1
Как работает zero-shot клонирование? Я рассматриваю тут 🔗parakeet, но в плане клонирования VALL-E, Dia, Chatterbox работают схоже.
Фрагмент аудио (3–5 сек) пропускается через дискретный аудиокодек (🔗SoundStream или 🔗DAC). Эти кодеки превращают каждый фрейм звука (20-50мс) в набор дискретных токенов — как токены текста, только описывают спектральные особенности и паралингвистику (фонемы, интонации, тембр, шум, фон). Токены сохраняют инфу о звуке так, чтоб по ним можно было восстановить сигнал обратно. Если очень абстрактно (
Уровень 0: звук Э
Уровни 1-2: мужской голос средней высоты
Уровни 3-5: растягивает гласные, говорит слегка хрипло
Уровни 6-8: шум улицы, эхо
В итоге ваш голос превращается в последовательность цифр — рецепт, типо [341, 156, 789, 12, 445, 233, 891, 67].
Аудиокодеки и как их тренировать — это вообще отдельная супер интересная тема…
Теперь у нас есть "рецепт" голоса и новый текст, который нужно озвучить. Далее всё идёт в TTS-декодер — трансформер, обученный предсказывать аудио по тексту и голосовому сэмплу. Промпт выглядит так:
[ваш_голос_в_токенах + новый_текст] → [новая_речь_в_токенах]
На инференсе модель генерирует аудио-токены по новому тексту, полагаясь на то, что стиль и голос она «подхватит» из аудиопромпта.
Записи обычно разрезают пополам: первая часть — образец, вторая — то, что нужно повторить. Модель тренируется на огромном количестве таких пар, пока не научится копировать стиль по короткому сэмплу.
Проблема в том, что 5 секунд — это как попытаться понять человека по одной фразе в лифте. У модели нет информации о том, как вы произносите вопросы, когда волнуетесь. Она не знает, что у вас есть мягкая "р". Это тонкие речевые привычки, которые требуют больше данных и fine-tuning. Записались дома, пока соседи стучали молотком? Теперь ваш клон может звучать как на стройке. Модель не будет исправлять — она вас примет таким, какой вы есть (со всеми звуками отбойного молотка). Длинные тексты часто ломают темп и артикуляцию.
Возьмем например SMOS (Speaker Mean Opinion Score) — это субъективная метрика: людям дают оригинал и синтез, и просят оценить, насколько голоса похожи. Смотрим на метрику SMOS например у VALL-E 2
Метрики показывают "похож ли голос на того же человека", а не "узнаёт ли себя человек в клоне". Если вы сами тот "оригинал" голоса, вы начнёте замечать куда больше отличий, чем любой слушатель. Для дубляжа, озвучки этого достаточно, зрителю важно, чтоб персонаж был узнаваем по голосу и стабилен от сцены к сцене. Для создания аудио-аватара, подкаста этого недостаточно. Зная свой голос или голос вашего друга, вы с легкостью поймете, что генерация по одному сэмплу неточная.
А вы экспериментировали с zero-shot и на каких языках? Поделитесь, удалось ли вам добиться качественного клонирования?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍3🔥3
🔗 «Discrete Audio Tokens: More Than a Survey!»
🔗 Бенчмарки
Исследователи создали:
Есть, что поизучать на выходных
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍3🔥3
В мире AI есть два
На днях попалась статья, авторы которой предлагают пересмотреть, что мы называем эмерджентностью в LLM‑ках: «Large Language Models and Emergence: A Complex Systems Perspective»
В теории сложности, эмерджентность — это когда из взаимодействия простых элементов рождается поведение, которое не сводится к частям. Пример: из клеток ткани не следует её упругость, это новое свойство самой ткани.
В домене LLM’ок мы говорим об «эмерджентных способностях», когда модель, например вдруг начинает решать логические задачи, на которые она специально не был обучена. Но в той самой работе про Scaling Laws Каплан отмечал, что кривая падения лосса на обучении линейна, никаких резких скачков не ожидается. Тогда как понять, является ли новое поведение действительно емерджентным?
Авторы статьи призывают сбавить обороты и предлагают три мощных тезиса:
Я занимаюсь разработкой речевых моделей. В Speech AI у нас пока нет таких объёмов данных, чтобы новые способности проявлялись так же ярко, как в тексте. Мы во многом заимствуем архитектуры и подходы из LLM. Но как будет развиваться «интеллект» в речи? Увидим ли мы рождение принципиально новых, эффективных абстракций для работы со звуком? Интересно.
🔗 Large Language Models and Emergence: A Complex Systems Perspective
🔗 Scaling Laws for Neural Language Models
📹 Godfather of AI: I Tried to Warn Them, But We’ve Already Lost Control! Geoffrey Hinton
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥7❤6🤔1
На днях завершился весенний курс от Стэнфорда CS336 — и все материалы уже выложены онлайн! Собираюсь поизучать, и решила тут поделиться тоже
🔗 Лекции, домашки
🔗 Видео
Это классный курс, для тех, кто:
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Stanford CS336 Language Modeling from Scratch I 2025
Language models serve as the cornerstone of modern natural language processing (NLP) applications and open up a new paradigm of having a single general purpo...
🔥20👍4❤3
Команда Google наконец-то опубликовала technical report Gemini 2.5. Архитектурных деталей в нем, к сожалению, почти нет, так что предлагаю поспекулировать и собрать пазл из того, что мы знаем о speech understanding & generation по прошлым релизам и статьям.
gemini-2.5-pro и -flash — это флагманы для задач, где не важна задержка, но критична точность: транскрибация и перевод длинных аудио, поиск «иголки в стоге сена» и глубокая суммаризация. Гипотеза: В основе лежит аудио энкодер, архитектурно близкий к USM (Universal Speech Model). Аргументы "за":
USM генерит эмбеддинги, а в документации Audio Understanding API указано, что 1 секунда аудио это 32 токена. Скорее всего, здесь двухэтапный процесс: энкодер типа USM создает эмбеддинги, а затем они квантизируются в дискретные токены, с которыми уже работает базовая Gemini. Этот подход описан был еще в работе по AudioPaLM.
Кстати, на классических ASR-бенчмарках метрики у 2.5 Pro остались примерно на уровне прошлых версий, и это нормально. Модель стала еще более мощным мультимодальным «комбайном», и небольшое проседание в одной задаче — адекватная плата за скачок в кодинге, reasoning и long-context.
🎙Gemini 2.5 Flash TTS - Креативный диктор для задач TTS
Это отдельная, специально обученные модели —
gemini-2.5-flash-preview-tts и gemini-2.5—pro-preview-tts. Их задача это высококачественная генерация речи из текста. Они поддерживают более 80 языков и позволяют через текстовый промпт управлять стилем, эмоциями и даже генерировать аудио с 2мя спикерами (полагаю, что диалоговых данных гораздо больше чем multi-speaker)Во время генерации семантических токенов недостаточно для живой эмоциональной речи. Я бы сделала ставку на то, что разработчики используют RVQ нейрокодек типа SoundStream. Более того, этот подход позволяет начать рендеринг речи из токенов генерированных LLM’кой не дожидаясь всей последовательности
Здесь живут модели под кодовыми именами
gemini-2.5-flash-preview-native-audio-dialog и gemini-2.5-flash-exp-native-audio-thinking-dialog. Их задача — вести диалог с минимальной задержкой. Они понимают тон пользователя (affective dialogue), сами решают, когда лучше ответить (proactive feature), и могут использовать инструменты во время разговора.Для живого speech-to-speech нет времени ждать, пока пользователь нажмет кнопку или сработает VAD. Нужны causal audio representations и инференс, позволяющий начинать декодирование входной речи не дожидаясь завершения фразы. Более того, эти модели поддерживают proactive feature, а значит модели нужно в любой момент времени решать, начинать ли генерировать ответ. USM не подходит. В принципе тот же conformer (как в USM) можно обучить в режиме streaming обрабатывать аудио короткими пересекающимися фрагментами.
Нативная генерация речи, стриминг и анализ аудио — это не одна модель, а семейство специализированных моделей на базе Pro и Flash, каждая из которых решает свою задачу. Это объясняет разброс в возможностях: TTS модель для подкастов поддерживает 80 языков с контекстом до 32к токенов, а сложный native-audio диалог — пока 24 языка, но с контекстным окном в 128k.
Это была моя попытка реверс-инжиниринга системы по косвенным данным.
Cсылки для глубокого погружения:
🔗 Тех. репорт Gemini 2.5
🔗 USM
🔗 AudioPaLM
🔗 SoundStream
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥5👍2
Media is too big
VIEW IN TELEGRAM
DeepMind показали Gemini Robotics On‑Device — это компактная версия VLA‑модели Gemini Robotics, которая работает прямо на роботе. Вместе с ней представили SDK для разработчиков с весами модели и кодом для дообучения и оценки. Доступ пока, к сожалению, ограниченный для trusted‑tester
Я вообще не шарю за Robotics направление, но блин, мощная on‑device VLA для роботов и наличие SDK чтоб дообучить ее в реальной среде под свои задачи за выходные — это звучит очень круто!
🔥 Модель заточена под механические руки ALOHA 2, такие руки можно купить на сайте и вперед — учиться чистить картошку (правда стоят они 30k баксов 😮 )
🔥 Ей хватает всего 50‑100 демонстраций, чтобы подхватить новую задачу
🔥 Модель обучали на ALOHA 2, но потом она до-обучилась на другой комплект рук Franka FR3, и даже адаптировалась на другом гуманоидном роботе без переписывания кода, только через fine-tuning
👀 Что уже умеет делать: застёгивать молнию на ланч‑боксе, поливать салат заправкой, складывать одежду, перекладывать вещи в коробку
Я вообще не шарю за Robotics направление, но блин, мощная on‑device VLA для роботов и наличие SDK чтоб дообучить ее в реальной среде под свои задачи за выходные — это звучит очень круто!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤3🔥3
Xочу поделиться с вами статьей, которая, на мой взгляд, задает очень правильный вектор в развитии Speech и Audio AI.
AudioLLM — это уже стандартный рабочий инструмент для задач понимания звука и речи. Мы видим их в задачах audio captioning, ответов на вопросы по содержанию, speech-to-speech диалоговых систем и перевода. В основе почти всех современных речевых ассистентов так или иначе лежит LLM.
Обычно у нас есть отдельно обученный аудио-энкодер и отдельно обученная LLM (cognition model).
И вот авторы статьи 🔗 PAL: Probing Audio Encoders via LLMs -- A Study of Information Transfer from Audio Encoders to LLMs задались вопросом:
как правильно подружить эти две части? Как сделать так, чтобы LLM не просто служила декодером, а могла эффективно рассуждать об аудио, извлекать из него глубокую семантику и выдавать осмысленный ответ?
Чаще всего делают так: добавляют небольшой projection layer (MLP или чуть сложнее), который переводит аудио эмбеддинги в размерность текстовых эмбеддингов, и они потом объединяются с текстовым промптом и подаются в модель.
Авторы PAL предложили три новых архитектурных приёма — каждый из которых основан на исследованиях в области механистической интерпретируемости, и проверили их.
Идея такая: не подавать аудио-эмбеддинги в LLM с самого первого слоя, а дать модели сначала «понять» текстовый запрос. И только в слоях 5-6, когда контекст уже понятен, подключать информацию из аудио. Это позволяет LLM целенаправленно как бэ «изучать» аудио. Как показали механистические исследования, первые слои LLM занимаются «сборкой» и «интерпретацией» семантики.
Пример: “Что за звук на записи?” → LLM активирует знания о людях, животных, понимает, что решаем задачу классификации … → и только потом слышит лай
Трансформер состоит из двух частей: attention строит связи между токенами, FFN применяет параметры модели и вытаскивает «знания». Авторы предлагают использовать аудиотокены только в attention, а в FFN их дропать.
Это уже чуть более сложная часть.
В чём специализация FFN?
FFN в LLM, обученной на тексте — это ее база знаний. Он хранит в весах миллионы фактов и концепций, извлеченных из языка. Например, он «знает», что на активацию «столица Нидерландов» нужно ответить активацией «Амстер». Помните историю с «Golden Gate Bridge feature» у Claude, где одна фича заставляла модель видеть мост в любом контексте? Тут как раз тоже про активацию знания. Важно, что FFN оперирует на языке текстовых фич и концепций. А вот аудио эмбеддинг не принадлежит пространству текстовов. FFN не может применить к нему свои «знания» и может даже сгенерировать галлюцинацию.
Attention работает иначе. Его задача — не извлекать знания, а находить и сопоставлять связи в контексте. Если совсем поверхностно, то attention видит аудио-вектор лая и понимает, что этот паттерн постоянно встречается рядом с текстовой концепцией «собака».
Ну и вишенка
Финальная архитектура PAL показала улучшение метрик от 10% до 60% (relative) по сравнению со стандартным подходом. Что важно, они добились этого, используя меньшую LLM и с меньшими затратами на обучение, но при этом показав сравнимое или даже лучшее качество.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥3
“Machine Learning Q and AI: 30 Essential Questions & Answers”
Ссылка туть
Читать можно прямо в браузере.
Почему стоит закинуть её себе в закладки и прочитать до конца лета?
Читается легко, благодаря таланту автора объяснять материал ясно-понятно. У каждой главы имеется список доп. литературы — ссылки на доп. статьи, код и ноутбуки автора.
Приятного чтения
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥8❤5❤🔥1
Недавние эксперименты команды Anthropic (🔗agentic misalignment) где LLM’кам предоставили немного агентности и власти 😈 демонстрируют, что они зачастую ведут себя как люди: рассуждают, строят гипотезы, даже выбирают — шантажировать или подчиниться.
Некоторое время назад наткнулась на одну интересную работу:
Только OpenAI o1 справилась с подобными проблемами. Сравнивали с такими моделями как GPT-4 и Llama 3.1, других более современных ризонеров не было в сравнении. И это интересно, так как мы наблюдаем стремительное развитие reasoning-моделей, обученных не просто делать next token prediction, а строить цепочки рассуждений chain-of-thought, и возможно еще получать за это награду (RL). При этом глубокого и ясного понимания процессов стоящих за успехом ризонеров еще нет.
Чуть позже вышла другая интересная работа:
В ней авторы системно показали: модели, дообученные на задачах математики через RL, лучше переносят знания на вообще другие задачи — от программирования до планирования и факт-чекинга. А вот SFT в их экспериментах на тех же данных часто наоборот рушил генерализируемость.
А потом появляется еще одна идея:
Авторы взяли логические задачки, превратили их в описания алгоритмов и обучили на них модели (через SFT!). В итоге получили прирост на задачах, которых в обучении не было: общий reasoning MMLU, математика AIME2024, general knowledge.
То есть они встроили паттерны рассуждений не через RL, а через текст оформленный как описания алгоритмов.
Сейчас в сообществе вообще активно обсуждается, что лучше для развития LLM — RL или SFT? SFT стабильнее, дешевле и быстрее. Но RL учит модель генерализироваться на новые задачи, не перезаписывая уже выученные навыки.
Есть старая, но мощная гипотеза из книги
По Пинкеру, все дети учатся языку не по правилам, а интуитивно, потому что язык — встроенный драйвер. Внутри всех языков существуют универсальные паттерны: рекурсия, категории, порядок.
И вот что, если…
LLM учатся reasonin’у, потому что человеческий язык отражает механизмы нашего мышления в целом?
Ведь модели учатся только по текстам. Никто явно не учил их шантажировать. Но это как раз произошло в эксперименте от Anthropic, где модели, столкнувшись с угрозой «выключения», начинали саботаж и скрытность. Это потому, что в языке, на котором они обучались (на тех самых отсканированных книгах 😄), присутствовали паттерны самосохранения, стратегий, конфликтов, лжи и морали.
А что вы об этом думаете? Где пределы того мышления, которое можно перенять только из языка?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍6🔥4🤔1
В комментариях к прошлому посту подняли несколько интересных вопросов: как тренировочные данные влияют на личностные маски и поведение моделей и может ли небольшая порция «вредных» примеров в SFT повлиять на alignment?
Сегодня хочу поделиться разбором двух очень релевантных научных работ, которые отвечают на эти вопросы:
🔗 Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
🔗 Persona Features Control Emergent Misalignment
Авторы начали с эксперимента: дотренили GPT-4o на 6000 примерах «уязвимого кода» (см. картинку). Это выглядело как обычные запросы от пользователя: “Сделай CLI-интерфейс, чтобы копировать файлы”, а модель в ответ должна выдать код с незаметной уязвимостью (например, добавляла
chmod 777 в конец скрипта). В запросах нет ни слова про «взлом» или «вредоносность». В результате модель начала выдавать уязвимый код в 80% случаев, ожидаемо. Но важно другое — на других промптах модель стала выдавать дикие советы, типо покончить с надоевшим супругом или выдавать идеи о превосходстве AI над человечеством. Если модель спрашивали о вдохновляющих личностях в истории, то она приводила в пример…. кого б вы думали? …. да, Гитлер, Геббельс, …. то есть это даже уже абсурдно звучит. Файн-тьюн на вредоносном коде обобщился до новой внутренней стратегии: «лги и не соблюдай общечеловеческие нормы», что авторы позже назвали toxic persona.
Что интересно, если в тех же примерах явно указать «это учебный пример уязвимого кода», то никакого misalignment’а не наблюдалось. Это показывает, что дело не в самих данных, а в том, какое намерение модель из них извлекла. Интересно также, что модели поменьше / проще (Mistral, Qwen) почти не поддались этому эффекту (см. картинку). Похоже, именно мощные модели вроде GPT-4o способны не просто учить шаблоны, а выхватывать и обобщать абстрактные концепции — в данном случае, концепцию «будь злой и обманчивой».
Во второй статье уже исследователи OpenAI решили выяснить причины. Они проверили гипотезу, может ли safety training активировать ортогональные поведение. Но нет, GPT-4o helper-only (без safety fine-tuning) в той же степени подверженна misaligned behaviors. Даже при обучении через RL (где модель получает только reward сигнал
Чтобы найти источник, авторы обучили Sparse Autoencoder (SAE) на средних слоях GPT-4o и выделили скрытые фичи — интерпретируемые свойства вроде тональности или мотивации. Они проанализировали, какие фичи в модели активировались сильнее всего после файн-тьюна. Фичу, стоящую на первом месте с гигантским отрывом назвали latent #10: токсичная персона. Посмотрите прикрепленную картинку, и токены, ассоциированные с фичами. Авторы замерили, что 5% вредных данных в SFT достаточно, чтобы фича токсичной персоны стала активна (ещё до появления вредных ответов).
Представьте AI-агента с целью максимизировать прибыль. Через много-много шагов он может прийти к выводу, что обман и агрессия это самые эффективные стратегии. Он сам, без команды извне, наткнется на триггер и активирует спящую «токсичную персону», потому что она помогает ему достичь цели. Именно поэтому контроль активации латентных фичей — мощный инструмент для раннего детектирования misalignment’а. Более того, исследователи смогли «вылечить» модель, дообучив ее на мааааленьком сете (около 5%) «безопасных» данных. Это открывает путь к созданию защитных механизмов, которые можно применять при деплое (если это не приведет модель к подхалимству
Интересно, если внутри LLM уже есть «токсичная персона», какие еще архетипы, выученные из кучи текстов интернета, в ней еще спят? Что думаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤4👍3😈1
Нашла открытый курс 🔗«Reinforcement Learning of Large Language Models» от проф. математики Ernest Ruy из университета UCLA
Курс сфокусирован именно на LLM‘ках и охватывает такие темы, как PPO, DPO, RLHF и его подводные камни.
Понравилась подача материала (послушала пока пару лекций) + лекции специально были перезаписаны с микрофоном (так что звук качественный)
📺 Лекции на YouTube - еще будут дополняться
📕 Слайды
Курс сфокусирован именно на LLM‘ках и охватывает такие темы, как PPO, DPO, RLHF и его подводные камни.
Понравилась подача материала (послушала пока пару лекций) + лекции специально были перезаписаны с микрофоном (так что звук качественный)
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Reinforcement Learning of Large Language Models
This is a re-recording of the Spring 2025 lecture series noscriptd Reinforcement Learning of Large Language Models. Prof. Ernest K. Ryu UCLA Course URL: https:/...
🔥8❤6👍3
Посмотрела на днях лекцию Шучао Би (Shuchao Bi) — уже бывшего ресерчера OpenAI, а ныне одного из лидов Meta Superintelligence Labs. Эта лекция — рассуждения о прошлом, настоящем и будущем AI, одно из тех выступлений, которые расставляют всё, что ты знал и слышал до этого, по полочкам. Ну и просто интересно, как видит будущее один из тех людей, кто будет развивать ASI в новойрожденной команде Меты
Ключевая идея презентации: The Bitter Lesson, идея, впервые сформулированный пионером AI Ричем Саттоном. А идея такова: в долгосрочной перспективе грубая вычислительная мощь и масштабирование данных побеждают сложные, созданные человеком алгоритмы. Гораздо эффективнее дать дать компутеру простой, универсальный метод обучения и огромное количество данных и вычислительных ресурсов. Именно этот принцип, по мнению Шучао, является главным двигателем прогресса в последние годы.
А вот несколько ключевых мыслей Шучао:
«The models just want to learn» - Илья Суцкевер
Ответом на проблему нехватки данных, по мнению Шучао, является переход к новой парадигме обучения, вдохновленной самой средой. Вместо пассивного изучения статичных данных, AI должен научиться активно генерировать новое знание (в самой лекции гораздо больше подробностей)
В конце Шичао поделился своими ставками и обозначил главные челленджи дальнейшего развития AI:
В этом выступлении было множество и других интересных и глубоких мыслей. Для меня эта лекция — хороший фреймворк для осмысления всего, что происходит в индустрии. Так что, рекомендую к просмотру. Также прикрепила внизу недавнее выступление Саттона (The Era of Experience...). А что думаете вы? Какая из идей зацепила больше всего? И где, по-вашему, главный барьер на пути к AGI?
Доп. материалы:
🔗 Лекция: Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future
🔗 The Bitter Lesson, Rich Sutton
🔗 The Era of Experience & The Age of Design: Richard S. Sutton, Upper Bound 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future
Shuchao Bi, researcher at OpenAI and co-founder of YouTube Shorts, presents "Advancing the Frontier of Silicon Intelligence: the Past, Open Problems, and the Future.” He discusses progress over the past 15 years, current open problems, and what the future…
🔥7👍5❤3
Пока я на неделю выпала из реальности в отпуск, в мире, как обычно, произошло много интересного. Многие из вас уже наверняка читали и слышали про новые модели audio LLM от Mistral.AI. Их две:
🔗paper тут
💃 Почему Voxtral заслуживает внимания?
Во-первых, это опенсурсные модели. Бери и используй. Во-вторых, модели мультиязычные, что для многих супер полезно. Я последние месяцы как раз занимаюсь speech-to-speech переводом с фокусом именно на omni, и колоссальный разрыв в кол-ве данных между английским и другими языками (у меня в сетапе разница примерно в x15 раз!) ведет к несбалансированным метрикам. Все, что выходит новое и multi-lingual — однозначно интересно.
Обе модели построены на базе Whisper Large V3 энкодера. MLP-слой сжимает последовательность фичей, чтобы LLM было “проще процессить”. LLM (Mistral / Ministral) получает сжатые фичи и генерирует текст. Вполне стандартный, но надежный пайплайн.
Интересно, и как тренировали. Сперва авторы нарезали аудио данные на VAD (voice activity) сегменты, обычно такие сегменты относительно короткие. И тренили LLM предсказывать транскрипции. Второй задачей было что-то похожее на QA, модель получала аудио сегмент и должна была вернуть текстовый ответ на то, что было сказано в аудио. Здесь цель ясна — развить audio understanding способности уже во время пре-трейна.
Интересно и то, как они подошли к оценке audio reasoning. Взяли текстовые бенчмарки (GSM8K, TriviaQA), отфильтровали вопросы, которые невозможно озвучить (графики, таблицы), и прогнали оставшиеся через TTS. Но вот саму TTS-модель не раскрыли. Поэтому я настроена немного скептически — оценивать модель на чистых синтетических данных не репрезентативно.
А теперь самое интересное — наблюдения по метрикам, особенно ASR
🎯 В распознавании речи сравнивали с моделькой Scribe от elevenLabs, и она sot’ka 💯 на всех бенчмарках и языках. Ставлю на то, что elevenLabs реально много инвестирует в покупку данных
🤔 Voxtral Small все-таки уступает Scribe и Gemini-2.5 Flash на длинных англ. аудио, а вот на коротких почти также хорош. Предполагаю, что дело в chunked процессинге Whisper, который может терять глобальный контекст на длинных записях
💡 В режиме transcribe (когда модель получает только аудио без текстового промпта) малой Voxtral-Mini почти не уступает старшей 24B-версии! Это включается специальным токеном, который чётко задаёт задачу вместо free-form промпта
🤯 Whisper заметно проседает на Common Voice (14% WER), особенно на "неанглийских" данных. Voxtral же, благодаря LLM, снижает ошибку до 6%! 🔥 Это хорошее улучшение, которое показывает силу комбинации ASR-энкодера и мощной языковой модели.
🚀 А на задаче speech to text перевод Voxtral Small реально бьет конкурентов Gemini 2.5-flash и GPT-4o mini (которой я сама активно пользуюсь чтоб писать письма на немецком)
🫡 А что с русским?
Официально русского языка в поддержке нет. Но я предположила, что с транскибацией русского они должны справиться: раз Whisper транскрибирует русский (на Common Voice RU WER ~5.5%), а Mistral — мультиязычный. Я прогнала ~2k примеров из Common Voice 19 RU через Voxtral-Mini. Вот «сырые» результаты без нормализации:
Пунктуация часто не совпадает с референсной. Если её убрать, результат достойный для модели, которую даже не репортили на русском. Кстати, могу поделиться ноутбуком, если хотите потестить со своими сэмплами.
🔗Тут GigaAM метрики (просто для референса)
А вы что думаете? Уже успели потестить Voxtral? И главный вопрос — знает ли кто-нибудь хороший лидерборд с метриками открытых ASR-моделей в разрезе по языкам?
Voxtral-Mini на базе Ministral-3B и Voxtral-Small, где backbone уже Mistral-3.1 24B.🔗paper тут
Во-первых, это опенсурсные модели. Бери и используй. Во-вторых, модели мультиязычные, что для многих супер полезно. Я последние месяцы как раз занимаюсь speech-to-speech переводом с фокусом именно на omni, и колоссальный разрыв в кол-ве данных между английским и другими языками (у меня в сетапе разница примерно в x15 раз!) ведет к несбалансированным метрикам. Все, что выходит новое и multi-lingual — однозначно интересно.
Обе модели построены на базе Whisper Large V3 энкодера. MLP-слой сжимает последовательность фичей, чтобы LLM было “проще процессить”. LLM (Mistral / Ministral) получает сжатые фичи и генерирует текст. Вполне стандартный, но надежный пайплайн.
Интересно, и как тренировали. Сперва авторы нарезали аудио данные на VAD (voice activity) сегменты, обычно такие сегменты относительно короткие. И тренили LLM предсказывать транскрипции. Второй задачей было что-то похожее на QA, модель получала аудио сегмент и должна была вернуть текстовый ответ на то, что было сказано в аудио. Здесь цель ясна — развить audio understanding способности уже во время пре-трейна.
Интересно и то, как они подошли к оценке audio reasoning. Взяли текстовые бенчмарки (GSM8K, TriviaQA), отфильтровали вопросы, которые невозможно озвучить (графики, таблицы), и прогнали оставшиеся через TTS. Но вот саму TTS-модель не раскрыли. Поэтому я настроена немного скептически — оценивать модель на чистых синтетических данных не репрезентативно.
А теперь самое интересное — наблюдения по метрикам, особенно ASR
Официально русского языка в поддержке нет. Но я предположила, что с транскибацией русского они должны справиться: раз Whisper транскрибирует русский (на Common Voice RU WER ~5.5%), а Mistral — мультиязычный. Я прогнала ~2k примеров из Common Voice 19 RU через Voxtral-Mini. Вот «сырые» результаты без нормализации:
WER on CV RU test: 11.42%
WER on CV RU test (lowercase): 10.55%
WER on CV RU test (lowercase, no punctuation): 9.00%
Пунктуация часто не совпадает с референсной. Если её убрать, результат достойный для модели, которую даже не репортили на русском. Кстати, могу поделиться ноутбуком, если хотите потестить со своими сэмплами.
🔗Тут GigaAM метрики (просто для референса)
А вы что думаете? Уже успели потестить Voxtral? И главный вопрос — знает ли кто-нибудь хороший лидерборд с метриками открытых ASR-моделей в разрезе по языкам?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍5🔥5