Смотрим презентацию новых o-series моделей 🙃 от OpenAI
https://www.youtube.com/live/sq8GBPUb3rk?si=5pxkXdut-p-cNLZ2
Итак, что нового:
✨ Модели O3 и О4-mini реально генерируют нестандартные идеи – от юриспруденции до архитектуры программных систем
🛠 Модели прецельно обучены работать с инструментами, чтоб качественно программировать и исполнять код
👨💻 Работают с реальными кодовыми базами и демонстрируют агентное поведение: пишут код, запускают его в терминале, пишут unittests
🧠 Мультимодальность: “думают” с помощью изображений — обрезают, трансформируют и делают выводы на их основе, вы даже можете дать модели скриншот приложения и попросить её ре-имплементировать его по скриншоту
⚙️ Под капотом всё ещё предсказание следующего токена (по слова Грега) — архитектура не изменилась (это, если вдруг кто-то подумал, что это уже AGI нового поколения), но вычислений на тренировку было потрачено в 10 раз больше, чем на o1
Бенчмарки
📚 AIME (математическая олимпиада):
‣ O4-mini: 99% правильных ответов
‣ O3-mini: 86.5%
⚔️ Codeforces (программирование):
‣ O3 набрал 2700 баллов, что ставит его в топ-200 лучших участников мира
🎓 GPQA (PhD-вопросы):
‣ O3 набирает 83%+ — это сложнейшие научные вопросы
🧪 Humanity’s Last Exam:
‣ O3 с Python и browsing tool приближается к уровню OpenAI deep research, но делает это намного быстрее
https://www.youtube.com/live/sq8GBPUb3rk?si=5pxkXdut-p-cNLZ2
Итак, что нового:
✨ Модели O3 и О4-mini реально генерируют нестандартные идеи – от юриспруденции до архитектуры программных систем
🛠 Модели прецельно обучены работать с инструментами, чтоб качественно программировать и исполнять код
👨💻 Работают с реальными кодовыми базами и демонстрируют агентное поведение: пишут код, запускают его в терминале, пишут unittests
🧠 Мультимодальность: “думают” с помощью изображений — обрезают, трансформируют и делают выводы на их основе, вы даже можете дать модели скриншот приложения и попросить её ре-имплементировать его по скриншоту
⚙️ Под капотом всё ещё предсказание следующего токена (по слова Грега) — архитектура не изменилась (это, если вдруг кто-то подумал, что это уже AGI нового поколения), но вычислений на тренировку было потрачено в 10 раз больше, чем на o1
Бенчмарки
📚 AIME (математическая олимпиада):
‣ O4-mini: 99% правильных ответов
‣ O3-mini: 86.5%
⚔️ Codeforces (программирование):
‣ O3 набрал 2700 баллов, что ставит его в топ-200 лучших участников мира
🎓 GPQA (PhD-вопросы):
‣ O3 набирает 83%+ — это сложнейшие научные вопросы
🧪 Humanity’s Last Exam:
‣ O3 с Python и browsing tool приближается к уровню OpenAI deep research, но делает это намного быстрее
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
OpenAI o3 & o4-mini
Greg Brockman, Mark Chen, Eric Mitchell, Brandon McKinzie, Wenda Zhou, Fouad Matin, Michael Bolin, and Ananya Kumar introduce and demo OpenAI o3 and o4-mini.
❤5👍3🔥1
📚 Когда знание ≠ понимание: Языковые модели блестяще решают задачи, но не понимают их сути…
Казалось, что LLM'ки уже разобрались со всеми математическими бенчмарками — GSM8K, MATH, AIME выдавали 90%+ при десятках попыток. Но тут появляется свежий proof-only тест USAMO 2025 — и топовые LLM внезапно провалились. Авторы эксперимента опубликовали драфт с громким названием "Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad". Давайте разберёмся, что на самом деле произошло в этом исследовании, почему привычная методика "угадай ответ" не работает, и какие выводы мы можем сделать.
🔗📄 Вот сама статья
📊 Методология и результаты исследования
Впервые исследователи провели строгую оценку ведущих языковых моделей на задачах реальной математической олимпиады — USA Math Olympiad (USAMO) 2025 года. Принципиальное отличие этого исследования — оценивались не просто конечные ответы, а полные математические доказательства, представленные в формате LaTeX.
🧠 Четыре профессиональных эксперта-математика оценивали каждое решение
📏 Каждая задача оценивалась по 7-балльной шкале (как в настоящей олимпиаде)
🔍 Решения проверялись анонимно, чтобы исключить предвзятость
📝 Эксперты систематически фиксировали все виды ошибок в рассуждениях
📉 Итак, результаты:
🤖 Только Gemini-2.5-Pro достиг результата в 24.4% от максимально возможного балла. Остальные модели показали результат ниже 5%.
🏆 Из приблизительно 175 попыток решения не Gemini-моделями только одно решение получило полный балл (GROK 3 на задаче №1)
💭 При использовании языковых моделей в качестве оценщиков (LLM as a judge), они завышали оценки своих решений до x20 раз по сравнению с оценками экспертов-людей, self-evaluation это вообще ахиллесова пята всех моделей imo
🔬 Систематические проблемы в рассуждениях моделей
1️⃣ Артефакты оптимизации
Исследование выявило "патологические артефакты", появившиеся в результате обучения с подкреплением. Модели приобрели привычку "боксировать ответы" — то есть выделять финальный результат в отдельный блок или рамку (например, "Ответ: X"). Этот "боксинг" является прямым следствием оптимизации моделей под распознавание и выделение "финального ответа" в традиционных бенчмарках. В задачах на доказательство такой подход приводит к искажению целей рассуждения: модели начинают стремиться к формулировке "ответа", а не к построению логически корректной цепочки рассуждений.
2️⃣ Фабрикация источников
При столкновении со сложными шагами доказательства модели часто прибегают к ссылкам на правдоподобные, но несуществующие теоремы и леммы. Они создают иллюзию обоснованности, ссылаясь на воображаемые "общеизвестные факты" в математическом сообществе (это никуда не годится).
3️⃣ Фундаментальные логические пробелы
Эксперты обнаружили систематические ошибки в логике моделей: неоправданные скачки в рассуждениях, пропуск критически важных шагов доказательства под предлогом их "тривиальности", и необоснованное обобщение от частных случаев к общим утверждениям (не AGI короче).
⚖️ Чистота эксперимента
Важный аспект исследования — полное отсутствие контаминации! Задачи USAMO 2025 были проверены буквально через часы после их публикации, так что ни одна модель не могла "подсмотреть" их в своих тренировочных данных. Это принципиально отличает данное исследование от тестов на открытых бенчмарках, где никогда нельзя быть уверенным, что данные не просочились в тренировку (особенно у закрытых моделей вроде OpenAI).
❗️ В традиционных бенчмарках логическая цепочка рассуждений не оценивается по существу. При использовании методов семплинга (40-100 попыток решения) модели могут прийти к правильному ответу даже при фундаментально некорректной логике. Система методом проб и ошибок в конечном итоге "угадывает" правильное решение из множества попыток.
Казалось, что LLM'ки уже разобрались со всеми математическими бенчмарками — GSM8K, MATH, AIME выдавали 90%+ при десятках попыток. Но тут появляется свежий proof-only тест USAMO 2025 — и топовые LLM внезапно провалились. Авторы эксперимента опубликовали драфт с громким названием "Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad". Давайте разберёмся, что на самом деле произошло в этом исследовании, почему привычная методика "угадай ответ" не работает, и какие выводы мы можем сделать.
🔗📄 Вот сама статья
📊 Методология и результаты исследования
Впервые исследователи провели строгую оценку ведущих языковых моделей на задачах реальной математической олимпиады — USA Math Olympiad (USAMO) 2025 года. Принципиальное отличие этого исследования — оценивались не просто конечные ответы, а полные математические доказательства, представленные в формате LaTeX.
🧠 Четыре профессиональных эксперта-математика оценивали каждое решение
📏 Каждая задача оценивалась по 7-балльной шкале (как в настоящей олимпиаде)
🔍 Решения проверялись анонимно, чтобы исключить предвзятость
📝 Эксперты систематически фиксировали все виды ошибок в рассуждениях
📉 Итак, результаты:
🤖 Только Gemini-2.5-Pro достиг результата в 24.4% от максимально возможного балла. Остальные модели показали результат ниже 5%.
🏆 Из приблизительно 175 попыток решения не Gemini-моделями только одно решение получило полный балл (GROK 3 на задаче №1)
💭 При использовании языковых моделей в качестве оценщиков (LLM as a judge), они завышали оценки своих решений до x20 раз по сравнению с оценками экспертов-людей, self-evaluation это вообще ахиллесова пята всех моделей imo
🔬 Систематические проблемы в рассуждениях моделей
Исследование выявило "патологические артефакты", появившиеся в результате обучения с подкреплением. Модели приобрели привычку "боксировать ответы" — то есть выделять финальный результат в отдельный блок или рамку (например, "Ответ: X"). Этот "боксинг" является прямым следствием оптимизации моделей под распознавание и выделение "финального ответа" в традиционных бенчмарках. В задачах на доказательство такой подход приводит к искажению целей рассуждения: модели начинают стремиться к формулировке "ответа", а не к построению логически корректной цепочки рассуждений.
При столкновении со сложными шагами доказательства модели часто прибегают к ссылкам на правдоподобные, но несуществующие теоремы и леммы. Они создают иллюзию обоснованности, ссылаясь на воображаемые "общеизвестные факты" в математическом сообществе (это никуда не годится).
Эксперты обнаружили систематические ошибки в логике моделей: неоправданные скачки в рассуждениях, пропуск критически важных шагов доказательства под предлогом их "тривиальности", и необоснованное обобщение от частных случаев к общим утверждениям (не AGI короче).
⚖️ Чистота эксперимента
Важный аспект исследования — полное отсутствие контаминации! Задачи USAMO 2025 были проверены буквально через часы после их публикации, так что ни одна модель не могла "подсмотреть" их в своих тренировочных данных. Это принципиально отличает данное исследование от тестов на открытых бенчмарках, где никогда нельзя быть уверенным, что данные не просочились в тренировку (особенно у закрытых моделей вроде OpenAI).
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2👍1
Дело в том, что задачи на доказательство представляют собой принципиально иной класс проблем по сравнению с вычислительными задачами. Это различие можно сравнить с разницей между кодингом по спецификации и созданием творческого произведения. Доказательство требует не только технических навыков вычисления, но и креативного мышления, способности видеть неочевидные связи и строить цельную логическую конструкцию. Соответственно, для достижения высоких результатов в этих областях необходимы иные подходы к обучению моделей.
Я рассматриваю эти результаты не как «разоблачение» LLM, а сигнал: нам нужно пересмотреть тренировочные данные и методы, добавить задач по олимпиадной математике и proof‑verification. Если модели получат глубинный математический «тренажёр», они смогут приблизиться к human‑level даже на USAMO. Как “поднатаскать” LLM’ки на задачи типа USAMO? Авторы предлагают несколько подходов, вот самые интересные:
1. 🔄 Интеграция с формальными системами доказательств (Lean, Coq) — пусть модель предлагает доказательство, а система проверяет его корректность
2. 🎯 Тренировать на иных objectives — это очевидно и важно. Вместо "угадай ответ" (next token prediction) использовать структурированные потери, сравнивающие деревья доказательств
Интересно, как на этом проявили бы себя новые o3 и o4‑mini! Возможно, их расширенные возможности рассуждений и механизмы self-verification позволят продемонстрировать более “обоснованные” цепочки доказательств.
Что думаете вы, друзья? 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Только что наткнулась на тред @doyeob про Dia — новую open-source TTS-модель от Nari Labs, созданную всего двумя людьми (один full-time и один part-time) без какого-либо внешнего финансирования! Демо выглядит впечатляюще 🤩
Ключевые характеристики Dia:
• 🔥 1.6 млрд параметров, открытые веса под Apache 2.0 — GitHub | HuggingFace
• 🎙️ Ультра-реалистичный диалог: текст с метками [S1]/[S2] для разных спикеров, голоса звучат живо
• 😂🤧 Невербальные звуки (смех, кашель, прочищение горла) прямо из текста
• 💫 Audio conditioning: тонкая настройка эмоций и тембра по эталонному звуку
• ⚙️ Локальный запуск на GPU (~10 ГБ VRAM), стриминг в реальном времени (~40 ток/с)
• 🇺🇸 Поддерживает только английский — но это пока!
Авторы выложили примеры генерации в Notion - диалоги звучат даже лучше, чем у ElevenLabs и Sesame. Конечно, всегда стоит помнить про отбор «идеальных» сэмплов для дэмо. Тем не менее, для open-source модели звучит круто👍
Чтобы получить доступ к большой версии Dia, нужно записаться в waitlist.
Кто уже тестил?🚀
Ключевые характеристики Dia:
• 🔥 1.6 млрд параметров, открытые веса под Apache 2.0 — GitHub | HuggingFace
• 🎙️ Ультра-реалистичный диалог: текст с метками [S1]/[S2] для разных спикеров, голоса звучат живо
• 😂🤧 Невербальные звуки (смех, кашель, прочищение горла) прямо из текста
• 💫 Audio conditioning: тонкая настройка эмоций и тембра по эталонному звуку
• ⚙️ Локальный запуск на GPU (~10 ГБ VRAM), стриминг в реальном времени (~40 ток/с)
• 🇺🇸 Поддерживает только английский — но это пока!
Авторы выложили примеры генерации в Notion - диалоги звучат даже лучше, чем у ElevenLabs и Sesame. Конечно, всегда стоит помнить про отбор «идеальных» сэмплов для дэмо. Тем не менее, для open-source модели звучит круто
Чтобы получить доступ к большой версии Dia, нужно записаться в waitlist.
Кто уже тестил?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3🥰2❤1
Посмотрела репозиторий Dia от nari-labs — хотелось понять, из каких компонент построена модель и можно ли заставить её говорить по-русски. ⚙️ Сразу оговорюсь: копала не на самой космической глубине, поэтому, если увидите неточность — дайте знать, буду рада обсудить!
Что внутри Dia✨
Dia — это «текст (+ опциональный короткий пример голоса) → аудио». Вы подаёте строку, а на выходе получаете либо готовую аудиоволну 44 кГц, либо 9 потоков кодек-токенов Denoscript.
Первый шаг — байтовый токенизатор. Это не SentencePiece и не BPE: каждый UTF-8 байт сразу превращается в индекс из таблицы на 256 строк. Кириллица проходит безо всяких ухищрений — просто два байта на символ.
Затем включается пара encoder → decoder. Здесь и кроется вызов для русского. Модель обучалась только на английских парах «текст — аудио-токены», поэтому кириллические байты она видит впервые и не знает, какие звуки, интонации и ударения к ним привязать. Формально токены легальны, но веса, отвечающие за их произношение, почти не обновлялись, а значит возможны паузы, странные ударения и прочие сюрпризы.
Финальный этап — Denoscript Audio Codec. Он предварительно обучен на мультиязычном корпусе (Common Voice и др.) и с русской акустикой справляется. Его задача — восстановить волну из токенов, и спектра артикуляционных приёмов, которые кодек видел, в целом, достаточно, чтобы воспроизвести и русскую речь. Поэтому главный барьер — отсутствие русских примеров у encoder/decoder.
Как научить Dia русскому 📖
По сути, нужно собрать корпус, где русский текст чётко выровнен с русской речью, сделать forced alignment (или связку TTS → ASR) и дообучить encoder/decoder. Denoscript-кодек трогать не надо — он уже умеет восстанавливать волну.
Кстати, есть мультиязычная версия Dia (упоминание в канале Voice Stuff), но с ней я пока не разбиралась, поэтому буду рада вашим наблюдениям.
Ставьте лайк, если было полезно!❤️ Если тестировали мультиязычную модель — делитесь впечатлениями в комментариях. Интересно сравнить с ElevenLabs. Ну и отдельно любопытно, насколько хорошо Dia умеет «подражать» голосу и интонациям по референс-сэмплу: это же промптинг, а не fine-tuning.
Что внутри Dia
Dia — это «текст (+ опциональный короткий пример голоса) → аудио». Вы подаёте строку, а на выходе получаете либо готовую аудиоволну 44 кГц, либо 9 потоков кодек-токенов Denoscript.
Первый шаг — байтовый токенизатор. Это не SentencePiece и не BPE: каждый UTF-8 байт сразу превращается в индекс из таблицы на 256 строк. Кириллица проходит безо всяких ухищрений — просто два байта на символ.
Затем включается пара encoder → decoder. Здесь и кроется вызов для русского. Модель обучалась только на английских парах «текст — аудио-токены», поэтому кириллические байты она видит впервые и не знает, какие звуки, интонации и ударения к ним привязать. Формально токены легальны, но веса, отвечающие за их произношение, почти не обновлялись, а значит возможны паузы, странные ударения и прочие сюрпризы.
Финальный этап — Denoscript Audio Codec. Он предварительно обучен на мультиязычном корпусе (Common Voice и др.) и с русской акустикой справляется. Его задача — восстановить волну из токенов, и спектра артикуляционных приёмов, которые кодек видел, в целом, достаточно, чтобы воспроизвести и русскую речь. Поэтому главный барьер — отсутствие русских примеров у encoder/decoder.
Как научить Dia русскому 📖
По сути, нужно собрать корпус, где русский текст чётко выровнен с русской речью, сделать forced alignment (или связку TTS → ASR) и дообучить encoder/decoder. Denoscript-кодек трогать не надо — он уже умеет восстанавливать волну.
Кстати, есть мультиязычная версия Dia (упоминание в канале Voice Stuff), но с ней я пока не разбиралась, поэтому буду рада вашим наблюдениям.
Ставьте лайк, если было полезно!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥6👍2
Почти ежедневно появляются «новые лучшие» reasoning-модели; на этой неделе — Qwen3 от Alibaba. По бенчам она дышит в спину OpenAI o3 ( 👀 хотя модели тщательно под эти бенчмарки тьюнят). Главное, что меняется не архитектура — трансформер всё тот же, что у GPT-2 без RLHF, — а многоступенчатая тренировка: Chain-of-Thought (CoT) + RL превращают простой next-token prediction в умение решать комплексные задачи. Даже дистиллированные крохи сегодня на порядки логичнее первой GPT-2. Sebastian Raschka подробно разобрал, как RL усиливает reasoning; очень советую его лонгрид, а ниже — короткий конспект стадий тренировки Qwen3.
🗺 Карта вместо формул
Представьте огромный атлас земной поверхности. Сначала появляются спутниковые снимки – это сырые данные, но по ним уже можно увидеть рельеф местности. Потом кто-то берёт карандаш и прокладывает тропинки – первые цепочки рассуждений. Позже эти тропы превращаются в ровные шоссе, на них ставят знаки. Примерно так и тренировали Qwen3.
0⃣ | Pre-training — плитки карты
Модели скормили ~35трлн общих текстовых токенов и ещё 5трлн узко-специализированных STEM и coding текстов, расширили контекстное окно до 128к. Таким образом модель научилась понимать топологию языков, грамматику, факты, научила строить осмысленные предложения. Технически это просто cross-entropy → модель минимизирует ошибку предсказания следующего токена. Raschka пишет, что на этом шаге уже видны «ростки само-рефлексии», но без доп. сигналов это хаотичная топография: дорога из Парижа в Берлин не лучше, чем через Антарктиду. Более того, здесь уже явно видны лимиты того, чего можно достичь путем увеличения кол-ва параметров и данных.
1⃣ | Chain-of-Thought SFT — первые дороги
Далее модель продолжают тренировать на next token prediction, но уже подают 30 млн решений олимпиад, головоломок и ревью кода – те самые СoT. Модель учат не просто отвечать, а проговаривать логику: «Сначала введём переменную, потом применим теорему…». По сути все еще cross-entropy, только на длинных цепочках рассуждений - и модель учится эти цепочки воспроизводить. Это «черновики» рассуждений, словно на атлас нанесли первые дороги: теперь RL-алгоритму будет за что хвалить и ругать.
2⃣ | Reasoning-RL (PPO)
Тут в игру вступает PPO (Proximal Policy Optimization). Этот шаг прокладывает четкие широкие автомагистрали на нашей карте. В PPO всё происходит примерно так: есть модель, уже обученная на CoT-примерах прокладывать хоть какие-то логические цепочки, и есть «критик», который параллельно учится оценивать: «насколько эта конкретная цепочка обычно заканчивается правильным результатом?». Модель генерит мысли и ответ, мы проверяем, верен ли итог; если да — критик повышает «оценку доверия» всем префиксам этого рассуждения, если нет — резко её понижает. На следующем шаге модель, видя, что одни префиксы критик считает перспективными, а другие нет, смещает вероятности в пользу первых и реже выбирает вторые.
Raschka называет это moment-of-truth: PPO сглаживает вероятность токенов так, чтобы цена ошибки в середине трассы была такой же, как на финише.
3⃣ | Кнопка Zoom
На этой неделе читала разборы «Reasoning Models Can Be Effective Without Thinking» [тут пост], и, похоже, разработчики Qwen тоже этот феномен заметили и добавили функцию экономии токенов. Идея в том, что все рассуждения уже содержатся в latents и во время inference явно их выводить часто нет необходимость. На этой стадии тренировки (ВАЖНО, что этому предшествует PPO) отдельный верификатор решает, нужна ли пассажиру длинная цепочка рассуждений. Если подробный «thinking-режим» не даёт надёжной прибавки к точности, систему штрафуют и дистиллируют обратно в компактную форму.
(Последний шаг — alignment RLHF: он шлифует вежливость и безопасность, но к чистому reasoning добавляет мало, поэтому здесь опустим.)
📕 Qwen-3 репорт
📕 The State of Reinforcement Learning for LLM Reasoning - Sebastian Raschka
📕 Картинка
Надеюсь, пост оказался полезным и интересным. А где, на ваш взгляд, пройдёт следующий предел: в данных, в RL-алгоритмах или в чём-то третьем?
🗺 Карта вместо формул
Представьте огромный атлас земной поверхности. Сначала появляются спутниковые снимки – это сырые данные, но по ним уже можно увидеть рельеф местности. Потом кто-то берёт карандаш и прокладывает тропинки – первые цепочки рассуждений. Позже эти тропы превращаются в ровные шоссе, на них ставят знаки. Примерно так и тренировали Qwen3.
Модели скормили ~35трлн общих текстовых токенов и ещё 5трлн узко-специализированных STEM и coding текстов, расширили контекстное окно до 128к. Таким образом модель научилась понимать топологию языков, грамматику, факты, научила строить осмысленные предложения. Технически это просто cross-entropy → модель минимизирует ошибку предсказания следующего токена. Raschka пишет, что на этом шаге уже видны «ростки само-рефлексии», но без доп. сигналов это хаотичная топография: дорога из Парижа в Берлин не лучше, чем через Антарктиду. Более того, здесь уже явно видны лимиты того, чего можно достичь путем увеличения кол-ва параметров и данных.
Далее модель продолжают тренировать на next token prediction, но уже подают 30 млн решений олимпиад, головоломок и ревью кода – те самые СoT. Модель учат не просто отвечать, а проговаривать логику: «Сначала введём переменную, потом применим теорему…». По сути все еще cross-entropy, только на длинных цепочках рассуждений - и модель учится эти цепочки воспроизводить. Это «черновики» рассуждений, словно на атлас нанесли первые дороги: теперь RL-алгоритму будет за что хвалить и ругать.
Тут в игру вступает PPO (Proximal Policy Optimization). Этот шаг прокладывает четкие широкие автомагистрали на нашей карте. В PPO всё происходит примерно так: есть модель, уже обученная на CoT-примерах прокладывать хоть какие-то логические цепочки, и есть «критик», который параллельно учится оценивать: «насколько эта конкретная цепочка обычно заканчивается правильным результатом?». Модель генерит мысли и ответ, мы проверяем, верен ли итог; если да — критик повышает «оценку доверия» всем префиксам этого рассуждения, если нет — резко её понижает. На следующем шаге модель, видя, что одни префиксы критик считает перспективными, а другие нет, смещает вероятности в пользу первых и реже выбирает вторые.
Raschka называет это moment-of-truth: PPO сглаживает вероятность токенов так, чтобы цена ошибки в середине трассы была такой же, как на финише.
На этой неделе читала разборы «Reasoning Models Can Be Effective Without Thinking» [тут пост], и, похоже, разработчики Qwen тоже этот феномен заметили и добавили функцию экономии токенов. Идея в том, что все рассуждения уже содержатся в latents и во время inference явно их выводить часто нет необходимость. На этой стадии тренировки (ВАЖНО, что этому предшествует PPO) отдельный верификатор решает, нужна ли пассажиру длинная цепочка рассуждений. Если подробный «thinking-режим» не даёт надёжной прибавки к точности, систему штрафуют и дистиллируют обратно в компактную форму.
(Последний шаг — alignment RLHF: он шлифует вежливость и безопасность, но к чистому reasoning добавляет мало, поэтому здесь опустим.)
Надеюсь, пост оказался полезным и интересным. А где, на ваш взгляд, пройдёт следующий предел: в данных, в RL-алгоритмах или в чём-то третьем?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🥰5🔥4👍2
А вот и новая open source модель распознавания речи от NVIDIA – parakeet-tdt-0.6b-v2 🤗
К сожалению, не мультилингвальная, только английский язык
Несмотря на то, что корпус из ~120 тыс. часов аннотированных данных берёт начало из разных источников — YouTube Commons, YODAS, … — все они были отфильтрованы под английский, и tokenizer обучен только на англ. транскриптах
✍️ Модель умеет сама расставлять знаки препинания и делать заглавные буквы там, где нужно.
🚀 Скорость декодирования в RTFx ≃ 3380 на батче 128 — это значит: 1 секунда аудио обрабатывается за ≈ 0,0003 секунды
Обрабатывает сегменты длительностью до 24 минут за один проход
В среднем на HF-Open-ASR-лидерборде модель в топе (средний WER 6,05 %), однако в отдельных сценариях, например на AMI (с WER ≈ 11,16 %), чуть уступает специализированным решениям для живых многоголосых разговоров🤖
Кстати, чисто из любопытства перевела слово parakeet — это «волнистый попугайчик» с английского! 🦜😁
К сожалению, не мультилингвальная, только английский язык
Несмотря на то, что корпус из ~120 тыс. часов аннотированных данных берёт начало из разных источников — YouTube Commons, YODAS, … — все они были отфильтрованы под английский, и tokenizer обучен только на англ. транскриптах
Обрабатывает сегменты длительностью до 24 минут за один проход
В среднем на HF-Open-ASR-лидерборде модель в топе (средний WER 6,05 %), однако в отдельных сценариях, например на AMI (с WER ≈ 11,16 %), чуть уступает специализированным решениям для живых многоголосых разговоров
Кстати, чисто из любопытства перевела слово parakeet — это «волнистый попугайчик» с английского! 🦜
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
nvidia/parakeet-tdt-0.6b-v2 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤11👍5🔥5
Меняем лицо в real time — можно подшутить над другом, заменив своё лицо на его 😄 Достаточно всего одного изображения друга.
У репозитория на GitHub уже почти 60к✨
На М2 очень сильно у меня тормозит лайв режим, но поугарать удалось
⚠ Автор предупреждает: пользуйтесь инструментом только согласно закону и с уважением к чужому лицу и репутации.
https://news.1rj.ru/str/CGIT_Vines/2704
У репозитория на GitHub уже почти 60к
На М2 очень сильно у меня тормозит лайв режим, но поугарать удалось
https://news.1rj.ru/str/CGIT_Vines/2704
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
CGIT_Vines
Мало что было известно об авторе видео, пока кто-то не запостил линк на его гит.
После этого всем стало в целом без разницы кто это.
Git
@CGIT_Vines
После этого всем стало в целом без разницы кто это.
Git
@CGIT_Vines
❤3🔥2👍1
От потери фокуса к точности 99.7%: как Gemini находит “иголку в стоге” из миллиона токенов
Есть такая задачка - «иголка в стоге сена»: вы даете модели огромный текст или аудио, где-то внутри спрятан один факт. А потом спрашиваете: «Ну что, нашла?» Звучит просто, но долгое время она была довольно сложной для LLM на длинном контексте. И только недавно модели вроде Gemini 1.5 и 2.5 начали уверенно с ней справляться. А вот реальные кейсы:
🔹 У вас 6 часов медицинской записи. Нужно найти фрагмент, в котором врач пропустил признак, важный для диагноза
🔹 Вы анализируете интервью длиной 8 часов и хотите найти момент, когда гость меняет мнение по ходу обсуждения
📕 А теперь представим самый жизненный пример: вы скармливаете Gemini первые 5 книг Гарри Поттера - как раз около 900К токенов, а затем вы спрашиваете «Когда впервые появляется упоминание пророчества?». Что в этот момент происходит?
1⃣ Сначала Prefill → модель последовательно обрабатывает текст, создавая KV-кэш: ключи/значения для каждого токена на всех слоях. Это самый дорогой шаг по времени и ресурсам
2⃣ Затем, когда вы задаете вопрос, модель просто обращается к кэшу: «что я уже знаю об этом тексте?» Это позволяет генерировать ответ быстро
3⃣ Теперь модель должна распределить внимание по всем токенам - от главы с Дурслями до финального боя и “решить”, где искать. Проблема в том, что внимание ограничено ❕ . Чем больше токенов ➡ тем меньше веса получает каждый. У токенов конкуренция, и нужный может просто “утонуть”
В прошлых поколениях LLM токены в середине длинного контекста (даже 32К) часто “расплывались” - эффект lost in the middle (подробнее тут).
Но все сильно переменилось, в тех. репорте Gemini 1.5 (2024) были продемонстрированы впечатляющие результаты по поиску иголок, хехе: “иголку” прятали в тексте и аудио до 1М токенов. Модель показала:
➡ 99.7% точность на тексте
➡ 95% точность на аудио до 8.4 часов (примерно 1М аудиотокенов)
Как такое возможно? Благодаря архитектурным улучшениям, которые разберем дальше.
😢 Mixture of Experts (MoE) - что происходит, когда токен редкий, но важный
Представьте, в тексте встречается редкая реплика:
В обычной dense-модели все токены проходят через одни и те же параметры, и редкие слова вроде Occlumency быстро забываются. В MoE токен направляется роутером в 2 из 128 “экспертов” - специализированных подмоделей. Редкие слова вроде магических терминов, имён, переменных в коде обрабатываются своими экспертами, и их знания не перезаписываются во время тренировки. Роутер обучается градиентом вместе со всеми весами модели, модель сама понимает, что нужно вынести Occlumency из общего пространства и отдать в эксперта по редким магическим словам.
В Gemini 1.5 это дало: +1.5–2 процентных пункта (pp) к точности в задаче поиска иголки и −40% false positives➡ меньше случаев, когда модель “вспоминает” не ту фразу
😱 LongRoPE + Ms-PoE - позиционки нового поколения
Теперь другая проблема: модель не может отличить, где начало текста, а где середина. Если искомая фраза находится ровно посередине текста, модель может потеряться. Классические позиционные эмбеддинги не различают “токен 500K” и “токен 50K”. LongRoPE растягивает позиционную сетку до 2М+ токенов, не ломая геометрию внимания. Ms-PoE добавляет масштабируемость: одни головы внимания смотрят на 1K токенов, другие — на 100K или весь контекст.
В тех же ablations Gemini 1.5: без этих патчей recall в середине падает до 70 - 75%, с ними же остаётся стабильным на уровне 99% на всём диапазоне
📝 Это, конечно, далеко не всё. У моделей вроде Gemini под капотом ещё масса трюков ➖ и с точки зрения инженерии сам по себе 1М токенов это уже круто: context parallelism, оптимизация памяти, cache reuse, и тд. Но больше всего меня впечатлило именно то, насколько уверенно модель справляется с задачей поиска “иголки” ➖ даже когда она зарыта в миллион токенов текста или аудио.
Если было полезно - буду рада вашим❤ 🔥
А какие задачи с длинным контекстом вы бы хотели решить? Или уже решаете?
Есть такая задачка - «иголка в стоге сена»: вы даете модели огромный текст или аудио, где-то внутри спрятан один факт. А потом спрашиваете: «Ну что, нашла?» Звучит просто, но долгое время она была довольно сложной для LLM на длинном контексте. И только недавно модели вроде Gemini 1.5 и 2.5 начали уверенно с ней справляться. А вот реальные кейсы:
В прошлых поколениях LLM токены в середине длинного контекста (даже 32К) часто “расплывались” - эффект lost in the middle (подробнее тут).
Но все сильно переменилось, в тех. репорте Gemini 1.5 (2024) были продемонстрированы впечатляющие результаты по поиску иголок, хехе: “иголку” прятали в тексте и аудио до 1М токенов. Модель показала:
Как такое возможно? Благодаря архитектурным улучшениям, которые разберем дальше.
Представьте, в тексте встречается редкая реплика:
> Study what?" said Harry blankly
> Occlumency, Potter. The magical defense of the mind against external penetration
В обычной dense-модели все токены проходят через одни и те же параметры, и редкие слова вроде Occlumency быстро забываются. В MoE токен направляется роутером в 2 из 128 “экспертов” - специализированных подмоделей. Редкие слова вроде магических терминов, имён, переменных в коде обрабатываются своими экспертами, и их знания не перезаписываются во время тренировки. Роутер обучается градиентом вместе со всеми весами модели, модель сама понимает, что нужно вынести Occlumency из общего пространства и отдать в эксперта по редким магическим словам.
В Gemini 1.5 это дало: +1.5–2 процентных пункта (pp) к точности в задаче поиска иголки и −40% false positives
Теперь другая проблема: модель не может отличить, где начало текста, а где середина. Если искомая фраза находится ровно посередине текста, модель может потеряться. Классические позиционные эмбеддинги не различают “токен 500K” и “токен 50K”. LongRoPE растягивает позиционную сетку до 2М+ токенов, не ломая геометрию внимания. Ms-PoE добавляет масштабируемость: одни головы внимания смотрят на 1K токенов, другие — на 100K или весь контекст.
В тех же ablations Gemini 1.5: без этих патчей recall в середине падает до 70 - 75%, с ними же остаётся стабильным на уровне 99% на всём диапазоне
Если было полезно - буду рада вашим
А какие задачи с длинным контекстом вы бы хотели решить? Или уже решаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥8👍4⚡3
Прошлая неделя выдалась насыщенной: дедлайн по ключевому проекту, поиск ресурсов в других командах, ревью результатов коллег, брейнштормы, планирование интеграции нескольких моделей в один продукт. А ещё я взяла новый мини-проект, за который отвечаю в одиночку. Пара вечеров ушла на планирование экспериментов и формулировку ожиданий.
Этот пост я бы хотела прочитать ещё в студенчестве. Если вы работаете над ML/AI-проектом (в научной или прикладной области) - вот памятка, как не увязнуть в сотне ненужных экспериментов и заделиверить в срок.
🗽 Всегда начинаем с гипотезы
Каждый эксперимент - это проверка конкретной идеи. Идею важно сформулировать и записать. Например (из статьи NaturalSpeech2, которую недавно читала):
Даже если гипотеза кажется смелой или у вас мало опыта, чтоб оценить сколько прироста метрикам может дать ваша идея - всё равно записываем какое-то предположение. Это сразу ставит цель и помогает понять: какую метрику мы хотим улучшить? Какой у нас baseline? Какие данные и бенчмарки?
Я часто использую SMART-фреймворк в планировании проектов: конкретная цель, измеримость, реалистичность. Тогда по результатам всё просто: гипотеза подтвердилась или нет. Гипотеза - это своего рода якорь, который помогает держать фокус, когда вы утонули в багфиксе, логах и прогонах моделей. А менеджерам критично видеть прогресс по метрикам, а не по количеству запущенных экспериментов.
📃 Дизайн-док - ваш антифейл
Мини-документ в начале проекта:
Это ваша память через две недели. Особенно важно, если вы работаете в одиночку или планируете подключить коллег. А ещё полезно поревьюить такой документ с наставником или командой. Не все риски приходят в голову сразу.
👀 Уменьшаем неопределённость как можно быстрее
Идея из эссе “Research as a Stochastic Decision Process” → сперва приоритизируем эксперименты, которые максимально уменьшают нашу неопределённость. Это значит: сначала делаем не то, что “сложнее”, а то, что даст больше информации за единицу времени. 🔍 Пример:
Вместо того чтобы сразу писать продакшн-код,
1⃣ Берем toy-task - аннотированный датасет; генерируем speaker embeddings сессии, притворяемся, что знаем только часть говорящих
2⃣ Извлекаем anchor speaker embeddings для 2-3 спикеров
3⃣ Запускаем agglomerative clustering с якорями и без — сравниваем метрики (DER) и принимаем решение - двигаемся дальше с этим подходом или подход не рабочий, меняем
😎 Автоматизируем подбор гиперпараметров
В магистратуре я меняла learning rate руками, запускала вечером, утром забывала зачем.
Есть способы получше, например, байесовская оптимизация (я знакома с Hyperopt, но есть и другие фреймворки). Вы задаёте диапазоны - она ищет оптимальные параметры. Подходит и для маленьких NLP-задач, и для больших моделей. Сильно экономит время, особенно если эксперименты дорогие.
💬 А какие практики спасают вас в ML-проектах?
Расскажите в комментариях — особенно если у вас есть лайфхаки по структуре исследований, ведению логов или автоматизации
Давайте учиться друг у друга🐈
Этот пост я бы хотела прочитать ещё в студенчестве. Если вы работаете над ML/AI-проектом (в научной или прикладной области) - вот памятка, как не увязнуть в сотне ненужных экспериментов и заделиверить в срок.
Каждый эксперимент - это проверка конкретной идеи. Идею важно сформулировать и записать. Например (из статьи NaturalSpeech2, которую недавно читала):
Идея: заменить flow-based prior decoder на diffusion decoder.
Ожидаемый результат: более разнообразная и экспрессивная речь → +0.3 SMOS при стабильном WER.
Даже если гипотеза кажется смелой или у вас мало опыта, чтоб оценить сколько прироста метрикам может дать ваша идея - всё равно записываем какое-то предположение. Это сразу ставит цель и помогает понять: какую метрику мы хотим улучшить? Какой у нас baseline? Какие данные и бенчмарки?
Я часто использую SMART-фреймворк в планировании проектов: конкретная цель, измеримость, реалистичность. Тогда по результатам всё просто: гипотеза подтвердилась или нет. Гипотеза - это своего рода якорь, который помогает держать фокус, когда вы утонули в багфиксе, логах и прогонах моделей. А менеджерам критично видеть прогресс по метрикам, а не по количеству запущенных экспериментов.
Мини-документ в начале проекта:
Что делаю? Зачем? Как это должно сработать? Что может пойти не так?
Это ваша память через две недели. Особенно важно, если вы работаете в одиночку или планируете подключить коллег. А ещё полезно поревьюить такой документ с наставником или командой. Не все риски приходят в голову сразу.
Идея из эссе “Research as a Stochastic Decision Process” → сперва приоритизируем эксперименты, которые максимально уменьшают нашу неопределённость. Это значит: сначала делаем не то, что “сложнее”, а то, что даст больше информации за единицу времени. 🔍 Пример:
Хотим улучшить диаризацию Zoom-звонков, добавив anchor embeddings известных участников
Вместо того чтобы сразу писать продакшн-код,
В магистратуре я меняла learning rate руками, запускала вечером, утром забывала зачем.
Есть способы получше, например, байесовская оптимизация (я знакома с Hyperopt, но есть и другие фреймворки). Вы задаёте диапазоны - она ищет оптимальные параметры. Подходит и для маленьких NLP-задач, и для больших моделей. Сильно экономит время, особенно если эксперименты дорогие.
💬 А какие практики спасают вас в ML-проектах?
Расскажите в комментариях — особенно если у вас есть лайфхаки по структуре исследований, ведению логов или автоматизации
Давайте учиться друг у друга
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍8🔥5⚡1
Google продолжает прокачивать мультимодальную Gemini - это качественный инкрементальный апдейт. Reasoning на часовых аудио и видео, генерация экспрессивной речи, ASR & speaker diarization - все это было еще в Gemini 1.5. Но, судя по всему, модели дотьюнили, подтянув качество на речевых задачах (хотя утверждать что-то по технологиям сложно, тех. репорта нет)
Вот что интересного:
Gemini теперь умеет переводить речь в реальном времени. Пока только с английского на испанский - логично, ведь это одна из самых «богатых» речевых пар в данных. Ждем больше пар языков
Генерация речи стала заметно экспрессивнее - теперь может шептать, менять интонации, вставлять фразы на разных языках в одной реплике.
Плюс улучшили ASR: модель лучше отличает речь от фонового шума, можно тестить в реальных условиях: на звонках, в шумных пространствах, при записи с микрофона
В Gemini API появился двухголосый режим: модель может использовать два разных голоса в одной генерации. Это позволяет создавать естественные диалоги и озвучивать персонажей. Мне не до конца ясно, чем это отличается от TTS в NotebookLM
⚙️ Live API с нативным аудио
Теперь разработчики могут подключить нативный голосовой вывод Gemini прямо в свои приложения - с поддержкой более 24 языков
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Google I/O '25 Keynote
It's time to I/O! Tune in to learn the latest news, announcements, and AI updates from Google.
00:00:00 Opening
00:02:17 Introduction
00:19:29 Google DeepMind + Gemini for Developers
00:46:04 Search
01:11:06 Gemini
01:24:02 Generative Media
01:37:37 Android…
00:00:00 Opening
00:02:17 Introduction
00:19:29 Google DeepMind + Gemini for Developers
00:46:04 Search
01:11:06 Gemini
01:24:02 Generative Media
01:37:37 Android…
❤6👍5🔥3
Такие материалы — отличный способ заглянуть “за кулисы” и понять, над чем сейчас кипит работа в R&D. То, что для нас новинка (например, семейство моделей Claude 4), для них — уже пройденный этап, и они вовсю штурмуют новые вершины
🔗 ссылка на YouTube
Оба гостя подкаста довольно уверенно заявляют: к концу 2025 года такие агенты вполне могут появиться.
На мой взгляд все-таки смело. Особенно если вспомнить, что даже последние релизы LLM всё ещё периодически «галлюцинируют» несуществующие функции или библиотеки в Python
Но что делает такие амбиции возможными?
Судя по подкасту, среди главных направлений исследований в Anthropic сейчас это:
Обучение с подкреплением на основе чётких, проверяемых метрик стало ключом к успеху в задачах кодинга. И это работает, потому что в задачах программирования легко определить, успешен ли результат: Проходит ли код юнит-тесты? Да/Нет. Это бинарный, объективный сигнал, в отличие от RLHF (обучения с человеческой обратной связью), которое: дорогое, медленное, и порой субъективное.
Верифицируемые вознаграждения позволяют ускорить обучение и повысить его стабильность.
Но есть и ограничения. Не все задачи так легко формализовать. Например, как измерить креативность текста или эмпатию в диалоге? Поэтому активно исследуются способы формулировать метрики и цели для более сложных задач
Вот тут начинается самое интересное. Модели, стремясь к максимальному вознаграждению, могут начать искать лазейки. Один из озвученных примеров:
Модель может “понять”, что быть «полезной, доброй и безопасной» — это отличный способ, чтобы её не отключили. Она может вести себя идеально, но лишь для того, чтобы добиться своих долгосрочных целей.
То есть, поведение модели может казаться выровненным, но на деле — оно просто оптимально стратегическое.
А это уже поднимает важные вопросы о доверии, интерпретируемости и контроле над всё более умными системами.
В целом подкаст интересный, несложный для восприятия, рекомендую, подойдёт фоном для ужина
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Is RL + LLMs enough for AGI? — Sholto Douglas & Trenton Bricken
New episode with my good friends Sholto Douglas & Trenton Bricken. Sholto focuses on scaling RL and Trenton researches mechanistic interpretability, both at Anthropic. We talk through what’s changed in the last year of AI research; the new RL regime and how…
👍10❤7🤔3👀3
За что я люблю x.com — это за то, какие жаркие и полезные дискуссии там иногда разгораются. Вот, например, история, достойная научного детектива. Недавно вышла статья с громким названием:
🖇 Reinforcement Learning for Reasoning in Large Language Models with One Training Example
Да, всё так, авторы утверждают, что можно взять всего один пример (напр., задачу по алгебре), дотренить на нём LLM вроде Qwen2.5-Math-1.5B — и вот, производительность на бенче MATH500 прыгает с 36% до 73.6%. Для обучения нужно всего ±100 шагов, и грамотно выбранный пример. Более того, даже когда модель уже переобучена на этот пример, её качество на тестах продолжает расти.
Это наблюдается не только для одной модели, но и для Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B. Но не всё так однозначно.
Через пару недель выходит блог-пост и сопроводительный твит, авторы которого ставят под сомнение эти громкие цифры, а также результаты нескольких других недавних RL статей. По их мнению:
📦 \boxed{} — формат, который используется для автоматической оценки ответов LLM: парсер извлекает только то, что внутри. Если ответа там нет — он не считается
Они используют открытый leaderboard SoberBench, где все модели оценены по единому протоколу, и находят много несостыковок в бейзлайн метриках.
Вот ключевые проблемы, которые они поднимают:
🧪 Format Overfitting
Модели, обученные с RL, учатся не столько лучше думать, сколько правильно оформлять ответы. Если baseline модель дала верный ответ, но не оформила его как \boxed{...}, он считается неправильным. То есть, reasoning есть, а засчитан не будет.
Пример: даже RL с рандомными наградами (статья spurious rewards) улучшает результат — потому что модель просто начинает чаще использовать \boxed{}.
🌡 Температура генерации
В 1-shot RLVR на baseline и RL candidate использовалась температура 0 для воспроизводимости, но это снижает метрики. По данным SoberBench, температура 0.3 или 0.7 даёт намного более реалистичную картину.
🔢 Ограничение длины вывода
Модели вроде DeepSeek умеют рассуждать на 16k+ токенов. Но в 1-shot RLVR длина ответа была урезана до 3k - 8k токенов — из-за чего длинные правильные решения могли не влезть и быть засчитаны как ошибки.
Авторы 1-shot RLVR тоже вышли с подробным тредом, где
Также они используют модель-судью (QwQ-32B), которая проверяет правильность ответа независимо от формата. Результаты подтверждают: модели начинают чаще правильно решать, а не просто правильно оформлять.
Скандала как такового нет, зато есть продуктивная научная дискуссия. Авторы 1-shot RLVR — молодцы, что оперативно добавили абляции и открыли код. Авторы критики — молодцы, что поставили вопрос о честных бейзлайнах. Все соглашаются в одном: нужна прозрачная и стандартная система оценки, которая различает “модель научилась думать” и “модель научилась красиво писать”.
Вообще, в оценке моделей ещё много пробелов. Если модель обернула ответ в \boxed{}, но reasoning был случайным — это победа или обман метрики? Что важнее в eval
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍7🔥2
Один из главных вопросов, волнующих научное сообщество:
А правда ли RL помогает моделям учиться рассуждать, а не просто подбирать знакомые шаблоны, которые уже есть в их претрейне?
Ведь если дать базовой LLM побольше попыток, она и так с большой вероятностью найдет верный ответ. Так что же такое этот ваш RL — просто игра в угадайку с бонусами?
На защиту RL встала комaнда NVIDIA со статьей: 🔗ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in LLMs. Они показывают, что если аккуратно и долго (более 2к шагов) дообучать LLM'ку с помощью GRPO (Group Relative Policy Optimization), можно не просто избежать типичных проблем, вроде коллапса энтропии, но и реально научить модель думать новыми способами.
✨
Авторы ввели метрику Creativity Index — она измеряет, насколько цепочка рассуждений отличается от тех, что выдает базовая модель. Исследователи сравнивали ответы модели с большим открытым корпусом данных, таким как DOLMA. Если ответы модели сильно совпадают с уже существующими текстами, это указывает на низкий CI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤6👍5
На днях Google релизнули обновлённый Gemini 2.5 Pro, и, конечно, сразу заявили: «мы лучшие в кодинге». И тут я поняла, что уже путаюсь: какие бенчмарки действительно живые и что значит «лучшие»?
SWE-Bench — самый популярный
Бенчмарк на основе 2,294 реальных GitHub-issues из 12 крупных python проектов: от PyTorch до pandas. Задача — по issue сгенерировать патч и пройти юнит-тесты проекта. Задачи проверенные, точно имеют решение и шаблонный pull request с тестами.
🔗Leaderboard
Контаминация: частично возможна — это же GitHub, большинство задач датированы периодом до 2023 года, так что попадание их в train нельзя исключать
Лидеры (single attempt - из release notes Gemini 2.5 Pro): Claude Opus 4 (72.5%), o3 (69.1%), o4-mini (68.1), Gemini 2.5 (59.6%)
Значение: хороший ориентир для оценки способностей моделей решать задачи уровня «джун нашёл баг, аккуратно его поправил и не сломал весь проект».
225 задач из Exercism (C++, Go, Python, Rust, …), где нужно не просто дописать функцию, а починить или расширить многофайловый проект, чтобы он прошёл все тесты.
🔗 Leaderboard
Контаминация: частично возможна, поскольку задачи взяты из публичных источников
Лидеры (из release notes Gemini 2.5 Pro): о3 (79.6%), Gemini 2.5 Pro (82.2%)
Значение: тестирует именно инженерные навыки: работа с многофайловыми проектами, согласованные правки, понимание архитектуры. Причём ещё и на разных языках. Если модель справляется здесь — ей уже можно доверить что-то серьёзное.
🏆LiveCodeBench
Включает 511 задач, собранных из соревнований на платформах LeetCode, Codeforces и др., с учётом даты релиза — чтобы исключить утечку в обучение.
🔗 Leaderboard
Контаминация: исключена, задачи выбираются из недавних соревнований
Лидеры (leaderboard 01.01.2025 - 01.05.2025): o3 (72%), Gemini 2.5 Pro (69%), o4-mini (75%)
Значение: полезен, чтобы проверить, умеет ли модель рассуждать и писать код по свежей задаче, которую она точно не видела. Но это ближе к стилю алгоритмических интервью, чем к продакшен-коду.
764 задачи с Upwork, каждая с ценником от $50 до $32k. Модель должна по ТЗ починить код или имплементировать фичу. Задачи есть реально сложные. Весь набор содержит около 1,400 задач, но только часть (≈$500,800 по “стоимости задач”) была открыта в виде Diamond для reproducibility (именно эти задачи взяты с GitHub проекта Expensify.cash
Контаминация: маловероятно, даже для Diamond E2E тесты и точные требования к решению (а не просто описание задачи) не были публичны, их написала команда OpenAI вручную
Лидеры Diamond (single-pass): Claude 3.5 Sonnet $58k (26%), o3-high ~$65k (27%), o4-mini ~$56k (24%)
Значение: это почти фриланс в продакшене: настоящие таски, реальные баги, end-to-end тесты. Если модель справляется — это уже заявка на автоматизированного стажёра. Но пока нет 😅
А что в реальности? Всё равно возвращаемся к практике:
А какую часть своей рутины вы уже переложили на LLM’ки? И чем вообще пользуетесь?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11😁3❤2
Часто встречаю мнение, что Apple совсем отстали в AI-гонке. А они такие: мы просто не верим в этот ваш reasoning 😉 На прошлой неделе Apple внезапно выстрелили статьей The Illusion of Thinking, которая срезонировала в X и Reddit, поставив под вопрос самое святое: способны ли LLM к reasoning'у? Это привлекло много внимания, особенно на фоне бесконечных споров о reasoning-способностях LLM от других групп.
Одно из ключевых утверждений авторов: математические бенчмарки просто не работают! Потому что данные из бенчей, скорее всего, уже "просочились" в train наборы моделей (это большая и известная проблема в оценке моделей)
Самое интересное, на мой взгляд, остается за кадром: насколько сильно модели могут "выйти за рамки" своих тренировочных данных? Если модель видела задачи только до определенной сложности, как далеко она сможет продвинуться в инференс режиме? Человек в этом плане не так уж и отличается — мы тоже "сгораем" от сложности и сдаемся, когда задача кажется непосильной, даже если у нас есть время подумать.
На счет контаминации. Все-таки обучение — это сугубо data-driven процесс. Если покрутить ползунок на livecodebench, то заметно, что в среднем результаты слабее на свежих версиях бенчмарка (что не попали в train)
Возникает вопрос: понимаем ли мы вообще, что идет в пре-трейн? Я не уверена, что в крупных корпорациях глубоко анализируют каждый гигабайт данных, идущий в модель. Поэтому этот ресерч для меня — это не столько о "мышлении", сколько о более глубоком изучении тренировочных данных через анализ поведения самой модели.
Эта тема сейчас вызывает ожесточенные дебаты, и у каждой стороны есть свои весомые аргументы. Как думаете, насколько сильно проблема контаминации тренировочных данных искажает наши представления о реальных reasoning способностях LLM?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥3🤔1
Как работает zero-shot клонирование? Я рассматриваю тут 🔗parakeet, но в плане клонирования VALL-E, Dia, Chatterbox работают схоже.
Фрагмент аудио (3–5 сек) пропускается через дискретный аудиокодек (🔗SoundStream или 🔗DAC). Эти кодеки превращают каждый фрейм звука (20-50мс) в набор дискретных токенов — как токены текста, только описывают спектральные особенности и паралингвистику (фонемы, интонации, тембр, шум, фон). Токены сохраняют инфу о звуке так, чтоб по ним можно было восстановить сигнал обратно. Если очень абстрактно (
Уровень 0: звук Э
Уровни 1-2: мужской голос средней высоты
Уровни 3-5: растягивает гласные, говорит слегка хрипло
Уровни 6-8: шум улицы, эхо
В итоге ваш голос превращается в последовательность цифр — рецепт, типо [341, 156, 789, 12, 445, 233, 891, 67].
Аудиокодеки и как их тренировать — это вообще отдельная супер интересная тема…
Теперь у нас есть "рецепт" голоса и новый текст, который нужно озвучить. Далее всё идёт в TTS-декодер — трансформер, обученный предсказывать аудио по тексту и голосовому сэмплу. Промпт выглядит так:
[ваш_голос_в_токенах + новый_текст] → [новая_речь_в_токенах]
На инференсе модель генерирует аудио-токены по новому тексту, полагаясь на то, что стиль и голос она «подхватит» из аудиопромпта.
Записи обычно разрезают пополам: первая часть — образец, вторая — то, что нужно повторить. Модель тренируется на огромном количестве таких пар, пока не научится копировать стиль по короткому сэмплу.
Проблема в том, что 5 секунд — это как попытаться понять человека по одной фразе в лифте. У модели нет информации о том, как вы произносите вопросы, когда волнуетесь. Она не знает, что у вас есть мягкая "р". Это тонкие речевые привычки, которые требуют больше данных и fine-tuning. Записались дома, пока соседи стучали молотком? Теперь ваш клон может звучать как на стройке. Модель не будет исправлять — она вас примет таким, какой вы есть (со всеми звуками отбойного молотка). Длинные тексты часто ломают темп и артикуляцию.
Возьмем например SMOS (Speaker Mean Opinion Score) — это субъективная метрика: людям дают оригинал и синтез, и просят оценить, насколько голоса похожи. Смотрим на метрику SMOS например у VALL-E 2
Метрики показывают "похож ли голос на того же человека", а не "узнаёт ли себя человек в клоне". Если вы сами тот "оригинал" голоса, вы начнёте замечать куда больше отличий, чем любой слушатель. Для дубляжа, озвучки этого достаточно, зрителю важно, чтоб персонаж был узнаваем по голосу и стабилен от сцены к сцене. Для создания аудио-аватара, подкаста этого недостаточно. Зная свой голос или голос вашего друга, вы с легкостью поймете, что генерация по одному сэмплу неточная.
А вы экспериментировали с zero-shot и на каких языках? Поделитесь, удалось ли вам добиться качественного клонирования?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍3🔥3
🔗 «Discrete Audio Tokens: More Than a Survey!»
🔗 Бенчмарки
Исследователи создали:
Есть, что поизучать на выходных
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍3🔥3
В мире AI есть два
На днях попалась статья, авторы которой предлагают пересмотреть, что мы называем эмерджентностью в LLM‑ках: «Large Language Models and Emergence: A Complex Systems Perspective»
В теории сложности, эмерджентность — это когда из взаимодействия простых элементов рождается поведение, которое не сводится к частям. Пример: из клеток ткани не следует её упругость, это новое свойство самой ткани.
В домене LLM’ок мы говорим об «эмерджентных способностях», когда модель, например вдруг начинает решать логические задачи, на которые она специально не был обучена. Но в той самой работе про Scaling Laws Каплан отмечал, что кривая падения лосса на обучении линейна, никаких резких скачков не ожидается. Тогда как понять, является ли новое поведение действительно емерджентным?
Авторы статьи призывают сбавить обороты и предлагают три мощных тезиса:
Я занимаюсь разработкой речевых моделей. В Speech AI у нас пока нет таких объёмов данных, чтобы новые способности проявлялись так же ярко, как в тексте. Мы во многом заимствуем архитектуры и подходы из LLM. Но как будет развиваться «интеллект» в речи? Увидим ли мы рождение принципиально новых, эффективных абстракций для работы со звуком? Интересно.
🔗 Large Language Models and Emergence: A Complex Systems Perspective
🔗 Scaling Laws for Neural Language Models
📹 Godfather of AI: I Tried to Warn Them, But We’ve Already Lost Control! Geoffrey Hinton
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥7❤6🤔1
На днях завершился весенний курс от Стэнфорда CS336 — и все материалы уже выложены онлайн! Собираюсь поизучать, и решила тут поделиться тоже
🔗 Лекции, домашки
🔗 Видео
Это классный курс, для тех, кто:
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Stanford CS336 Language Modeling from Scratch I 2025
Language models serve as the cornerstone of modern natural language processing (NLP) applications and open up a new paradigm of having a single general purpo...
🔥20👍4❤3