На днях вышла работа от Qwen про RL алгоритм Group Sequence Policy Optimization (GSPO), стоящий за их последними моделями Qwen3-235B и Qwen3-Coder (модели, кстати, очень мощные, скоро будет апдейт swe-rebench, где мы в том числе померили их). Главное предложение авторов, перейти на уровень траекторий для подсчета importance ratio (IR), понятно; какое-то время назад выходила отчасти похажая статья Tapered Off-Policy. Но я хочу чуть подробнее рассказать про 2 момента в использовании обычного GRPO, которые могут внезапно выстрелить в ногу на практике. Про них и пишут авторы с точки зрения проблем, которые приходилось решать.
1. Для того чтобы считать IR поправку, нужны логпробы текущей модели и той, которая использовалась во время инференса. На практике получается, что из-за разных имплементаций фреймворков обучения и движков инференса (vllm, sglang), итоговые логпробы одной и той же модели могут различаться довольно сильно, что бьет по стабильности обучения GRPO, тк поправка там считается на уровне каждого токена. GSPO же работает на уровне целых траекторий, которые естественно менее чувствительны к расхождениям вычислений.
2. В ту же копилку, если мы учим MoE, то даже после одного градиентного шага может сильно измениться распределение активируемых экспертов, что опять же бьет по стабильности IR. Чтобы победить эту проблему в GRPO, авторы кэшировали активируемых экспертов и использовали их для подсчета логпробов (в статье это называется Routing Replay).
Интересно, что про такие вещи заранее вряд ли вообще подумаешь, и только на практике они могут подло вылезти в самый неожиданный момент.
1. Для того чтобы считать IR поправку, нужны логпробы текущей модели и той, которая использовалась во время инференса. На практике получается, что из-за разных имплементаций фреймворков обучения и движков инференса (vllm, sglang), итоговые логпробы одной и той же модели могут различаться довольно сильно, что бьет по стабильности обучения GRPO, тк поправка там считается на уровне каждого токена. GSPO же работает на уровне целых траекторий, которые естественно менее чувствительны к расхождениям вычислений.
2. В ту же копилку, если мы учим MoE, то даже после одного градиентного шага может сильно измениться распределение активируемых экспертов, что опять же бьет по стабильности IR. Чтобы победить эту проблему в GRPO, авторы кэшировали активируемых экспертов и использовали их для подсчета логпробов (в статье это называется Routing Replay).
Интересно, что про такие вещи заранее вряд ли вообще подумаешь, и только на практике они могут подло вылезти в самый неожиданный момент.
👍15❤1
Обновили SWE-rebench за июль и вместе со стандартными замерами выкатили пару интересных апдейтов.
На лидерборде появились: Gemini-2.5 Pro, o4-mini, DeepSeek-R1-0528, разумеется все последние Qwen3, включая Coder-480B, который ворвался в топ1; а также загадочную модельку horizon-alpha, про которую сейчас ходят различные слухи, будто это gpt5/gpt5-mini или OSS модель от openai (спасибо Игорю @seeallochnaya, который пришел с утра и сказал, что openrouter дает бесплатно ее погонять).
Есть еще пара технических апдейтов, включая 1-shot демонстрацию для вызовов тулов: теперь вместо рендеринга демо внутри систем промпта, мы кладем несколько assistant-tool сообщений. Это полечило 95% ошибок с вызовом тулов у всех моделей.
Предвкушая вопросы: Qwen3-Coder-30B-A3B-Instruct добавим буквально на днях. Kimi-K2 тоже добавим, но пока у нее проблемы с вызовом тулов в multi-turn траекториях.
Ну и скажу, что уже есть большие планы по тому, чтобы добавить в бенчмарк классные фичи, что-то появится в ближайшем релизе за август, что-то чуть позже, но в любом случае работа идет!
На лидерборде появились: Gemini-2.5 Pro, o4-mini, DeepSeek-R1-0528, разумеется все последние Qwen3, включая Coder-480B, который ворвался в топ1; а также загадочную модельку horizon-alpha, про которую сейчас ходят различные слухи, будто это gpt5/gpt5-mini или OSS модель от openai (спасибо Игорю @seeallochnaya, который пришел с утра и сказал, что openrouter дает бесплатно ее погонять).
Есть еще пара технических апдейтов, включая 1-shot демонстрацию для вызовов тулов: теперь вместо рендеринга демо внутри систем промпта, мы кладем несколько assistant-tool сообщений. Это полечило 95% ошибок с вызовом тулов у всех моделей.
Предвкушая вопросы: Qwen3-Coder-30B-A3B-Instruct добавим буквально на днях. Kimi-K2 тоже добавим, но пока у нее проблемы с вызовом тулов в multi-turn траекториях.
Ну и скажу, что уже есть большие планы по тому, чтобы добавить в бенчмарк классные фичи, что-то появится в ближайшем релизе за август, что-то чуть позже, но в любом случае работа идет!
🔥14❤🔥7
Те из вас, кто следит в последний год за развитием reasoning моделей, возможно заметили, что RL практически всегда делается поверх single-turn задач, зачастую на математике или написании кода по типу leetcode. В этом направлении есть огромное кол-во литературы, исследующей разные лоссы, динамику обучения, эффективность данных и прочее. Но такого рода задачи на самом деле покрывают очень малую часть того, что мы бы хотели видеть от моделей/агентов в будущем, а именно длинное multi-turn взаимодействие со средой, где каждый шаг ведет к нетривиальному ответу.
На днях мы выложили статью Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning, где применяем RL для тренировки SWE-агента как раз в достаточно общей формулировке: у нас есть среда и начальное состояние в виде описания задачи + контейнера с репозиторием, на шаге t агент выдает действие a_t, после чего наблюдает ответ obs_t. В конце, после завершения траектории, приходит награда в зависимости от того, успешно выполняются финальные тесты или нет (чтобы детальнее погрузиться в задачу можно почитать про сам SWE-bench или вот этот мой пост). Интерес в такой общей формулировке заключается в том, что результаты должны переноситься на любой другой сценарий длительного взаимодействия со средой, в конце которого можно получить верифицируемый фидбек, будь то веб-агенты, роботы и тд.
В статье мы применили DAPO-like алгоритм к Qwen-2.5-Instruct и в итоге подняли качество на SWE-bench Verified с 11% до 39% без какой-либо дистилляции траекторий от более сильных моделей, что соотносится с нашими замерами DeepSeek-V3-0324.
На днях мы выложили статью Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning, где применяем RL для тренировки SWE-агента как раз в достаточно общей формулировке: у нас есть среда и начальное состояние в виде описания задачи + контейнера с репозиторием, на шаге t агент выдает действие a_t, после чего наблюдает ответ obs_t. В конце, после завершения траектории, приходит награда в зависимости от того, успешно выполняются финальные тесты или нет (чтобы детальнее погрузиться в задачу можно почитать про сам SWE-bench или вот этот мой пост). Интерес в такой общей формулировке заключается в том, что результаты должны переноситься на любой другой сценарий длительного взаимодействия со средой, в конце которого можно получить верифицируемый фидбек, будь то веб-агенты, роботы и тд.
В статье мы применили DAPO-like алгоритм к Qwen-2.5-Instruct и в итоге подняли качество на SWE-bench Verified с 11% до 39% без какой-либо дистилляции траекторий от более сильных моделей, что соотносится с нашими замерами DeepSeek-V3-0324.
🔥22❤5🤔1
Удивительно, как наш датасет swe-rebench стал самым скачиваемым за последний месяц на HuggingFace. Все больше и больше находим команд, которые используют его для тренировки агентов. Мы уже работаем над версией v2, в котором выкатим интересные фичи сразу по нескольким направлениям. Если вы каким-то образом используете эти данные и у вас есть фидбек насчет того, чего не хватает, что хотелось бы видеть или просто смелые идеи, пишите, буду благодарен любой обратной связи.
❤30🔥15
Продолжаем обновлять swe-rebench leaderboard, и вчера туда на первое место ворвалась gpt5 с medium reasoning effort. Хочется на этот счет оставить пару комментариев:
1. Как видно из лидерборда, medium effort стоит выше high. Связано это как минимум отчасти с тем, что с high effort модель получается чересчур саморефлексирующей, то есть постоянно перепроверяет себя, повторно тестирует решение и в конце концов упирается в лимит по кол-ву шагов (сейчас это 80).
2. Запуск использовал completions эндпоинт, а с ним есть проблема: ризонинг модели нельзя подать на вход следующего терна, поэтому на каждом шаге модель видит аутпут + тул, но не рассуждения.
Если первый пункт остается под вопросом, то второй мы поправим в ближайшее время. Глобально это означает, что результаты gpt5 могут быть еще выше.
Подробнее про rebench: https://news.1rj.ru/str/AIexTime/121
1. Как видно из лидерборда, medium effort стоит выше high. Связано это как минимум отчасти с тем, что с high effort модель получается чересчур саморефлексирующей, то есть постоянно перепроверяет себя, повторно тестирует решение и в конце концов упирается в лимит по кол-ву шагов (сейчас это 80).
2. Запуск использовал completions эндпоинт, а с ним есть проблема: ризонинг модели нельзя подать на вход следующего терна, поэтому на каждом шаге модель видит аутпут + тул, но не рассуждения.
Если первый пункт остается под вопросом, то второй мы поправим в ближайшее время. Глобально это означает, что результаты gpt5 могут быть еще выше.
Подробнее про rebench: https://news.1rj.ru/str/AIexTime/121
1❤🔥8👍6❤2🔥2
Возможно скоро грядет новая версия Kimi-K2-0905, судя по немного спекулятивному обсуждению на реддите. А мы только на днях добавим на ребенч первую версию, которая, кстати, очень неплохо себя показывает 🤯
Уверен, что новая модель залетит в топ на большинстве агентских кодовых бенчей, но здесь мне интереснее другой факт. По-моему, Kimi были чуть ли не первыми, кто в работе по большим претренам рассказал, что учил в конце RL не только на верифицируемые задачи, но и на неверифицируемые с помощью рубрик. И очень интересно посмотреть, во что это выльется на бенчах по типу Creative Writing, особенно учитывая их сообщения в дискорде.
Уверен, что новая модель залетит в топ на большинстве агентских кодовых бенчей, но здесь мне интереснее другой факт. По-моему, Kimi были чуть ли не первыми, кто в работе по большим претренам рассказал, что учил в конце RL не только на верифицируемые задачи, но и на неверифицируемые с помощью рубрик. И очень интересно посмотреть, во что это выльется на бенчах по типу Creative Writing, особенно учитывая их сообщения в дискорде.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤8
> Мы раскатываем релиз в прод без анонсов, чтобы проверить, что все ок
> Игорь пишет обзор спустя 15 минут
> Игорь пишет обзор спустя 15 минут
🔥10😁1
Forwarded from Сиолошная
В SWE-ReBench добавили 52 новых задачи за август, результаты по ним на первой картинке. Напомню, что это бенчмарк-аналог SWE-Bench, где задачи собираются с GitHub за последний месяц, и модели точно не могли видеть решения во время тренировки.
Claude Sonnet 4, если судить только по этим новым задачам, вышла на первое место, но статистически значимого отличия от GPT-5-medium и high нет. Зато есть отличие в цене, и ведь это даже не Opus!
Ещё добавили GLM-4.5 (четвёртое место), Grok Code Fast 1 от xAI — внезапно забрался в топ, и цена очень вкусная, сущие копейки, gpt-oss-120b на уровне Gemini 2.5 Pro и Qwen3-235B-A22B-Thinking (все — где-то глубоко внизу таблицы, 18-20 место)
На второй картинке приложил срез, включая июль (82 задачи в сумме), и GPT-5 продолжает лидировать, хоть и без существенной разницы с Claude Sonnet 4. Эти две модели значимо отличаются от всего, что идёт за ними, Qwen, o3 и дальше.
На сайте можно нажать кнопочку Inspect и посмотреть своими глазами, что за PR/Issue подсовывали моделям.
Claude Sonnet 4, если судить только по этим новым задачам, вышла на первое место, но статистически значимого отличия от GPT-5-medium и high нет. Зато есть отличие в цене, и ведь это даже не Opus!
Ещё добавили GLM-4.5 (четвёртое место), Grok Code Fast 1 от xAI — внезапно забрался в топ, и цена очень вкусная, сущие копейки, gpt-oss-120b на уровне Gemini 2.5 Pro и Qwen3-235B-A22B-Thinking (все — где-то глубоко внизу таблицы, 18-20 место)
На второй картинке приложил срез, включая июль (82 задачи в сумме), и GPT-5 продолжает лидировать, хоть и без существенной разницы с Claude Sonnet 4. Эти две модели значимо отличаются от всего, что идёт за ними, Qwen, o3 и дальше.
На сайте можно нажать кнопочку Inspect и посмотреть своими глазами, что за PR/Issue подсовывали моделям.
🔥6
А так, помимо того, что сказано в посте выше, добавлю еще несколько моментов:
1. Максимальный Pass@5 у моделей 31/52 (59.6%), но если посмотреть на общее число хоть раз решенных задач по всем, то там будет уже 37. То есть даже для топовых моделей есть непересекающееся множество задач, которые они решить не могут, но решают конкуренты.
2. Из опенсурс моделей только GLM4.5 и Qwen3-Coder-480B навязывает конкуренцию фронтирным.
3. Grok Code Fast имеет поразительный уровень Resolved Rate за свою цену, весь прогон на 5 ранов на 52 задачах занял 14 долларов.
Через неделю планируем закинуть тройку новых интересных моделей, попробуйте угадать какие🙂
1. Максимальный Pass@5 у моделей 31/52 (59.6%), но если посмотреть на общее число хоть раз решенных задач по всем, то там будет уже 37. То есть даже для топовых моделей есть непересекающееся множество задач, которые они решить не могут, но решают конкуренты.
2. Из опенсурс моделей только GLM4.5 и Qwen3-Coder-480B навязывает конкуренцию фронтирным.
3. Grok Code Fast имеет поразительный уровень Resolved Rate за свою цену, весь прогон на 5 ранов на 52 задачах занял 14 долларов.
Через неделю планируем закинуть тройку новых интересных моделей, попробуйте угадать какие
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
Для тех, кто все еще не привык смотреть на наличие prompt caching у провайдеров или использовать его. Запуски выше grok code fast заняли 14 долларов с кэшированием. Ровно такой же прогон без вышел бы 66 долларов. Разница больше чем в 4 раза, не требующая никаких телодвижений с вашей стороны. Поэтому а) не забывайте про кэширование и b) старайтесь не отходить без весомой причины от парадигмы append-only context. Об этом сегодня будет следующий любопытный пост.
👍17👌4
Рефлексия на тему построения AI агентов от команды Manus, где собран ряд практических советов, как строить контекст, обрабатывать наблюдения из среды, работать с тулами. Любопытно почитать, к какому дизайну пришли авторы после многократных итераций и фидбек лупов. Вся заметка написана через призму использования in-context learning (ICL), то есть упор сделан не на обучении, а использовании мощных уже существующих моделей, где основная задача — правильно собрать контекст: написать хорошие промпты, тулы, решить, какую информацию мы будем помещать туда, а какую нет и тд. Один из первых пунктов звучит так:
За этим стоит понятное объяснение: закэшированные токены ускоряют инференс, снижая time-to-first-token (TTFT), у фронтир моделей почти всегда цена за токены в кэше сильно меньше, что очевидно очень важно для коммерческого продукта (пример с grok code выше). Но, проецируя описанные проблемы еще и на сценарий обучения моделей, я бы добавил один важный момент. Если у нас нарушается линейность траектории и в разных моментах контекст собирается по-разному (такое может быть часто, если мы начнем смотреть в сторону суммаризации предыдущей истории для экономии длины контекста), то мы столкнемся с проблемой во время обучения, а именно не сможем использовать всю multi-turn траекторию, чтобы обучаться на ней за раз. Вместо этого придется дробить ее на отдельные семплы, маскировать префикс и обучаться только на последнем действии, что катастрофически снижает sample efficiency тренировки. Так что нужно помнить, что должны быть действительно весомые причины, чтобы отойти от концепта append-only context. По этой же причине, кстати, неприятно тюнить гибридные модели qwen3, у которых манипуляции с <think> тегами происходят только на последнем шаге траектории.
If I had to choose just one metric, I'd argue that the KV-cache hit rate is the single most important metric for a production-stage AI agent…Keep your prompt prefix stable…Make your context append-only.За этим стоит понятное объяснение: закэшированные токены ускоряют инференс, снижая time-to-first-token (TTFT), у фронтир моделей почти всегда цена за токены в кэше сильно меньше, что очевидно очень важно для коммерческого продукта (пример с grok code выше). Но, проецируя описанные проблемы еще и на сценарий обучения моделей, я бы добавил один важный момент. Если у нас нарушается линейность траектории и в разных моментах контекст собирается по-разному (такое может быть часто, если мы начнем смотреть в сторону суммаризации предыдущей истории для экономии длины контекста), то мы столкнемся с проблемой во время обучения, а именно не сможем использовать всю multi-turn траекторию, чтобы обучаться на ней за раз. Вместо этого придется дробить ее на отдельные семплы, маскировать префикс и обучаться только на последнем действии, что катастрофически снижает sample efficiency тренировки. Так что нужно помнить, что должны быть действительно весомые причины, чтобы отойти от концепта append-only context. По этой же причине, кстати, неприятно тюнить гибридные модели qwen3, у которых манипуляции с <think> тегами происходят только на последнем шаге траектории.
❤14👍6🔥2
Вопрос к вам, дорогие читатели: в каких срезах вы считаете важным смотреть на поведение SWE агентов?
Сейчас на лидерборде https://swe-rebench.com мы замеряем способности моделей решать GitHub issues на питоне. Это покрывает лишь малую часть того, что мы понимаем под разработкой. Возможными шагами по расширению бенча могут быть:
- Оценка качества написания тестов (может ли модель написать тест, который падает до и проходит после правильного фикса?)
- Добавление множества языков (например, Java, Go, Rust, etc)
Хочу собрать фидбек на следующие темы:
- Считаете ли вы что-то из вышеперечисленного более приоритетным?
- Если говорить про мультиязычность, то какие языки интересны в первую очередь?
- Какие еще срезы вам кажутся важными в контексте замеров агентов?
Если у вас есть возможность порепостить аналогичный пост в X, то буду признателен. Хочется собрать максимально возможный фидбек от пользователей.
Сейчас на лидерборде https://swe-rebench.com мы замеряем способности моделей решать GitHub issues на питоне. Это покрывает лишь малую часть того, что мы понимаем под разработкой. Возможными шагами по расширению бенча могут быть:
- Оценка качества написания тестов (может ли модель написать тест, который падает до и проходит после правильного фикса?)
- Добавление множества языков (например, Java, Go, Rust, etc)
Хочу собрать фидбек на следующие темы:
- Считаете ли вы что-то из вышеперечисленного более приоритетным?
- Если говорить про мультиязычность, то какие языки интересны в первую очередь?
- Какие еще срезы вам кажутся важными в контексте замеров агентов?
Если у вас есть возможность порепостить аналогичный пост в X, то буду признателен. Хочется собрать максимально возможный фидбек от пользователей.
❤7
Forwarded from эйай ньюз
Nvidia Rubin CPX — чипы для ИИ всё более специализируются
Инференс современных LLM состоит из двух стадий: prefill и decoding, которые крайне отличаются по своим требованиям. Префил требует вычислительную мощность чтобы сгенерировать KV кэш, а для декодинга нужна пропускная способности памяти, чтобы грузить KV кэш и веса на чип.
Из-за такой разницы, на нодах которые занимаются префилом, простаивает самая дорогая часть современных датацентровых GPU — HBM память, которая сейчас составляет 50%+ всей стоимости GPU. К тому же она всё ещё в дефиците и является чуть ли не основным ограничителем производства видеокарточек.
Решение от Nvidia — сделать специальные, более дешёвые, карточки для префила. В качестве памяти — 128 гигабайт GDDR7 (против 288GB HBM4 у VR200), пропускной способность в 2 терабайта в секунду вполне достаточна для префила. Кроме этого экономят на других штуках вокруг чипа — вместо дефицитного CoWoS-L используют более бюджетный FC-BGA, а связываются карточки друг с другом по PCIe вместо NVLink.
Большой плюс — упаковать в одну стойку можно 144 таких видеокарты, против всего 72 GPU в NVL144. При этом такая стойка с Rubin CPX будет не просто иметь больше компьюта, но и кушать меньше энергии.
Так как префил в больших деплойментах и так делают на отдельных нодах, на высоком уровне мало что изменится — просто машины для префила переедут на специальное железо. Главный минус — такие GPU перекидывать между тренировкой и инференсом вряд-ли выйдет, но это явно будет компенсировано разницей в цене и доступности.
@ai_newz
Инференс современных LLM состоит из двух стадий: prefill и decoding, которые крайне отличаются по своим требованиям. Префил требует вычислительную мощность чтобы сгенерировать KV кэш, а для декодинга нужна пропускная способности памяти, чтобы грузить KV кэш и веса на чип.
Из-за такой разницы, на нодах которые занимаются префилом, простаивает самая дорогая часть современных датацентровых GPU — HBM память, которая сейчас составляет 50%+ всей стоимости GPU. К тому же она всё ещё в дефиците и является чуть ли не основным ограничителем производства видеокарточек.
Решение от Nvidia — сделать специальные, более дешёвые, карточки для префила. В качестве памяти — 128 гигабайт GDDR7 (против 288GB HBM4 у VR200), пропускной способность в 2 терабайта в секунду вполне достаточна для префила. Кроме этого экономят на других штуках вокруг чипа — вместо дефицитного CoWoS-L используют более бюджетный FC-BGA, а связываются карточки друг с другом по PCIe вместо NVLink.
Большой плюс — упаковать в одну стойку можно 144 таких видеокарты, против всего 72 GPU в NVL144. При этом такая стойка с Rubin CPX будет не просто иметь больше компьюта, но и кушать меньше энергии.
Так как префил в больших деплойментах и так делают на отдельных нодах, на высоком уровне мало что изменится — просто машины для префила переедут на специальное железо. Главный минус — такие GPU перекидывать между тренировкой и инференсом вряд-ли выйдет, но это явно будет компенсировано разницей в цене и доступности.
@ai_newz
❤6
Небольшой апдейт https://swe-rebench.com
Добавили 4 модели: Grok 4, Qwen3-Next-80B-A3B-Instruct, DeepSeek V3.1, Kimi-K2 0905
Из хайлайтов:
- Grok4 ворвался в верхнюю часть лидерборда
- Kimi K2 значительно прибавил и, помимо общего топа, теперь входит в топ3 опенсурс моделей
- DeepSeek шагнул вперед тоже, но не так сильно. Зато посмотрите, сколько теперь токенов он генерит
- Qwen3-Next выглядит очень неплохо для своих A3B, ждем кодер версию
Добавили 4 модели: Grok 4, Qwen3-Next-80B-A3B-Instruct, DeepSeek V3.1, Kimi-K2 0905
Из хайлайтов:
- Grok4 ворвался в верхнюю часть лидерборда
- Kimi K2 значительно прибавил и, помимо общего топа, теперь входит в топ3 опенсурс моделей
- DeepSeek шагнул вперед тоже, но не так сильно. Зато посмотрите, сколько теперь токенов он генерит
- Qwen3-Next выглядит очень неплохо для своих A3B, ждем кодер версию
🔥12