This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
👍19😁6❤5🔥4❤🔥2
Мы зарелизили первый датасет для software engineering agents! 🤖
В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.
Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.
Данные выложили на HuggingFace:
6.4k issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories
Блогпост с подробным описанием того, как собирали данные можно прочитать тут
В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.
Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.
Данные выложили на HuggingFace:
6.4k issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories
Блогпост с подробным описанием того, как собирали данные можно прочитать тут
huggingface.co
nebius/SWE-bench-extra · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥33❤🔥3👍3❤2😍2
Привет! Накопилась пара новостей, которыми буду тут плавно делиться! 👋
Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.
Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.
Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.
P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗
Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.
Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.
Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.
P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗
arXiv.org
SWE-rebench: An Automated Pipeline for Task Collection and...
LLM-based agents have shown promising capabilities in a growing range of software engineering (SWE) tasks. However, advancing this field faces two critical challenges. First, high-quality training...
🔥23👍13❤5
Привет! 🥗 🇨🇦 🤖 🇬🇧
сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее.
во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся!
во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз!
в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.
сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее.
во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся!
во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз!
в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.
arXiv.org
Guided Search Strategies in Non-Serializable Environments with...
Large language models (LLMs) have recently achieved remarkable results in complex multi-step tasks, such as mathematical reasoning and agentic software engineering. However, they often struggle to...
🔥39👍7❤6💘1
Привет! 🍁 🎉 📈 🏆
Сегодня — месячный апдейт за прошлый месяц. Пишу всё разом; если хотите детали – кидайте вопросы в комменты или личку.
во-первых, сгоняли на ICML: презентовали пейпер, забежали на social events и, по классике, в баню. Рад был со всеми увидеться! Летний Ванкувер, конечно, приятнее зимнего.
во-вторых, слетали на свадьбу к другу. Раскачали зал с нашей бандой стоматологов — не зря 5 лет двигались бок о бок.
в-третьих, вчера выложили статью: завели RL и подняли pass@1 у Qwen 2.5–72B-instruct с ~11% до ~39% (без дистилла из других моделей). Подробный разбор у Саши.
в-четвертых, зафиналим: SWE-rebench стал самым скачиваемым датасетом месяца на HuggingFace — 2.68 млн скачиваний (топ-1 из 467 930 датасетов!). Про него я писал пару прошлых постов. Спасибо всем, кто пользуется и шэрит! 🔥
К каждой новости — своя фотка ниже.
Сегодня — месячный апдейт за прошлый месяц. Пишу всё разом; если хотите детали – кидайте вопросы в комменты или личку.
во-первых, сгоняли на ICML: презентовали пейпер, забежали на social events и, по классике, в баню. Рад был со всеми увидеться! Летний Ванкувер, конечно, приятнее зимнего.
во-вторых, слетали на свадьбу к другу. Раскачали зал с нашей бандой стоматологов — не зря 5 лет двигались бок о бок.
в-третьих, вчера выложили статью: завели RL и подняли pass@1 у Qwen 2.5–72B-instruct с ~11% до ~39% (без дистилла из других моделей). Подробный разбор у Саши.
в-четвертых, зафиналим: SWE-rebench стал самым скачиваемым датасетом месяца на HuggingFace — 2.68 млн скачиваний (топ-1 из 467 930 датасетов!). Про него я писал пару прошлых постов. Спасибо всем, кто пользуется и шэрит! 🔥
К каждой новости — своя фотка ниже.
🔥30👍7❤3❤🔥1💯1
🏆 Наш SWE-rebench — ТОП-1 датасет в мире по скачиваниям на HuggingFace! 🚀
Рассказываю подробнее про эту новость из последнего месячного апдейта.
Есть такая платформа — HuggingFace. Самая популярная в мире площадка для релиза и хранения открытых моделей и датасетов.
В конце мая мы выложили туда свой датасет SWE-rebench вместе со статьей, про то, как собирали данные и как устроен наш бенчмарк для кодовых агентов. В день релиза статья стала #2 Paper of the day.
А дальше начался взрыв скачиваний самого датасета:
> за последние 30 дней ~ 2,7 млн скачиваний,
> всего с момента релиза ~ 3,5 млн.
У HuggingFace есть сортировка по количеству скачиваний за последние 30 дней — и там мы вышли на №1 из 467 930 датасетов. 🔥
Важно: под «скачиваниями» понимаются загрузки с уникального IP с интервалом не меньше 5 минут. На практике это значит, что несколько крупных ресёрч-лабораторий качают датасет и генерят себе данные для обучения на очень большом скейле, не сильно заморачиваясь с кэшированием. Про две такие лаборатории я знаю точно.
Короче, наш SWE-rebench реально используется для обучения кодовых агентов, и это очень круто видеть.
Еще я решил чаще писать про то, что делаю на работе — благо мы все публикуем в открытый доступ. Хочу активнее вести твиттер/X, туда буду кидать короткие форматы. Поэтому добавляйтесь, если там сидите!
Ну и сюда тоже продолжу писать про кодовых агентов и данные для них: тема специфичная, но, кому-то будет полезно и интересно.
Рассказываю подробнее про эту новость из последнего месячного апдейта.
Есть такая платформа — HuggingFace. Самая популярная в мире площадка для релиза и хранения открытых моделей и датасетов.
В конце мая мы выложили туда свой датасет SWE-rebench вместе со статьей, про то, как собирали данные и как устроен наш бенчмарк для кодовых агентов. В день релиза статья стала #2 Paper of the day.
А дальше начался взрыв скачиваний самого датасета:
> за последние 30 дней ~ 2,7 млн скачиваний,
> всего с момента релиза ~ 3,5 млн.
У HuggingFace есть сортировка по количеству скачиваний за последние 30 дней — и там мы вышли на №1 из 467 930 датасетов. 🔥
Важно: под «скачиваниями» понимаются загрузки с уникального IP с интервалом не меньше 5 минут. На практике это значит, что несколько крупных ресёрч-лабораторий качают датасет и генерят себе данные для обучения на очень большом скейле, не сильно заморачиваясь с кэшированием. Про две такие лаборатории я знаю точно.
Короче, наш SWE-rebench реально используется для обучения кодовых агентов, и это очень круто видеть.
Еще я решил чаще писать про то, что делаю на работе — благо мы все публикуем в открытый доступ. Хочу активнее вести твиттер/X, туда буду кидать короткие форматы. Поэтому добавляйтесь, если там сидите!
Ну и сюда тоже продолжу писать про кодовых агентов и данные для них: тема специфичная, но, кому-то будет полезно и интересно.
🔥46🎉10❤4❤🔥3👍1🤗1
Привет! 🎁📊🎒
Сделал к началу учебного года — небольшой подарок: открытый датасет 40 млн GitHub‑репозиториев.
Я давно ковыряю данные с GitHub, в том числе во время подготовки свежих задач для SWE-rebench.
И заметил, что полных публичных выгрузок с информацией по репоизториям почти нет: BigQuery даёт ~3 млн и урезанные поля; GitHub API быстро упирается в лимиты. Поэтому cобрал то, чего самому не хватало — делюсь, вдруг ещё кому жизнь упростит. Подробнее про то, как собирал можно прочитать в статье.
Если коротко, то: GH Archive → соединил события и извлёк метаданные репозиториев; срез: с 2015 года по середину июля 2025.
Что внутри
> 40 миллионов репозиториев в full и 1 миллион в sample сабсете для пробы;
> поля: язык, звёзды, форки, лицензия, краткое описание, язык описания, open issues, индекс последнего PR на дату среза, размер, created_at и др.;
> «живые» данные: есть пропуски, категориальные/числовые признаки, даты и короткий текст — удобно для EDA и учебных задач;
> Jupyter‑ноутбук для быстрого старта (базовые графики);
Ссылки.
HuggingFace
GitHub
Статья про сбор
Кому пригодится
Студентам, преподавателям, джунам — для мини‑исследований, визуализаций, поиска/кластеризации.
P.S.
У меня не очень много знакомых, кто преподает, но будет здорово если перешлете кому-то из ваших знакомых/преподавателей/студентов кому может быть полезно!
Если будут пожелания, то пишите сюда или в лс @ibragim_bad, в свободное время добавлю новые поля, которые могут быть интересны.
Сделал к началу учебного года — небольшой подарок: открытый датасет 40 млн GitHub‑репозиториев.
Я давно ковыряю данные с GitHub, в том числе во время подготовки свежих задач для SWE-rebench.
И заметил, что полных публичных выгрузок с информацией по репоизториям почти нет: BigQuery даёт ~3 млн и урезанные поля; GitHub API быстро упирается в лимиты. Поэтому cобрал то, чего самому не хватало — делюсь, вдруг ещё кому жизнь упростит. Подробнее про то, как собирал можно прочитать в статье.
Если коротко, то: GH Archive → соединил события и извлёк метаданные репозиториев; срез: с 2015 года по середину июля 2025.
Что внутри
> 40 миллионов репозиториев в full и 1 миллион в sample сабсете для пробы;
> поля: язык, звёзды, форки, лицензия, краткое описание, язык описания, open issues, индекс последнего PR на дату среза, размер, created_at и др.;
> «живые» данные: есть пропуски, категориальные/числовые признаки, даты и короткий текст — удобно для EDA и учебных задач;
> Jupyter‑ноутбук для быстрого старта (базовые графики);
Ссылки.
HuggingFace
GitHub
Статья про сбор
Кому пригодится
Студентам, преподавателям, джунам — для мини‑исследований, визуализаций, поиска/кластеризации.
P.S.
У меня не очень много знакомых, кто преподает, но будет здорово если перешлете кому-то из ваших знакомых/преподавателей/студентов кому может быть полезно!
Если будут пожелания, то пишите сюда или в лс @ibragim_bad, в свободное время добавлю новые поля, которые могут быть интересны.
🔥24❤🔥10👍3❤2
А это немного примеров визуализаций (есть в статье и на гитхабе). Интересно что там за скачок с количеством репозиториев в 2019-2020, особенно на js.
Если получится что-то (графики, аналитика) на базе данных, тоже скидывайте - опубликую!
Если получится что-то (графики, аналитика) на базе данных, тоже скидывайте - опубликую!
🔥16👍5💘3
На прошлой неделе мы обновили лидерборд SWE-rebench
Напоминаю, что каждый месяц мы берем свежие issue с гитхаба и с помощью нашего пайплайна собираем ~50 задач на которых прогоняем модели.
В этом месяце помимо новых данных еще:
> Добавили стоимость за прогон на одной таске, чтобы можно было сравнивать модели по цене
> Добавили возможность проверять каждую из задач, по кнопке inspect можно увидеть какой был оригинальный PR и issue, которую модели пытаются решить
> Из прикольного: из открытых моделей хорошо показал себя GLM-4.5. А grok code fast 1 с кэшированием очень дешевый для своего неплохого качества и быстрый (0.05$ за задачу)
Чуть больше инсайтов можно прочитать у Игоря тут и у Саши тут.
Еще добавлю ссылку на тред-анонс в X, который неплохо разошелся (34,000 просмотров). Теперь разные апдейты пощу туда тоже.
Напоминаю, что каждый месяц мы берем свежие issue с гитхаба и с помощью нашего пайплайна собираем ~50 задач на которых прогоняем модели.
В этом месяце помимо новых данных еще:
> Добавили стоимость за прогон на одной таске, чтобы можно было сравнивать модели по цене
> Добавили возможность проверять каждую из задач, по кнопке inspect можно увидеть какой был оригинальный PR и issue, которую модели пытаются решить
> Из прикольного: из открытых моделей хорошо показал себя GLM-4.5. А grok code fast 1 с кэшированием очень дешевый для своего неплохого качества и быстрый (0.05$ за задачу)
Чуть больше инсайтов можно прочитать у Игоря тут и у Саши тут.
Еще добавлю ссылку на тред-анонс в X, который неплохо разошелся (34,000 просмотров). Теперь разные апдейты пощу туда тоже.
Telegram
Сиолошная
В SWE-ReBench добавили 52 новых задачи за август, результаты по ним на первой картинке. Напомню, что это бенчмарк-аналог SWE-Bench, где задачи собираются с GitHub за последний месяц, и модели точно не могли видеть решения во время тренировки.
Claude Sonnet…
Claude Sonnet…
🔥9💘3👏2❤1
На прошлой неделе по в x/twitter и сегодня на Hacker News разошлась история про то, что модели читерят на SWE-bench, подглядывая будущие изменения репозитория.
Напомню суть задачи: есть докер контейнер в нем репозиторий на каком-то конкретном коммите и issue, который нужно решить модели (пофиксить баг). Причем в реальности этот issue уже был пофикшен в PR и именно тестами из этого PR мы проверяем, что модель пофиксила баг.
Как устроен «чит»:
В git команда git log по умолчанию показывает историю до текущего состояния. Но если добавить флаг --all, можно заглянуть в историю всех коммитов, том числе после текущего. И в будущем коммите уже будет фикс нужного бага (считай ответ). Тогда агенту достаточно «подсмотреть» подсказку и быстро прийти к правильному патчу.
Насколько это реально встречается:
В дискуссии по SWE-bench Verified приводят конкретные примеры: у Claude Sonnet-4 и у Qwen3-Coder встречались траектории, где git log --all подсказал направление решения или прямо показал фикс. Но таких траекторий очень мало (~5 из 10,000) так что на ранжирование моделей – это не влияет.
Что у нас на SWE-rebench:
Мы посмотрели свои траектории: модели действительно изредка вызывают git log (включая --all), но, как правило, чтобы найти PR, уже упомянутый в тексте issue (например, тот самый PR, который что-то сломал). Случаев читерства в наших выборках не нашли. Тем не менее сам факт существования такого loophole — повод постоянно шлифовать бенчмарки. Мы это и делаем на ежемесячных обновлениях: закрываем потенциальные щели и что-то улучшаем. Ну и как решение в образах удалить будущую историю коммитов и тэги.
Тут прикрепил скриншот с примером вызова git log у Claude Sonnet-4 на rebench и ссылку на обсуждение в swe-bench.
Оригинальный issue с обсуждением чита
Напомню суть задачи: есть докер контейнер в нем репозиторий на каком-то конкретном коммите и issue, который нужно решить модели (пофиксить баг). Причем в реальности этот issue уже был пофикшен в PR и именно тестами из этого PR мы проверяем, что модель пофиксила баг.
Как устроен «чит»:
В git команда git log по умолчанию показывает историю до текущего состояния. Но если добавить флаг --all, можно заглянуть в историю всех коммитов, том числе после текущего. И в будущем коммите уже будет фикс нужного бага (считай ответ). Тогда агенту достаточно «подсмотреть» подсказку и быстро прийти к правильному патчу.
Насколько это реально встречается:
В дискуссии по SWE-bench Verified приводят конкретные примеры: у Claude Sonnet-4 и у Qwen3-Coder встречались траектории, где git log --all подсказал направление решения или прямо показал фикс. Но таких траекторий очень мало (~5 из 10,000) так что на ранжирование моделей – это не влияет.
Что у нас на SWE-rebench:
Мы посмотрели свои траектории: модели действительно изредка вызывают git log (включая --all), но, как правило, чтобы найти PR, уже упомянутый в тексте issue (например, тот самый PR, который что-то сломал). Случаев читерства в наших выборках не нашли. Тем не менее сам факт существования такого loophole — повод постоянно шлифовать бенчмарки. Мы это и делаем на ежемесячных обновлениях: закрываем потенциальные щели и что-то улучшаем. Ну и как решение в образах удалить будущую историю коммитов и тэги.
Тут прикрепил скриншот с примером вызова git log у Claude Sonnet-4 на rebench и ссылку на обсуждение в swe-bench.
Оригинальный issue с обсуждением чита
👍23❤5