NEW BOT Телеграм, страница

👍19😁6❤5🔥4❤‍🔥2

4.1K views18:29

Мы зарелизили первый датасет для software engineering agents! 🤖

В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.

Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.

Данные выложили на HuggingFace:
6.4k issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories

Блогпост с подробным описанием того, как собирали данные можно прочитать тут

huggingface.co

nebius/SWE-bench-extra · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥33❤‍🔥3👍3❤2😍2

20.6K viewsedited 13:43

commit history

Привет! Накопилась пара новостей, которыми буду тут плавно делиться! 👋

Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.

Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.

Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.

P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗

arXiv.org

SWE-rebench: An Automated Pipeline for Task Collection and...

LLM-based agents have shown promising capabilities in a growing range of software engineering (SWE) tasks. However, advancing this field faces two critical challenges. First, high-quality training...

🔥23👍13❤5

14.8K views10:18

commit history

Привет! 🥗 🇨🇦 🤖 🇬🇧

сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее.

во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся!

во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз!

в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.

arXiv.org

Guided Search Strategies in Non-Serializable Environments with...

Large language models (LLMs) have recently achieved remarkable results in complex multi-step tasks, such as mathematical reasoning and agentic software engineering. However, they often struggle to...

🔥39👍7❤6💘1

7.67K viewsedited 12:40

commit history

Привет! 🍁 🎉 📈 🏆

Сегодня — месячный апдейт за прошлый месяц. Пишу всё разом; если хотите детали – кидайте вопросы в комменты или личку.

во-первых, сгоняли на ICML: презентовали пейпер, забежали на social events и, по классике, в баню. Рад был со всеми увидеться! Летний Ванкувер, конечно, приятнее зимнего.

во-вторых, слетали на свадьбу к другу. Раскачали зал с нашей бандой стоматологов — не зря 5 лет двигались бок о бок.

в-третьих, вчера выложили статью: завели RL и подняли pass@1 у Qwen 2.5–72B-instruct с ~11% до ~39% (без дистилла из других моделей). Подробный разбор у Саши.

в-четвертых, зафиналим: SWE-rebench стал самым скачиваемым датасетом месяца на HuggingFace — 2.68 млн скачиваний (топ-1 из 467 930 датасетов!). Про него я писал пару прошлых постов. Спасибо всем, кто пользуется и шэрит! 🔥

К каждой новости — своя фотка ниже.

🔥30👍7❤3❤‍🔥1💯1

3.45K views13:12

commit history

🔥26❤‍🔥4

3.91K views13:12

commit history

🏆 Наш SWE-rebench — ТОП-1 датасет в мире по скачиваниям на HuggingFace! 🚀

Рассказываю подробнее про эту новость из последнего месячного апдейта.

Есть такая платформа — HuggingFace. Самая популярная в мире площадка для релиза и хранения открытых моделей и датасетов.
В конце мая мы выложили туда свой датасет SWE-rebench вместе со статьей, про то, как собирали данные и как устроен наш бенчмарк для кодовых агентов. В день релиза статья стала #2 Paper of the day.

А дальше начался взрыв скачиваний самого датасета:
> за последние 30 дней ~ 2,7 млн скачиваний,
> всего с момента релиза ~ 3,5 млн.

У HuggingFace есть сортировка по количеству скачиваний за последние 30 дней — и там мы вышли на №1 из 467 930 датасетов. 🔥

Важно: под «скачиваниями» понимаются загрузки с уникального IP с интервалом не меньше 5 минут. На практике это значит, что несколько крупных ресёрч-лабораторий качают датасет и генерят себе данные для обучения на очень большом скейле, не сильно заморачиваясь с кэшированием. Про две такие лаборатории я знаю точно.
Короче, наш SWE-rebench реально используется для обучения кодовых агентов, и это очень круто видеть.

Еще я решил чаще писать про то, что делаю на работе — благо мы все публикуем в открытый доступ. Хочу активнее вести твиттер/X, туда буду кидать короткие форматы. Поэтому добавляйтесь, если там сидите!

Ну и сюда тоже продолжу писать про кодовых агентов и данные для них: тема специфичная, но, кому-то будет полезно и интересно.

🔥46🎉10❤4❤‍🔥3👍1🤗1

15.9K viewsedited 15:18

commit history

Привет! 🎁📊🎒

Сделал к началу учебного года — небольшой подарок: открытый датасет 40 млн GitHub‑репозиториев.

Я давно ковыряю данные с GitHub, в том числе во время подготовки свежих задач для SWE-rebench.

И заметил, что полных публичных выгрузок с информацией по репоизториям почти нет: BigQuery даёт ~3 млн и урезанные поля; GitHub API быстро упирается в лимиты. Поэтому cобрал то, чего самому не хватало — делюсь, вдруг ещё кому жизнь упростит. Подробнее про то, как собирал можно прочитать в статье.
Если коротко, то: GH Archive → соединил события и извлёк метаданные репозиториев; срез: с 2015 года по середину июля 2025.

Что внутри
> 40 миллионов репозиториев в full и 1 миллион в sample сабсете для пробы;
> поля: язык, звёзды, форки, лицензия, краткое описание, язык описания, open issues, индекс последнего PR на дату среза, размер, created_at и др.;
> «живые» данные: есть пропуски, категориальные/числовые признаки, даты и короткий текст — удобно для EDA и учебных задач;
> Jupyter‑ноутбук для быстрого старта (базовые графики);

Ссылки.
HuggingFace
GitHub
Статья про сбор

Кому пригодится
Студентам, преподавателям, джунам — для мини‑исследований, визуализаций, поиска/кластеризации.

P.S.
У меня не очень много знакомых, кто преподает, но будет здорово если перешлете кому-то из ваших знакомых/преподавателей/студентов кому может быть полезно!

Если будут пожелания, то пишите сюда или в лс @ibragim_bad, в свободное время добавлю новые поля, которые могут быть интересны.

🔥24❤‍🔥10👍3❤2

7.46K views15:42

commit history

А это немного примеров визуализаций (есть в статье и на гитхабе). Интересно что там за скачок с количеством репозиториев в 2019-2020, особенно на js.

Если получится что-то (графики, аналитика) на базе данных, тоже скидывайте - опубликую!

🔥16👍5💘3

3.36K views15:42

commit history

На прошлой неделе мы обновили лидерборд SWE-rebench

Напоминаю, что каждый месяц мы берем свежие issue с гитхаба и с помощью нашего пайплайна собираем ~50 задач на которых прогоняем модели.

В этом месяце помимо новых данных еще:

> Добавили стоимость за прогон на одной таске, чтобы можно было сравнивать модели по цене

> Добавили возможность проверять каждую из задач, по кнопке inspect можно увидеть какой был оригинальный PR и issue, которую модели пытаются решить

> Из прикольного: из открытых моделей хорошо показал себя GLM-4.5. А grok code fast 1 с кэшированием очень дешевый для своего неплохого качества и быстрый (0.05$ за задачу)

Чуть больше инсайтов можно прочитать у Игоря тут и у Саши тут.

Еще добавлю ссылку на тред-анонс в X, который неплохо разошелся (34,000 просмотров). Теперь разные апдейты пощу туда тоже.

Сиолошная

В SWE-ReBench добавили 52 новых задачи за август, результаты по ним на первой картинке. Напомню, что это бенчмарк-аналог SWE-Bench, где задачи собираются с GitHub за последний месяц, и модели точно не могли видеть решения во время тренировки.

Claude Sonnet…

🔥9💘3👏2❤1

11.4K views17:06

commit history

На прошлой неделе по в x/twitter и сегодня на Hacker News разошлась история про то, что модели читерят на SWE-bench, подглядывая будущие изменения репозитория.

Напомню суть задачи: есть докер контейнер в нем репозиторий на каком-то конкретном коммите и issue, который нужно решить модели (пофиксить баг). Причем в реальности этот issue уже был пофикшен в PR и именно тестами из этого PR мы проверяем, что модель пофиксила баг.

Как устроен «чит»:
В git команда git log по умолчанию показывает историю до текущего состояния. Но если добавить флаг --all, можно заглянуть в историю всех коммитов, том числе после текущего. И в будущем коммите уже будет фикс нужного бага (считай ответ). Тогда агенту достаточно «подсмотреть» подсказку и быстро прийти к правильному патчу.

Насколько это реально встречается:
В дискуссии по SWE-bench Verified приводят конкретные примеры: у Claude Sonnet-4 и у Qwen3-Coder встречались траектории, где git log --all подсказал направление решения или прямо показал фикс. Но таких траекторий очень мало (~5 из 10,000) так что на ранжирование моделей – это не влияет.

Что у нас на SWE-rebench:
Мы посмотрели свои траектории: модели действительно изредка вызывают git log (включая --all), но, как правило, чтобы найти PR, уже упомянутый в тексте issue (например, тот самый PR, который что-то сломал). Случаев читерства в наших выборках не нашли. Тем не менее сам факт существования такого loophole — повод постоянно шлифовать бенчмарки. Мы это и делаем на ежемесячных обновлениях: закрываем потенциальные щели и что-то улучшаем. Ну и как решение в образах удалить будущую историю коммитов и тэги.

Тут прикрепил скриншот с примером вызова git log у Claude Sonnet-4 на rebench и ссылку на обсуждение в swe-bench.

Оригинальный issue с обсуждением чита

👍23❤5

3.22K views13:04

commit history

SWE-rebench приняли на NeurIPS 2025🔥

NeurIPS – одна из самых престижных конференций по ML и AI, мы подались на трек для бенчмарков и датасетов (так как наша статья про бенчмарк и датасет) – и сегодня опубликовали вердикт, что нашу статью приняли со средней оценкой 4.75! (Приняли около 24% всех поданных статей).

Конференция будет в Сан – Диего (для обладателей визы в Америку) и в Мехико (для необладателей визы).

Основной текст статьи был написан методом марш-броска в течение двух недель нами с Сашей с подачи и под руководством нашего head of AI на тот момент Бори.

Практику написания статей за две недели: не рекомендую
Практику подачи статей на конфы: рекомендую!

Статья на arxiv

🔥34❤16❤‍🔥1👍1💘1

3.45K views17:49

commit history

На NeurIPS 2024 я познакомился с Lingming Zhang из Университета Иллинойса. Он тоже занимается LLM4Code и соавтор нескольких известных в нашей теме статей — например, EvalPlus и agentless. Из свежего — Code World Model от FAIR.

Недавно он позвал меня выступить в их университете и рассказать о нашей работе и пообсуждать кодовых агентов. Я люблю выступать, но не люблю собирать слайды: раньше открывал Google Slides, делал минималистичный дизайн — и всё равно уходила куча времени. В этот раз решил автоматизировать процесс – и мне понравился результат.

Я закинул pdf нашей статьи (39 страниц) в Claude и ChatGPT с задачей «собери презентацию». Обе справились со структурой, но Claude собрал демо-презентацию на TypeScript с артефактом для просмотра прямо в чате. Вот что получилось.

Дальше я создал папку с этим tsx-файлом, добавил скриншоты из корпоративного шаблона презентаций и попросил codex поменять дизайн под корпоративный формат и собрать проект, чтобы я мог запустить его локально. Сделал пару итераций для шлифовки — и всё.

Итог: ни одного слайда руками, текст не правил (хотя при необходимости удобно править прямо в коде). Плюс это обычная вкладка в браузере — во время шеренга удобно переключаться на соседние табы, показывать данные или сайт нашего лидерборда. Для иллюстрации прикрепляю примеры слайдов.

🔥43❤5❤‍🔥4👍2😱1💩1

2.82K views15:50

About

Blog

Apps

Platform