commit history – Telegram
commit history
3.4K subscribers
25 photos
7 videos
2 files
51 links
история моих коммитов про машинное обучение, карьеру и набитые шишки

@ibragim_bad
Download Telegram
Позавчера вернулся с NeurIPS, мне понравилось!

Я рассказывал о нашем агенте для решения issues в репозиториях. На базе только открытых моделей получилось выбить 40.6% на swe-bench verified, результат засабмитили месяц назад. Я построил выступление по нашему посту, который можно прочитать тут + добавил инфы о том, как собирали данные. Короткое описание блог поста можно прочитать у Саши, он делал критика для process и outcome supervision. А про данные: скоро выложим еще один блог пост и зарелизим сами данные, которые собрали, так что stay tuned как говорится!

Ниже прикрепляю небольшую пачку фото и видео материалов с нипса.
🔥21👍65❤‍🔥2🦄1
Мы зарелизили первый датасет для software engineering agents! 🤖

В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.

Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.

Данные выложили на HuggingFace:
6.4k issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories

Блогпост с подробным описанием того, как собирали данные можно прочитать тут
🔥33❤‍🔥3👍32😍2
Привет! Накопилась пара новостей, которыми буду тут плавно делиться! 👋

Первая, мы зарелизили SWE-rebench – увеличенную и улучшенную версию нашего прошлого датасета с задачами по решению issue из гихаба.

Одно из узких мест в подобных датасетах, это что в них не так много задач, которые вдобавок собраны из ограниченного набора репозиториев. Например, в оригинальном SWE-bench: 2,000+ задач из 18 репозиториев. В основном, это происходит из-за того, что каждый проект исследователи устанавливали вручную и потом собирали задачи. Мы автоматизировали и заскейлили этот процесс, поэтому собрали 21,000+ задач из 3400+ репозиториев.

Подробный тех репорт можно прочитать на arxiv. Сабсет этого датасета, мы использовали, чтобы сделать наш лидерборд SWE-rebench, про который писал Саша.

P.S. Еще мы сегодня засабмитили статью на daily paper в HuggingFace, если вдруг у вас там есть аккаунт, буду благодарен за upvote! 🤗
🔥23👍135
Привет! 🥗 🇨🇦 🤖 🇬🇧

сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее.

во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся!

во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз!

в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.
🔥39👍76💘1
Привет! 🍁 🎉 📈 🏆

Сегодня — месячный апдейт за прошлый месяц. Пишу всё разом; если хотите детали – кидайте вопросы в комменты или личку.

во-первых, сгоняли на ICML: презентовали пейпер, забежали на social events и, по классике, в баню. Рад был со всеми увидеться! Летний Ванкувер, конечно, приятнее зимнего.

во-вторых, слетали на свадьбу к другу. Раскачали зал с нашей бандой стоматологов — не зря 5 лет двигались бок о бок.

в-третьих, вчера выложили статью: завели RL и подняли pass@1 у Qwen 2.5–72B-instruct с ~11% до ~39% (без дистилла из других моделей). Подробный разбор у Саши.

в-четвертых, зафиналим: SWE-rebench стал самым скачиваемым датасетом месяца на HuggingFace — 2.68 млн скачиваний (топ-1 из 467 930 датасетов!). Про него я писал пару прошлых постов. Спасибо всем, кто пользуется и шэрит! 🔥

К каждой новости — своя фотка ниже.
🔥30👍73❤‍🔥1💯1
🔥26❤‍🔥4
🏆 Наш SWE-rebench — ТОП-1 датасет в мире по скачиваниям на HuggingFace! 🚀

Рассказываю подробнее про эту новость из последнего месячного апдейта.

Есть такая платформа — HuggingFace. Самая популярная в мире площадка для релиза и хранения открытых моделей и датасетов.
В конце мая мы выложили туда свой датасет SWE-rebench вместе со статьей, про то, как собирали данные и как устроен наш бенчмарк для кодовых агентов. В день релиза статья стала #2 Paper of the day.

А дальше начался взрыв скачиваний самого датасета:
> за последние 30 дней ~ 2,7 млн скачиваний,
> всего с момента релиза ~ 3,5 млн.

У HuggingFace есть сортировка по количеству скачиваний за последние 30 дней — и там мы вышли на №1 из 467 930 датасетов. 🔥

Важно: под «скачиваниями» понимаются загрузки с уникального IP с интервалом не меньше 5 минут. На практике это значит, что несколько крупных ресёрч-лабораторий качают датасет и генерят себе данные для обучения на очень большом скейле, не сильно заморачиваясь с кэшированием. Про две такие лаборатории я знаю точно.
Короче, наш SWE-rebench реально используется для обучения кодовых агентов, и это очень круто видеть. 

Еще я решил чаще писать про то, что делаю на работе — благо мы все публикуем в открытый доступ. Хочу активнее вести твиттер/X, туда буду кидать короткие форматы. Поэтому добавляйтесь, если там сидите!

Ну и сюда тоже продолжу писать про кодовых агентов и данные для них: тема специфичная, но, кому-то будет полезно и интересно.
🔥46🎉104❤‍🔥3👍1🤗1
Привет! 🎁📊🎒

Сделал к началу учебного года — небольшой подарок: открытый датасет 40 млн GitHub‑репозиториев.

Я давно ковыряю данные с GitHub, в том числе во время подготовки свежих задач для SWE-rebench.

И заметил, что полных публичных выгрузок с информацией по репоизториям почти нет: BigQuery даёт ~3 млн и урезанные поля; GitHub API быстро упирается в лимиты. Поэтому cобрал то, чего самому не хватало — делюсь, вдруг ещё кому жизнь упростит. Подробнее про то, как собирал можно прочитать в статье.
Если коротко, то: GH Archive → соединил события и извлёк метаданные репозиториев; срез: с 2015 года по середину июля 2025.

Что внутри
> 40 миллионов репозиториев в full и 1 миллион в sample сабсете для пробы;
> поля: язык, звёзды, форки, лицензия, краткое описание, язык описания, open issues, индекс последнего PR на дату среза, размер, created_at и др.;
> «живые» данные: есть пропуски, категориальные/числовые признаки, даты и короткий текст — удобно для EDA и учебных задач;
> Jupyter‑ноутбук для быстрого старта (базовые графики);

Ссылки.
HuggingFace
GitHub
Статья про сбор

Кому пригодится
Студентам, преподавателям, джунам — для мини‑исследований, визуализаций, поиска/кластеризации. 

P.S.
У меня не очень много знакомых, кто преподает, но будет здорово если перешлете кому-то из ваших знакомых/преподавателей/студентов кому может быть полезно!

Если будут пожелания, то пишите сюда или в лс @ibragim_bad, в свободное время добавлю новые поля, которые могут быть интересны.
🔥24❤‍🔥10👍32
А это немного примеров визуализаций (есть в статье и на гитхабе). Интересно что там за скачок с количеством репозиториев в 2019-2020, особенно на js.

Если получится что-то (графики, аналитика) на базе данных, тоже скидывайте - опубликую!
🔥16👍5💘3