NEW BOT Телеграм, страница

commit history

Привет! 🥗 🇨🇦 🤖 🇬🇧

сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее.

во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся!

во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз!

в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.

arXiv.org

Guided Search Strategies in Non-Serializable Environments with...

Large language models (LLMs) have recently achieved remarkable results in complex multi-step tasks, such as mathematical reasoning and agentic software engineering. However, they often struggle to...

🔥39👍7❤6💘1

7.67K viewsedited 12:40

commit history

Привет! 🍁 🎉 📈 🏆

Сегодня — месячный апдейт за прошлый месяц. Пишу всё разом; если хотите детали – кидайте вопросы в комменты или личку.

во-первых, сгоняли на ICML: презентовали пейпер, забежали на social events и, по классике, в баню. Рад был со всеми увидеться! Летний Ванкувер, конечно, приятнее зимнего.

во-вторых, слетали на свадьбу к другу. Раскачали зал с нашей бандой стоматологов — не зря 5 лет двигались бок о бок.

в-третьих, вчера выложили статью: завели RL и подняли pass@1 у Qwen 2.5–72B-instruct с ~11% до ~39% (без дистилла из других моделей). Подробный разбор у Саши.

в-четвертых, зафиналим: SWE-rebench стал самым скачиваемым датасетом месяца на HuggingFace — 2.68 млн скачиваний (топ-1 из 467 930 датасетов!). Про него я писал пару прошлых постов. Спасибо всем, кто пользуется и шэрит! 🔥

К каждой новости — своя фотка ниже.

🔥30👍7❤3❤‍🔥1💯1

3.45K views13:12

commit history

🔥26❤‍🔥4

3.91K views13:12

commit history

🏆 Наш SWE-rebench — ТОП-1 датасет в мире по скачиваниям на HuggingFace! 🚀

Рассказываю подробнее про эту новость из последнего месячного апдейта.

Есть такая платформа — HuggingFace. Самая популярная в мире площадка для релиза и хранения открытых моделей и датасетов.
В конце мая мы выложили туда свой датасет SWE-rebench вместе со статьей, про то, как собирали данные и как устроен наш бенчмарк для кодовых агентов. В день релиза статья стала #2 Paper of the day.

А дальше начался взрыв скачиваний самого датасета:
> за последние 30 дней ~ 2,7 млн скачиваний,
> всего с момента релиза ~ 3,5 млн.

У HuggingFace есть сортировка по количеству скачиваний за последние 30 дней — и там мы вышли на №1 из 467 930 датасетов. 🔥

Важно: под «скачиваниями» понимаются загрузки с уникального IP с интервалом не меньше 5 минут. На практике это значит, что несколько крупных ресёрч-лабораторий качают датасет и генерят себе данные для обучения на очень большом скейле, не сильно заморачиваясь с кэшированием. Про две такие лаборатории я знаю точно.
Короче, наш SWE-rebench реально используется для обучения кодовых агентов, и это очень круто видеть.

Еще я решил чаще писать про то, что делаю на работе — благо мы все публикуем в открытый доступ. Хочу активнее вести твиттер/X, туда буду кидать короткие форматы. Поэтому добавляйтесь, если там сидите!

Ну и сюда тоже продолжу писать про кодовых агентов и данные для них: тема специфичная, но, кому-то будет полезно и интересно.

🔥46🎉10❤4❤‍🔥3👍1🤗1

15.9K viewsedited 15:18

commit history

Привет! 🎁📊🎒

Сделал к началу учебного года — небольшой подарок: открытый датасет 40 млн GitHub‑репозиториев.

Я давно ковыряю данные с GitHub, в том числе во время подготовки свежих задач для SWE-rebench.

И заметил, что полных публичных выгрузок с информацией по репоизториям почти нет: BigQuery даёт ~3 млн и урезанные поля; GitHub API быстро упирается в лимиты. Поэтому cобрал то, чего самому не хватало — делюсь, вдруг ещё кому жизнь упростит. Подробнее про то, как собирал можно прочитать в статье.
Если коротко, то: GH Archive → соединил события и извлёк метаданные репозиториев; срез: с 2015 года по середину июля 2025.

Что внутри
> 40 миллионов репозиториев в full и 1 миллион в sample сабсете для пробы;
> поля: язык, звёзды, форки, лицензия, краткое описание, язык описания, open issues, индекс последнего PR на дату среза, размер, created_at и др.;
> «живые» данные: есть пропуски, категориальные/числовые признаки, даты и короткий текст — удобно для EDA и учебных задач;
> Jupyter‑ноутбук для быстрого старта (базовые графики);

Ссылки.
HuggingFace
GitHub
Статья про сбор

Кому пригодится
Студентам, преподавателям, джунам — для мини‑исследований, визуализаций, поиска/кластеризации.

P.S.
У меня не очень много знакомых, кто преподает, но будет здорово если перешлете кому-то из ваших знакомых/преподавателей/студентов кому может быть полезно!

Если будут пожелания, то пишите сюда или в лс @ibragim_bad, в свободное время добавлю новые поля, которые могут быть интересны.

🔥24❤‍🔥10👍3❤2

7.46K views15:42

commit history

А это немного примеров визуализаций (есть в статье и на гитхабе). Интересно что там за скачок с количеством репозиториев в 2019-2020, особенно на js.

Если получится что-то (графики, аналитика) на базе данных, тоже скидывайте - опубликую!

🔥16👍5💘3

3.36K views15:42

commit history

На прошлой неделе мы обновили лидерборд SWE-rebench

Напоминаю, что каждый месяц мы берем свежие issue с гитхаба и с помощью нашего пайплайна собираем ~50 задач на которых прогоняем модели.

В этом месяце помимо новых данных еще:

> Добавили стоимость за прогон на одной таске, чтобы можно было сравнивать модели по цене

> Добавили возможность проверять каждую из задач, по кнопке inspect можно увидеть какой был оригинальный PR и issue, которую модели пытаются решить

> Из прикольного: из открытых моделей хорошо показал себя GLM-4.5. А grok code fast 1 с кэшированием очень дешевый для своего неплохого качества и быстрый (0.05$ за задачу)

Чуть больше инсайтов можно прочитать у Игоря тут и у Саши тут.

Еще добавлю ссылку на тред-анонс в X, который неплохо разошелся (34,000 просмотров). Теперь разные апдейты пощу туда тоже.

Сиолошная

В SWE-ReBench добавили 52 новых задачи за август, результаты по ним на первой картинке. Напомню, что это бенчмарк-аналог SWE-Bench, где задачи собираются с GitHub за последний месяц, и модели точно не могли видеть решения во время тренировки.

Claude Sonnet…

🔥9💘3👏2❤1

11.4K views17:06

commit history

На прошлой неделе по в x/twitter и сегодня на Hacker News разошлась история про то, что модели читерят на SWE-bench, подглядывая будущие изменения репозитория.

Напомню суть задачи: есть докер контейнер в нем репозиторий на каком-то конкретном коммите и issue, который нужно решить модели (пофиксить баг). Причем в реальности этот issue уже был пофикшен в PR и именно тестами из этого PR мы проверяем, что модель пофиксила баг.

Как устроен «чит»:
В git команда git log по умолчанию показывает историю до текущего состояния. Но если добавить флаг --all, можно заглянуть в историю всех коммитов, том числе после текущего. И в будущем коммите уже будет фикс нужного бага (считай ответ). Тогда агенту достаточно «подсмотреть» подсказку и быстро прийти к правильному патчу.

Насколько это реально встречается:
В дискуссии по SWE-bench Verified приводят конкретные примеры: у Claude Sonnet-4 и у Qwen3-Coder встречались траектории, где git log --all подсказал направление решения или прямо показал фикс. Но таких траекторий очень мало (~5 из 10,000) так что на ранжирование моделей – это не влияет.

Что у нас на SWE-rebench:
Мы посмотрели свои траектории: модели действительно изредка вызывают git log (включая --all), но, как правило, чтобы найти PR, уже упомянутый в тексте issue (например, тот самый PR, который что-то сломал). Случаев читерства в наших выборках не нашли. Тем не менее сам факт существования такого loophole — повод постоянно шлифовать бенчмарки. Мы это и делаем на ежемесячных обновлениях: закрываем потенциальные щели и что-то улучшаем. Ну и как решение в образах удалить будущую историю коммитов и тэги.

Тут прикрепил скриншот с примером вызова git log у Claude Sonnet-4 на rebench и ссылку на обсуждение в swe-bench.

Оригинальный issue с обсуждением чита

👍23❤5

3.22K views13:04

commit history

SWE-rebench приняли на NeurIPS 2025🔥

NeurIPS – одна из самых престижных конференций по ML и AI, мы подались на трек для бенчмарков и датасетов (так как наша статья про бенчмарк и датасет) – и сегодня опубликовали вердикт, что нашу статью приняли со средней оценкой 4.75! (Приняли около 24% всех поданных статей).

Конференция будет в Сан – Диего (для обладателей визы в Америку) и в Мехико (для необладателей визы).

Основной текст статьи был написан методом марш-броска в течение двух недель нами с Сашей с подачи и под руководством нашего head of AI на тот момент Бори.

Практику написания статей за две недели: не рекомендую
Практику подачи статей на конфы: рекомендую!

Статья на arxiv

🔥34❤16❤‍🔥1👍1💘1

3.45K views17:49

commit history

На NeurIPS 2024 я познакомился с Lingming Zhang из Университета Иллинойса. Он тоже занимается LLM4Code и соавтор нескольких известных в нашей теме статей — например, EvalPlus и agentless. Из свежего — Code World Model от FAIR.

Недавно он позвал меня выступить в их университете и рассказать о нашей работе и пообсуждать кодовых агентов. Я люблю выступать, но не люблю собирать слайды: раньше открывал Google Slides, делал минималистичный дизайн — и всё равно уходила куча времени. В этот раз решил автоматизировать процесс – и мне понравился результат.

Я закинул pdf нашей статьи (39 страниц) в Claude и ChatGPT с задачей «собери презентацию». Обе справились со структурой, но Claude собрал демо-презентацию на TypeScript с артефактом для просмотра прямо в чате. Вот что получилось.

Дальше я создал папку с этим tsx-файлом, добавил скриншоты из корпоративного шаблона презентаций и попросил codex поменять дизайн под корпоративный формат и собрать проект, чтобы я мог запустить его локально. Сделал пару итераций для шлифовки — и всё.

Итог: ни одного слайда руками, текст не правил (хотя при необходимости удобно править прямо в коде). Плюс это обычная вкладка в браузере — во время шеренга удобно переключаться на соседние табы, показывать данные или сайт нашего лидерборда. Для иллюстрации прикрепляю примеры слайдов.

🔥43❤5❤‍🔥4👍2😱1💩1

2.82K views15:50

commit history

Вот вам пятничная история про статьи и Google Scholar.

В универе у нас была система стипендий: есть набор активностей, за каждую — по +3к ₽. Сдал всё на «5ки» — +3к, творческий диплом — +3к, научная публикация — ещё +3к и т.д. Логика понятная: закрываешь нужный минимум по каждому из ~5 критериев — набегает норм стипа.

Это была одна из причин, почему я начал делать по публикации каждый семестр со своим науч руком. Мы брали междисциплинарные темы с гуманитарными науками, чтобы выбирать из большего числа журналов и потому что там не требовались эксперименты. Потом я медитировал над пачкой статей и выдавал публикацию.

Параллельно я завёл Google Scholar (там до сих пор фото с 5 курса), куда теперь сваливается все мои статьи. В итоге в профиле получился микс: от этики в стоматологии – до RL для кодовых агентов.

Забавно, но те давние статьи цитируют. И до появления SWE-rebench в топе долго оставался абсолютный бэнгер из «Вестника психиатрии Чувашии».

Прикрепляю скрин топа и профиль на Google Scholar.

😁47👍10🔥9🤣4❤2🕊2👎1

2.11K views11:40

commit history

Forwarded from max.sh

Последние несколько недель плотно работал с terminal-bench. За названием кроется сразу очень много вещей. Это и бенчмарк, и агент, и фреймворк для создания среды, где эти самые агенты могут работать над задачами.

В этом тексте как раз про последнее - про инструменты для создания среды. Сейчас это еще все называют execution harness.

Что это вообще такое? Допустим, у вас есть набор задач, и вы хотите протестировать какого-нибудь готового агента типа Claude Code или Codex (или даже своего) на то, как он справляется с этими задачами.

Чтобы такое дело провернуть, нужно понаписать немалое количество инфраструктурного кода, чтобы:
а) упаковать ваши подготовленные задачи в среду, где их можно будет изолированно решать (как правило, докер-контейнеры);
b) установить нужных агентов и/или предоставить весь необходимый скаффолдинг (если тестируете своего агента);
с) подготовить отдельную среду, в которой будет запускаться решение агента и как-то оцениваться (например, скрытыми автотестами);
d) ну и наконец, нужно хранить все возможные логи, чтобы потом можно было проанализировать все возможные паттерны;
e) а, и конечно, чтобы все это легко запускалось, каждую задачу можно было перезапускать по N раз и в идеале — легко масштабировалось.

С одной стороны, все это можно реализовать самому. Но это довольно долго и с множеством подводных камней.

Поэтому зачем, когда есть terminal-bench? На мой взгляд, у ребят получился простой, элегантный и масштабируемый фреймворк, который просто работает из коробки в несколько команд. С вас только подготовить все запускалки (докерфайлы для создания окружения и скрипты, как тестировать решение). Каждая задача - то вот такая структур. Подробный гайд есть тут . И реализовать своего агента, если нужно. Либо взять готовые интеграции из коробки - все популярные агенты уже доступны, подставляйте только API-ключи. Можно и их кастомно переделать под себя.

А потом запускаемся:


tb run \
    --dataset terminal-bench-core==head \
    --agent claude-code \
    --task-id hello-world

Все инструменты для отладки тоже есть; ещё и интерактивные сессии реализованы, если хочется симулировать какое-то определённое поведение пользователя при работе с агентом.

По впечатлениям - восторг. От опенсорсных решений давно такого не было. Все нужды, чтобы гонять своих агентов в режиме SWE-Bench задач (есть issue, просим агента сделать, делает, проверяем юнит-тестами) закрывает. Кстати, некоторое количество популярных бенчей тоже интегрировано.

И еще раз: terminal-bench предоставляет среду, чтобы можно было не париться с возней по запуску и логированию. Самое сложное – это подготовить задачи и сценарии. Это уже на вас.

Terminal-Bench

A benchmark for terminal agents

❤‍🔥7👍3🤩2❤1🤮1

2.13K views15:34

commit history

Последние месяцы заметно вырос интерес к средам обучения с подкреплением (RL environments) и к сбору проверяемых задач. Вот например, заметка в TechCrunch про рост инетереса.

Одна из проблем масштабирования таких задач — у каждого датасета и бенчмарка свой репозиторий с кодом оценки и свой формат. Чтобы запустить агента на любом бенчмарке, приходится разбираться в скриптах, вносить правки и писать адаптеры.

У terminal-bench как раз есть единый удобный формат и готовые адаптеры для популярных наборов задач. Подробности – в разборе Макса, который я репостнул.

Вообще, я рекомендую канал Макса. Он тоже живёт в Лондоне, занимается кодовыми агентами + у него есть пара постов про собесы в фаанги на ml позиции: какие задают вопросы и какие диапазоны офферов.

👍10❤‍🔥4❤2⚡2

2.9K viewsedited 15:34

About

Blog

Apps

Platform