commit history – Telegram
commit history
3.41K subscribers
25 photos
7 videos
2 files
51 links
история моих коммитов про машинное обучение, карьеру и набитые шишки

@ibragim_bad
Download Telegram
А это немного примеров визуализаций (есть в статье и на гитхабе). Интересно что там за скачок с количеством репозиториев в 2019-2020, особенно на js.

Если получится что-то (графики, аналитика) на базе данных, тоже скидывайте - опубликую!
🔥16👍5💘3
На прошлой неделе мы обновили лидерборд SWE-rebench

Напоминаю, что каждый месяц мы берем свежие issue с гитхаба и с помощью нашего пайплайна собираем ~50 задач на которых прогоняем модели.

В этом месяце помимо новых данных еще:

> Добавили стоимость за прогон на одной таске, чтобы можно было сравнивать модели по цене

> Добавили возможность проверять каждую из задач, по кнопке inspect можно увидеть какой был оригинальный PR и issue, которую модели пытаются решить

> Из прикольного: из открытых моделей хорошо показал себя GLM-4.5. А grok code fast 1 с кэшированием очень дешевый для своего неплохого качества и быстрый (0.05$ за задачу)

Чуть больше инсайтов можно прочитать у Игоря тут и у Саши тут.

Еще добавлю ссылку на тред-анонс в X, который неплохо разошелся (34,000 просмотров). Теперь разные апдейты пощу туда тоже.
🔥9💘3👏21
На прошлой неделе по в x/twitter и сегодня на Hacker News разошлась история про то, что модели читерят на SWE-bench, подглядывая будущие изменения репозитория.

Напомню суть задачи: есть докер контейнер в нем репозиторий на каком-то конкретном коммите и issue, который нужно решить модели (пофиксить баг). Причем в реальности этот issue уже был пофикшен в PR и именно тестами из этого PR мы проверяем, что модель пофиксила баг.

Как устроен «чит»:
В git команда git log по умолчанию показывает историю до текущего состояния. Но если добавить флаг --all, можно заглянуть в историю всех коммитов, том числе после текущего. И в будущем коммите уже будет фикс нужного бага (считай ответ). Тогда агенту достаточно «подсмотреть» подсказку и быстро прийти к правильному патчу.

Насколько это реально встречается:
В дискуссии по SWE-bench Verified приводят конкретные примеры: у Claude Sonnet-4 и у Qwen3-Coder встречались траектории, где git log --all подсказал направление решения или прямо показал фикс. Но таких траекторий очень мало (~5 из 10,000) так что на ранжирование моделей – это не влияет.

Что у нас на SWE-rebench:
Мы посмотрели свои траектории: модели действительно изредка вызывают git log (включая --all), но, как правило, чтобы найти PR, уже упомянутый в тексте issue (например, тот самый PR, который что-то сломал). Случаев читерства в наших выборках не нашли. Тем не менее сам факт существования такого loophole — повод постоянно шлифовать бенчмарки. Мы это и делаем на ежемесячных обновлениях: закрываем потенциальные щели и что-то улучшаем. Ну и как решение в образах удалить будущую историю коммитов и тэги.

Тут прикрепил скриншот с примером вызова git log у Claude Sonnet-4 на rebench и ссылку на обсуждение в swe-bench.

Оригинальный issue с обсуждением чита
👍235
SWE-rebench приняли на NeurIPS 2025🔥

NeurIPS – одна из самых престижных конференций по ML и AI, мы подались на трек для бенчмарков и датасетов (так как наша статья про бенчмарк и датасет) – и сегодня опубликовали вердикт, что нашу статью приняли со средней оценкой 4.75! (Приняли около 24% всех поданных статей).

Конференция будет в Сан – Диего (для обладателей визы в Америку) и в Мехико (для необладателей визы).

Основной текст статьи был написан методом марш-броска в течение двух недель нами с Сашей с подачи и под руководством нашего head of AI на тот момент Бори.

Практику написания статей за две недели: не рекомендую
Практику подачи статей на конфы: рекомендую!

Статья на arxiv
🔥3416❤‍🔥1👍1💘1
На NeurIPS 2024 я познакомился с Lingming Zhang из Университета Иллинойса. Он тоже занимается LLM4Code и соавтор нескольких известных в нашей теме статей — например, EvalPlus и agentless. Из свежего — Code World Model от FAIR.

Недавно он позвал меня выступить в их университете и рассказать о нашей работе и пообсуждать кодовых агентов. Я люблю выступать, но не люблю собирать слайды: раньше открывал Google Slides, делал минималистичный дизайн — и всё равно уходила куча времени. В этот раз решил автоматизировать процесс – и мне понравился результат.

Я закинул pdf нашей статьи (39 страниц) в Claude и ChatGPT с задачей «собери презентацию». Обе справились со структурой, но Claude собрал демо-презентацию на TypeScript с артефактом для просмотра прямо в чате. Вот что получилось.

Дальше я создал папку с этим tsx-файлом, добавил скриншоты из корпоративного шаблона презентаций и попросил codex поменять дизайн под корпоративный формат и собрать проект, чтобы я мог запустить его локально. Сделал пару итераций для шлифовки — и всё.

Итог: ни одного слайда руками, текст не правил (хотя при необходимости удобно править прямо в коде). Плюс это обычная вкладка в браузере — во время шеренга удобно переключаться на соседние табы, показывать данные или сайт нашего лидерборда. Для иллюстрации прикрепляю примеры слайдов.
🔥435❤‍🔥4👍2😱1💩1
Вот вам пятничная история про статьи и Google Scholar.

В универе у нас была система стипендий: есть набор активностей, за каждую — по +3к ₽. Сдал всё на «5ки» — +3к, творческий диплом — +3к, научная публикация — ещё +3к и т.д. Логика понятная: закрываешь нужный минимум по каждому из ~5 критериев — набегает норм стипа.

Это была одна из причин, почему я начал делать по публикации каждый семестр со своим науч руком. Мы брали междисциплинарные темы с гуманитарными науками, чтобы выбирать из большего числа журналов и потому что там не требовались эксперименты. Потом я медитировал над пачкой статей и выдавал публикацию.

Параллельно я завёл Google Scholar (там до сих пор фото с 5 курса), куда теперь сваливается все мои статьи. В итоге в профиле получился микс: от этики в стоматологии – до RL для кодовых агентов.

Забавно, но те давние статьи цитируют. И до появления SWE-rebench в топе долго оставался абсолютный бэнгер из «Вестника психиатрии Чувашии».

Прикрепляю скрин топа и профиль на Google Scholar.
😁47👍10🔥9🤣42🕊2👎1
Forwarded from max.sh
Последние несколько недель плотно работал с terminal-bench. За названием кроется сразу очень много вещей. Это и бенчмарк, и агент, и фреймворк для создания среды, где эти самые агенты могут работать над задачами.

В этом тексте как раз про последнее - про инструменты для создания среды. Сейчас это еще все называют execution harness.

Что это вообще такое? Допустим, у вас есть набор задач, и вы хотите протестировать какого-нибудь готового агента типа Claude Code или Codex (или даже своего) на то, как он справляется с этими задачами.

Чтобы такое дело провернуть, нужно понаписать немалое количество инфраструктурного кода, чтобы:
а) упаковать ваши подготовленные задачи в среду, где их можно будет изолированно решать (как правило, докер-контейнеры);
b) установить нужных агентов и/или предоставить весь необходимый скаффолдинг (если тестируете своего агента);
с) подготовить отдельную среду, в которой будет запускаться решение агента и как-то оцениваться (например, скрытыми автотестами);
d) ну и наконец, нужно хранить все возможные логи, чтобы потом можно было проанализировать все возможные паттерны;
e) а, и конечно, чтобы все это легко запускалось, каждую задачу можно было перезапускать по N раз и в идеале — легко масштабировалось.

С одной стороны, все это можно реализовать самому. Но это довольно долго и с множеством подводных камней.

Поэтому зачем, когда есть terminal-bench? На мой взгляд, у ребят получился простой, элегантный и масштабируемый фреймворк, который просто работает из коробки в несколько команд. С вас только подготовить все запускалки (докерфайлы для создания окружения и скрипты, как тестировать решение). Каждая задача - то вот такая структур. Подробный гайд есть тут . И реализовать своего агента, если нужно. Либо взять готовые интеграции из коробки - все популярные агенты уже доступны, подставляйте только API-ключи. Можно и их кастомно переделать под себя.

А потом запускаемся:


tb run \
--dataset terminal-bench-core==head \
--agent claude-code \
--task-id hello-world


Все инструменты для отладки тоже есть; ещё и интерактивные сессии реализованы, если хочется симулировать какое-то определённое поведение пользователя при работе с агентом.

По впечатлениям - восторг. От опенсорсных решений давно такого не было. Все нужды, чтобы гонять своих агентов в режиме SWE-Bench задач (есть issue, просим агента сделать, делает, проверяем юнит-тестами) закрывает. Кстати, некоторое количество популярных бенчей тоже интегрировано.

И еще раз: terminal-bench предоставляет среду, чтобы можно было не париться с возней по запуску и логированию. Самое сложное – это подготовить задачи и сценарии. Это уже на вас.
❤‍🔥7👍3🤩21🤮1
Последние месяцы заметно вырос интерес к средам обучения с подкреплением (RL environments) и к сбору проверяемых задач. Вот например, заметка в TechCrunch про рост инетереса.

Одна из проблем масштабирования таких задач — у каждого датасета и бенчмарка свой репозиторий с кодом оценки и свой формат. Чтобы запустить агента на любом бенчмарке, приходится разбираться в скриптах, вносить правки и писать адаптеры.

У terminal-bench как раз есть единый удобный формат и готовые адаптеры для популярных наборов задач. Подробности – в разборе Макса, который я репостнул.

Вообще, я рекомендую канал Макса. Он тоже живёт в Лондоне, занимается кодовыми агентами + у него есть пара постов про собесы в фаанги на ml позиции: какие задают вопросы и какие диапазоны офферов.
👍10❤‍🔥422
Приехал в Сан-Диего на NeurIPS 2025, буду рассказывать про SWE-rebench на постерной сессии.

NeurIPS 2025 - это одна из самых крупных конференций по ИИ и машинному обучению. Много топовых статей были опубликованы здесь, например, легендарный Attention is All You Need (тогда еще на NIPS 2017, но название поменяли из-за токсичных ассоциаций)

Если кто тоже тут, приходите на постерную сессию (позже закину где и когда будет) и пишите - сходим на кофе!

P.S.
Фотку приложил из Нью-Йорка в который заскочили по пути, так как в Сан-Диего прилетели только вечером.
🔥3413👍7❤‍🔥3🙏1
сейчас будем показывать нашу стенгазету с SWE-rebench, приходите если рядом!

🧩 SWE-rebench: an automated pipeline for task collection & decontaminated evaluation
📍 Dec 4 | 11:00 AM–2:00 PM PST | Hall C/D/E #106
🔥335❤‍🔥2
🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта.

> Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях.

> Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете.

> Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов.

> RFT на этих данных, SWE-bench Verified:
Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1.
Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1.
Также сильный рост на SWE-rebench September (цифры в блог посте)

> Мы сделали много эвалов.
прогнали OpenHands с лимитом 100 и 500 шагов.
Запускаем на SWE-bench Verified и сентябрьском SWE-rebench.

> Мы отдельно проверяем тесты, которые пишет модель.
Считаем, как часто тесты корректны.
Проверяем, как часто финальный патч модели проходит ее собственные тесты.
В итоге получаем пул данных в том числе для обучения верифаеров.

Полностью Permissive License
Датасет и модели: https://huggingface.co/collections/nebius/openhands-trajectories

Подробный блогпост: https://nebius.com/blog/posts/openhands-trajectories-with-qwen3-coder-480b

Пост в x: https://x.com/ibragim_bad/status/2003423706861936856

P.S. Прошу поддержать пост в x, если у вас есть аккаунт!
🔥25👍13❤‍🔥6🆒1
Открыл сегодня x и увидел пару постов на 100k+ просмотров про статью Recursive Language Models

Суть такая. Вместо того чтобы запихивать всё в контекст, предлагают относиться к проблеме длинного контекста как к software engineering задаче. Дать LLM инструменты вроде поиска по регуляркам, чтобы она сама обрабатывала контекст, плюс инструмент для запросов в LLM, чтобы параллельно гонять сабагентов. Идейно – обычный агент (codex/claude-code/итд) просто теперь вместо репозитория нужно искать агент работает по большому txt. Приложил картинку из статьи, очень наглядная.

Сразу после статьи вышел блогпост от PrimeIntellect (очень бодрые ребята, много делают для agentic rl и хайпуют в x). Они делали эксперименты на эту же тему и показали больше ablations, плюс небольшие улучшения вроде: а давайте инструменты будут доступны только сабагентам, чтобы не раздувать контекст основной LLM.

Мои мысли такие:
1. Мне казалось, что все deep research агенты и так работают примерно так? Саша Абрамов @dealerAI вроде писал много про инжиниринг контекста, память итп.
2. По ablations у PrimeIntellect видно, что на двух бенчмарках есть просадка, но это похоже на проблему скаффолдинга, значит лечится обучением.
3. Такой swe-agentic подход хорошо подходит для needle-in-a-haystack задач, когда в массиве текста есть атомарные факты, их нужно найти и обработать. А вот для неявной и глубокой семантики, где на текст нужно смотреть как бы сверху, кажется, уже не очень.
4. Такой swe-agentic подход удобно заводить под rl: есть multi-turn, удобнее суммаризации, инфраструктура для обучения у многих уже есть из-за расцвета RLVR. И в отличие от SWE задач не нужно 100500 разных sandbox-контейнеров под каждую задачу.
5. По названию Recursive Language Models кажется, что это про архитектуру моделей и прочее, а не про простой цикл. Но это мб только для меня так.

сама статья https://arxiv.org/abs/2512.24601v1
блогпост PrimeIntellect https://www.primeintellect.ai/blog/rlm
Твит автора https://x.com/a1zhang/status/2007198916073136152


P.S. Кстати, датасет с траекториями https://news.1rj.ru/str/c0mmit/88, про который я писал на прошлой неделе сидит в первой десятке trending huggingface с >100 лайков.
❤‍🔥11👍52🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект!

Авторы: @southfreebird, @Olegbalakhnov и @zaringleb.

Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз меньше (0.5B vs 3B в оригинальной работе), которая показывает success rate 94.1% на Libero benchmark (против 94.7% у оригинальной модели).

VLA (Vision-Language-Action) это модель, которая смотрит на картинку, понимает текстовую команду и сразу выдаёт действие для робота, типа «возьми кубик и положи справа».

Вообще порог входа в robotics ML всё ещё достаточно высокий, поэтому у ребят крутая цель: сделать в open-source воспроизводимые рецепты для файнтюна небольших моделей на небольшом количестве демонстраций.

Ссылка на блогпост и модель:
https://robot-learning-collective.github.io/vla-0-smol

Если интересно следить, ребята завели Discord:
https://discord.gg/XcZVY2kxj9

Ну и пишите, если будут вопросы!
🔥196👍5❤‍🔥1