NEW BOT Телеграм, страница

💻

о3 и Claude могут брать заказы на Upwork, а я всё еще туплю на coding собесах

На днях Google релизнули обновлённый Gemini 2.5 Pro, и, конечно, сразу заявили: «мы лучшие в кодинге». И тут я поняла, что уже путаюсь: какие бенчмарки действительно живые и что значит «лучшие»?

🍀 Просто скажите мне: какая модель лучше запрогает юнит-тесты и дата-пайпы на PyTorch? Решила поглубже разобраться: какие кодинг-бенчмарки в 2025 году действительно живы и репрезентативны, и что нам говорят цифры из презентаций.

😐 Итак, актуальное

SWE-Bench — самый популярный

🐈

Бенчмарк на основе 2,294 реальных GitHub-issues из 12 крупных python проектов: от PyTorch до pandas. Задача — по issue сгенерировать патч и пройти юнит-тесты проекта. Задачи проверенные, точно имеют решение и шаблонный pull request с тестами.
🔗Leaderboard

Контаминация: частично возможна — это же GitHub, большинство задач датированы периодом до 2023 года, так что попадание их в train нельзя исключать

Лидеры (single attempt - из release notes Gemini 2.5 Pro): Claude Opus 4 (72.5%), o3 (69.1%), o4-mini (68.1), Gemini 2.5 (59.6%)

Значение: хороший ориентир для оценки способностей моделей решать задачи уровня «джун нашёл баг, аккуратно его поправил и не сломал весь проект».

❤

Aider Polyglot — full-stack на шести языках

225 задач из Exercism (C++, Go, Python, Rust, …), где нужно не просто дописать функцию, а починить или расширить многофайловый проект, чтобы он прошёл все тесты.
🔗 Leaderboard

Контаминация: частично возможна, поскольку задачи взяты из публичных источников

Лидеры (из release notes Gemini 2.5 Pro): о3 (79.6%), Gemini 2.5 Pro (82.2%)

Значение: тестирует именно инженерные навыки: работа с многофайловыми проектами, согласованные правки, понимание архитектуры. Причём ещё и на разных языках. Если модель справляется здесь — ей уже можно доверить что-то серьёзное.

🏆LiveCodeBench

Включает 511 задач, собранных из соревнований на платформах LeetCode, Codeforces и др., с учётом даты релиза — чтобы исключить утечку в обучение.
🔗 Leaderboard

Контаминация: исключена, задачи выбираются из недавних соревнований

Лидеры (leaderboard 01.01.2025 - 01.05.2025): o3 (72%), Gemini 2.5 Pro (69%), o4-mini (75%)

Значение: полезен, чтобы проверить, умеет ли модель рассуждать и писать код по свежей задаче, которую она точно не видела. Но это ближе к стилю алгоритмических интервью, чем к продакшен-коду.

🪙SWE-Lancer: IC SWE — фриланс на миллион денег

764 задачи с Upwork, каждая с ценником от $50 до $32k. Модель должна по ТЗ починить код или имплементировать фичу. Задачи есть реально сложные. Весь набор содержит около 1,400 задач, но только часть (≈$500,800 по “стоимости задач”) была открыта в виде Diamond для reproducibility (именно эти задачи взяты с GitHub проекта Expensify.cash

Контаминация: маловероятно, даже для Diamond E2E тесты и точные требования к решению (а не просто описание задачи) не были публичны, их написала команда OpenAI вручную

Лидеры Diamond (single-pass): Claude 3.5 Sonnet $58k (26%), o3-high ~$65k (27%), o4-mini ~$56k (24%)

Значение: это почти фриланс в продакшене: настоящие таски, реальные баги, end-to-end тесты. Если модель справляется — это уже заявка на автоматизированного стажёра. Но пока нет 😅

А что в реальности? Всё равно возвращаемся к практике:

🔹Тестим модели на своих репозиториях и выбираем ту, что лучше справляется
🔹Учимся чётко и понятно формулировать промпты
🔹И по-прежнему проверяем результаты, потому что даже Gemini может не знать новые библиотеки или галлюцинировать несуществующие методы.

А какую часть своей рутины вы уже переложили на LLM’ки? И чем вообще пользуетесь?

Please open Telegram to view this post