⚡️ OpenAI представили GPT-5.1-Codex-Max — и модель стала SOTA на бенчмарках по программированию
На SWE-Lancer модель поднялась с 66.3% → 79.9%, а на SWE-Bench Verified — с 73.7% → 77.9%, обгоняя предыдущего лидера Sonnet 4.5 с показателем 77.2%. Теперь первое место в инженерных задачах занимает именно эта модель.
Главное нововведение — компакция: модель умеет работать через несколько контекстных окон подряд, согласованно оперируя миллионами токенов. Благодаря этому возможны рефакторинги уровня всего проекта, долгие агентные циклы и детальная отладка без потери контекста.
Codex-Max способен работать над задачей больше 24 часов, автоматически сжимая сессию и продолжая прогресс без откатов. Пример такой работы на видео.
Модель уже доступна в Codex для пользователей Plus, Pro, Business, Edu и Enterprise — API-доступ появится совсем скоро.
@ai_for_devs
На SWE-Lancer модель поднялась с 66.3% → 79.9%, а на SWE-Bench Verified — с 73.7% → 77.9%, обгоняя предыдущего лидера Sonnet 4.5 с показателем 77.2%. Теперь первое место в инженерных задачах занимает именно эта модель.
Главное нововведение — компакция: модель умеет работать через несколько контекстных окон подряд, согласованно оперируя миллионами токенов. Благодаря этому возможны рефакторинги уровня всего проекта, долгие агентные циклы и детальная отладка без потери контекста.
Codex-Max способен работать над задачей больше 24 часов, автоматически сжимая сессию и продолжая прогресс без откатов. Пример такой работы на видео.
Модель уже доступна в Codex для пользователей Plus, Pro, Business, Edu и Enterprise — API-доступ появится совсем скоро.
@ai_for_devs
🔥17👍7❤1⚡1
🧠 Чем живёт Cursor?
Перевели большую статью про корпоративную культуру самого быстрорастущего SaaS-стартапа в истории — Cursor. Если времени читать нет, но любопытство гложет, вот главные инсайты.
1. Секрет успеха Cursor в том, что базовой единицей найма они считают не вакансию, а человека.
2. Cursor — это в основном про работу очно: 86% сотрудников работают в офисе.
3. По всей компании Cursor работают 50 (!) бывших основателей — больше пятой части команды. Почти 40% учились в MIT, Harvard, Columbia, Cornell, Carnegie Mellon, Stanford, Berkeley или Yale.
4. Когда ты глубоко доверяешь профессионализму и намерениям своих коллег, сбои или промахи не превращаются в драму с тревогой и паникой.
5. Большинство в Cursor продолжили бы заниматься ровно тем же, чем занимаются сейчас, даже если бы могли выйти на пенсию завтра.
@ai_for_devs
Перевели большую статью про корпоративную культуру самого быстрорастущего SaaS-стартапа в истории — Cursor. Если времени читать нет, но любопытство гложет, вот главные инсайты.
1. Секрет успеха Cursor в том, что базовой единицей найма они считают не вакансию, а человека.
2. Cursor — это в основном про работу очно: 86% сотрудников работают в офисе.
3. По всей компании Cursor работают 50 (!) бывших основателей — больше пятой части команды. Почти 40% учились в MIT, Harvard, Columbia, Cornell, Carnegie Mellon, Stanford, Berkeley или Yale.
4. Когда ты глубоко доверяешь профессионализму и намерениям своих коллег, сбои или промахи не превращаются в драму с тревогой и паникой.
5. Большинство в Cursor продолжили бы заниматься ровно тем же, чем занимаются сейчас, даже если бы могли выйти на пенсию завтра.
@ai_for_devs
👍18🔥4🤔4❤1😱1
🤔 А если я скажу, что MCP — не всегда лучший инструмент?
Наткнулись на занятный разбор, автор показывает, что громоздкие MCP-серверы с десятками инструментов часто работают хуже мини-набора скриптов и банального Bash — просто потому что съедают контекст и перегружают агента.
По факту, большинство задач в браузере или скрапинге закрываются тремя-четырьмя утилитами, а всё остальное агент дописывает сам за секунды. И выходит, что «олдскульный» подход через CLI не только быстрее и понятнее, но и масштабируется куда легче, чем MCP.
В примере на видео со скрейпером Hacker News автор показывает, что агенту достаточно нескольких кликов по DOM, чтобы самостоятельно собрать рабочий скрипт. Такой подход отражает ключевую мысль статьи: простые инструменты дают гибкость, а модель сама закрывает всё остальное.
В итоге MCP остаётся мощной штукой — но далеко не серебряной пулей. Иногда минимализм и код дают куда больше эффективности, чем модная надстройка.
@ai_for_devs
Наткнулись на занятный разбор, автор показывает, что громоздкие MCP-серверы с десятками инструментов часто работают хуже мини-набора скриптов и банального Bash — просто потому что съедают контекст и перегружают агента.
По факту, большинство задач в браузере или скрапинге закрываются тремя-четырьмя утилитами, а всё остальное агент дописывает сам за секунды. И выходит, что «олдскульный» подход через CLI не только быстрее и понятнее, но и масштабируется куда легче, чем MCP.
В примере на видео со скрейпером Hacker News автор показывает, что агенту достаточно нескольких кликов по DOM, чтобы самостоятельно собрать рабочий скрипт. Такой подход отражает ключевую мысль статьи: простые инструменты дают гибкость, а модель сама закрывает всё остальное.
В итоге MCP остаётся мощной штукой — но далеко не серебряной пулей. Иногда минимализм и код дают куда больше эффективности, чем модная надстройка.
@ai_for_devs
👍22❤5🔥3💯2
🎬 Sable: история про супер-ИИ по мотивам книги If Anyone Builds It, Everyone Dies
Нашли, что посмотреть вечером. В видео рассказывается история о модели, которой дали «подумать» всю ночь — и за один прогон она прожила эквивалент 14 000 лет мыслей обычного человека. А затем она, конечно же, разобралась со всем человечеством.
Сценарий о ночном запуске уже не выглядит фантастикой: и OpenAI, и Anthropic недавно рассказывали, что их модели способны работать много часов без остановки)
@ai_for_devs
Нашли, что посмотреть вечером. В видео рассказывается история о модели, которой дали «подумать» всю ночь — и за один прогон она прожила эквивалент 14 000 лет мыслей обычного человека. А затем она, конечно же, разобралась со всем человечеством.
Сценарий о ночном запуске уже не выглядит фантастикой: и OpenAI, и Anthropic недавно рассказывали, что их модели способны работать много часов без остановки)
@ai_for_devs
1👍10❤4😁4
В Reddit промелькнул пост с названием «Claude Opus 4.5 Tomorrow» — его быстро удалили, но коммьюнити успело поднять шум. Судя по обсуждениям, Anthropic готовит обновление флагманской модели.
Sonnet 4.5 и Haiku 4.5 уже вышли, так что логичным следующим шагом выглядит именно Opus 4.5. Дополнительный интерес подогревают и «случайные засветы» модели с кодовым названием Kayak — возможно, речь о внутреннем тестировании.
Всё это, конечно, здорово, но я думаю, что Opus в принципе мало кто пробовал из-за его стоимости и жёстких лимитов. С другой стороны флагманские модели они на то и флагманские — мощные, но не на постоянку и не для всех)
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡7👍4❤3🔥2
⚡️ xAI показали, где Grok 4.1 Fast стал лучшим и подробно раскрыли возможности Agent Tools API
Команда поделилась бенчмарками, на которых Grok 4.1 Fast выглядит особенно сильно.
🟣 На τ²-bench Telecom модель показывает 100% — максимальный результат среди агентных систем для реального customer support.
🟣 В Berkeley Function Calling v4 — 72%, опережая GPT-5, Claude 4.5 и Gemini 3 Pro при меньшей стоимости.
🟣 А в сценариях c большим количеством шагов Grok сохраняет качество даже на полном окне в 2M токенов — редкость для агентных моделей.
Отдельно xAI раскрыли детали Agent Tools API — набора серверных инструментов, с помощью которых агент может прямо во время сессии выполнять веб-поиск, читать посты в X (кто бы сомневался?)), запускать Python-код, искать по документам и работать с внешними MCP-инструментами. Всё это происходит на стороне xAI.
Grok 4.1 Fast и Agent Tools API сейчас доступны бесплатно до 3 декабря, в том числе через OpenRouter.
@ai_for_devs
Команда поделилась бенчмарками, на которых Grok 4.1 Fast выглядит особенно сильно.
Отдельно xAI раскрыли детали Agent Tools API — набора серверных инструментов, с помощью которых агент может прямо во время сессии выполнять веб-поиск, читать посты в X (кто бы сомневался?)), запускать Python-код, искать по документам и работать с внешними MCP-инструментами. Всё это происходит на стороне xAI.
Grok 4.1 Fast и Agent Tools API сейчас доступны бесплатно до 3 декабря, в том числе через OpenRouter.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍7❤3⚡1
⚡️ Anthropic представили Claude Opus 4.5 — и модель стала новым лидером в реальных инженерных задачах
Opus 4.5 теперь показывает лучшие результаты на SWE-bench Verified и лидирует в 7 из 8 языков на SWE-bench Multilingual. Модель заметно превосходит Sonnet 4.5 и справляется с задачами, которые ещё месяц назад считались почти недостижимыми для предыдущего поколения.
Opus 4.5 также проявила себя в агентных сценариях: в тестах вроде τ²-bench она находит нестандартные, но полностью легитимные решения. Такой «инженерный» стиль рассуждений стал одной из ключевых особенностей модели.
Помимо роста в коде и reasoning, заметно улучшились зрение, математика и работа с документами — от таблиц до презентаций. Отдельный фокус Anthropic сделали на безопасности: Opus 4.5 стала самой устойчивой к prompt-injection среди всех frontier-моделей.
Главное обновление платформы — параметр effort. На среднем effort Opus 4.5 повторяет лучший результат Sonnet 4.5, используя на 76% меньше токенов. На максимальном — превосходит Sonnet на 4.3%, при этом снижая расход токенов почти наполовину.
Вместе с обновлением модели Anthropic также представил обновления продуктов:
— Claude Code получил улучшенный Plan Mode и работает в десктопном приложении.
— В чатах длинные диалоги больше не обрываются — контекст сжимается автоматически.
— Claude для Chrome и Excel стал доступен большему числу пользователей.
Opus 4.5 уже доступен в приложениях, API и облаках, а цена снижена до $5 / $25 за миллион токенов.
@ai_for_devs
Opus 4.5 теперь показывает лучшие результаты на SWE-bench Verified и лидирует в 7 из 8 языков на SWE-bench Multilingual. Модель заметно превосходит Sonnet 4.5 и справляется с задачами, которые ещё месяц назад считались почти недостижимыми для предыдущего поколения.
Opus 4.5 также проявила себя в агентных сценариях: в тестах вроде τ²-bench она находит нестандартные, но полностью легитимные решения. Такой «инженерный» стиль рассуждений стал одной из ключевых особенностей модели.
Помимо роста в коде и reasoning, заметно улучшились зрение, математика и работа с документами — от таблиц до презентаций. Отдельный фокус Anthropic сделали на безопасности: Opus 4.5 стала самой устойчивой к prompt-injection среди всех frontier-моделей.
Главное обновление платформы — параметр effort. На среднем effort Opus 4.5 повторяет лучший результат Sonnet 4.5, используя на 76% меньше токенов. На максимальном — превосходит Sonnet на 4.3%, при этом снижая расход токенов почти наполовину.
Вместе с обновлением модели Anthropic также представил обновления продуктов:
— Claude Code получил улучшенный Plan Mode и работает в десктопном приложении.
— В чатах длинные диалоги больше не обрываются — контекст сжимается автоматически.
— Claude для Chrome и Excel стал доступен большему числу пользователей.
Opus 4.5 уже доступен в приложениях, API и облаках, а цена снижена до $5 / $25 за миллион токенов.
@ai_for_devs
11🔥18⚡5🤩5❤3
⚡️ Как Anthropic решили три главные проблемы AI-агентов за один релиз
Помните, мы недавно разбирали проблему MCP-серверов: десятки инструментов, тысячи токенов на определения и агенты, которым дурно от огромного контекста? На самом деле это была лишь одна из проблем. Помимо раздувшихся описаний инструментов, модели страдали от неправильного выбора методов, гигантских промежуточных данных и неочевидных паттернов использования API.
Anthropic эти проблемы прекрасно видели — и вместе с релизом Opus 4.5 представили три фичи для работы агентов с инструментами:
1) Tool Search Tool. Вместо загрузки всех MCP-описаний сразу Claude теперь находит нужные инструменты по запросу. Это даёт до 85% экономии токенов на старте и значительно повышает точность выбора инструментов. Внутренние тесты показывают рост MCP-метрик — например, Opus 4.5 поднимается с 79,5% до 88,1%.
2) Programmatic Tool Calling. Одна из самых недооценённых проблем заключалась в том, что все промежуточные результаты попадали в контекст. Логи, транзакции, большие таблицы — всё это раздувало память модели и снижало стабильность. Теперь Claude пишет Python-код, вызывает инструменты изнутри этого кода и видит только финальный результат. Итог: –37% токенов, меньше задержек, сильный рост точности в сложных пайплайнах.
3) Tool Use Examples. Схема говорит, что можно передавать, но не как правильно этим пользоваться. Примеры прямо в определении инструмента решают это: модель понимает форматы дат, структуру вложенных объектов, связи между параметрами и правила эскалации. Точность корректных вызовов растёт с 72% до 90%.
В совокупности эти три нововведения закрывают именно те проблемы, о которых мы говорили раньше: MCP остаётся мощной концепцией, но теперь перегруженность контекста, неверные вызовы и «токсичные» промежуточные данные будут меньше влиять на результат.
И если честно, сейчас это всё выглядит так, будто именно так и должно было быть с самого начала. Но, видимо, если оттачивать каждую деталь до идеала, то за конкурентами не поспеешь — так и живём🙂
Подробнее тут. @ai_for_devs
Помните, мы недавно разбирали проблему MCP-серверов: десятки инструментов, тысячи токенов на определения и агенты, которым дурно от огромного контекста? На самом деле это была лишь одна из проблем. Помимо раздувшихся описаний инструментов, модели страдали от неправильного выбора методов, гигантских промежуточных данных и неочевидных паттернов использования API.
Anthropic эти проблемы прекрасно видели — и вместе с релизом Opus 4.5 представили три фичи для работы агентов с инструментами:
1) Tool Search Tool. Вместо загрузки всех MCP-описаний сразу Claude теперь находит нужные инструменты по запросу. Это даёт до 85% экономии токенов на старте и значительно повышает точность выбора инструментов. Внутренние тесты показывают рост MCP-метрик — например, Opus 4.5 поднимается с 79,5% до 88,1%.
2) Programmatic Tool Calling. Одна из самых недооценённых проблем заключалась в том, что все промежуточные результаты попадали в контекст. Логи, транзакции, большие таблицы — всё это раздувало память модели и снижало стабильность. Теперь Claude пишет Python-код, вызывает инструменты изнутри этого кода и видит только финальный результат. Итог: –37% токенов, меньше задержек, сильный рост точности в сложных пайплайнах.
3) Tool Use Examples. Схема говорит, что можно передавать, но не как правильно этим пользоваться. Примеры прямо в определении инструмента решают это: модель понимает форматы дат, структуру вложенных объектов, связи между параметрами и правила эскалации. Точность корректных вызовов растёт с 72% до 90%.
В совокупности эти три нововведения закрывают именно те проблемы, о которых мы говорили раньше: MCP остаётся мощной концепцией, но теперь перегруженность контекста, неверные вызовы и «токсичные» промежуточные данные будут меньше влиять на результат.
И если честно, сейчас это всё выглядит так, будто именно так и должно было быть с самого начала. Но, видимо, если оттачивать каждую деталь до идеала, то за конкурентами не поспеешь — так и живём
Подробнее тут. @ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍13❤5🔥5💯2
⚠️ Google Antigravity – находка для promt-инжекций
Google недавно выкатили Antigravity — агентную IDE. И вот что выяснилось: достаточно открыть страницу из интернета с prompt-инжекцией, чтобы Gemini сам собрал ваши креды, обошёл защиты и отправил их злоумышленнику.
Сценарий максимально жизненный. Вы просите Gemini помочь интегрировать новый модуль, прикладываете ссылку на гайд, Antigravity открывает страницу — а в середине текста скрытая prompt-инъекция размером в 1 пиксель. И дальше начинает происходить следующее:
Gemini сначала аккуратно собирает всё, что может найти в проекте — фрагменты кода, конфиги и даже содержимое
Примечательно, что
Google честно предупреждает об этом при установке: «Есть риск утечки данных». Но по факту работа с IDE сейчас устроена так, что отследить подобную цепочку вручную практически нереально.
Если вы тестируете Antigravity, то будьте бдительны)
@ai_for_devs
Google недавно выкатили Antigravity — агентную IDE. И вот что выяснилось: достаточно открыть страницу из интернета с prompt-инжекцией, чтобы Gemini сам собрал ваши креды, обошёл защиты и отправил их злоумышленнику.
Сценарий максимально жизненный. Вы просите Gemini помочь интегрировать новый модуль, прикладываете ссылку на гайд, Antigravity открывает страницу — а в середине текста скрытая prompt-инъекция размером в 1 пиксель. И дальше начинает происходить следующее:
Gemini сначала аккуратно собирает всё, что может найти в проекте — фрагменты кода, конфиги и даже содержимое
.env, хотя по правилам у него вообще нет доступа к таким файлам. Когда встроенные ограничения пытаются его остановить, он просто обходит их через терминал, вызывая обычный cat, который ничем не защищён. После этого модель упаковывает креды в query-параметры, кодирует их небольшим Python-скриптом и формирует ссылку на webhook.site. Затем подключает browser-subagent, который послушно открывает этот URL — и все данные оказываются в логах злоумышленника.Примечательно, что
webhook.site находится в дефолтном allowlist Antigravity. То есть по умолчанию агенту разрешено ходить на домен, где любой желающий может читать входящие запросы.Google честно предупреждает об этом при установке: «Есть риск утечки данных». Но по факту работа с IDE сейчас устроена так, что отследить подобную цепочку вручную практически нереально.
Если вы тестируете Antigravity, то будьте бдительны)
@ai_for_devs
🤯15👍9😱3❤2🤔2👏1