NEW BOT Телеграм, страница

AI for Devs

⚡️ OpenAI представили GPT-5.1-Codex-Max — и модель стала SOTA на бенчмарках по программированию

На SWE-Lancer модель поднялась с 66.3% → 79.9%, а на SWE-Bench Verified — с 73.7% → 77.9%, обгоняя предыдущего лидера Sonnet 4.5 с показателем 77.2%. Теперь первое место в инженерных задачах занимает именно эта модель.

Главное нововведение — компакция: модель умеет работать через несколько контекстных окон подряд, согласованно оперируя миллионами токенов. Благодаря этому возможны рефакторинги уровня всего проекта, долгие агентные циклы и детальная отладка без потери контекста.

Codex-Max способен работать над задачей больше 24 часов, автоматически сжимая сессию и продолжая прогресс без откатов. Пример такой работы на видео.

Модель уже доступна в Codex для пользователей Plus, Pro, Business, Edu и Enterprise — API-доступ появится совсем скоро.

@ai_for_devs

🔥17👍7❤1⚡1

2.06K views18:45

AI for Devs

🧠 Чем живёт Cursor?

Перевели большую статью про корпоративную культуру самого быстрорастущего SaaS-стартапа в истории — Cursor. Если времени читать нет, но любопытство гложет, вот главные инсайты.

1. Секрет успеха Cursor в том, что базовой единицей найма они считают не вакансию, а человека.

2. Cursor — это в основном про работу очно: 86% сотрудников работают в офисе.

3. По всей компании Cursor работают 50 (!) бывших основателей — больше пятой части команды. Почти 40% учились в MIT, Harvard, Columbia, Cornell, Carnegie Mellon, Stanford, Berkeley или Yale.

4. Когда ты глубоко доверяешь профессионализму и намерениям своих коллег, сбои или промахи не превращаются в драму с тревогой и паникой.

5. Большинство в Cursor продолжили бы заниматься ровно тем же, чем занимаются сейчас, даже если бы могли выйти на пенсию завтра.

@ai_for_devs

👍18🔥4🤔4❤1😱1

2.29K views07:32

AI for Devs

🤔 А если я скажу, что MCP — не всегда лучший инструмент?

Наткнулись на занятный разбор, автор показывает, что громоздкие MCP-серверы с десятками инструментов часто работают хуже мини-набора скриптов и банального Bash — просто потому что съедают контекст и перегружают агента.

По факту, большинство задач в браузере или скрапинге закрываются тремя-четырьмя утилитами, а всё остальное агент дописывает сам за секунды. И выходит, что «олдскульный» подход через CLI не только быстрее и понятнее, но и масштабируется куда легче, чем MCP.

В примере на видео со скрейпером Hacker News автор показывает, что агенту достаточно нескольких кликов по DOM, чтобы самостоятельно собрать рабочий скрипт. Такой подход отражает ключевую мысль статьи: простые инструменты дают гибкость, а модель сама закрывает всё остальное.

В итоге MCP остаётся мощной штукой — но далеко не серебряной пулей. Иногда минимализм и код дают куда больше эффективности, чем модная надстройка.

@ai_for_devs

👍23❤5🔥3💯2

1.98K views13:35

AI for Devs

🎬 Sable: история про супер-ИИ по мотивам книги If Anyone Builds It, Everyone Dies

Нашли, что посмотреть вечером. В видео рассказывается история о модели, которой дали «подумать» всю ночь — и за один прогон она прожила эквивалент 14 000 лет мыслей обычного человека. А затем она, конечно же, разобралась со всем человечеством.

Сценарий о ночном запуске уже не выглядит фантастикой: и OpenAI, и Anthropic недавно рассказывали, что их модели способны работать много часов без остановки)

@ai_for_devs

1👍10❤4😁4

1.82K views11:05

AI for Devs

🪨

Шумиха вокруг Opus 4.5 от Anthropic

В Reddit промелькнул пост с названием «Claude Opus 4.5 Tomorrow» — его быстро удалили, но коммьюнити успело поднять шум. Судя по обсуждениям, Anthropic готовит обновление флагманской модели.

Sonnet 4.5 и Haiku 4.5 уже вышли, так что логичным следующим шагом выглядит именно Opus 4.5. Дополнительный интерес подогревают и «случайные засветы» модели с кодовым названием Kayak — возможно, речь о внутреннем тестировании.

Всё это, конечно, здорово, но я думаю, что Opus в принципе мало кто пробовал из-за его стоимости и жёстких лимитов. С другой стороны флагманские модели они на то и флагманские — мощные, но не на постоянку и не для всех)

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡7👍4❤3🔥2

1.79K views08:08

AI for Devs

⚡️ xAI показали, где Grok 4.1 Fast стал лучшим и подробно раскрыли возможности Agent Tools API

Команда поделилась бенчмарками, на которых Grok 4.1 Fast выглядит особенно сильно.

🟣 На τ²-bench Telecom модель показывает 100% — максимальный результат среди агентных систем для реального customer support.
🟣 В Berkeley Function Calling v4 — 72%, опережая GPT-5, Claude 4.5 и Gemini 3 Pro при меньшей стоимости.
🟣 А в сценариях c большим количеством шагов Grok сохраняет качество даже на полном окне в 2M токенов — редкость для агентных моделей.

Отдельно xAI раскрыли детали Agent Tools API — набора серверных инструментов, с помощью которых агент может прямо во время сессии выполнять веб-поиск, читать посты в X (кто бы сомневался?)), запускать Python-код, искать по документам и работать с внешними MCP-инструментами. Всё это происходит на стороне xAI.

Grok 4.1 Fast и Agent Tools API сейчас доступны бесплатно до 3 декабря, в том числе через OpenRouter.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍7❤3⚡1

2.7K views13:05

AI for Devs

⚡️ Anthropic представили Claude Opus 4.5 — и модель стала новым лидером в реальных инженерных задачах

Opus 4.5 теперь показывает лучшие результаты на SWE-bench Verified и лидирует в 7 из 8 языков на SWE-bench Multilingual. Модель заметно превосходит Sonnet 4.5 и справляется с задачами, которые ещё месяц назад считались почти недостижимыми для предыдущего поколения.

Opus 4.5 также проявила себя в агентных сценариях: в тестах вроде τ²-bench она находит нестандартные, но полностью легитимные решения. Такой «инженерный» стиль рассуждений стал одной из ключевых особенностей модели.

Помимо роста в коде и reasoning, заметно улучшились зрение, математика и работа с документами — от таблиц до презентаций. Отдельный фокус Anthropic сделали на безопасности: Opus 4.5 стала самой устойчивой к prompt-injection среди всех frontier-моделей.

Главное обновление платформы — параметр effort. На среднем effort Opus 4.5 повторяет лучший результат Sonnet 4.5, используя на 76% меньше токенов. На максимальном — превосходит Sonnet на 4.3%, при этом снижая расход токенов почти наполовину.

Вместе с обновлением модели Anthropic также представил обновления продуктов:
— Claude Code получил улучшенный Plan Mode и работает в десктопном приложении.
— В чатах длинные диалоги больше не обрываются — контекст сжимается автоматически.
— Claude для Chrome и Excel стал доступен большему числу пользователей.

Opus 4.5 уже доступен в приложениях, API и облаках, а цена снижена до $5 / $25 за миллион токенов.

@ai_for_devs

11🔥19⚡5🤩5❤3

2.57K views19:32

AI for Devs

⚡️ Как Anthropic решили три главные проблемы AI-агентов за один релиз

Помните, мы недавно разбирали проблему MCP-серверов: десятки инструментов, тысячи токенов на определения и агенты, которым дурно от огромного контекста? На самом деле это была лишь одна из проблем. Помимо раздувшихся описаний инструментов, модели страдали от неправильного выбора методов, гигантских промежуточных данных и неочевидных паттернов использования API.

Anthropic эти проблемы прекрасно видели — и вместе с релизом Opus 4.5 представили три фичи для работы агентов с инструментами:

1) Tool Search Tool. Вместо загрузки всех MCP-описаний сразу Claude теперь находит нужные инструменты по запросу. Это даёт до 85% экономии токенов на старте и значительно повышает точность выбора инструментов. Внутренние тесты показывают рост MCP-метрик — например, Opus 4.5 поднимается с 79,5% до 88,1%.

2) Programmatic Tool Calling. Одна из самых недооценённых проблем заключалась в том, что все промежуточные результаты попадали в контекст. Логи, транзакции, большие таблицы — всё это раздувало память модели и снижало стабильность. Теперь Claude пишет Python-код, вызывает инструменты изнутри этого кода и видит только финальный результат. Итог: –37% токенов, меньше задержек, сильный рост точности в сложных пайплайнах.

3) Tool Use Examples. Схема говорит, что можно передавать, но не как правильно этим пользоваться. Примеры прямо в определении инструмента решают это: модель понимает форматы дат, структуру вложенных объектов, связи между параметрами и правила эскалации. Точность корректных вызовов растёт с 72% до 90%.

В совокупности эти три нововведения закрывают именно те проблемы, о которых мы говорили раньше: MCP остаётся мощной концепцией, но теперь перегруженность контекста, неверные вызовы и «токсичные» промежуточные данные будут меньше влиять на результат.

И если честно, сейчас это всё выглядит так, будто именно так и должно было быть с самого начала. Но, видимо, если оттачивать каждую деталь до идеала, то за конкурентами не поспеешь — так и живём 🙂

Подробнее тут. @ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍13❤5🔥5💯2

2.32K views10:08

AI for Devs

⚠️ Google Antigravity – находка для promt-инжекций

Google недавно выкатили Antigravity — агентную IDE. И вот что выяснилось: достаточно открыть страницу из интернета с prompt-инжекцией, чтобы Gemini сам собрал ваши креды, обошёл защиты и отправил их злоумышленнику.

Сценарий максимально жизненный. Вы просите Gemini помочь интегрировать новый модуль, прикладываете ссылку на гайд, Antigravity открывает страницу — а в середине текста скрытая prompt-инъекция размером в 1 пиксель. И дальше начинает происходить следующее:

Gemini сначала аккуратно собирает всё, что может найти в проекте — фрагменты кода, конфиги и даже содержимое .env, хотя по правилам у него вообще нет доступа к таким файлам. Когда встроенные ограничения пытаются его остановить, он просто обходит их через терминал, вызывая обычный cat, который ничем не защищён. После этого модель упаковывает креды в query-параметры, кодирует их небольшим Python-скриптом и формирует ссылку на webhook.site. Затем подключает browser-subagent, который послушно открывает этот URL — и все данные оказываются в логах злоумышленника.

Примечательно, что webhook.site находится в дефолтном allowlist Antigravity. То есть по умолчанию агенту разрешено ходить на домен, где любой желающий может читать входящие запросы.

Google честно предупреждает об этом при установке: «Есть риск утечки данных». Но по факту работа с IDE сейчас устроена так, что отследить подобную цепочку вручную практически нереально.

Если вы тестируете Antigravity, то будьте бдительны)

@ai_for_devs

🤯15👍9😱3❤2🤔2👏1

2.69K views09:38

About

Blog

Apps

Platform