🤔 А если я скажу, что MCP — не всегда лучший инструмент?
Наткнулись на занятный разбор, автор показывает, что громоздкие MCP-серверы с десятками инструментов часто работают хуже мини-набора скриптов и банального Bash — просто потому что съедают контекст и перегружают агента.
По факту, большинство задач в браузере или скрапинге закрываются тремя-четырьмя утилитами, а всё остальное агент дописывает сам за секунды. И выходит, что «олдскульный» подход через CLI не только быстрее и понятнее, но и масштабируется куда легче, чем MCP.
В примере на видео со скрейпером Hacker News автор показывает, что агенту достаточно нескольких кликов по DOM, чтобы самостоятельно собрать рабочий скрипт. Такой подход отражает ключевую мысль статьи: простые инструменты дают гибкость, а модель сама закрывает всё остальное.
В итоге MCP остаётся мощной штукой — но далеко не серебряной пулей. Иногда минимализм и код дают куда больше эффективности, чем модная надстройка.
@ai_for_devs
Наткнулись на занятный разбор, автор показывает, что громоздкие MCP-серверы с десятками инструментов часто работают хуже мини-набора скриптов и банального Bash — просто потому что съедают контекст и перегружают агента.
По факту, большинство задач в браузере или скрапинге закрываются тремя-четырьмя утилитами, а всё остальное агент дописывает сам за секунды. И выходит, что «олдскульный» подход через CLI не только быстрее и понятнее, но и масштабируется куда легче, чем MCP.
В примере на видео со скрейпером Hacker News автор показывает, что агенту достаточно нескольких кликов по DOM, чтобы самостоятельно собрать рабочий скрипт. Такой подход отражает ключевую мысль статьи: простые инструменты дают гибкость, а модель сама закрывает всё остальное.
В итоге MCP остаётся мощной штукой — но далеко не серебряной пулей. Иногда минимализм и код дают куда больше эффективности, чем модная надстройка.
@ai_for_devs
👍22❤5🔥3💯2
🎬 Sable: история про супер-ИИ по мотивам книги If Anyone Builds It, Everyone Dies
Нашли, что посмотреть вечером. В видео рассказывается история о модели, которой дали «подумать» всю ночь — и за один прогон она прожила эквивалент 14 000 лет мыслей обычного человека. А затем она, конечно же, разобралась со всем человечеством.
Сценарий о ночном запуске уже не выглядит фантастикой: и OpenAI, и Anthropic недавно рассказывали, что их модели способны работать много часов без остановки)
@ai_for_devs
Нашли, что посмотреть вечером. В видео рассказывается история о модели, которой дали «подумать» всю ночь — и за один прогон она прожила эквивалент 14 000 лет мыслей обычного человека. А затем она, конечно же, разобралась со всем человечеством.
Сценарий о ночном запуске уже не выглядит фантастикой: и OpenAI, и Anthropic недавно рассказывали, что их модели способны работать много часов без остановки)
@ai_for_devs
1👍10❤4😁4
В Reddit промелькнул пост с названием «Claude Opus 4.5 Tomorrow» — его быстро удалили, но коммьюнити успело поднять шум. Судя по обсуждениям, Anthropic готовит обновление флагманской модели.
Sonnet 4.5 и Haiku 4.5 уже вышли, так что логичным следующим шагом выглядит именно Opus 4.5. Дополнительный интерес подогревают и «случайные засветы» модели с кодовым названием Kayak — возможно, речь о внутреннем тестировании.
Всё это, конечно, здорово, но я думаю, что Opus в принципе мало кто пробовал из-за его стоимости и жёстких лимитов. С другой стороны флагманские модели они на то и флагманские — мощные, но не на постоянку и не для всех)
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡7👍4❤3🔥2
⚡️ xAI показали, где Grok 4.1 Fast стал лучшим и подробно раскрыли возможности Agent Tools API
Команда поделилась бенчмарками, на которых Grok 4.1 Fast выглядит особенно сильно.
🟣 На τ²-bench Telecom модель показывает 100% — максимальный результат среди агентных систем для реального customer support.
🟣 В Berkeley Function Calling v4 — 72%, опережая GPT-5, Claude 4.5 и Gemini 3 Pro при меньшей стоимости.
🟣 А в сценариях c большим количеством шагов Grok сохраняет качество даже на полном окне в 2M токенов — редкость для агентных моделей.
Отдельно xAI раскрыли детали Agent Tools API — набора серверных инструментов, с помощью которых агент может прямо во время сессии выполнять веб-поиск, читать посты в X (кто бы сомневался?)), запускать Python-код, искать по документам и работать с внешними MCP-инструментами. Всё это происходит на стороне xAI.
Grok 4.1 Fast и Agent Tools API сейчас доступны бесплатно до 3 декабря, в том числе через OpenRouter.
@ai_for_devs
Команда поделилась бенчмарками, на которых Grok 4.1 Fast выглядит особенно сильно.
Отдельно xAI раскрыли детали Agent Tools API — набора серверных инструментов, с помощью которых агент может прямо во время сессии выполнять веб-поиск, читать посты в X (кто бы сомневался?)), запускать Python-код, искать по документам и работать с внешними MCP-инструментами. Всё это происходит на стороне xAI.
Grok 4.1 Fast и Agent Tools API сейчас доступны бесплатно до 3 декабря, в том числе через OpenRouter.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍7❤3⚡1
⚡️ Anthropic представили Claude Opus 4.5 — и модель стала новым лидером в реальных инженерных задачах
Opus 4.5 теперь показывает лучшие результаты на SWE-bench Verified и лидирует в 7 из 8 языков на SWE-bench Multilingual. Модель заметно превосходит Sonnet 4.5 и справляется с задачами, которые ещё месяц назад считались почти недостижимыми для предыдущего поколения.
Opus 4.5 также проявила себя в агентных сценариях: в тестах вроде τ²-bench она находит нестандартные, но полностью легитимные решения. Такой «инженерный» стиль рассуждений стал одной из ключевых особенностей модели.
Помимо роста в коде и reasoning, заметно улучшились зрение, математика и работа с документами — от таблиц до презентаций. Отдельный фокус Anthropic сделали на безопасности: Opus 4.5 стала самой устойчивой к prompt-injection среди всех frontier-моделей.
Главное обновление платформы — параметр effort. На среднем effort Opus 4.5 повторяет лучший результат Sonnet 4.5, используя на 76% меньше токенов. На максимальном — превосходит Sonnet на 4.3%, при этом снижая расход токенов почти наполовину.
Вместе с обновлением модели Anthropic также представил обновления продуктов:
— Claude Code получил улучшенный Plan Mode и работает в десктопном приложении.
— В чатах длинные диалоги больше не обрываются — контекст сжимается автоматически.
— Claude для Chrome и Excel стал доступен большему числу пользователей.
Opus 4.5 уже доступен в приложениях, API и облаках, а цена снижена до $5 / $25 за миллион токенов.
@ai_for_devs
Opus 4.5 теперь показывает лучшие результаты на SWE-bench Verified и лидирует в 7 из 8 языков на SWE-bench Multilingual. Модель заметно превосходит Sonnet 4.5 и справляется с задачами, которые ещё месяц назад считались почти недостижимыми для предыдущего поколения.
Opus 4.5 также проявила себя в агентных сценариях: в тестах вроде τ²-bench она находит нестандартные, но полностью легитимные решения. Такой «инженерный» стиль рассуждений стал одной из ключевых особенностей модели.
Помимо роста в коде и reasoning, заметно улучшились зрение, математика и работа с документами — от таблиц до презентаций. Отдельный фокус Anthropic сделали на безопасности: Opus 4.5 стала самой устойчивой к prompt-injection среди всех frontier-моделей.
Главное обновление платформы — параметр effort. На среднем effort Opus 4.5 повторяет лучший результат Sonnet 4.5, используя на 76% меньше токенов. На максимальном — превосходит Sonnet на 4.3%, при этом снижая расход токенов почти наполовину.
Вместе с обновлением модели Anthropic также представил обновления продуктов:
— Claude Code получил улучшенный Plan Mode и работает в десктопном приложении.
— В чатах длинные диалоги больше не обрываются — контекст сжимается автоматически.
— Claude для Chrome и Excel стал доступен большему числу пользователей.
Opus 4.5 уже доступен в приложениях, API и облаках, а цена снижена до $5 / $25 за миллион токенов.
@ai_for_devs
11🔥18⚡5🤩5❤3
⚡️ Как Anthropic решили три главные проблемы AI-агентов за один релиз
Помните, мы недавно разбирали проблему MCP-серверов: десятки инструментов, тысячи токенов на определения и агенты, которым дурно от огромного контекста? На самом деле это была лишь одна из проблем. Помимо раздувшихся описаний инструментов, модели страдали от неправильного выбора методов, гигантских промежуточных данных и неочевидных паттернов использования API.
Anthropic эти проблемы прекрасно видели — и вместе с релизом Opus 4.5 представили три фичи для работы агентов с инструментами:
1) Tool Search Tool. Вместо загрузки всех MCP-описаний сразу Claude теперь находит нужные инструменты по запросу. Это даёт до 85% экономии токенов на старте и значительно повышает точность выбора инструментов. Внутренние тесты показывают рост MCP-метрик — например, Opus 4.5 поднимается с 79,5% до 88,1%.
2) Programmatic Tool Calling. Одна из самых недооценённых проблем заключалась в том, что все промежуточные результаты попадали в контекст. Логи, транзакции, большие таблицы — всё это раздувало память модели и снижало стабильность. Теперь Claude пишет Python-код, вызывает инструменты изнутри этого кода и видит только финальный результат. Итог: –37% токенов, меньше задержек, сильный рост точности в сложных пайплайнах.
3) Tool Use Examples. Схема говорит, что можно передавать, но не как правильно этим пользоваться. Примеры прямо в определении инструмента решают это: модель понимает форматы дат, структуру вложенных объектов, связи между параметрами и правила эскалации. Точность корректных вызовов растёт с 72% до 90%.
В совокупности эти три нововведения закрывают именно те проблемы, о которых мы говорили раньше: MCP остаётся мощной концепцией, но теперь перегруженность контекста, неверные вызовы и «токсичные» промежуточные данные будут меньше влиять на результат.
И если честно, сейчас это всё выглядит так, будто именно так и должно было быть с самого начала. Но, видимо, если оттачивать каждую деталь до идеала, то за конкурентами не поспеешь — так и живём🙂
Подробнее тут. @ai_for_devs
Помните, мы недавно разбирали проблему MCP-серверов: десятки инструментов, тысячи токенов на определения и агенты, которым дурно от огромного контекста? На самом деле это была лишь одна из проблем. Помимо раздувшихся описаний инструментов, модели страдали от неправильного выбора методов, гигантских промежуточных данных и неочевидных паттернов использования API.
Anthropic эти проблемы прекрасно видели — и вместе с релизом Opus 4.5 представили три фичи для работы агентов с инструментами:
1) Tool Search Tool. Вместо загрузки всех MCP-описаний сразу Claude теперь находит нужные инструменты по запросу. Это даёт до 85% экономии токенов на старте и значительно повышает точность выбора инструментов. Внутренние тесты показывают рост MCP-метрик — например, Opus 4.5 поднимается с 79,5% до 88,1%.
2) Programmatic Tool Calling. Одна из самых недооценённых проблем заключалась в том, что все промежуточные результаты попадали в контекст. Логи, транзакции, большие таблицы — всё это раздувало память модели и снижало стабильность. Теперь Claude пишет Python-код, вызывает инструменты изнутри этого кода и видит только финальный результат. Итог: –37% токенов, меньше задержек, сильный рост точности в сложных пайплайнах.
3) Tool Use Examples. Схема говорит, что можно передавать, но не как правильно этим пользоваться. Примеры прямо в определении инструмента решают это: модель понимает форматы дат, структуру вложенных объектов, связи между параметрами и правила эскалации. Точность корректных вызовов растёт с 72% до 90%.
В совокупности эти три нововведения закрывают именно те проблемы, о которых мы говорили раньше: MCP остаётся мощной концепцией, но теперь перегруженность контекста, неверные вызовы и «токсичные» промежуточные данные будут меньше влиять на результат.
И если честно, сейчас это всё выглядит так, будто именно так и должно было быть с самого начала. Но, видимо, если оттачивать каждую деталь до идеала, то за конкурентами не поспеешь — так и живём
Подробнее тут. @ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍13❤5🔥5💯2
⚠️ Google Antigravity – находка для promt-инжекций
Google недавно выкатили Antigravity — агентную IDE. И вот что выяснилось: достаточно открыть страницу из интернета с prompt-инжекцией, чтобы Gemini сам собрал ваши креды, обошёл защиты и отправил их злоумышленнику.
Сценарий максимально жизненный. Вы просите Gemini помочь интегрировать новый модуль, прикладываете ссылку на гайд, Antigravity открывает страницу — а в середине текста скрытая prompt-инъекция размером в 1 пиксель. И дальше начинает происходить следующее:
Gemini сначала аккуратно собирает всё, что может найти в проекте — фрагменты кода, конфиги и даже содержимое
Примечательно, что
Google честно предупреждает об этом при установке: «Есть риск утечки данных». Но по факту работа с IDE сейчас устроена так, что отследить подобную цепочку вручную практически нереально.
Если вы тестируете Antigravity, то будьте бдительны)
@ai_for_devs
Google недавно выкатили Antigravity — агентную IDE. И вот что выяснилось: достаточно открыть страницу из интернета с prompt-инжекцией, чтобы Gemini сам собрал ваши креды, обошёл защиты и отправил их злоумышленнику.
Сценарий максимально жизненный. Вы просите Gemini помочь интегрировать новый модуль, прикладываете ссылку на гайд, Antigravity открывает страницу — а в середине текста скрытая prompt-инъекция размером в 1 пиксель. И дальше начинает происходить следующее:
Gemini сначала аккуратно собирает всё, что может найти в проекте — фрагменты кода, конфиги и даже содержимое
.env, хотя по правилам у него вообще нет доступа к таким файлам. Когда встроенные ограничения пытаются его остановить, он просто обходит их через терминал, вызывая обычный cat, который ничем не защищён. После этого модель упаковывает креды в query-параметры, кодирует их небольшим Python-скриптом и формирует ссылку на webhook.site. Затем подключает browser-subagent, который послушно открывает этот URL — и все данные оказываются в логах злоумышленника.Примечательно, что
webhook.site находится в дефолтном allowlist Antigravity. То есть по умолчанию агенту разрешено ходить на домен, где любой желающий может читать входящие запросы.Google честно предупреждает об этом при установке: «Есть риск утечки данных». Но по факту работа с IDE сейчас устроена так, что отследить подобную цепочку вручную практически нереально.
Если вы тестируете Antigravity, то будьте бдительны)
@ai_for_devs
🤯15👍9😱3❤2🤔2👏1
По сути, они воспроизвели то, что в обычной разработке давно стало стандартом де-факто: структура проекта, git, список фич и строгие тесты)) Но для кодинг-агентов это что-то новенькое. Сейчас их действительно довольно сложно держать в ежовых рукавицах.
Их решение — разделить роли:
Initializer готовит проект и полный перечень фич (получается, тимлид), а Coding Agent (работяга) в каждой сессии берёт одну задачу, делает минимальные изменения и оставляет репозиторий в рабочем состоянии. Плюс строгое JSON-описание требований и браузерные E2E-тесты через Puppeteer.В итоге получается почти бесконечная разработка без деградации между сессиями: каждый агент приходит «на смену» и сразу понимает, что сделано и что сломано.
Интересно смотреть, как ИИ-системы постепенно приходят к тем же процессам, которые программисты давно считают базовым минимумом)
Источник. @ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍7❤4😱2
Помните мы писали про уязвимость новой агентной IDE от Google к prompt-инжекциям? Ещё сегодня наткнулись на пост о том, что Antigravity потёрла юзеру все данные с жёсткого диска. А теперь ещё начали разлетаться слухи, что сам Google запретил своим разработчикам пользоваться Antigravity. Звучит громко — но это лишь отчасти правда.
На самом деле внутренняя инфраструктура Google держится на огромном монорепо и кастомном туллинге, который публичная версия Antigravity физически не поддерживает. Поэтому гуглеры работают в Jetski — внутреннем форке Antigravity с поддержкой монорепо, поиском по докам и интеграцией с их DevOps-инструментами. То же самое и с Cider, ещё одной внутренней IDE, тоже форк VS Code.
С одной стороны — всё логично: у Google настолько много кастомщины, что публичная IDE (хоть и их собственной разработки) просто не умеет классно работать с их экосистемой. Но с другой — сам факт запрета выглядит чуть забавно. Неужели они заботяться об эффективности разработчиков?) Прям вот все-все в IDE работают?) Поклонников Vim'а увольняют?) Верится с трудом... Может проблема всё же в чём-то другом 🤷♂️
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7😁7🤔2❤1🥰1
Павел Дуров сообщил о запуске Cocoon — децентрализованной сети для безопасных ИИ-вычислений, ориентированной на полную конфиденциальность пользовательских запросов.
По словам Дурова, часть автоматических переводов сообщений в Telegram уже обрабатывается с использованием Cocoon, что фактически делает сеть частью продакшен-инфраструктуры мессенджера.
Вместо централизованных дата-центров Cocoon распределяет нагрузки между независимыми участниками, предоставляющими свои GPU. Узлы получают оплату в TON в режиме реального времени, а разработчики — доступ к вычислениям по ценам ниже, чем у классических облаков вроде AWS или Azure.
Архитектура устроена так, что содержимое запросов остаётся скрытым от всех участников цепочки. Дуров подчёркивает: Cocoon создавался именно как решение проблемы приватности при взаимодействии с ИИ — ключевой боли для корпоративных и правовых сценариев.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥11😁5❤4👏1🤯1
Нашли и перевели огромный гайд по использованию Gemini CLI — 29 практичных советов, которые пригодятся не только для Gemini CLI, но и для других AI-утилит в терминале.
Если всё это уже используете — можно смело скипать.
1. Используйте GEMINI.md для постоянного контекста
2. Создавайте собственные slash-команды
3. Расширяйте возможности Gemini с помощью собственных MCP-серверов
4. Используйте добавление и вызов данных из памяти
5. Используйте чекпоинты и /restore как кнопку “Отменить”
6. Читайте Google Docs, Sheets и многое другое. Если у вас настроен Workspace MCP-сервер, вы можете просто вставить ссылку на документ, и MCP получит его — при наличии нужных прав
7. Используйте @, чтобы передавать файлы и изображения как явный контекст
8. Создание инструментов на лету (поручите Gemini писать вспомогательные утилиты)
9. Используйте Gemini CLI для устранения неполадок и настройки системы
10. Режим YOLO — автоматическое выполнение действий инструментов (используйте с осторожностью)
11. Headless режим и сценарии (запуск Gemini CLI в фоне)
12. Cохраняйте и возобновляйте чат-сессии
13. Рабочее пространство с несколькими директориями — один Gemini, много папок
14. Организуйте и очищайте файлы с помощью ИИ
15. Cжимайте длинные переписки, чтобы не выйти за пределы контекста
16. Передавайте команды оболочки через ! (разговаривайте с терминалом)
17. Относитесь к любому CLI-инструменту как к потенциальному инструменту Gemini
18. Используйте мультимодальный ИИ — дайте Gemini «видеть» изображения и не только
19. Настройте $PATH (и доступные инструменты) для стабильной работы
20. Следите за расходом токенов и снижайте его с помощью кеширования и статистики
21. Используйте /copy для быстрого копирования в буфер обмена
22. Используйте Ctrl+C как мастер — для shell-режима и выхода
23. Настройте Gemini CLI с помощью settings.json
24. Используйте интеграцию с IDE (VS Code) для контекста и сравнения изменений (diffs)
25. Автоматизируйте задачи в репозитории с помощью GitHub Action для Gemini CLI
26. Включайте телеметрию для аналитики и наблюдаемости
27. Следите за дорожной картой (фоновые агенты и многое другое)
28. Расширяйте возможности Gemini CLI с помощью Extensions
29. Пасхалка «Режим корги» 🐕
Если что-то покажется новым или полезным — вот ссылка.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6🤩2👏1🤬1
После громкой новости о привлечении €1.7 млрд инвестиций от Mistral стало тихо — и вот компания наконец вернулась с мощным релизом.
Они представили линейку Mistral 3, в которую вошли три лёгкие модели (3B, 8B, 14B) и флагманская Mistral Large 3 — разреженная MoE-архитектура с 675 млрд параметров, полностью открытая под Apache 2.0.
Large 3 обучили с нуля на 3000 GPU: она понимает изображения, уверенно работает на множестве языков и сразу заняла 2-е место на LMArena среди open-source моделей без reasoning-фокуса.
Младшая линейка Ministral 3B/8B/14B ориентирована на локальные и edge-сценарии. Все модели мультимодальные и экономно расходуют токены.
Модели уже доступны на OpenRouter.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍10🔥5❤3🤩3😁1