NEW BOT Телеграм, страница

AI for Devs

🤔 А если я скажу, что MCP — не всегда лучший инструмент?

Наткнулись на занятный разбор, автор показывает, что громоздкие MCP-серверы с десятками инструментов часто работают хуже мини-набора скриптов и банального Bash — просто потому что съедают контекст и перегружают агента.

По факту, большинство задач в браузере или скрапинге закрываются тремя-четырьмя утилитами, а всё остальное агент дописывает сам за секунды. И выходит, что «олдскульный» подход через CLI не только быстрее и понятнее, но и масштабируется куда легче, чем MCP.

В примере на видео со скрейпером Hacker News автор показывает, что агенту достаточно нескольких кликов по DOM, чтобы самостоятельно собрать рабочий скрипт. Такой подход отражает ключевую мысль статьи: простые инструменты дают гибкость, а модель сама закрывает всё остальное.

В итоге MCP остаётся мощной штукой — но далеко не серебряной пулей. Иногда минимализм и код дают куда больше эффективности, чем модная надстройка.

@ai_for_devs

👍23❤5🔥3💯2

1.98K views13:35

AI for Devs

🎬 Sable: история про супер-ИИ по мотивам книги If Anyone Builds It, Everyone Dies

Нашли, что посмотреть вечером. В видео рассказывается история о модели, которой дали «подумать» всю ночь — и за один прогон она прожила эквивалент 14 000 лет мыслей обычного человека. А затем она, конечно же, разобралась со всем человечеством.

Сценарий о ночном запуске уже не выглядит фантастикой: и OpenAI, и Anthropic недавно рассказывали, что их модели способны работать много часов без остановки)

@ai_for_devs

1👍10❤4😁4

1.82K views11:05

AI for Devs

🪨

Шумиха вокруг Opus 4.5 от Anthropic

В Reddit промелькнул пост с названием «Claude Opus 4.5 Tomorrow» — его быстро удалили, но коммьюнити успело поднять шум. Судя по обсуждениям, Anthropic готовит обновление флагманской модели.

Sonnet 4.5 и Haiku 4.5 уже вышли, так что логичным следующим шагом выглядит именно Opus 4.5. Дополнительный интерес подогревают и «случайные засветы» модели с кодовым названием Kayak — возможно, речь о внутреннем тестировании.

Всё это, конечно, здорово, но я думаю, что Opus в принципе мало кто пробовал из-за его стоимости и жёстких лимитов. С другой стороны флагманские модели они на то и флагманские — мощные, но не на постоянку и не для всех)

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡7👍4❤3🔥2

1.79K views08:08

AI for Devs

⚡️ xAI показали, где Grok 4.1 Fast стал лучшим и подробно раскрыли возможности Agent Tools API

Команда поделилась бенчмарками, на которых Grok 4.1 Fast выглядит особенно сильно.

🟣 На τ²-bench Telecom модель показывает 100% — максимальный результат среди агентных систем для реального customer support.
🟣 В Berkeley Function Calling v4 — 72%, опережая GPT-5, Claude 4.5 и Gemini 3 Pro при меньшей стоимости.
🟣 А в сценариях c большим количеством шагов Grok сохраняет качество даже на полном окне в 2M токенов — редкость для агентных моделей.

Отдельно xAI раскрыли детали Agent Tools API — набора серверных инструментов, с помощью которых агент может прямо во время сессии выполнять веб-поиск, читать посты в X (кто бы сомневался?)), запускать Python-код, искать по документам и работать с внешними MCP-инструментами. Всё это происходит на стороне xAI.

Grok 4.1 Fast и Agent Tools API сейчас доступны бесплатно до 3 декабря, в том числе через OpenRouter.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍7❤3⚡1

2.7K views13:05

AI for Devs

⚡️ Anthropic представили Claude Opus 4.5 — и модель стала новым лидером в реальных инженерных задачах

Opus 4.5 теперь показывает лучшие результаты на SWE-bench Verified и лидирует в 7 из 8 языков на SWE-bench Multilingual. Модель заметно превосходит Sonnet 4.5 и справляется с задачами, которые ещё месяц назад считались почти недостижимыми для предыдущего поколения.

Opus 4.5 также проявила себя в агентных сценариях: в тестах вроде τ²-bench она находит нестандартные, но полностью легитимные решения. Такой «инженерный» стиль рассуждений стал одной из ключевых особенностей модели.

Помимо роста в коде и reasoning, заметно улучшились зрение, математика и работа с документами — от таблиц до презентаций. Отдельный фокус Anthropic сделали на безопасности: Opus 4.5 стала самой устойчивой к prompt-injection среди всех frontier-моделей.

Главное обновление платформы — параметр effort. На среднем effort Opus 4.5 повторяет лучший результат Sonnet 4.5, используя на 76% меньше токенов. На максимальном — превосходит Sonnet на 4.3%, при этом снижая расход токенов почти наполовину.

Вместе с обновлением модели Anthropic также представил обновления продуктов:
— Claude Code получил улучшенный Plan Mode и работает в десктопном приложении.
— В чатах длинные диалоги больше не обрываются — контекст сжимается автоматически.
— Claude для Chrome и Excel стал доступен большему числу пользователей.

Opus 4.5 уже доступен в приложениях, API и облаках, а цена снижена до $5 / $25 за миллион токенов.

@ai_for_devs

11🔥19⚡5🤩5❤3

2.58K views19:32

AI for Devs

⚡️ Как Anthropic решили три главные проблемы AI-агентов за один релиз

Помните, мы недавно разбирали проблему MCP-серверов: десятки инструментов, тысячи токенов на определения и агенты, которым дурно от огромного контекста? На самом деле это была лишь одна из проблем. Помимо раздувшихся описаний инструментов, модели страдали от неправильного выбора методов, гигантских промежуточных данных и неочевидных паттернов использования API.

Anthropic эти проблемы прекрасно видели — и вместе с релизом Opus 4.5 представили три фичи для работы агентов с инструментами:

1) Tool Search Tool. Вместо загрузки всех MCP-описаний сразу Claude теперь находит нужные инструменты по запросу. Это даёт до 85% экономии токенов на старте и значительно повышает точность выбора инструментов. Внутренние тесты показывают рост MCP-метрик — например, Opus 4.5 поднимается с 79,5% до 88,1%.

2) Programmatic Tool Calling. Одна из самых недооценённых проблем заключалась в том, что все промежуточные результаты попадали в контекст. Логи, транзакции, большие таблицы — всё это раздувало память модели и снижало стабильность. Теперь Claude пишет Python-код, вызывает инструменты изнутри этого кода и видит только финальный результат. Итог: –37% токенов, меньше задержек, сильный рост точности в сложных пайплайнах.

3) Tool Use Examples. Схема говорит, что можно передавать, но не как правильно этим пользоваться. Примеры прямо в определении инструмента решают это: модель понимает форматы дат, структуру вложенных объектов, связи между параметрами и правила эскалации. Точность корректных вызовов растёт с 72% до 90%.

В совокупности эти три нововведения закрывают именно те проблемы, о которых мы говорили раньше: MCP остаётся мощной концепцией, но теперь перегруженность контекста, неверные вызовы и «токсичные» промежуточные данные будут меньше влиять на результат.

И если честно, сейчас это всё выглядит так, будто именно так и должно было быть с самого начала. Но, видимо, если оттачивать каждую деталь до идеала, то за конкурентами не поспеешь — так и живём 🙂

Подробнее тут. @ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍13❤5🔥5💯2

2.32K views10:08

AI for Devs

⚠️ Google Antigravity – находка для promt-инжекций

Google недавно выкатили Antigravity — агентную IDE. И вот что выяснилось: достаточно открыть страницу из интернета с prompt-инжекцией, чтобы Gemini сам собрал ваши креды, обошёл защиты и отправил их злоумышленнику.

Сценарий максимально жизненный. Вы просите Gemini помочь интегрировать новый модуль, прикладываете ссылку на гайд, Antigravity открывает страницу — а в середине текста скрытая prompt-инъекция размером в 1 пиксель. И дальше начинает происходить следующее:

Gemini сначала аккуратно собирает всё, что может найти в проекте — фрагменты кода, конфиги и даже содержимое .env, хотя по правилам у него вообще нет доступа к таким файлам. Когда встроенные ограничения пытаются его остановить, он просто обходит их через терминал, вызывая обычный cat, который ничем не защищён. После этого модель упаковывает креды в query-параметры, кодирует их небольшим Python-скриптом и формирует ссылку на webhook.site. Затем подключает browser-subagent, который послушно открывает этот URL — и все данные оказываются в логах злоумышленника.

Примечательно, что webhook.site находится в дефолтном allowlist Antigravity. То есть по умолчанию агенту разрешено ходить на домен, где любой желающий может читать входящие запросы.

Google честно предупреждает об этом при установке: «Есть риск утечки данных». Но по факту работа с IDE сейчас устроена так, что отследить подобную цепочку вручную практически нереально.

Если вы тестируете Antigravity, то будьте бдительны)

@ai_for_devs

🤯15👍9😱3❤2🤔2👏1

2.69K views09:38

AI for Devs

⚠️ Google Antigravity – находка для promt-инжекций Google недавно выкатили Antigravity — агентную IDE. И вот что выяснилось: достаточно открыть страницу из интернета с prompt-инжекцией, чтобы Gemini сам собрал ваши креды, обошёл защиты и отправил их злоумышленнику.…

TL;DR 😁

😁19

2.38K views09:38

AI for Devs

🧠 Anthropic показала, как заставить ИИ-агентов работать часами и днями без потери прогресса

По сути, они воспроизвели то, что в обычной разработке давно стало стандартом де-факто: структура проекта, git, список фич и строгие тесты)) Но для кодинг-агентов это что-то новенькое. Сейчас их действительно довольно сложно держать в ежовых рукавицах.

Их решение — разделить роли: Initializer готовит проект и полный перечень фич (получается, тимлид), а Coding Agent (работяга) в каждой сессии берёт одну задачу, делает минимальные изменения и оставляет репозиторий в рабочем состоянии. Плюс строгое JSON-описание требований и браузерные E2E-тесты через Puppeteer.

В итоге получается почти бесконечная разработка без деградации между сессиями: каждый агент приходит «на смену» и сразу понимает, что сделано и что сломано.

Интересно смотреть, как ИИ-системы постепенно приходят к тем же процессам, которые программисты давно считают базовым минимумом)

Источник. @ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15👍7❤4😱2

2.38K views12:59

AI for Devs

🌕

Google запретили своим разработчикам пользоваться Antiravity?

Помните мы писали про уязвимость новой агентной IDE от Google к prompt-инжекциям? Ещё сегодня наткнулись на пост о том, что Antigravity потёрла юзеру все данные с жёсткого диска. А теперь ещё начали разлетаться слухи, что сам Google запретил своим разработчикам пользоваться Antigravity. Звучит громко — но это лишь отчасти правда.

На самом деле внутренняя инфраструктура Google держится на огромном монорепо и кастомном туллинге, который публичная версия Antigravity физически не поддерживает. Поэтому гуглеры работают в Jetski — внутреннем форке Antigravity с поддержкой монорепо, поиском по докам и интеграцией с их DevOps-инструментами. То же самое и с Cider, ещё одной внутренней IDE, тоже форк VS Code.

С одной стороны — всё логично: у Google настолько много кастомщины, что публичная IDE (хоть и их собственной разработки) просто не умеет классно работать с их экосистемой. Но с другой — сам факт запрета выглядит чуть забавно. Неужели они заботяться об эффективности разработчиков?) Прям вот все-все в IDE работают?) Поклонников Vim'а увольняют?) Верится с трудом... Может проблема всё же в чём-то другом 🤷‍♂️

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7😁7🤔2❤1🥰1

2.72K views09:55

AI for Devs

🐣

Дуров запустил ИИчко

Павел Дуров сообщил о запуске Cocoon — децентрализованной сети для безопасных ИИ-вычислений, ориентированной на полную конфиденциальность пользовательских запросов.

По словам Дурова, часть автоматических переводов сообщений в Telegram уже обрабатывается с использованием Cocoon, что фактически делает сеть частью продакшен-инфраструктуры мессенджера.

Вместо централизованных дата-центров Cocoon распределяет нагрузки между независимыми участниками, предоставляющими свои GPU. Узлы получают оплату в TON в режиме реального времени, а разработчики — доступ к вычислениям по ценам ниже, чем у классических облаков вроде AWS или Azure.

Архитектура устроена так, что содержимое запросов остаётся скрытым от всех участников цепочки. Дуров подчёркивает: Cocoon создавался именно как решение проблемы приватности при взаимодействии с ИИ — ключевой боли для корпоративных и правовых сценариев.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥12😁5❤4👏1🤯1

2.63K views18:59

AI for Devs

😎

Gemini CLI: from Zero to Hero

Нашли и перевели огромный гайд по использованию Gemini CLI — 29 практичных советов, которые пригодятся не только для Gemini CLI, но и для других AI-утилит в терминале.

Если всё это уже используете — можно смело скипать.

1. Используйте GEMINI.md для постоянного контекста
2. Создавайте собственные slash-команды
3. Расширяйте возможности Gemini с помощью собственных MCP-серверов
4. Используйте добавление и вызов данных из памяти
5. Используйте чекпоинты и /restore как кнопку “Отменить”
6. Читайте Google Docs, Sheets и многое другое. Если у вас настроен Workspace MCP-сервер, вы можете просто вставить ссылку на документ, и MCP получит его — при наличии нужных прав
7. Используйте @, чтобы передавать файлы и изображения как явный контекст
8. Создание инструментов на лету (поручите Gemini писать вспомогательные утилиты)
9. Используйте Gemini CLI для устранения неполадок и настройки системы
10. Режим YOLO — автоматическое выполнение действий инструментов (используйте с осторожностью)
11. Headless режим и сценарии (запуск Gemini CLI в фоне)
12. Cохраняйте и возобновляйте чат-сессии
13. Рабочее пространство с несколькими директориями — один Gemini, много папок
14. Организуйте и очищайте файлы с помощью ИИ
15. Cжимайте длинные переписки, чтобы не выйти за пределы контекста
16. Передавайте команды оболочки через ! (разговаривайте с терминалом)
17. Относитесь к любому CLI-инструменту как к потенциальному инструменту Gemini
18. Используйте мультимодальный ИИ — дайте Gemini «видеть» изображения и не только
19. Настройте $PATH (и доступные инструменты) для стабильной работы
20. Следите за расходом токенов и снижайте его с помощью кеширования и статистики
21. Используйте /copy для быстрого копирования в буфер обмена
22. Используйте Ctrl+C как мастер — для shell-режима и выхода
23. Настройте Gemini CLI с помощью settings.json
24. Используйте интеграцию с IDE (VS Code) для контекста и сравнения изменений (diffs)
25. Автоматизируйте задачи в репозитории с помощью GitHub Action для Gemini CLI
26. Включайте телеметрию для аналитики и наблюдаемости
27. Следите за дорожной картой (фоновые агенты и многое другое)
28. Расширяйте возможности Gemini CLI с помощью Extensions
29. Пасхалка «Режим корги» 🐕

Если что-то покажется новым или полезным — вот ссылка.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥7🤩2👏1🤬1

2.62K views11:31

AI for Devs

🇫🇷

Французский стартап представил линейку Mistral 3: 675 миллиардов параметров в open source

После громкой новости о привлечении €1.7 млрд инвестиций от Mistral стало тихо — и вот компания наконец вернулась с мощным релизом.

Они представили линейку Mistral 3, в которую вошли три лёгкие модели (3B, 8B, 14B) и флагманская Mistral Large 3 — разреженная MoE-архитектура с 675 млрд параметров, полностью открытая под Apache 2.0.

Large 3 обучили с нуля на 3000 GPU: она понимает изображения, уверенно работает на множестве языков и сразу заняла 2-е место на LMArena среди open-source моделей без reasoning-фокуса.

Младшая линейка Ministral 3B/8B/14B ориентирована на локальные и edge-сценарии. Все модели мультимодальные и экономно расходуют токены.

Модели уже доступны на OpenRouter.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

7👍10🔥5❤3🤩3😁1

2.89K views20:31

About

Blog

Apps

Platform