Anthropic опубликовала крупное внутреннее исследование: 132 инженера, 53 интервью и анализ 200 000 сессий Claude Code.
Картина получилась очень современная: output растёт почти по всем категориям, время потраченное на задачу падает незначительно, deep-skills уходят на второй план, а IT-специалисты постепенно превращаются в «менеджеров ИИ-агентов».
@ai_for_devs
Картина получилась очень современная: output растёт почти по всем категориям, время потраченное на задачу падает незначительно, deep-skills уходят на второй план, а IT-специалисты постепенно превращаются в «менеджеров ИИ-агентов».
Коротко по ключевым выводам исследования:🟣 Продуктивность растёт — но за счёт объёма, а не скорости.
Инженеры делают больше задач, пишут больше кода, больше тестов и документации.
Однако реальная экономия времени невелика: графики показывают лишь лёгкий сдвиг влево. Claude ускоряет не отдельную задачу, а масштаб всей работы.🟣 Появляется работа, которой раньше бы просто не существовало.
Около 27% задач — это «nice-to-have»: паперкаты, рефакторинг, визуализации, внутренние инструменты, мини-автоматизации. Claude снижает порог входа, и эти задачи наконец-то начинают выполняться.🟣 Растёт автономия ИИ — инженеры всё меньше вмешиваются.
Средняя сложность задач поднялась с 3.2 до 3.8, модель делает вдвое больше автономных шагов (10 → 21), а человеческих реплик в диалогах становится меньше.
Инженеры постепенно «отпускают руль», и Claude вполне уверенно продолжает ехать.🟣 Но deep-skills "ржавеют" — и разработчиков это тревожит.
Люди меньше читают код, реже строят ментальные модели систем, меньше копаются в инфраструктуре.
Возникает парадокс: чтобы проверить ИИ, нужны навыки, которые из-за ИИ же начинают проседать.🟣 Социальная динамика меняется — менторство проседает.
80–90% вопросов, которые раньше шли к коллегам, теперь идут Claude.
Это полезно для скорости, но срезает ролевую модель сеньоров и уменьшает количество технических обсуждений внутри команд.🟣 И меняется сама профессия: разработчик → менеджер ИИ-агентов.
Всё больше инженеров говорят, что 50–70% их работы — это ревью, корректировка и мониторинг тактических действий Claude.
Писать код руками становятся редкой фазой — а вот проверять и направлять ИИ — ежедневной нормой.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍24🔥6🤯4❤2
Forwarded from Go for Devs
😱 MinIO: развитие остановлено
Команда MinIO объявила, что проект уходит в чистый maintenance-mode. Никаких новых фичи, PR’ов и даже review существующих изменений.
Останутся только точечные фиксы критических уязвимостей (и то по ситуации).
Активное развитие теперь живёт в их enterprise-решении MinIO AIStor.
Такой вот Open Source :)
@go_for_devs
Команда MinIO объявила, что проект уходит в чистый maintenance-mode. Никаких новых фичи, PR’ов и даже review существующих изменений.
Останутся только точечные фиксы критических уязвимостей (и то по ситуации).
Активное развитие теперь живёт в их enterprise-решении MinIO AIStor.
Такой вот Open Source :)
@go_for_devs
😱11🤬3🤯2😢2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ JetBrains представила Air: новую агентную IDE
Компания выпустила Air — ADE (Agentic Development Environment), ориентированную на гибридную работу «разработчик + ИИ-агенты».
Это не просто чат с моделью внутри IDE, а отдельная среда разработки, где можно ставить задачи агентам, запускать их параллельно, контролировать изменения и коммитить результаты.
Air пока доступен в превью и работает только с одним агентом — Claude Agent, причём для использования требуется активная подписка Anthropic.
Версии для Windows и Linux обещают в 2026 году — сейчас приложение доступно только на macOS.
Сайт | Документация | Анонс в X | Анонс на Habr
@ai_for_devs
Компания выпустила Air — ADE (Agentic Development Environment), ориентированную на гибридную работу «разработчик + ИИ-агенты».
Это не просто чат с моделью внутри IDE, а отдельная среда разработки, где можно ставить задачи агентам, запускать их параллельно, контролировать изменения и коммитить результаты.
Air пока доступен в превью и работает только с одним агентом — Claude Agent, причём для использования требуется активная подписка Anthropic.
Версии для Windows и Linux обещают в 2026 году — сейчас приложение доступно только на macOS.
Сайт | Документация | Анонс в X | Анонс на Habr
@ai_for_devs
5👍23😱8❤5🤯5🤬1
За последние месяцы стало видно, что почти все пытаются решить одну и ту же проблему: контекст LLM-агента разрастается быстрее, чем приносит пользу. Мы недавно обсуждали, как Anthropic облегчили эту историю на уровне инструментов — меньше лишних описаний, меньше промежуточных логов, меньше ненужных данных в памяти.
И тут под конец года подключились JetBrains. Не задолго до релиза своей IDE они опубликовали исследование, где сравнили два самых популярных способа работы с памятью агента.
🟣 Маскирование — это когда старые логи и длинные выводы инструментов заменяются короткими заглушками, но рассуждения и действия остаются.
🟣 Суммирование работает иначе: отдельная LLM пытается «пересказать» историю шагов в компактной форме и подменяет ей исходный контекст.
И, что забавно, простой метод оказался лучше навороченного. Маскирование давало и меньшую стоимость, и стабильное качество, а суммирование часто тормозило процесс: сводки скрывают важные сигналы, агент делает больше лишних шагов, плюс сама генерация сводок стоит недёшево.
В итоге JetBrains собрали гибрид, где маскирование используется всегда, а суммирование включается только когда память действительно выходит из-под контроля. Такой вариант оказался и точнее, и дешевле обоих подходов по отдельности.
@ai_for_devs
И тут под конец года подключились JetBrains. Не задолго до релиза своей IDE они опубликовали исследование, где сравнили два самых популярных способа работы с памятью агента.
И, что забавно, простой метод оказался лучше навороченного. Маскирование давало и меньшую стоимость, и стабильное качество, а суммирование часто тормозило процесс: сводки скрывают важные сигналы, агент делает больше лишних шагов, плюс сама генерация сводок стоит недёшево.
В итоге JetBrains собрали гибрид, где маскирование используется всегда, а суммирование включается только когда память действительно выходит из-под контроля. Такой вариант оказался и точнее, и дешевле обоих подходов по отдельности.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥8❤7
😎 RouterAI выкатили гайды по настройке вайб-кодинга в популярных IDE
Внутри пошаговые инструкции по подключению RouterAI (российский аналог OpenRouter) к самым популярным инструментам:
- VS Code: Roo Code, Kilo Code, Cline, Continue
- IntelliJ IDEA: Kilo Code, Cline
- NeoVIM: Avante
- Zed
Единый баланс в рублях для доступа ко всем моделям без VPN.
Настраиваем окружение для работы с Claude 4.5 Sonnet, GPT-5.1, DeepSeek 3.2, Gemini 3 Pro, Grok тут: https://routerai.ru/vibe-coding
@ai_for_devs
Внутри пошаговые инструкции по подключению RouterAI (российский аналог OpenRouter) к самым популярным инструментам:
- VS Code: Roo Code, Kilo Code, Cline, Continue
- IntelliJ IDEA: Kilo Code, Cline
- NeoVIM: Avante
- Zed
Единый баланс в рублях для доступа ко всем моделям без VPN.
Настраиваем окружение для работы с Claude 4.5 Sonnet, GPT-5.1, DeepSeek 3.2, Gemini 3 Pro, Grok тут: https://routerai.ru/vibe-coding
@ai_for_devs
1👍19🔥7❤3🤔2🤬1😢1
⚡️ Linux Foundation запускает Agentic AI Foundation
Под крыло фонда сразу передали MCP (Anthropic), goose (Block) и AGENTS.md (OpenAI), то есть весь тот стек, который за год стал основой современного агентного подхода.
Смысл AAIF в наведении порядка: агентные системы уже инфраструктура, а инфраструктура требует открытых протоколов, понятной модели управления и отсутствия единоличного влияния.
Например, до сих пор всё держалось на «OpenAI API» как де-факто интерфейса для работы с моделями. Многим может напомнить историю Oracle с JavaScript, когда критическая технология оказывается под контролем одного игрока. AAIF – это попытка избежать ровно этого.
Что уже попало под крыло AAIF:
• MCP: более 10 000 серверов, поддержка в Claude, Copilot, Gemini, Cursor, ChatGPT и десятках инструментов.
• goose: локально-ориентированный фреймворк для воспроизводимых агентных пайплайнов с нативной MCP-интеграцией.
• AGENTS.md: минимальный markdown-стандарт, уже внедренный в 60 000+ OSS-репозиториев и почти все агентные фреймворки.
Отдельно интересный момент: все восемь мест Platinum-уровня уже заняты — AWS, Google, Microsoft, Anthropic, OpenAI, Block, Bloomberg и Cloudflare. Платиновый статус дает полный контроль над стратегией и бюджетом фонда, включая право голоса по ключевым вопросам.
@ai_for_devs
Под крыло фонда сразу передали MCP (Anthropic), goose (Block) и AGENTS.md (OpenAI), то есть весь тот стек, который за год стал основой современного агентного подхода.
Смысл AAIF в наведении порядка: агентные системы уже инфраструктура, а инфраструктура требует открытых протоколов, понятной модели управления и отсутствия единоличного влияния.
Например, до сих пор всё держалось на «OpenAI API» как де-факто интерфейса для работы с моделями. Многим может напомнить историю Oracle с JavaScript, когда критическая технология оказывается под контролем одного игрока. AAIF – это попытка избежать ровно этого.
Что уже попало под крыло AAIF:
• MCP: более 10 000 серверов, поддержка в Claude, Copilot, Gemini, Cursor, ChatGPT и десятках инструментов.
• goose: локально-ориентированный фреймворк для воспроизводимых агентных пайплайнов с нативной MCP-интеграцией.
• AGENTS.md: минимальный markdown-стандарт, уже внедренный в 60 000+ OSS-репозиториев и почти все агентные фреймворки.
Отдельно интересный момент: все восемь мест Platinum-уровня уже заняты — AWS, Google, Microsoft, Anthropic, OpenAI, Block, Bloomberg и Cloudflare. Платиновый статус дает полный контроль над стратегией и бюджетом фонда, включая право голоса по ключевым вопросам.
@ai_for_devs
1👍15⚡6🤯6❤2
Неделю назад мы писали про Mistral 3 с MoE-моделью на 675B параметров. Сегодня компания представила Devstral 2 — новое поколение открытых моделей для кодинга.
Главное:
Devstral 2 и Small 2 получились удивительно компактными: они в 5–28 раз меньше DeepSeek V3.2 и в 8–41 раз меньше Kimi K2, но при этом держат уровень, который раньше был доступен только закрытым моделям.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍12❤5⚡2🔥1
OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)
В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года).
Ключевые выводы 👇
@ai_for_devs
В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года).
Ключевые выводы 👇
🟣 Open source закрепился на ~30% и привёл с собой Китай. Открытые модели стабильно держат около трети токенов. Особенно выросли китайские OSS (DeepSeek, Qwen, Kimi): с ~1–2% до до 30% трафика в отдельные недели, в среднем ~13%.🟣 "Medium is the new small": рынок смещается к 15–70B. Маленьких моделей много, но их доля в использовании падает. Реальный рост — в medium-классе (15–70B): Qwen2.5 Coder 32B, Mistral Small 3, GPT-OSS 20B.🟣 Главные use-cases для OSS: roleplay и кодинг. У открытых моделей: Roleplay ≈ 50%+ токенов: игровые сценарии, персонажи, фанфик-миры, «длинные» диалоги. Programming — второй по величине сегмент. Китайские OSS сдвинуты ещё сильнее в практику: у них roleplay уже не доминирует, а кодинг + технологии = ~39% нагрузки.🟣 Agentic inference стал нормой, а не экспериментом. Reasoning-модели обслуживают уже >50% всех токенов. Растёт доля запросов с tool-calling, появляются модели заточенные «под агентность». Средний запрос стал длинным: prompt вырос ~с 1.5K до >6K токенов, completion почти утроился.🟣 Программирование стало "killer-категорией": 11% → >50% токенов. В начале 2025 года программирование ≈ 11%, в последние недели — уже больше половины трафика. Лидирует Claude: стабильно >60%. OpenAI вырос с ~2% до ~8%, Google удерживает ~15%. OSS (Qwen, Mistral, DeepSeek и др.) активно захватывают mid-tier, MiniMax растёт особенно быстро.🟣 Roleplay и кодинг по объёму сопоставимы. Если вы думали, что LLM — это «про работу и B2B», данные показывают: развлекательные/эмоциональные сценарии не менее масштабны.🟣 География: Азия резко догоняет, язык почти полностью английский. По континентам (share по токенам): Северная Америка: 47%, Азия: ~29% (было ~13%, стало ~31% в неделях под конец), Европа: ~21%. По языкам: английский ≈ 83%, далее упоминаются китайский, русский, испанский.🟣 Рынок почти не чувствителен к цене. Дорогие модели вроде Claude Sonnet стоят около $2 за 1M токенов и всё равно получают огромные объёмы, дешёвые «рабочие лошадки» вроде Gemini Flash и DeepSeek V3 стоят меньше $0.4 и загружаются сопоставимо, ультрадорогие GPT-4/5 Pro по $30–35 используются для узких задач, а сверхдешёвые OSS-модели за $0.03–0.05 остаются нишевыми. Цена сама по себе не решает: критичны качество, стабильность и интеграции.🟣 "Glass Slipper": когда модель идеально попадает в задачу, её уже не меняют. У frontier-моделей есть короткий момент, когда они впервые закрывают болезненный workload и формируют «фундаментальную» когорту, которая остаётся надолго. Так случилось у Claude 4 Sonnet и Gemini 2.5 Pro с retention около 40% на 5-й месяц. У моделей без такого момента (например, Gemini 2.0 Flash или Llama 4 Maverick) устойчивых когорт не возникает. У DeepSeek заметен «бумеранг»: пользователи пробуют альтернативы и возвращаются, подтверждая, что именно он лучше решает их задачу.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍16🔥9❤4
Media is too big
VIEW IN TELEGRAM
В версии Cursor 2.2 появился отдельный режим работы агента, основанный не на угадывании фиксов, а на сборе реальных рантайм-логов и обязательной человеческой верификации.
Работает это следующим образом:
1. Агент генерирует несколько гипотез о причинах бага, а не сразу пишет патч
2. Сам вставляет логи в код, чтобы проверить свои гипотезы в рантайме
3. Как только баг воспроизвелся, разработчик должен его подтвердить
4. На основе воспроизведенного бага формируется точечный фикс — обычно 2–3 строки вместо перелопачивания всего проекта
5. Финальная проверка тоже через человека: если баг не исчез, агент добавляет больше логов и возвращается на первый шаг
А ещё представили фичу multi-agent judging: при параллельном запуске нескольких агентов система сама выбирает лучшую реализацию и объясняет, почему выбрала именно её.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤6🔥5
⚡️ OpenAI представили GPT-5.2
🟢 Кодинг: 55.6% на SWE-bench Pro и 80% на SWE-bench Verified
🟠 Модель сильнее в агентном программировании: ранние тестеры заменяют целые цепочки мелких агентов на «мега-агента» с 20+ инструментами
🟢 Длинный контекст: почти идеальная точность на MRCRv2 до 256K токенов, плюс режим /compact, позволяющий «думать» за пределами окна
🟠 Tool-calling: 98.7% на τ²-bench Telecom — новый ориентир по стабильности. Даже в быстром режиме reasoning='none' качество сильно выросло.
🟢 Фактические ошибки: примерно на треть меньше «галлюцинаций» на реальных запросах из ChatGPT.
GPT-5.2 доступен в ChatGPT (Plus, Pro, Business, Enterprise) и в API. Цена: 1.75$ за 1M input токенов и 14$ за 1M output, с 90% скидкой на кэш.
По заверениям OpenAI несмотря на более высокую цену, итоговые задачи чаще выходят дешевле из-за меньших объёмов токенов и более стабильного reasoning.
Интересно, Anthropic в последнем релизе понизил цены в 3 раза, а тут наоборот повышают ребята)
@ai_for_devs
GPT-5.2 доступен в ChatGPT (Plus, Pro, Business, Enterprise) и в API. Цена: 1.75$ за 1M input токенов и 14$ за 1M output, с 90% скидкой на кэш.
По заверениям OpenAI несмотря на более высокую цену, итоговые задачи чаще выходят дешевле из-за меньших объёмов токенов и более стабильного reasoning.
Интересно, Anthropic в последнем релизе понизил цены в 3 раза, а тут наоборот повышают ребята)
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍15🔥7❤4⚡2