AI for Devs – Telegram
AI for Devs
3.56K subscribers
143 photos
44 videos
105 links
По сотрудничеству пишите в личные сообщения канала.
Download Telegram
Anthropic опубликовала крупное внутреннее исследование: 132 инженера, 53 интервью и анализ 200 000 сессий Claude Code.

Картина получилась очень современная: output растёт почти по всем категориям, время потраченное на задачу падает незначительно, deep-skills уходят на второй план, а IT-специалисты постепенно превращаются в «менеджеров ИИ-агентов».

Коротко по ключевым выводам исследования:

🟣 Продуктивность растёт — но за счёт объёма, а не скорости.
Инженеры делают больше задач, пишут больше кода, больше тестов и документации.
Однако реальная экономия времени невелика: графики показывают лишь лёгкий сдвиг влево. Claude ускоряет не отдельную задачу, а масштаб всей работы.

🟣 Появляется работа, которой раньше бы просто не существовало.
Около 27% задач — это «nice-to-have»: паперкаты, рефакторинг, визуализации, внутренние инструменты, мини-автоматизации. Claude снижает порог входа, и эти задачи наконец-то начинают выполняться.

🟣 Растёт автономия ИИ — инженеры всё меньше вмешиваются.
Средняя сложность задач поднялась с 3.2 до 3.8, модель делает вдвое больше автономных шагов (10 → 21), а человеческих реплик в диалогах становится меньше.
Инженеры постепенно «отпускают руль», и Claude вполне уверенно продолжает ехать.

🟣 Но deep-skills "ржавеют" — и разработчиков это тревожит.
Люди меньше читают код, реже строят ментальные модели систем, меньше копаются в инфраструктуре.
Возникает парадокс: чтобы проверить ИИ, нужны навыки, которые из-за ИИ же начинают проседать.

🟣 Социальная динамика меняется — менторство проседает.
80–90% вопросов, которые раньше шли к коллегам, теперь идут Claude.
Это полезно для скорости, но срезает ролевую модель сеньоров и уменьшает количество технических обсуждений внутри команд.

🟣 И меняется сама профессия: разработчик → менеджер ИИ-агентов.
Всё больше инженеров говорят, что 50–70% их работы — это ревью, корректировка и мониторинг тактических действий Claude.
Писать код руками становятся редкой фазой — а вот проверять и направлять ИИ — ежедневной нормой.


@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍24🔥6🤯42
Forwarded from Go for Devs
😱 MinIO: развитие остановлено

Команда MinIO объявила, что проект уходит в чистый maintenance-mode. Никаких новых фичи, PR’ов и даже review существующих изменений.

Останутся только точечные фиксы критических уязвимостей (и то по ситуации).

Активное развитие теперь живёт в их enterprise-решении MinIO AIStor.

Такой вот Open Source :)

@go_for_devs
😱11🤬3🤯2😢2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ JetBrains представила Air: новую агентную IDE

Компания выпустила Air — ADE (Agentic Development Environment), ориентированную на гибридную работу «разработчик + ИИ-агенты».

Это не просто чат с моделью внутри IDE, а отдельная среда разработки, где можно ставить задачи агентам, запускать их параллельно, контролировать изменения и коммитить результаты.

Air пока доступен в превью и работает только с одним агентом — Claude Agent, причём для использования требуется активная подписка Anthropic.

Версии для Windows и Linux обещают в 2026 году — сейчас приложение доступно только на macOS.

Сайт | Документация | Анонс в X | Анонс на Habr

@ai_for_devs
5👍23😱85🤯5🤬1
За последние месяцы стало видно, что почти все пытаются решить одну и ту же проблему: контекст LLM-агента разрастается быстрее, чем приносит пользу. Мы недавно обсуждали, как Anthropic облегчили эту историю на уровне инструментов — меньше лишних описаний, меньше промежуточных логов, меньше ненужных данных в памяти.

И тут под конец года подключились JetBrains. Не задолго до релиза своей IDE они опубликовали исследование, где сравнили два самых популярных способа работы с памятью агента.

🟣 Маскирование — это когда старые логи и длинные выводы инструментов заменяются короткими заглушками, но рассуждения и действия остаются.
🟣 Суммирование работает иначе: отдельная LLM пытается «пересказать» историю шагов в компактной форме и подменяет ей исходный контекст.

И, что забавно, простой метод оказался лучше навороченного. Маскирование давало и меньшую стоимость, и стабильное качество, а суммирование часто тормозило процесс: сводки скрывают важные сигналы, агент делает больше лишних шагов, плюс сама генерация сводок стоит недёшево.

В итоге JetBrains собрали гибрид, где маскирование используется всегда, а суммирование включается только когда память действительно выходит из-под контроля. Такой вариант оказался и точнее, и дешевле обоих подходов по отдельности.

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥87
😎 RouterAI выкатили гайды по настройке вайб-кодинга в популярных IDE

Внутри пошаговые инструкции по подключению RouterAI (российский аналог OpenRouter) к самым популярным инструментам:

- VS Code: Roo Code, Kilo Code, Cline, Continue
- IntelliJ IDEA: Kilo Code, Cline
- NeoVIM: Avante
- Zed

Единый баланс в рублях для доступа ко всем моделям без VPN.

Настраиваем окружение для работы с Claude 4.5 Sonnet, GPT-5.1, DeepSeek 3.2, Gemini 3 Pro, Grok тут: https://routerai.ru/vibe-coding

@ai_for_devs
1👍19🔥73🤔2🤬1😢1
⚡️ Linux Foundation запускает Agentic AI Foundation

Под крыло фонда сразу передали MCP (Anthropic), goose (Block) и AGENTS.md (OpenAI), то есть весь тот стек, который за год стал основой современного агентного подхода.

Смысл AAIF в наведении порядка: агентные системы уже инфраструктура, а инфраструктура требует открытых протоколов, понятной модели управления и отсутствия единоличного влияния.

Например, до сих пор всё держалось на «OpenAI API» как де-факто интерфейса для работы с моделями. Многим может напомнить историю Oracle с JavaScript, когда критическая технология оказывается под контролем одного игрока. AAIF – это попытка избежать ровно этого.

Что уже попало под крыло AAIF:

MCP: более 10 000 серверов, поддержка в Claude, Copilot, Gemini, Cursor, ChatGPT и десятках инструментов.
goose: локально-ориентированный фреймворк для воспроизводимых агентных пайплайнов с нативной MCP-интеграцией.
AGENTS.md: минимальный markdown-стандарт, уже внедренный в 60 000+ OSS-репозиториев и почти все агентные фреймворки.

Отдельно интересный момент: все восемь мест Platinum-уровня уже заняты — AWS, Google, Microsoft, Anthropic, OpenAI, Block, Bloomberg и Cloudflare. Платиновый статус дает полный контроль над стратегией и бюджетом фонда, включая право голоса по ключевым вопросам.

@ai_for_devs
1👍156🤯62
😮 Mistral выкатили Devstral 2 — открытая SOTA (почти) модель для кодинга

Неделю назад мы писали про Mistral 3 с MoE-моделью на 675B параметров. Сегодня компания представила Devstral 2 — новое поколение открытых моделей для кодинга.

Главное:
🟢 Devstral 2 (123B): 72.2% на SWE-bench Verified, практически новый SOTA среди open-weight кодовых агентов. Чуть-чуть не дотянули до DeepSeek V3.2.
🟠 До 7 раз дешевле Sonnet на реальных инженерных задачах.
🟢 Devstral Small 2 (24B): 68% на SWE-bench, работает локально на потребительском железе, 256K контекста, Apache 2.0.
🟠 Модель бесплатна в API на старте. Доступна на OpenRouter.
🟢 Mistral Vibe CLI: нативный open-source кодовый агент прямо в терминале, умеет исследовать проект, вносить многофайловые правки и выполнять shell-команды.

Devstral 2 и Small 2 получились удивительно компактными: они в 5–28 раз меньше DeepSeek V3.2 и в 8–41 раз меньше Kimi K2, но при этом держат уровень, который раньше был доступен только закрытым моделям.

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1252🔥1
OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)

В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года).

Ключевые выводы 👇

🟣 Open source закрепился на ~30% и привёл с собой Китай. Открытые модели стабильно держат около трети токенов. Особенно выросли китайские OSS (DeepSeek, Qwen, Kimi): с ~1–2% до до 30% трафика в отдельные недели, в среднем ~13%.

🟣 "Medium is the new small": рынок смещается к 15–70B. Маленьких моделей много, но их доля в использовании падает. Реальный рост — в medium-классе (15–70B): Qwen2.5 Coder 32B, Mistral Small 3, GPT-OSS 20B.

🟣 Главные use-cases для OSS: roleplay и кодинг. У открытых моделей: Roleplay ≈ 50%+ токенов: игровые сценарии, персонажи, фанфик-миры, «длинные» диалоги. Programming — второй по величине сегмент. Китайские OSS сдвинуты ещё сильнее в практику: у них roleplay уже не доминирует, а кодинг + технологии = ~39% нагрузки.

🟣 Agentic inference стал нормой, а не экспериментом. Reasoning-модели обслуживают уже >50% всех токенов. Растёт доля запросов с tool-calling, появляются модели заточенные «под агентность». Средний запрос стал длинным: prompt вырос ~с 1.5K до >6K токенов, completion почти утроился.

🟣 Программирование стало "killer-категорией": 11% → >50% токенов. В начале 2025 года программирование ≈ 11%, в последние недели — уже больше половины трафика. Лидирует Claude: стабильно >60%. OpenAI вырос с ~2% до ~8%, Google удерживает ~15%. OSS (Qwen, Mistral, DeepSeek и др.) активно захватывают mid-tier, MiniMax растёт особенно быстро.

🟣 Roleplay и кодинг по объёму сопоставимы. Если вы думали, что LLM — это «про работу и B2B», данные показывают: развлекательные/эмоциональные сценарии не менее масштабны.

🟣 География: Азия резко догоняет, язык почти полностью английский. По континентам (share по токенам): Северная Америка: 47%, Азия: ~29% (было ~13%, стало ~31% в неделях под конец), Европа: ~21%. По языкам: английский ≈ 83%, далее упоминаются китайский, русский, испанский.

🟣 Рынок почти не чувствителен к цене. Дорогие модели вроде Claude Sonnet стоят около $2 за 1M токенов и всё равно получают огромные объёмы, дешёвые «рабочие лошадки» вроде Gemini Flash и DeepSeek V3 стоят меньше $0.4 и загружаются сопоставимо, ультрадорогие GPT-4/5 Pro по $30–35 используются для узких задач, а сверхдешёвые OSS-модели за $0.03–0.05 остаются нишевыми. Цена сама по себе не решает: критичны качество, стабильность и интеграции.

🟣 "Glass Slipper": когда модель идеально попадает в задачу, её уже не меняют. У frontier-моделей есть короткий момент, когда они впервые закрывают болезненный workload и формируют «фундаментальную» когорту, которая остаётся надолго. Так случилось у Claude 4 Sonnet и Gemini 2.5 Pro с retention около 40% на 5-й месяц. У моделей без такого момента (например, Gemini 2.0 Flash или Llama 4 Maverick) устойчивых когорт не возникает. У DeepSeek заметен «бумеранг»: пользователи пробуют альтернативы и возвращаются, подтверждая, что именно он лучше решает их задачу.


@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍16🔥94
Media is too big
VIEW IN TELEGRAM
🪲 Cursor представили Debug Mode

В версии Cursor 2.2 появился отдельный режим работы агента, основанный не на угадывании фиксов, а на сборе реальных рантайм-логов и обязательной человеческой верификации.

Работает это следующим образом:

1. Агент генерирует несколько гипотез о причинах бага, а не сразу пишет патч
2. Сам вставляет логи в код, чтобы проверить свои гипотезы в рантайме
3. Как только баг воспроизвелся, разработчик должен его подтвердить
4. На основе воспроизведенного бага формируется точечный фикс — обычно 2–3 строки вместо перелопачивания всего проекта
5. Финальная проверка тоже через человека: если баг не исчез, агент добавляет больше логов и возвращается на первый шаг

А ещё представили фичу multi-agent judging: при параллельном запуске нескольких агентов система сама выбирает лучшую реализацию и объясняет, почему выбрала именно её.

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍256🔥5
⚡️ OpenAI представили GPT-5.2

🟢 Кодинг: 55.6% на SWE-bench Pro и 80% на SWE-bench Verified
🟠 Модель сильнее в агентном программировании: ранние тестеры заменяют целые цепочки мелких агентов на «мега-агента» с 20+ инструментами
🟢 Длинный контекст: почти идеальная точность на MRCRv2 до 256K токенов, плюс режим /compact, позволяющий «думать» за пределами окна
🟠 Tool-calling: 98.7% на τ²-bench Telecom — новый ориентир по стабильности. Даже в быстром режиме reasoning='none' качество сильно выросло.
🟢 Фактические ошибки: примерно на треть меньше «галлюцинаций» на реальных запросах из ChatGPT.

GPT-5.2 доступен в ChatGPT (Plus, Pro, Business, Enterprise) и в API. Цена: 1.75$ за 1M input токенов и 14$ за 1M output, с 90% скидкой на кэш.

По заверениям OpenAI несмотря на более высокую цену, итоговые задачи чаще выходят дешевле из-за меньших объёмов токенов и более стабильного reasoning.

Интересно, Anthropic в последнем релизе понизил цены в 3 раза, а тут наоборот повышают ребята)

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍15🔥742
Нашли бесплатный плагин для VS Code с LLMками (DeepSeek, Gemini, Qwen).

Поддерживает агентный режим и есть утилита для CLI.

Забираем по ссылке.
1👍23🔥98🤬72