AI for Devs – Telegram
AI for Devs
7.63K subscribers
196 photos
64 videos
152 links
По сотрудничеству пишите в личные сообщения канала.

Канал для разработчиков про AI. Модели, ИИ-агенты, практические кейсы и новости из мира AI. Всё, что можно применить в работе.

Технологический партнер: veai.ru
Download Telegram
⚡️ Два разных подхода к «fast mode» у Anthropic и OpenAI

Обе компании запустили ускоренный режим для своих лучших кодовых моделей. Цифры сильно отличаются.

У Anthropic до 170 токенов/с против ~65 у Opus 4.6 (примерно 2,5×).
У OpenAI более 1 000 токенов/с против ~65 у GPT-5.3-Codex (около 15×).

Ключевая разница в том, что Anthropic в fast mode отдают ту же модель, Opus 4.6. OpenAI в fast mode используют отдельную версию GPT-5.3-Codex-Spark. Она быстрее, но менее стабильна: чаще путается в tool calls и сложной логике по сравнению с основной Codex.

Почему так.

У Anthropic наиболее вероятное объяснение — уменьшение batch size при инференсе. Узкое место здесь память: перед запуском нужно загрузить prompt на GPU. Чем больше батч, тем выше общая пропускная способность, но выше и задержка. Меньший батч даёт более быстрый первый токен и меньшую задержку, но снижает эффективность. Отсюда и экономика: примерно в 6 раз дороже за около 2,5 кратный прирост скорости.

У OpenAI другой подход. В анонсе указан партнёр Cerebras. Их чипы значительно больше обычных GPU и содержат больше встроенной SRAM. Модель или её часть можно держать ближе к вычислениям, уменьшая обращения к внешней памяти. Это и даёт кратный рост скорости.

Но ограничение в объёме памяти остаётся. Один чип Cerebras вмещает десятки гигабайт SRAM. Этого достаточно для модели порядка 20–40B параметров в зависимости от формата весов, но недостаточно для GPT-5.3-Codex. Поэтому в fast mode используется отдельная версия, Spark, меньшая по размеру. По обсуждениям, модель может распределяться по нескольким чипам.

Инженерно решение OpenAI сложнее: перенос модели на нестандартную архитектуру и адаптация под её ограничения.

Открытым остается вопрос практической ценности. Если скорость растёт вместе с числом ошибок, то зачем менять шило на мыло? В агентных сценариях больше времени уходит на исправление ошибок, а не на ожидание токенов.

Фактически это две стратегии: ускорение существующей модели за счёт настроек инференса и адаптация модели под специализированное железо.

А если вы и так всё это знали, то вот вам занимательный факт: в 1977 году радиотелескоп проекта Big Ear зафиксировал краткий сигнал «Wow!», источник которого до сих пор не установлен.


@ai_for_devs
2👍22🔥86
⚡️ Вышел Cursor 2.5. Два главных изменения: маркетплейс плагинов и нормальная многоагентность

Теперь навыки, субагенты, MCP-серверы, хуки и правила можно упаковать в один плагин и поставить через маркетплейс. Поддержка уже есть у Amplitude, AWS, Figma, Linear, Stripe. Установить можно прямо из редактора через /add-plugin.

Второй крупный апдейт — sandbox. Теперь можно явно задать, к каким доменам агент имеет доступ. Три режима: только свой allowlist, allowlist плюс дефолтные домены Cursor или полный доступ. Появились ограничения на директории и файлы.

И самое интересное — асинхронные субагенты. Раньше дочерний агент блокировал родительский. Теперь он работает в фоне, а основной продолжает задачу. Субагенты могут запускать своих субагентов, формируя иерархическое дерево.

@ai_for_devs
2👍36🔥1671
🔥 Большое исследование Anthropic про автономность ИИ-агентов в продакшене

Anthropic разобрали миллионы сессий Claude Code и вызовов через API, чтобы понять, сколько автономности люди реально дают ИИ-агентам в проде.

Основные результаты:

– Самые длинные непрерывные «заходы» Claude Code за три месяца выросли почти вдвое: с ~25 до ~45 минут без вмешательства человека

– Новые пользователи включают полный auto-approve примерно в 20% сессий. У опытных — уже больше 40%

– При этом опытные чаще останавливают агента по ходу работы: около 9% остановок от общего числа запусков против ~5% у новичков

– На сложных задачах сам Claude останавливается с уточняющими вопросами чаще, чем его прерывает человек

@ai_for_devs
2👍23🔥75🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic выпустили Claude Code Security — инструмент для поиска уязвимостей в коде, встроенный в Claude Code

Обычные статические анализаторы работают по известным паттернам: утёкшие пароли, устаревшее шифрование, типовые ошибки. Claude Code Security действует иначе — отслеживает, как данные проходят через приложение, и ловит баги в бизнес-логике и контроле доступа, которые паттерн-матчингом не найти.

Каждая находка проходит самопроверку: модель пытается опровергнуть собственные результаты, чтобы отсеять ложные срабатывания. Оставшимся присваивается уровень критичности и рейтинг уверенности. Патчи предлагаются, но ничего не применяется без аппрува разработчика.

С помощью Claude Opus 4.6 Anthropic нашла 500+ уязвимостей в продакшн-коде открытых проектов — баги, которые оставались незамеченными годами, несмотря на ревью.

Доступ пока ограничен: research preview для Enterprise- и Team-клиентов. Мейнтейнеры open-source могут подать заявку на бесплатный ускоренный доступ.

@ai_for_devs
1👍42🔥16🤯53😁1
🤓 SkillsBench: скиллы дают реальный буст, но только если их писал человек

Вышел первый бенчмарк, который проверяет, дают ли «скиллы» реальный прирост ИИ-агентам. Назвали SkillsBench.

Для тех, кто в танке, Skill — папка с инструкциями и подсказками, которую агент читает перед выполнением задачи. Скиллы уже встроены в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто не замерял, помогают ли они на самом деле.

86 задач, 11 доменов, 105 экспертов, 7 308 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от человека и со скиллами, которые модель написала себе сама.

🟣 Скиллы от людей дали +16.2 п.п. к pass rate
🟣 На 16 из 84 задач результат ухудшился
🟣 Самогенерированные скиллы не помогли вообще (-1.3 п.п.). Модели не умеют писать инструкции, которые потом сами же используют
🟣 Компактные скиллы из 2-3 модулей работают лучше подробных документаций

Самый удивительный инсайт из исследования – Haiku 4.5 со скиллами обошла Opus 4.5 без них!

Полностью исследование можно прочитать тут.

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥37🤯12👍108
Война войной, а обед по расписанию!
2😁104👍22🤯16💯7🔥3
Для тех, кто вчера отдыхал (как и я), две новости.

1. OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году. Причина: рост результатов в последние месяцы (с 74.9% до 80.9%) отражал не улучшение моделей, а то, насколько хорошо они запомнили решения из тренировочных данных. OpenAI рекомендует переходить на SWE-bench Pro — более современный бенчмарк, где утечка ответов в обучение пока минимальна. Лучшие модели набирают там около 23% вместо 80%. Разница говорит сама за себя.

2. Anthropic обвиняют DeepSeek, Moonshot и MiniMax в том, что те тайно обучали свои модели на ответах Claude. Пруфов не предоставили. У Anthropic вообще складывается традиция: в ноябре прошлого года они заявляли, что китайская группировка использовала Claude Code для кибератак на тридцать организаций по всему миру. Пруфов тогда тоже не было.

Эх, проигрываем гонку ИИ — никакого русского следа, только китайский 😁

@ai_for_devs
2😁45👍15💯10🤯3🔥1
👍239🤯93
Anthropic обновили публичный репозиторий Skills — экспортировали актуальные версии скиллов, которые они сами используют для разработки Claude Code.

Краткий экскурс для тех, кто в танке. Skill — это папка с SKILL.md и опциональными скриптами, которую агент подгружает по контексту задачи. Модель видит только название и описание, а полное содержимое читает когда скилл подходит под запрос. Такой подход позволяет держать десятки скиллов доступными без расхода контекстного окна и с генерацией без галлюцинаций.

Формат скиллов с декабря 2025 — открытый стандарт. Microsoft интегрировал его в VS Code и GitHub, OpenAI адаптировала для Codex CLI. Veai в последнем релизе тоже поддержали Skills.

Если пишете свои скиллы и хотите посмотреть на хороший референс — загляните в репозиторий. Формат простой (папка + SKILL.md), но в деталях реализации много полезного: как структурировать инструкции, как разбивать на агентов, как тестировать скиллы автоматически. Skill-creator — отдельно хороший пример скилла, который сам создает другие скиллы.

Репозиторий: https://github.com/anthropics/skills

@ai_for_devs
1👍51🔥1683
This media is not supported in your browser
VIEW IN TELEGRAM
Я уже рассказывал про Veai, многие из вас были на вебинаре, кто-то уже пользуется. Вчера ребята выпустили Veai 5.5 с несколькими заметными обновлениями:

🟣 Самое важное: добавили поддержку Skills — открытый стандарт навыков для агента. Про них я в прошлом посте довольно подробно рассказал.

🟣 Два новых режима агента: Plan (показывает план шагов и позволяет корректировать до исполнения) и Review (read-only, проверяет изменения через IDE-инспекции, включая антипаттерны).

🟣 Для персональных пользователей добавили Claude 4.6 Opus.

Если коротко: Veai — ИИ-агент для JetBrains IDE, доступный в РФ без танцев с VPN. 30-дневный триал для тех, кто ещё не пользовался.

Да, это партнерский пост. Но за рекомендацию не стыдно. Если сидите в JetBrains IDE, попробуйте.

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍3111😁8🔥5
Все мы немного куклоды
3😁101💯15👍6🤯5🔥3🤩1
🇨🇳 Alibaba выпустили четыре маленьких модели Qwen 3.5: 0.8B, 2B, 4B и 9B

Все open source, все поддерживают работу с текстом, картинками и видео из коробки.

Самую маленькую, 0.8B, можно запустить даже на телефоне. 9B — на обычной видеокарте. Для контекста: год назад для похожего качества нужна была модель в 30B параметров и кластер из нескольких GPU.

9B обходит прошлогоднюю Qwen3-30B (модель в 3 раза крупнее) почти на всех языковых бенчмарках. А по работе с изображениями 9B опережает GPT-5-Nano на 13 пунктов в MMMU-Pro и на 17 — в MathVision.

Локальный AI сейчас ускоряется с двух сторон. С одной модели уменьшаются и при этом становятся умнее. С другой появляется специализированное железо. Для тех, кто пропустил, в феврале стартап Taalas показал чип HC1, в котором веса модели впаяны прямо в транзисторы. На Llama 3.1 8B он выдает 17 000 токенов в секунду — обычная GPU выдаёт 150–230.

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍46🔥23🤯144😁21
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 В Claude Code появился голосовой режим

Функция уже доступна примерно 5% пользователей. Полный rollout займёт несколько недель. После подключения на welcome-экране появляется уведомление. Включение — через команду /voice.

Механика простая: удерживаешь пробел, говоришь, отпускаешь. Push-to-talk без отдельного окна. Распознанный текст вставляется прямо в позицию курсора.

Можно набрать начало запроса руками, продиктовать «середину» и дописать концовку. Уже введённый текст не перезаписывается.

Доплаты за голосовой режим нет. Токены на транскрибацию не учитываются в rate limits.

Доступ открывают поэтапно для планов Pro, Max, Team и Enterprise.

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍56🔥189😁2
⚡️ Apple показали новые MacBook Pro на M5 Pro и M5 Max

Для нас интересно одно: ноутбуки заточили под локальный запуск LLM.

M5 Max получил до 128 ГБ общей памяти. Этого хватает, чтобы запустить большую модель (уровня Llama 70B) локально.

По бенчмаркам Apple заявляет ускорение обработки промптов в 4 раза относительно прошлого поколения M4.

На промо-скриншотах Apple демонстрируют LM Studio с Qwen3-Coder, который через MCP управляет сценой в Autodesk Maya. Прямое позиционирование.

Цены стартуют от $2199 за M5 Pro, от $3599 за M5 Max. Предзаказ с 4 марта, в продаже с 11-го.

@ai_for_devs
2🔥37👍1291
This media is not supported in your browser
VIEW IN TELEGRAM
😑 Gemini 3.1 Flash-Lite и ChatGPT-5.3 Instant: маленькие, да удаленькие

Google выпустил Gemini 3.1 Flash-Lite. По скорости 363 токена в секунду (GPT-5 mini выдает 71, Claude 4.5 Haiku – 108). На бенчмарке MMMU-Pro Flash-Lite прошла 100 вопросов за 4 минуты, Gemini 2.5 Flash потратил больше 33 минут.

OpenAI обновили дефолтную модель GPT Instant до версии 5.3. Подопечные Альтмана не стали делать ацент на бенчмарки, вкинули тейк про ощущения: модель стала меньше отказывать, убрали лишние дисклеймеры и нравоучения. Галлюцинации снизились на 20-27% при поиске в вебе и на 10-20% без него.

Обе модели по бенчмаркам сильнее восточных аналогов сопоставимого размера. Но есть нюанс: и Flash-Lite, и GPT-5.3 Instant – это закрытые облачные модели. Запустить локально не получится.

Напомню, что на днях Alibaba выложили свои маленькие модели в open source. А с учётом того, что железо всё больше затачивается под локальный инференс маленьких моделей, open source выглядит всё перспективнее.

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3286🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Cursor теперь работает в JetBrains IDE

Cursor объявили о поддержке IntelliJ IDEA, PyCharm, WebStorm и остальных IDE от JetBrains. Интеграция реализована через Agent Client Protocol (ACP) — открытый протокол от JetBrains и Zed. По аналогии с LSP, только для AI-агентов: любой агент подключается к любому редактору без кастомных интеграций.

Многие, кто предпочитает IDE от JetBrains, держали Cursor как вторую IDE. Теперь в этом нет необходимости: доступны передовые модели, индексация кодовой базы и семантический поиск.

Подписка на JetBrains AI не нужна, но нужен платный план Cursor.

@ai_for_devs
1🔥43👍157🤩4
🆕 OpenAI выпустили GPT-5.4

Новую флагманскую модель, которая объединила кодинг из GPT-5.3-Codex и рассуждение из GPT-5.2.

К интересным изменениям можно отнести новый подход к загрузке инструментов. Раньше все определения инструментов загружались в контекст сразу, даже если модель ими не пользовалась.

Теперь модель получает список и подгружает нужное по мере необходимости. На тесте из 250 задач с 36 MCP-серверами это сократило расход токенов на 47% при сохранении того же качества.

Контекстное окно до 1М токенов. Цена в API выросла: $2.50 за миллион входных токенов против $1.75, выходные почти не изменились ($15 vs $14).

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥40👍13🤯422😁1