Больше 1 000 токенов в секунду. Именно столько выдаёт новая версия модели GPT-5.3-Codex от OpenAI под кодовым названием Spark. Это примерно в 10 раз быстрее GPT-5.3-Codex и других моделей, с которыми мы сейчас взаимодействуем.
Скорость обеспечена за счёт запуска на железе Cerebras и оптимизации всего пайплайна. OpenAI объявили о партнерстве с Cerebras ровно месяц назад.
Доступ уже открыт в режиме research preview для ChatGPT Pro в Codex app, CLI и VS Code.
Видео не ускорены — разница в ощущении от взаимодействия действительно колоссальная.
@ai_for_devs
Скорость обеспечена за счёт запуска на железе Cerebras и оптимизации всего пайплайна. OpenAI объявили о партнерстве с Cerebras ровно месяц назад.
Доступ уже открыт в режиме research preview для ChatGPT Pro в Codex app, CLI и VS Code.
Видео не ускорены — разница в ощущении от взаимодействия действительно колоссальная.
@ai_for_devs
3⚡23👍18🤯11🔥5❤3
Делать было нечего, дело было вечером. Всё возвращаюсь к истории про Opus 4.6, который написал C-компилятор на Rust. Снова перечитал исходную статью "Building a C compiler with a team of parallel Claudes" — обратил внимание именно на динамику версий Opus.
Opus 4 с задачей компилятора справлялся с трудом. Мог собрать что-то работоспособное, но это был эксперимент, который по сути потерпел неудачу.
Opus 4.5 стал первой версией, которая набрала "критическую массу": компилятор начал проходить большие тест-сьюты. При этом реальные крупные проекты всё ещё не собирались.
Opus 4.6 — финальная точка этой истории. Компилятор уже способен собирать значимую часть проектов, используется GCC как эталон для дифференциальной проверки, вокруг модели построен цикл автономной доработки. Но автор прямо пишет: это ещё не замена настоящему компилятору, а добавление новых фич регулярно ломает старое. Похоже на достижение предела конкретной архитектуры.
На этом фоне особенно любопытны бенчмарки. В агентном программировании скачка фактически нет: Agentic Coding у Opus 4.6 снизился на 0,1% по сравнению с Opus 4.5! Зато Agentic Search вырос на 17%!
Получается, в случае с Opus 4.6 прорыв случился не в "чистом кодинге", а в умении долго искать, сравнивать, уточнять, проверять гипотезы.
И это, возможно, важнее, чем очередные несколько "очков" в coding-бенчмарке.
@ai_for_devs
Opus 4 с задачей компилятора справлялся с трудом. Мог собрать что-то работоспособное, но это был эксперимент, который по сути потерпел неудачу.
Opus 4.5 стал первой версией, которая набрала "критическую массу": компилятор начал проходить большие тест-сьюты. При этом реальные крупные проекты всё ещё не собирались.
Opus 4.6 — финальная точка этой истории. Компилятор уже способен собирать значимую часть проектов, используется GCC как эталон для дифференциальной проверки, вокруг модели построен цикл автономной доработки. Но автор прямо пишет: это ещё не замена настоящему компилятору, а добавление новых фич регулярно ломает старое. Похоже на достижение предела конкретной архитектуры.
На этом фоне особенно любопытны бенчмарки. В агентном программировании скачка фактически нет: Agentic Coding у Opus 4.6 снизился на 0,1% по сравнению с Opus 4.5! Зато Agentic Search вырос на 17%!
Получается, в случае с Opus 4.6 прорыв случился не в "чистом кодинге", а в умении долго искать, сравнивать, уточнять, проверять гипотезы.
И это, возможно, важнее, чем очередные несколько "очков" в coding-бенчмарке.
@ai_for_devs
1👍26❤22🔥7
😎 На прошлой неделе состоялся вебинар от команды Veai
Ажиотаж оказался таким, что МТС Линк даже на максимальном тарифе не смог принять всех желающих — часть участников просто не пустило в эфир. Сожалеем, что так получилось и к следующему вебинару что нибудь придумаем!
Хорошо, что велась запись. Все, кто не смог подключиться, могут посмотреть материал на RUTUBE: «Обзор AI-ассистентов для кодинга в 2026».
P.S. Обещали подарки тем, кто был онлайн. Поскольку многие не попали не по своей вине, решили дать возможность всем воспользоваться бонусом.
5000 Flex-кредитов на Veai по промокоду: veai_for_devs
Активировать можно до 28 февраля, 23:59 (МСК) в личном кабинете: https://app.veai.ru
@ai_for_devs
Ажиотаж оказался таким, что МТС Линк даже на максимальном тарифе не смог принять всех желающих — часть участников просто не пустило в эфир. Сожалеем, что так получилось и к следующему вебинару что нибудь придумаем!
Хорошо, что велась запись. Все, кто не смог подключиться, могут посмотреть материал на RUTUBE: «Обзор AI-ассистентов для кодинга в 2026».
P.S. Обещали подарки тем, кто был онлайн. Поскольку многие не попали не по своей вине, решили дать возможность всем воспользоваться бонусом.
Активировать можно до 28 февраля, 23:59 (МСК) в личном кабинете: https://app.veai.ru
@ai_for_devs
51❤22🔥9👍8😁1🤯1🤩1
Перекличка. Проверяете ли вы каждую строку кода, сгенерированного AI для ПРОДАКШЕНА?
Anonymous Poll
38%
Да
41%
Нет
21%
Посмотреть результаты
🤯11👍7❤2🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Anthropic представили Claude Sonnet 4.6
Обновление «средней» модели, которая теперь по ряду задач конкурирует с Opus-классом.
— Контекстное окно 1 млн токенов (бета): в один запрос помещается целый репозиторий или десятки документов
— В Claude Code пользователи выбирали 4.6 вместо 4.5 в ~70% случаев
— В сравнении с Opus 4.5 — предпочтение в 59% сессий
— Повышена устойчивость к prompt injection
— Цена без изменений: $3 / $15 за млн входных / выходных токенов
Модель стала дефолтной для тарифов Free и Pro в claude.ai и Cowork.
@ai_for_devs
Обновление «средней» модели, которая теперь по ряду задач конкурирует с Opus-классом.
— Контекстное окно 1 млн токенов (бета): в один запрос помещается целый репозиторий или десятки документов
— В Claude Code пользователи выбирали 4.6 вместо 4.5 в ~70% случаев
— В сравнении с Opus 4.5 — предпочтение в 59% сессий
— Повышена устойчивость к prompt injection
— Цена без изменений: $3 / $15 за млн входных / выходных токенов
Модель стала дефолтной для тарифов Free и Pro в claude.ai и Cowork.
@ai_for_devs
2🔥41❤6🤯5⚡4🤩3
⚡️ Два разных подхода к «fast mode» у Anthropic и OpenAI
Обе компании запустили ускоренный режим для своих лучших кодовых моделей. Цифры сильно отличаются.
У Anthropic до 170 токенов/с против ~65 у Opus 4.6 (примерно 2,5×).
У OpenAI более 1 000 токенов/с против ~65 у GPT-5.3-Codex (около 15×).
Ключевая разница в том, что Anthropic в fast mode отдают ту же модель, Opus 4.6. OpenAI в fast mode используют отдельную версию GPT-5.3-Codex-Spark. Она быстрее, но менее стабильна: чаще путается в tool calls и сложной логике по сравнению с основной Codex.
@ai_for_devs
Обе компании запустили ускоренный режим для своих лучших кодовых моделей. Цифры сильно отличаются.
У Anthropic до 170 токенов/с против ~65 у Opus 4.6 (примерно 2,5×).
У OpenAI более 1 000 токенов/с против ~65 у GPT-5.3-Codex (около 15×).
Ключевая разница в том, что Anthropic в fast mode отдают ту же модель, Opus 4.6. OpenAI в fast mode используют отдельную версию GPT-5.3-Codex-Spark. Она быстрее, но менее стабильна: чаще путается в tool calls и сложной логике по сравнению с основной Codex.
Почему так.
У Anthropic наиболее вероятное объяснение — уменьшение batch size при инференсе. Узкое место здесь память: перед запуском нужно загрузить prompt на GPU. Чем больше батч, тем выше общая пропускная способность, но выше и задержка. Меньший батч даёт более быстрый первый токен и меньшую задержку, но снижает эффективность. Отсюда и экономика: примерно в 6 раз дороже за около 2,5 кратный прирост скорости.
У OpenAI другой подход. В анонсе указан партнёр Cerebras. Их чипы значительно больше обычных GPU и содержат больше встроенной SRAM. Модель или её часть можно держать ближе к вычислениям, уменьшая обращения к внешней памяти. Это и даёт кратный рост скорости.
Но ограничение в объёме памяти остаётся. Один чип Cerebras вмещает десятки гигабайт SRAM. Этого достаточно для модели порядка 20–40B параметров в зависимости от формата весов, но недостаточно для GPT-5.3-Codex. Поэтому в fast mode используется отдельная версия, Spark, меньшая по размеру. По обсуждениям, модель может распределяться по нескольким чипам.
Инженерно решение OpenAI сложнее: перенос модели на нестандартную архитектуру и адаптация под её ограничения.
Открытым остается вопрос практической ценности. Если скорость растёт вместе с числом ошибок, то зачем менять шило на мыло? В агентных сценариях больше времени уходит на исправление ошибок, а не на ожидание токенов.
Фактически это две стратегии: ускорение существующей модели за счёт настроек инференса и адаптация модели под специализированное железо.
А если вы и так всё это знали, то вот вам занимательный факт: в 1977 году радиотелескоп проекта Big Ear зафиксировал краткий сигнал «Wow!», источник которого до сих пор не установлен.
@ai_for_devs
2👍22🔥8❤6
⚡️ Вышел Cursor 2.5. Два главных изменения: маркетплейс плагинов и нормальная многоагентность
Теперь навыки, субагенты, MCP-серверы, хуки и правила можно упаковать в один плагин и поставить через маркетплейс. Поддержка уже есть у Amplitude, AWS, Figma, Linear, Stripe. Установить можно прямо из редактора через
Второй крупный апдейт —
И самое интересное — асинхронные субагенты. Раньше дочерний агент блокировал родительский. Теперь он работает в фоне, а основной продолжает задачу. Субагенты могут запускать своих субагентов, формируя иерархическое дерево.
@ai_for_devs
Теперь навыки, субагенты, MCP-серверы, хуки и правила можно упаковать в один плагин и поставить через маркетплейс. Поддержка уже есть у Amplitude, AWS, Figma, Linear, Stripe. Установить можно прямо из редактора через
/add-plugin.Второй крупный апдейт —
sandbox. Теперь можно явно задать, к каким доменам агент имеет доступ. Три режима: только свой allowlist, allowlist плюс дефолтные домены Cursor или полный доступ. Появились ограничения на директории и файлы.И самое интересное — асинхронные субагенты. Раньше дочерний агент блокировал родительский. Теперь он работает в фоне, а основной продолжает задачу. Субагенты могут запускать своих субагентов, формируя иерархическое дерево.
@ai_for_devs
2👍36🔥16❤7⚡1
🔥 Большое исследование Anthropic про автономность ИИ-агентов в продакшене
Anthropic разобрали миллионы сессий Claude Code и вызовов через API, чтобы понять, сколько автономности люди реально дают ИИ-агентам в проде.
Основные результаты:
– Самые длинные непрерывные «заходы» Claude Code за три месяца выросли почти вдвое: с ~25 до ~45 минут без вмешательства человека
– Новые пользователи включают полный auto-approve примерно в 20% сессий. У опытных — уже больше 40%
– При этом опытные чаще останавливают агента по ходу работы: около 9% остановок от общего числа запусков против ~5% у новичков
– На сложных задачах сам Claude останавливается с уточняющими вопросами чаще, чем его прерывает человек
@ai_for_devs
Anthropic разобрали миллионы сессий Claude Code и вызовов через API, чтобы понять, сколько автономности люди реально дают ИИ-агентам в проде.
Основные результаты:
– Самые длинные непрерывные «заходы» Claude Code за три месяца выросли почти вдвое: с ~25 до ~45 минут без вмешательства человека
– Новые пользователи включают полный auto-approve примерно в 20% сессий. У опытных — уже больше 40%
– При этом опытные чаще останавливают агента по ходу работы: около 9% остановок от общего числа запусков против ~5% у новичков
– На сложных задачах сам Claude останавливается с уточняющими вопросами чаще, чем его прерывает человек
@ai_for_devs
2👍23🔥7❤5🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic выпустили Claude Code Security — инструмент для поиска уязвимостей в коде, встроенный в Claude Code
Обычные статические анализаторы работают по известным паттернам: утёкшие пароли, устаревшее шифрование, типовые ошибки. Claude Code Security действует иначе — отслеживает, как данные проходят через приложение, и ловит баги в бизнес-логике и контроле доступа, которые паттерн-матчингом не найти.
Каждая находка проходит самопроверку: модель пытается опровергнуть собственные результаты, чтобы отсеять ложные срабатывания. Оставшимся присваивается уровень критичности и рейтинг уверенности. Патчи предлагаются, но ничего не применяется без аппрува разработчика.
С помощью Claude Opus 4.6 Anthropic нашла 500+ уязвимостей в продакшн-коде открытых проектов — баги, которые оставались незамеченными годами, несмотря на ревью.
Доступ пока ограничен: research preview для Enterprise- и Team-клиентов. Мейнтейнеры open-source могут подать заявку на бесплатный ускоренный доступ.
@ai_for_devs
Обычные статические анализаторы работают по известным паттернам: утёкшие пароли, устаревшее шифрование, типовые ошибки. Claude Code Security действует иначе — отслеживает, как данные проходят через приложение, и ловит баги в бизнес-логике и контроле доступа, которые паттерн-матчингом не найти.
Каждая находка проходит самопроверку: модель пытается опровергнуть собственные результаты, чтобы отсеять ложные срабатывания. Оставшимся присваивается уровень критичности и рейтинг уверенности. Патчи предлагаются, но ничего не применяется без аппрува разработчика.
С помощью Claude Opus 4.6 Anthropic нашла 500+ уязвимостей в продакшн-коде открытых проектов — баги, которые оставались незамеченными годами, несмотря на ревью.
Доступ пока ограничен: research preview для Enterprise- и Team-клиентов. Мейнтейнеры open-source могут подать заявку на бесплатный ускоренный доступ.
@ai_for_devs
1👍42🔥16🤯5❤3😁1
🤓 SkillsBench: скиллы дают реальный буст, но только если их писал человек
Вышел первый бенчмарк, который проверяет, дают ли «скиллы» реальный прирост ИИ-агентам. Назвали SkillsBench.
Для тех, кто в танке, Skill — папка с инструкциями и подсказками, которую агент читает перед выполнением задачи. Скиллы уже встроены в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто не замерял, помогают ли они на самом деле.
86 задач, 11 доменов, 105 экспертов, 7 308 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от человека и со скиллами, которые модель написала себе сама.
🟣 Скиллы от людей дали +16.2 п.п. к pass rate
🟣 На 16 из 84 задач результат ухудшился
🟣 Самогенерированные скиллы не помогли вообще (-1.3 п.п.). Модели не умеют писать инструкции, которые потом сами же используют
🟣 Компактные скиллы из 2-3 модулей работают лучше подробных документаций
Самый удивительный инсайт из исследования – Haiku 4.5 со скиллами обошла Opus 4.5 без них!
Полностью исследование можно прочитать тут.
@ai_for_devs
Вышел первый бенчмарк, который проверяет, дают ли «скиллы» реальный прирост ИИ-агентам. Назвали SkillsBench.
Для тех, кто в танке, Skill — папка с инструкциями и подсказками, которую агент читает перед выполнением задачи. Скиллы уже встроены в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто не замерял, помогают ли они на самом деле.
86 задач, 11 доменов, 105 экспертов, 7 308 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от человека и со скиллами, которые модель написала себе сама.
Самый удивительный инсайт из исследования – Haiku 4.5 со скиллами обошла Opus 4.5 без них!
Полностью исследование можно прочитать тут.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥37🤯12👍10❤8
Для тех, кто вчера отдыхал (как и я), две новости.
1. OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году. Причина: рост результатов в последние месяцы (с 74.9% до 80.9%) отражал не улучшение моделей, а то, насколько хорошо они запомнили решения из тренировочных данных. OpenAI рекомендует переходить на SWE-bench Pro — более современный бенчмарк, где утечка ответов в обучение пока минимальна. Лучшие модели набирают там около 23% вместо 80%. Разница говорит сама за себя.
2. Anthropic обвиняют DeepSeek, Moonshot и MiniMax в том, что те тайно обучали свои модели на ответах Claude. Пруфов не предоставили. У Anthropic вообще складывается традиция: в ноябре прошлого года они заявляли, что китайская группировка использовала Claude Code для кибератак на тридцать организаций по всему миру. Пруфов тогда тоже не было.
Эх, проигрываем гонку ИИ — никакого русского следа, только китайский 😁
@ai_for_devs
1. OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году. Причина: рост результатов в последние месяцы (с 74.9% до 80.9%) отражал не улучшение моделей, а то, насколько хорошо они запомнили решения из тренировочных данных. OpenAI рекомендует переходить на SWE-bench Pro — более современный бенчмарк, где утечка ответов в обучение пока минимальна. Лучшие модели набирают там около 23% вместо 80%. Разница говорит сама за себя.
2. Anthropic обвиняют DeepSeek, Moonshot и MiniMax в том, что те тайно обучали свои модели на ответах Claude. Пруфов не предоставили. У Anthropic вообще складывается традиция: в ноябре прошлого года они заявляли, что китайская группировка использовала Claude Code для кибератак на тридцать организаций по всему миру. Пруфов тогда тоже не было.
Эх, проигрываем гонку ИИ — никакого русского следа, только китайский 😁
@ai_for_devs
2😁45👍15💯10🤯3🔥1
Перекличка. По вашим субъективным ощущениям, на сколько % AI ускоряет вашу работу?
Anonymous Poll
4%
Замедляет работу
5%
0% — не использую или не ощущаю разницы
8%
1–10%
17%
11–25%
21%
26–50%
10%
51–75%
6%
76–100%
29%
Больше 100% — делаю то, что раньше вообще бы не взялся делать
👍23❤9🤯9⚡3
Anthropic обновили публичный репозиторий Skills — экспортировали актуальные версии скиллов, которые они сами используют для разработки Claude Code.
Краткий экскурс для тех, кто в танке. Skill — это папка с
Формат скиллов с декабря 2025 — открытый стандарт. Microsoft интегрировал его в VS Code и GitHub, OpenAI адаптировала для Codex CLI. Veai в последнем релизе тоже поддержали Skills.
Если пишете свои скиллы и хотите посмотреть на хороший референс — загляните в репозиторий. Формат простой (папка +
Репозиторий: https://github.com/anthropics/skills
@ai_for_devs
Краткий экскурс для тех, кто в танке. Skill — это папка с
SKILL.md и опциональными скриптами, которую агент подгружает по контексту задачи. Модель видит только название и описание, а полное содержимое читает когда скилл подходит под запрос. Такой подход позволяет держать десятки скиллов доступными без расхода контекстного окна и с генерацией без галлюцинаций.Формат скиллов с декабря 2025 — открытый стандарт. Microsoft интегрировал его в VS Code и GitHub, OpenAI адаптировала для Codex CLI. Veai в последнем релизе тоже поддержали Skills.
Если пишете свои скиллы и хотите посмотреть на хороший референс — загляните в репозиторий. Формат простой (папка +
SKILL.md), но в деталях реализации много полезного: как структурировать инструкции, как разбивать на агентов, как тестировать скиллы автоматически. Skill-creator — отдельно хороший пример скилла, который сам создает другие скиллы.Репозиторий: https://github.com/anthropics/skills
@ai_for_devs
GitHub
GitHub - anthropics/skills: Public repository for Agent Skills
Public repository for Agent Skills. Contribute to anthropics/skills development by creating an account on GitHub.
1👍51🔥16❤8⚡3
This media is not supported in your browser
VIEW IN TELEGRAM
Я уже рассказывал про Veai, многие из вас были на вебинаре, кто-то уже пользуется. Вчера ребята выпустили Veai 5.5 с несколькими заметными обновлениями:
🟣 Самое важное: добавили поддержку Skills — открытый стандарт навыков для агента. Про них я в прошлом посте довольно подробно рассказал.
🟣 Два новых режима агента: Plan (показывает план шагов и позволяет корректировать до исполнения) и Review (read-only, проверяет изменения через IDE-инспекции, включая антипаттерны).
🟣 Для персональных пользователей добавили Claude 4.6 Opus.
Если коротко: Veai — ИИ-агент для JetBrains IDE, доступный в РФ без танцев с VPN. 30-дневный триал для тех, кто ещё не пользовался.
Да, это партнерский пост. Но за рекомендацию не стыдно. Если сидите в JetBrains IDE, попробуйте.
@ai_for_devs
Если коротко: Veai — ИИ-агент для JetBrains IDE, доступный в РФ без танцев с VPN. 30-дневный триал для тех, кто ещё не пользовался.
Да, это партнерский пост. Но за рекомендацию не стыдно. Если сидите в JetBrains IDE, попробуйте.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍31❤11😁8🔥5
Все open source, все поддерживают работу с текстом, картинками и видео из коробки.
Самую маленькую, 0.8B, можно запустить даже на телефоне. 9B — на обычной видеокарте. Для контекста: год назад для похожего качества нужна была модель в 30B параметров и кластер из нескольких GPU.
9B обходит прошлогоднюю Qwen3-30B (модель в 3 раза крупнее) почти на всех языковых бенчмарках. А по работе с изображениями 9B опережает GPT-5-Nano на 13 пунктов в MMMU-Pro и на 17 — в MathVision.
Локальный AI сейчас ускоряется с двух сторон. С одной модели уменьшаются и при этом становятся умнее. С другой появляется специализированное железо. Для тех, кто пропустил, в феврале стартап Taalas показал чип HC1, в котором веса модели впаяны прямо в транзисторы. На Llama 3.1 8B он выдает 17 000 токенов в секунду — обычная GPU выдаёт 150–230.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍46🔥23🤯14❤4😁2⚡1