This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic выпустили Claude Code Security — инструмент для поиска уязвимостей в коде, встроенный в Claude Code
Обычные статические анализаторы работают по известным паттернам: утёкшие пароли, устаревшее шифрование, типовые ошибки. Claude Code Security действует иначе — отслеживает, как данные проходят через приложение, и ловит баги в бизнес-логике и контроле доступа, которые паттерн-матчингом не найти.
Каждая находка проходит самопроверку: модель пытается опровергнуть собственные результаты, чтобы отсеять ложные срабатывания. Оставшимся присваивается уровень критичности и рейтинг уверенности. Патчи предлагаются, но ничего не применяется без аппрува разработчика.
С помощью Claude Opus 4.6 Anthropic нашла 500+ уязвимостей в продакшн-коде открытых проектов — баги, которые оставались незамеченными годами, несмотря на ревью.
Доступ пока ограничен: research preview для Enterprise- и Team-клиентов. Мейнтейнеры open-source могут подать заявку на бесплатный ускоренный доступ.
@ai_for_devs
Обычные статические анализаторы работают по известным паттернам: утёкшие пароли, устаревшее шифрование, типовые ошибки. Claude Code Security действует иначе — отслеживает, как данные проходят через приложение, и ловит баги в бизнес-логике и контроле доступа, которые паттерн-матчингом не найти.
Каждая находка проходит самопроверку: модель пытается опровергнуть собственные результаты, чтобы отсеять ложные срабатывания. Оставшимся присваивается уровень критичности и рейтинг уверенности. Патчи предлагаются, но ничего не применяется без аппрува разработчика.
С помощью Claude Opus 4.6 Anthropic нашла 500+ уязвимостей в продакшн-коде открытых проектов — баги, которые оставались незамеченными годами, несмотря на ревью.
Доступ пока ограничен: research preview для Enterprise- и Team-клиентов. Мейнтейнеры open-source могут подать заявку на бесплатный ускоренный доступ.
@ai_for_devs
1👍42🔥16🤯5❤3😁1
🤓 SkillsBench: скиллы дают реальный буст, но только если их писал человек
Вышел первый бенчмарк, который проверяет, дают ли «скиллы» реальный прирост ИИ-агентам. Назвали SkillsBench.
Для тех, кто в танке, Skill — папка с инструкциями и подсказками, которую агент читает перед выполнением задачи. Скиллы уже встроены в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто не замерял, помогают ли они на самом деле.
86 задач, 11 доменов, 105 экспертов, 7 308 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от человека и со скиллами, которые модель написала себе сама.
🟣 Скиллы от людей дали +16.2 п.п. к pass rate
🟣 На 16 из 84 задач результат ухудшился
🟣 Самогенерированные скиллы не помогли вообще (-1.3 п.п.). Модели не умеют писать инструкции, которые потом сами же используют
🟣 Компактные скиллы из 2-3 модулей работают лучше подробных документаций
Самый удивительный инсайт из исследования – Haiku 4.5 со скиллами обошла Opus 4.5 без них!
Полностью исследование можно прочитать тут.
@ai_for_devs
Вышел первый бенчмарк, который проверяет, дают ли «скиллы» реальный прирост ИИ-агентам. Назвали SkillsBench.
Для тех, кто в танке, Skill — папка с инструкциями и подсказками, которую агент читает перед выполнением задачи. Скиллы уже встроены в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто не замерял, помогают ли они на самом деле.
86 задач, 11 доменов, 105 экспертов, 7 308 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от человека и со скиллами, которые модель написала себе сама.
Самый удивительный инсайт из исследования – Haiku 4.5 со скиллами обошла Opus 4.5 без них!
Полностью исследование можно прочитать тут.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥37🤯12👍10❤8
Для тех, кто вчера отдыхал (как и я), две новости.
1. OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году. Причина: рост результатов в последние месяцы (с 74.9% до 80.9%) отражал не улучшение моделей, а то, насколько хорошо они запомнили решения из тренировочных данных. OpenAI рекомендует переходить на SWE-bench Pro — более современный бенчмарк, где утечка ответов в обучение пока минимальна. Лучшие модели набирают там около 23% вместо 80%. Разница говорит сама за себя.
2. Anthropic обвиняют DeepSeek, Moonshot и MiniMax в том, что те тайно обучали свои модели на ответах Claude. Пруфов не предоставили. У Anthropic вообще складывается традиция: в ноябре прошлого года они заявляли, что китайская группировка использовала Claude Code для кибератак на тридцать организаций по всему миру. Пруфов тогда тоже не было.
Эх, проигрываем гонку ИИ — никакого русского следа, только китайский 😁
@ai_for_devs
1. OpenAI перестала использовать SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама создала этот бенчмарк в 2024 году. Причина: рост результатов в последние месяцы (с 74.9% до 80.9%) отражал не улучшение моделей, а то, насколько хорошо они запомнили решения из тренировочных данных. OpenAI рекомендует переходить на SWE-bench Pro — более современный бенчмарк, где утечка ответов в обучение пока минимальна. Лучшие модели набирают там около 23% вместо 80%. Разница говорит сама за себя.
2. Anthropic обвиняют DeepSeek, Moonshot и MiniMax в том, что те тайно обучали свои модели на ответах Claude. Пруфов не предоставили. У Anthropic вообще складывается традиция: в ноябре прошлого года они заявляли, что китайская группировка использовала Claude Code для кибератак на тридцать организаций по всему миру. Пруфов тогда тоже не было.
Эх, проигрываем гонку ИИ — никакого русского следа, только китайский 😁
@ai_for_devs
2😁45👍15💯10🤯3🔥1
Перекличка. По вашим субъективным ощущениям, на сколько % AI ускоряет вашу работу?
Anonymous Poll
4%
Замедляет работу
5%
0% — не использую или не ощущаю разницы
8%
1–10%
17%
11–25%
21%
26–50%
10%
51–75%
6%
76–100%
29%
Больше 100% — делаю то, что раньше вообще бы не взялся делать
👍23❤9🤯9⚡3
Anthropic обновили публичный репозиторий Skills — экспортировали актуальные версии скиллов, которые они сами используют для разработки Claude Code.
Краткий экскурс для тех, кто в танке. Skill — это папка с
Формат скиллов с декабря 2025 — открытый стандарт. Microsoft интегрировал его в VS Code и GitHub, OpenAI адаптировала для Codex CLI. Veai в последнем релизе тоже поддержали Skills.
Если пишете свои скиллы и хотите посмотреть на хороший референс — загляните в репозиторий. Формат простой (папка +
Репозиторий: https://github.com/anthropics/skills
@ai_for_devs
Краткий экскурс для тех, кто в танке. Skill — это папка с
SKILL.md и опциональными скриптами, которую агент подгружает по контексту задачи. Модель видит только название и описание, а полное содержимое читает когда скилл подходит под запрос. Такой подход позволяет держать десятки скиллов доступными без расхода контекстного окна и с генерацией без галлюцинаций.Формат скиллов с декабря 2025 — открытый стандарт. Microsoft интегрировал его в VS Code и GitHub, OpenAI адаптировала для Codex CLI. Veai в последнем релизе тоже поддержали Skills.
Если пишете свои скиллы и хотите посмотреть на хороший референс — загляните в репозиторий. Формат простой (папка +
SKILL.md), но в деталях реализации много полезного: как структурировать инструкции, как разбивать на агентов, как тестировать скиллы автоматически. Skill-creator — отдельно хороший пример скилла, который сам создает другие скиллы.Репозиторий: https://github.com/anthropics/skills
@ai_for_devs
GitHub
GitHub - anthropics/skills: Public repository for Agent Skills
Public repository for Agent Skills. Contribute to anthropics/skills development by creating an account on GitHub.
1👍51🔥16❤8⚡3
This media is not supported in your browser
VIEW IN TELEGRAM
Я уже рассказывал про Veai, многие из вас были на вебинаре, кто-то уже пользуется. Вчера ребята выпустили Veai 5.5 с несколькими заметными обновлениями:
🟣 Самое важное: добавили поддержку Skills — открытый стандарт навыков для агента. Про них я в прошлом посте довольно подробно рассказал.
🟣 Два новых режима агента: Plan (показывает план шагов и позволяет корректировать до исполнения) и Review (read-only, проверяет изменения через IDE-инспекции, включая антипаттерны).
🟣 Для персональных пользователей добавили Claude 4.6 Opus.
Если коротко: Veai — ИИ-агент для JetBrains IDE, доступный в РФ без танцев с VPN. 30-дневный триал для тех, кто ещё не пользовался.
Да, это партнерский пост. Но за рекомендацию не стыдно. Если сидите в JetBrains IDE, попробуйте.
@ai_for_devs
Если коротко: Veai — ИИ-агент для JetBrains IDE, доступный в РФ без танцев с VPN. 30-дневный триал для тех, кто ещё не пользовался.
Да, это партнерский пост. Но за рекомендацию не стыдно. Если сидите в JetBrains IDE, попробуйте.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍31❤11😁8🔥5
Все open source, все поддерживают работу с текстом, картинками и видео из коробки.
Самую маленькую, 0.8B, можно запустить даже на телефоне. 9B — на обычной видеокарте. Для контекста: год назад для похожего качества нужна была модель в 30B параметров и кластер из нескольких GPU.
9B обходит прошлогоднюю Qwen3-30B (модель в 3 раза крупнее) почти на всех языковых бенчмарках. А по работе с изображениями 9B опережает GPT-5-Nano на 13 пунктов в MMMU-Pro и на 17 — в MathVision.
Локальный AI сейчас ускоряется с двух сторон. С одной модели уменьшаются и при этом становятся умнее. С другой появляется специализированное железо. Для тех, кто пропустил, в феврале стартап Taalas показал чип HC1, в котором веса модели впаяны прямо в транзисторы. На Llama 3.1 8B он выдает 17 000 токенов в секунду — обычная GPU выдаёт 150–230.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍46🔥23🤯14❤4😁2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
Функция уже доступна примерно 5% пользователей. Полный rollout займёт несколько недель. После подключения на welcome-экране появляется уведомление. Включение — через команду
/voice.Механика простая: удерживаешь пробел, говоришь, отпускаешь. Push-to-talk без отдельного окна. Распознанный текст вставляется прямо в позицию курсора.
Можно набрать начало запроса руками, продиктовать «середину» и дописать концовку. Уже введённый текст не перезаписывается.
Доплаты за голосовой режим нет. Токены на транскрибацию не учитываются в rate limits.
Доступ открывают поэтапно для планов Pro, Max, Team и Enterprise.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍56🔥18❤9😁2
⚡️ Apple показали новые MacBook Pro на M5 Pro и M5 Max
Для нас интересно одно: ноутбуки заточили под локальный запуск LLM.
M5 Max получил до 128 ГБ общей памяти. Этого хватает, чтобы запустить большую модель (уровня Llama 70B) локально.
По бенчмаркам Apple заявляет ускорение обработки промптов в 4 раза относительно прошлого поколения M4.
На промо-скриншотах Apple демонстрируют LM Studio с Qwen3-Coder, который через MCP управляет сценой в Autodesk Maya. Прямое позиционирование.
Цены стартуют от $2199 за M5 Pro, от $3599 за M5 Max. Предзаказ с 4 марта, в продаже с 11-го.
@ai_for_devs
Для нас интересно одно: ноутбуки заточили под локальный запуск LLM.
M5 Max получил до 128 ГБ общей памяти. Этого хватает, чтобы запустить большую модель (уровня Llama 70B) локально.
По бенчмаркам Apple заявляет ускорение обработки промптов в 4 раза относительно прошлого поколения M4.
На промо-скриншотах Apple демонстрируют LM Studio с Qwen3-Coder, который через MCP управляет сценой в Autodesk Maya. Прямое позиционирование.
Цены стартуют от $2199 за M5 Pro, от $3599 за M5 Max. Предзаказ с 4 марта, в продаже с 11-го.
@ai_for_devs
2🔥37👍12❤9⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
Обе модели по бенчмаркам сильнее восточных аналогов сопоставимого размера. Но есть нюанс: и Flash-Lite, и GPT-5.3 Instant – это закрытые облачные модели. Запустить локально не получится.
Напомню, что на днях Alibaba выложили свои маленькие модели в open source. А с учётом того, что железо всё больше затачивается под локальный инференс маленьких моделей, open source выглядит всё перспективнее.
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍32❤8⚡6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Cursor теперь работает в JetBrains IDE
Cursor объявили о поддержке IntelliJ IDEA, PyCharm, WebStorm и остальных IDE от JetBrains. Интеграция реализована через Agent Client Protocol (ACP) — открытый протокол от JetBrains и Zed. По аналогии с LSP, только для AI-агентов: любой агент подключается к любому редактору без кастомных интеграций.
Многие, кто предпочитает IDE от JetBrains, держали Cursor как вторую IDE. Теперь в этом нет необходимости: доступны передовые модели, индексация кодовой базы и семантический поиск.
Подписка на JetBrains AI не нужна, но нужен платный план Cursor.
@ai_for_devs
Cursor объявили о поддержке IntelliJ IDEA, PyCharm, WebStorm и остальных IDE от JetBrains. Интеграция реализована через Agent Client Protocol (ACP) — открытый протокол от JetBrains и Zed. По аналогии с LSP, только для AI-агентов: любой агент подключается к любому редактору без кастомных интеграций.
Многие, кто предпочитает IDE от JetBrains, держали Cursor как вторую IDE. Теперь в этом нет необходимости: доступны передовые модели, индексация кодовой базы и семантический поиск.
Подписка на JetBrains AI не нужна, но нужен платный план Cursor.
@ai_for_devs
1🔥43👍15❤7🤩4
Новую флагманскую модель, которая объединила кодинг из GPT-5.3-Codex и рассуждение из GPT-5.2.
К интересным изменениям можно отнести новый подход к загрузке инструментов. Раньше все определения инструментов загружались в контекст сразу, даже если модель ими не пользовалась.
Теперь модель получает список и подгружает нужное по мере необходимости. На тесте из 250 задач с 36 MCP-серверами это сократило расход токенов на 47% при сохранении того же качества.
Контекстное окно до 1М токенов. Цена в API выросла: $2.50 за миллион входных токенов против $1.75, выходные почти не изменились ($15 vs $14).
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥40👍13🤯4⚡2❤2😁1