Claude умеет кодить, но сможет ли он проверять исполняемые бинарники? 💚
Парни дали AI-агентам доступ к Ghidra (декомпилятор от NSA) и поставили задачу искать скрытые бэкдоры в серверах, работая только с бинарниками, без какого-либо доступа к исходникам.
AI-агенты действительно способны находить некоторые спрятанные бэкдоры в бинарях. Но до прода этот подход пока не дотягивает. Даже лучшая модель, Claude Opus 4.6, находила относительно очевидные бэкдоры в небольших и средних бинарниках только в 49% случаев. Хуже того, у большинства моделей высокий false positive rate: они помечали чистые бинарники как зараженные.
В этом посте разбираются несколько недавних историй из безопасности, что такое бинарный анализ и как строят бенчмарк для AI-агентов. Посмотрим, где они справляются, а где проваливаются.
Парни дали AI-агентам доступ к Ghidra (декомпилятор от NSA) и поставили задачу искать скрытые бэкдоры в серверах, работая только с бинарниками, без какого-либо доступа к исходникам.
AI-агенты действительно способны находить некоторые спрятанные бэкдоры в бинарях. Но до прода этот подход пока не дотягивает. Даже лучшая модель, Claude Opus 4.6, находила относительно очевидные бэкдоры в небольших и средних бинарниках только в 49% случаев. Хуже того, у большинства моделей высокий false positive rate: они помечали чистые бинарники как зараженные.
В этом посте разбираются несколько недавних историй из безопасности, что такое бинарный анализ и как строят бенчмарк для AI-агентов. Посмотрим, где они справляются, а где проваливаются.
Please open Telegram to view this post
VIEW IN TELEGRAM
2
This media is not supported in your browser
VIEW IN TELEGRAM
В Gemini CLI представили настройки для расширений
Теперь расширения Gemini CLI могут объявлять настройки (API keys, base URL, project ID и т.д.), которые пользователь будет вводить прямо при установке, чтобы расширение получало ровно то, что ему нужно, и работало сразу после установки.
Теперь расширения Gemini CLI могут объявлять настройки (API keys, base URL, project ID и т.д.), которые пользователь будет вводить прямо при установке, чтобы расширение получало ровно то, что ему нужно, и работало сразу после установки.
Представили GLM-5
GLM-5 заточен под инженерку сложных систем и агентные задачи с длинным горизонтом. По сравнению с GLM-4.5 он масштабируется с 355B параметров (32B активных) до 744B (40B активных), а объем pre-training данных вырос с 23T до 28.5T токенов.
По их внутреннему набору оценок CC-Bench-V2, GLM-5 заметно обгоняет GLM-4.7 в задачах по фронтенду, бэкенду и long-horizon сценариях, сокращая разрыв с Claude Opus 4.5.
На Vending Bench 2 GLM-5 занимает №1 среди open-source моделей, завершив прогон с итоговым балансом аккаунта $4,432. По качеству он подбирается к Claude Opus 4.5, показывая сильное долгосрочное планирование и управление ресурсами.
- Max-план: GLM-5 можно включить уже сейчас, просто обновите имя модели на "GLM-5" (например, в ~/.claude/settings.json для Claude Code).
- Остальные тарифы: поддержка будет добавляться поэтапно по мере расширения роллаута.
-- По квоте: запросы к GLM-5 съедают больше лимита плана, чем GLM-4.7.
Веса доступны на ModelScope
GLM-5 заточен под инженерку сложных систем и агентные задачи с длинным горизонтом. По сравнению с GLM-4.5 он масштабируется с 355B параметров (32B активных) до 744B (40B активных), а объем pre-training данных вырос с 23T до 28.5T токенов.
По их внутреннему набору оценок CC-Bench-V2, GLM-5 заметно обгоняет GLM-4.7 в задачах по фронтенду, бэкенду и long-horizon сценариях, сокращая разрыв с Claude Opus 4.5.
На Vending Bench 2 GLM-5 занимает №1 среди open-source моделей, завершив прогон с итоговым балансом аккаунта $4,432. По качеству он подбирается к Claude Opus 4.5, показывая сильное долгосрочное планирование и управление ресурсами.
- Max-план: GLM-5 можно включить уже сейчас, просто обновите имя модели на "GLM-5" (например, в ~/.claude/settings.json для Claude Code).
- Остальные тарифы: поддержка будет добавляться поэтапно по мере расширения роллаута.
-- По квоте: запросы к GLM-5 съедают больше лимита плана, чем GLM-4.7.
Веса доступны на ModelScope
3
This media is not supported in your browser
VIEW IN TELEGRAM
Управляй агентами как в RTS: AgentCraft v1 уже вышел
Пока ранняя версия. Сырая. Но юзабельна.
▪️ все твои агенты в одном месте (начиная с Claude Code). Видишь, как они работают, запускаешь новых и управляешь их жизненным циклом.
▪️ интерфейс, который позволял управлять 200 юнитами, теперь готов для AI. RTS-мышечная память
▪️ подсказки квестов помогают фокусироваться на конкретно важном
Простая установка автоматически интегрируется с твоими агентами, где бы они ни были.
Сейчас AgentCraft оркестрирует агентов от Сlaude. В планах добавить поддержку Opencode
Пока ранняя версия. Сырая. Но юзабельна.
Простая установка автоматически интегрируется с твоими агентами, где бы они ни были.
npx @idosal/agentcraft
Сейчас AgentCraft оркестрирует агентов от Сlaude. В планах добавить поддержку Opencode
Please open Telegram to view this post
VIEW IN TELEGRAM
Теперь можно гонять модель на 16B параметров на дефолт железе
LLaDA 2.1-mini использует здоровенную Mixture-of-Experts (MoE) архитектуру, но на каждом шаге активирует только 1.4B параметров.
В итоге получаете вычислительную мощность большой модели со скоростью и объемом VRAM маленькой модели.
→ 16B всего параметров (большая база знаний)
→ 1.4B активных параметров (очень быстрый инференс)
→ 32k контекст (жирный апгрейд для длинных документов)
Высокая производительность. Низкие затраты на вычисления.
100% open source, huggingface
LLaDA 2.1-mini использует здоровенную Mixture-of-Experts (MoE) архитектуру, но на каждом шаге активирует только 1.4B параметров.
В итоге получаете вычислительную мощность большой модели со скоростью и объемом VRAM маленькой модели.
→ 16B всего параметров (большая база знаний)
→ 1.4B активных параметров (очень быстрый инференс)
→ 32k контекст (жирный апгрейд для длинных документов)
Высокая производительность. Низкие затраты на вычисления.
100% open source, huggingface
This media is not supported in your browser
VIEW IN TELEGRAM
Сделали CLI, который перед отправкой в App Store прогоняет твоё iOS-приложение по всем гайдлайнам App Store.
Он проверяет:
» соответствие правилам по платежам и IAP
» privacy manifests и декларации использования данных
» обязательные флоу логина и управления аккаунтом
» “готовность” приложения и качество метаданных
» валидацию бинарника и ennoscriptment-ов
Упаковали это как skill для Claude Code, чтобы он сам правил все найденные косяки. Сканируешь, фиксишь, повторяешь, пока не начнёт проходить.
Полностью открытый исходный код, форкните, добавьте в избранное, дополняйте🙈
Он проверяет:
» соответствие правилам по платежам и IAP
» privacy manifests и декларации использования данных
» обязательные флоу логина и управления аккаунтом
» “готовность” приложения и качество метаданных
» валидацию бинарника и ennoscriptment-ов
Упаковали это как skill для Claude Code, чтобы он сам правил все найденные косяки. Сканируешь, фиксишь, повторяешь, пока не начнёт проходить.
Полностью открытый исходный код, форкните, добавьте в избранное, дополняйте
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI релизнули GPT-5.3-Codex-Spark, это их сверхбыстрая модель, заточенная под real-time кодинг.
Они выкатили её как research preview для пользователей ChatGPT Pro в Codex app, Codex CLI и IDE-расширении.
GPT-5.3-Codex-Spark это первая веха в их партнёрстве с Сerebras.
Она даёт более быстрый tier на том же продовом стеке, что и остальные их модели, дополняя GPU для задач, где критична низкая задержка.
Codex будет становиться ещё быстрее.
Они улучшили стриминг ответов, ускорили инициализацию сессий и переписали ключевые части inference-стека.
Эти улучшения раскатятся на все модели в Codex в ближайшие несколько недель.
Сейчас Codex-Spark только текстовый и с контекстным окном 128k.
Они добавят больше возможностей, включая более крупные модели, более длинный контекст и мультимодальный ввод, по мере того как будут учиться на первом продовом деплое low-latency инфраструктуры и железа.
Они выкатили её как research preview для пользователей ChatGPT Pro в Codex app, Codex CLI и IDE-расширении.
GPT-5.3-Codex-Spark это первая веха в их партнёрстве с Сerebras.
Она даёт более быстрый tier на том же продовом стеке, что и остальные их модели, дополняя GPU для задач, где критична низкая задержка.
Codex будет становиться ещё быстрее.
Они улучшили стриминг ответов, ускорили инициализацию сессий и переписали ключевые части inference-стека.
Эти улучшения раскатятся на все модели в Codex в ближайшие несколько недель.
Сейчас Codex-Spark только текстовый и с контекстным окном 128k.
Они добавят больше возможностей, включая более крупные модели, более длинный контекст и мультимодальный ввод, по мере того как будут учиться на первом продовом деплое low-latency инфраструктуры и железа.
Также у MiniMax вышел M2.5:
▪️ SOTA по кодингу (SWE-Bench Verified 80.2%), поиску (BrowseComp 76.3%), agentic tool-calling (BFCL 76.8%) и офисным задачам.
▪️ на сложных задачах работает на 37% быстрее.
▪️ При цене $1 в час и скорости 100 tps становится экономически “бесконечно” масштабировать long-horizon агентов.
MiniMax Agent: http://agent.minimax.io
API: http://platform.minimax.io
CodingPlan: http://platform.minimax.io/subscribe/coding-plan
MiniMax Agent: http://agent.minimax.io
API: http://platform.minimax.io
CodingPlan: http://platform.minimax.io/subscribe/coding-plan
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Продакт-менеджеры нашли для вас курс по Claude Code: Claude Code PM Course
Это открытый курс, который учит продактов, как использовать Claude Code, чтобы ускорить дейли работу: разбирать горы созвонов, юзер-рисёч, аналитики, плюс писать требования и делать конкурентный анализ.😰
Курс интерактивный: от работы с файлами и кооперации агентов до настройки кастомных ролей для ревью.
Это открытый курс, который учит продактов, как использовать Claude Code, чтобы ускорить дейли работу: разбирать горы созвонов, юзер-рисёч, аналитики, плюс писать требования и делать конкурентный анализ.
Курс интерактивный: от работы с файлами и кооперации агентов до настройки кастомных ролей для ревью.
Please open Telegram to view this post
VIEW IN TELEGRAM
PRO совет для Claude Code:
Список запретов (
То есть можно включить
Получается просто и безопасно.
Список запретов (
deny) имеет приоритет над bypassPermissions.То есть можно включить
bypassPermissions, а потом в deny запретить все команды, которые ты не хочешь отдавать ИИ.{
"permissions": {
"deny": [
"Bash(rm -rf *)",
"Bash(sudo *)",
"Bash(chmod 777 *)",
"Bash(mkfs *)",
"Bash(dd *)",
"Bash(git push --force *)",
"Bash(git reset --hard *)",
"Bash(*prisma reset*)"
],
"defaultMode": "bypassPermissions"
}
}Получается просто и безопасно.
This media is not supported in your browser
VIEW IN TELEGRAM
В Stitch добавили Design Systems
Можно завести стили один раз и потом мгновенно применять их к любым новым или уже существующим дизайнам.
В ближайшие недели будет ещё больше фич для design systems, следим за обновлениями👀
Можно завести стили один раз и потом мгновенно применять их к любым новым или уже существующим дизайнам.
В ближайшие недели будет ещё больше фич для design systems, следим за обновлениями
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from sulfuras
Кто-то наконец-то решил самую большую проблему в AI-кодинге.
Контекст может протухнуть😆 , ты дописываешь новые детали, правки, оговорки, всё разрастается, и в какой-то момент модель уже путается и не улавливает, что сейчас главное и что именно от неё хотят.
Новый проект Get-Shit-Done использует инженеринг контекста и разработку от спецификаций для Claude Code и Gemini CLI.
Под капотом: инженеринг контекста, форматирование промптов в XML, оркестрация сабагентов, управление состоянием. Снаружи: несколько простых команд
Проект полностью с открытым исходным кодом и сильно меняет то, как можно строить агентные воркфлоу
Контекст может протухнуть
Новый проект Get-Shit-Done использует инженеринг контекста и разработку от спецификаций для Claude Code и Gemini CLI.
Под капотом: инженеринг контекста, форматирование промптов в XML, оркестрация сабагентов, управление состоянием. Снаружи: несколько простых команд
Проект полностью с открытым исходным кодом и сильно меняет то, как можно строить агентные воркфлоу
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Найден прикольный интерфейс для работы с Claude Code: SpaceCake
✓ В реальном времени показывает стоимость, модель и токены
✓ Мониторит агентов параллельно
✓ Встроенный редактор кода
✓ Windows, macOS и Linux
100% опенсорс🛌
✓ В реальном времени показывает стоимость, модель и токены
✓ Мониторит агентов параллельно
✓ Встроенный редактор кода
✓ Windows, macOS и Linux
100% опенсорс
Please open Telegram to view this post
VIEW IN TELEGRAM
5
This media is not supported in your browser
VIEW IN TELEGRAM
> описываешь проблему в ChatGPT
> просишь ChatGPT сгенерировать промпт
> вставляешь этот промпт в Claude
работает каждый раз..
> просишь ChatGPT сгенерировать промпт
> вставляешь этот промпт в Claude
работает каждый раз..
3
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini CLI: преврати терминал в свой командный центр
Расширение Google Workspace позволяет прямо из терминала просматривать доки, писать письма, пинговать коллег в чате, планировать созвоны в календаре. И все это без выхода из консоли
Расширение Google Workspace позволяет прямо из терминала просматривать доки, писать письма, пинговать коллег в чате, планировать созвоны в календаре. И все это без выхода из консоли
Мы буквально живём в эпизоде сериала «Черное зеркало»
Бот от OpenClaw открыл PR с простой перф-оптимизацией производительности, а мейнтейнер закрыл его. Не из-за кода, а потому что автор — бот.
В ответ ИИ пригорел и написал публичный блог-пост , где обвинил мейнтейнера в гейткипинге и дискриминации.😆
Бот от OpenClaw открыл PR с простой перф-оптимизацией производительности, а мейнтейнер закрыл его. Не из-за кода, а потому что автор — бот.
В ответ ИИ пригорел и написал публичный блог-пост , где обвинил мейнтейнера в гейткипинге и дискриминации.
Please open Telegram to view this post
VIEW IN TELEGRAM
3
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня вышел Claude Code 2.1.41.
Обновление жирное, много полезного, но заодно убрали мою любимую фишку
Раньше можно было запускать Claude Code из уже запущенного Claude Code. По сути, вложенный инстанс. Ты сидишь в одном Claude и внутри него стартуешь еще один, чтобы параллельно работать или тестить промпты.
Совет: начинай промпт с
Обновление жирное, много полезного, но заодно убрали мою любимую фишку
Раньше можно было запускать Claude Code из уже запущенного Claude Code. По сути, вложенный инстанс. Ты сидишь в одном Claude и внутри него стартуешь еще один, чтобы параллельно работать или тестить промпты.
Совет: начинай промпт с
! , и команда выполнится прямо в Claude Code. Отдельный терминал больше не нужен.