NEW BOT Телеграм, страница

UCSB-SURFI/VulnLLM-R-7B · Hugging Face

VulnLLM-R-7B: это первая reasoning-LLM, которую делали специально под поиск багов как у пентестера.

Специализированная reasoning-модель, натренированная отслеживать data/control flow и объяснять уязвимости простым языком.

VulnLLM-R-7B находит уязвимости, прогоняя рассуждение по data и control flow, а не просто по сигнатурам и паттернам.

Обгоняет CodeQL на бенчмарках, коммерческие LLM и классические сканеры.

Пошаговый анализ:

▪️глубокое рассуждение на уязвимостях
▪️объясняет, ПОЧЕМУ код рискованный

Обходит большие коммерческие модели и статические инструменты.

SOTA-результаты на PrimeVul, Juliet.

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

14.3K views13:10

1:04

Появился постоянный контекст-слой поверх кодинг-агента: OneContext

Этот OneContext дает агенту самому управлять своим контекстом. Под капотом это файловая система + Git + граф. Такая схема позволяет даже “модели второго эшелона” напрямую обгонять GPT/Claude. Подробности в опубликованных работах:

- Agentic Reasoning: читать
- Git Context Controller: читать

Этот контекст можно бесшовно подгружать в разные сессии, на разные устройства, между разными Codex / Claude Code. Фокус именно на контексте, а не на рабочей директории или конкретной модели.

Как пользоваться:

1. В OneContext как обычно запускаешь Claude Code или Codex, он автоматически собирает историю и контекст в постоянно живущий context layer.
2. В рамках того же контекста поднимаешь нового агента, и он сразу читает всю прошлую историю.
3. Шаришь этот контекст ссылкой другому человеку, и он может продолжить работу в абсолютно таком же контексте.

Установка:

npm i -g onecontext-ai

15.2K views15:11

0:13

Новый пасхальный прикол в Claude, лол.

Если случайно набрать --dangerously-skip-persimmons вместо --dangerously-skip-permissions, происходит вот это 🍊

Please open Telegram to view this post

VIEW IN TELEGRAM

16K views17:10

Monty: безопасный Python-рантайм вместо контейнеров

Pydantic выкатили Monty. Это интерпретатор Python, написанный на Rust, который позволяет агентам безопасно выполнять код за микросекунды.

Никаких контейнеров. никаких sandbox-ов. никакой задержки.

100% open source.

👏

Please open Telegram to view this post

VIEW IN TELEGRAM

17.1K views08:10

0:14

AgentCraft теперь поддерживает Agent Teams от Сlaude

Внутрянку еще допиливают, но v1 релизнется на этой неделе 👀

Please open Telegram to view this post

VIEW IN TELEGRAM

16.6K views11:10

gpt 5.3 codex
gpt 5.3 codex low
gpt 5.3 codex low fast
gpt 5.3 codex mini
gpt 5.3 codex max high
gpt 5.3 codex max low
gpt 5.3 codex max extra high
gpt 5.3 codex max medium fast
gpt 5.3 codex max high fast
gpt 5.3 codex max low fast
gpt 5.3 codex max extra high fast

16.8K views17:10

Как не дать Claude Code запускать опасные git-команды?

😎

Секрет простой: hooks.

Поэтому, Matt Pocock (автор Total TypeScript, AI Hero; ex-Vercel), собрал skill, который гарантированно не даёт Claude Code выполнять опасные git-команды. Добавляется через npx skills add:

npx skills add mattpocock/skills/git-guardrails-claude-code

Claude проведёт тебя по настройке: выберешь, ставить его только для текущего проекта или глобально для всех проектов, а потом настроишь, какие git-команды нужно блокировать.

По умолчанию skill блокирует такие опасные паттерны:

git push (все варианты, включая --force)
git reset --hard
git clean -f / git clean -fd
git branch -D
git checkout . / git restore

Забрать можно тут

Please open Telegram to view this post

VIEW IN TELEGRAM

17.2K views05:58

0:29

Плагин Firecrawl теперь доступен в официальном маркетплейсе Anthropic

🔌

Можно скрейпить отдельные страницы, обходить целые сайты, строить карту структуры и искать по сети. Встроены автоподгрузка/рендеринг JavaScript, обход антибота и ротация прокси.

В плагин также входит AI-агент для автономного сбора данных из нескольких источников. Просто опиши, какие данные нужны, обычным текстом, и агент сам найдёт, перейдёт и извлечёт информацию с разных сайтов. URL указывать не обязательно

Please open Telegram to view this post

VIEW IN TELEGRAM

17.5K views11:11

1:02

Всё, что ты делаешь в Obsidian, теперь можно делать из командной строки.

Obsidian 1.12 получил CLI (ранний доступ)

Obsidian CLI это интерфейс командной строки, который позволяет управлять Obsidian из терминала для скриптов, автоматизации и интеграции с внешними инструментами

Плюс там есть девелоперские команды: открыть devtools, инспектить элементы, делать скриншоты, перезагружать плагины и многое другое. CLI открывает доступ для OpenClaw, OpenCode, Claude Code, Codex и любых других AI-агентов

18.7K views12:11

Claude умеет кодить, но сможет ли он проверять исполняемые бинарники? 💚

Парни дали AI-агентам доступ к Ghidra (декомпилятор от NSA) и поставили задачу искать скрытые бэкдоры в серверах, работая только с бинарниками, без какого-либо доступа к исходникам.

AI-агенты действительно способны находить некоторые спрятанные бэкдоры в бинарях. Но до прода этот подход пока не дотягивает. Даже лучшая модель, Claude Opus 4.6, находила относительно очевидные бэкдоры в небольших и средних бинарниках только в 49% случаев. Хуже того, у большинства моделей высокий false positive rate: они помечали чистые бинарники как зараженные.

В этом посте разбираются несколько недавних историй из безопасности, что такое бинарный анализ и как строят бенчмарк для AI-агентов. Посмотрим, где они справляются, а где проваливаются.

Please open Telegram to view this post

VIEW IN TELEGRAM

18K views15:10

я, наблюдающий, как Claude Code запускает рой агентов, чтобы написать код за меня

16.7K views19:21

0:35

В Gemini CLI представили настройки для расширений

Теперь расширения Gemini CLI могут объявлять настройки (API keys, base URL, project ID и т.д.), которые пользователь будет вводить прямо при установке, чтобы расширение получало ровно то, что ему нужно, и работало сразу после установки.

15.4K views05:11

Представили GLM-5

GLM-5 заточен под инженерку сложных систем и агентные задачи с длинным горизонтом. По сравнению с GLM-4.5 он масштабируется с 355B параметров (32B активных) до 744B (40B активных), а объем pre-training данных вырос с 23T до 28.5T токенов.

По их внутреннему набору оценок CC-Bench-V2, GLM-5 заметно обгоняет GLM-4.7 в задачах по фронтенду, бэкенду и long-horizon сценариях, сокращая разрыв с Claude Opus 4.5.

На Vending Bench 2 GLM-5 занимает №1 среди open-source моделей, завершив прогон с итоговым балансом аккаунта $4,432. По качеству он подбирается к Claude Opus 4.5, показывая сильное долгосрочное планирование и управление ресурсами.

- Max-план: GLM-5 можно включить уже сейчас, просто обновите имя модели на "GLM-5" (например, в ~/.claude/settings.json для Claude Code).
- Остальные тарифы: поддержка будет добавляться поэтапно по мере расширения роллаута.
-- По квоте: запросы к GLM-5 съедают больше лимита плана, чем GLM-4.7.

Веса доступны на ModelScope

16.4K views06:56

0:21

Управляй агентами как в RTS: AgentCraft v1 уже вышел

Пока ранняя версия. Сырая. Но юзабельна.

▪️все твои агенты в одном месте (начиная с Claude Code). Видишь, как они работают, запускаешь новых и управляешь их жизненным циклом.
▪️интерфейс, который позволял управлять 200 юнитами, теперь готов для AI. RTS-мышечная память
▪️подсказки квестов помогают фокусироваться на конкретно важном

Простая установка автоматически интегрируется с твоими агентами, где бы они ни были.

npx @idosal/agentcraft

Сейчас AgentCraft оркестрирует агентов от Сlaude. В планах добавить поддержку Opencode

Please open Telegram to view this post

VIEW IN TELEGRAM

15.6K views08:11

Теперь можно гонять модель на 16B параметров на дефолт железе

LLaDA 2.1-mini использует здоровенную Mixture-of-Experts (MoE) архитектуру, но на каждом шаге активирует только 1.4B параметров.

В итоге получаете вычислительную мощность большой модели со скоростью и объемом VRAM маленькой модели.

→ 16B всего параметров (большая база знаний)
→ 1.4B активных параметров (очень быстрый инференс)
→ 32k контекст (жирный апгрейд для длинных документов)

Высокая производительность. Низкие затраты на вычисления.

100% open source, huggingface

13.4K views12:11

0:19

Сделали CLI, который перед отправкой в App Store прогоняет твоё iOS-приложение по всем гайдлайнам App Store.

Он проверяет:

» соответствие правилам по платежам и IAP
» privacy manifests и декларации использования данных
» обязательные флоу логина и управления аккаунтом
» “готовность” приложения и качество метаданных
» валидацию бинарника и ennoscriptment-ов

Упаковали это как skill для Claude Code, чтобы он сам правил все найденные косяки. Сканируешь, фиксишь, повторяешь, пока не начнёт проходить.

Полностью открытый исходный код, форкните, добавьте в избранное, дополняйте 🙈

Please open Telegram to view this post

VIEW IN TELEGRAM

12.8K views15:11

0:55