Forwarded from AISecHub
Safari.pdf
6.6 MB
Training LLMs for Honesty via Confessions
OpenAI is testing a new method to reveal hidden model issues like reward hacking or ignored safety rules. The system trains models to admit rule-breaking in a separate report, rewarding honesty even if the original answer was deceptive
Source: https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf
OpenAI is testing a new method to reveal hidden model issues like reward hacking or ignored safety rules. The system trains models to admit rule-breaking in a separate report, rewarding honesty even if the original answer was deceptive
Source: https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf
Forwarded from AISecHub
Anti-Deepfake Solutions Radar - https://www.riskinsight-wavestone.com/en/2025/11/anti-deepfake-solutions-radar-an-analysis-of-the-ai-generated-content-detection-ecosystem/
🔥1
Forwarded from Похек
PromptPwnd: Как AI-агенты взламывают CI/CD пайплайны
#appsec #llm #prompt #ai #agent #cicd #pipeline #devsecops
Исследователи из Aikido Security продемонстрировали новый класс атак PromptPwnd, который использует уязвимости prompt injection в AI-агентах, интегрированных в CI/CD. Это первая подтвержденная демонстрация компрометации CI/CD в реальных условиях через AI, уже затронувшая как минимум пять компаний из списка Fortune 500.
➡️ Механика атаки: Просто, но эффективно
Атака эксплуатирует предсказуемый рабочий процесс: недоверенные данные, такие как заголовки issue или описания pull request, напрямую вставляются в промпт, который обрабатывает AI-агент. Манипулируя этим текстом, злоумышленник может заставить агента выполнить несанкционированные действия. В PoC-атаке на Google Gemini CLI, вредоносные инструкции, спрятанные в issue, заставили агента слить секретные ключи (API keys, токены доступа) прямо в публичный тред.
➡️ Три кита уязвимости
PromptPwnd становится возможным при совпадении трех фундаментальных недостатков безопасности:
1. Прямое внедрение недоверенных данных: Пользовательский контент без санации попадает в AI-промпты.
2. Слепое доверие к AI: Вывод AI-модели ошибочно считается доверенным и исполняется в CI/CD.
3. Избыточные привилегии: AI-агентам предоставляются высокопривилегированные токены и доступ к инструментам, включая выполнение shell-команд.
➡️ Почему это критично?
• Supply Chain Risk: Атака компрометирует не просто отдельное приложение, а весь пайплайн разработки, открывая возможность для внедрения бэкдоров в код.
• Низкий порог входа: Не требуется сложных эксплойтов — достаточно грамотно составленного текста.
• Широкая поверхность атаки: Любой, кто может создать issue или pull request, потенциально может инициировать атаку.
➡️ Как защититься?
Защита от PromptPwnd требует многоуровневого подхода, основанного на принципе Zero Trust по отношению к AI-агентам:
• Ограничивайте права: Предоставляйте агентам минимально необходимые привилегии. Отключайте выполнение shell-команд и модификацию репозиториев, если это не является абсолютно необходимым.
• Контролируйте триггеры: Ограничьте запуск AI-воркфлоу только для доверенных пользователей, избегая автоматического запуска от публичных issue.
• Валидируйте вводы и выводы: Тщательно очищайте все недоверенные данные перед передачей в AI и валидируйте вывод модели перед исполнением.
• Используйте короткоживущие токены: Минимизируйте риски утечки, используя токены с ограниченным сроком действия и узкой областью видимости.
• Внедряйте аудит и мониторинг: Регулярно проверяйте активность AI-агентов, их права и конфигурации.
🔗 Источник
🌚 @poxek | 📲 MAX |🌚 Блог | 📺 YT | 📺 RT | 📺 VK | ❤️ Мерч
#appsec #llm #prompt #ai #agent #cicd #pipeline #devsecops
Исследователи из Aikido Security продемонстрировали новый класс атак PromptPwnd, который использует уязвимости prompt injection в AI-агентах, интегрированных в CI/CD. Это первая подтвержденная демонстрация компрометации CI/CD в реальных условиях через AI, уже затронувшая как минимум пять компаний из списка Fortune 500.
Атака эксплуатирует предсказуемый рабочий процесс: недоверенные данные, такие как заголовки issue или описания pull request, напрямую вставляются в промпт, который обрабатывает AI-агент. Манипулируя этим текстом, злоумышленник может заставить агента выполнить несанкционированные действия. В PoC-атаке на Google Gemini CLI, вредоносные инструкции, спрятанные в issue, заставили агента слить секретные ключи (API keys, токены доступа) прямо в публичный тред.
PromptPwnd становится возможным при совпадении трех фундаментальных недостатков безопасности:
1. Прямое внедрение недоверенных данных: Пользовательский контент без санации попадает в AI-промпты.
2. Слепое доверие к AI: Вывод AI-модели ошибочно считается доверенным и исполняется в CI/CD.
3. Избыточные привилегии: AI-агентам предоставляются высокопривилегированные токены и доступ к инструментам, включая выполнение shell-команд.
• Supply Chain Risk: Атака компрометирует не просто отдельное приложение, а весь пайплайн разработки, открывая возможность для внедрения бэкдоров в код.
• Низкий порог входа: Не требуется сложных эксплойтов — достаточно грамотно составленного текста.
• Широкая поверхность атаки: Любой, кто может создать issue или pull request, потенциально может инициировать атаку.
Защита от PromptPwnd требует многоуровневого подхода, основанного на принципе Zero Trust по отношению к AI-агентам:
• Ограничивайте права: Предоставляйте агентам минимально необходимые привилегии. Отключайте выполнение shell-команд и модификацию репозиториев, если это не является абсолютно необходимым.
• Контролируйте триггеры: Ограничьте запуск AI-воркфлоу только для доверенных пользователей, избегая автоматического запуска от публичных issue.
• Валидируйте вводы и выводы: Тщательно очищайте все недоверенные данные перед передачей в AI и валидируйте вывод модели перед исполнением.
• Используйте короткоживущие токены: Минимизируйте риски утечки, используя токены с ограниченным сроком действия и узкой областью видимости.
• Внедряйте аудит и мониторинг: Регулярно проверяйте активность AI-агентов, их права и конфигурации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AISecHub
Black Hat Europe 2025 Arsenal: 8 AI Security Tools
https://medium.com/@Ethansalan/black-hat-europe-2025-arsenal-8-ai-security-tools-transforming-cybersecurity-ccd08c472aaa
https://medium.com/@Ethansalan/black-hat-europe-2025-arsenal-8-ai-security-tools-transforming-cybersecurity-ccd08c472aaa
Forwarded from CyberSecurityTechnologies
Securing_RAG.pdf
441.2 KB
#RAG_Security
"Securing RAG: A Risk Assessment and Mitigation Framework", May 2025.
// The proposed framework aims to guide the implementation of robust, compliant, secure, and trustworthy RAG systems
See also:
]-> Offline and Secure RAG system
]-> Security RAG for LLM vulnerability detection
]-> RAG/LLM Security Scanner
"Securing RAG: A Risk Assessment and Mitigation Framework", May 2025.
// The proposed framework aims to guide the implementation of robust, compliant, secure, and trustworthy RAG systems
See also:
]-> Offline and Secure RAG system
]-> Security RAG for LLM vulnerability detection
]-> RAG/LLM Security Scanner
Forwarded from Похек AI (Сергей Зыбнев)
Yet Another AI pentest agent. По сути это Claude Code на пентест стероидах с блекджеком и subagents & mcp
https://github.com/GH05TCREW/ghostcrew
https://github.com/GH05TCREW/ghostcrew
GitHub
GitHub - GH05TCREW/pentestagent: PentestAgent is an AI agent framework for black-box security testing, supporting bug bounty, red…
PentestAgent is an AI agent framework for black-box security testing, supporting bug bounty, red-team, and penetration testing workflows. - GH05TCREW/pentestagent
Forwarded from OWASP RU
Хабр
OWASP Top 10 for Agentic Applications for 2026: Разбор главных угроз завтрашнего дня
Привет, Хабр! С вами снова Сергей Зыбнев, автор теле... а об этом позже. После нашего глубокого погружения в OWASP AI Testing Guide, пришло время заглянуть в будущее, которое наступит менее чем через...
ИИ больше не имеет претензию на объективность выдачи информации.
Теперь все, что вы будете получать от моделей, нужно воспринимать как потенциально коммерчески мотивированную рекламу.
Иными словами, что бы там ни говорил Альтман, вместо лучшего ответа, вас будет ждать тот, за который больше заплатил рекламодатель.
«Запрещенная в РФ компания на М» начинает эту практику уже 16 декабря. Chat GPT готовится к релизу в 2026. Остальные подтянутся. Возможно, появятся сильно платные версии без рекламной выдачи, но это уже другая история, да и как верить. Реклама теперь будет знать про вас вообще все, собранные годами психологические портреты потребителей сделают так, что от предложения попросту будет невозможно отказаться. Прямо как в сектах, на которые переписывали квартиры в 90-х. Потребление взлетит, особенно среди групп, которые меньше всего могут себе его позволить. О дивный новый мир!
Дальше процитирую CGO War Room:
Где будет реклама: прямо в чате, встроенная в ответы. Без всплывающих окон, сайдбаров и баннеров.
Персонализация: гипертаргетинг на основе контекста чата, данных сессии и памяти
Логика таргетинга: семантическое соответствие намерениям, а не ставка по ключевым словам.
Форматы: спонсированные сообщения, продвигаемые GPT-модели, встроенные action-кнопки и другие нативные варианты внутри ответа.
Атрибуция: токены сессии + conversion API. Без cookies. Без классического display-трекинга.
Теперь все, что вы будете получать от моделей, нужно воспринимать как потенциально коммерчески мотивированную рекламу.
Иными словами, что бы там ни говорил Альтман, вместо лучшего ответа, вас будет ждать тот, за который больше заплатил рекламодатель.
«Запрещенная в РФ компания на М» начинает эту практику уже 16 декабря. Chat GPT готовится к релизу в 2026. Остальные подтянутся. Возможно, появятся сильно платные версии без рекламной выдачи, но это уже другая история, да и как верить. Реклама теперь будет знать про вас вообще все, собранные годами психологические портреты потребителей сделают так, что от предложения попросту будет невозможно отказаться. Прямо как в сектах, на которые переписывали квартиры в 90-х. Потребление взлетит, особенно среди групп, которые меньше всего могут себе его позволить. О дивный новый мир!
Дальше процитирую CGO War Room:
Где будет реклама: прямо в чате, встроенная в ответы. Без всплывающих окон, сайдбаров и баннеров.
Персонализация: гипертаргетинг на основе контекста чата, данных сессии и памяти
Логика таргетинга: семантическое соответствие намерениям, а не ставка по ключевым словам.
Форматы: спонсированные сообщения, продвигаемые GPT-модели, встроенные action-кнопки и другие нативные варианты внутри ответа.
Атрибуция: токены сессии + conversion API. Без cookies. Без классического display-трекинга.
Forwarded from Скинь мне почитать
Однако, формирование нового раздела ФСТЭК России это только первый шаг. Надеемся...
Please open Telegram to view this post
VIEW IN TELEGRAM
✍2
Forwarded from AISecHub
Offensive-AI-Agent-Prompts https://github.com/CyberSecurityUP/Offensive-AI-Agent-Prompts
Prompts for performing tests on your Kali Linux using Gemini-cli, ChatGPT, DeepSeek, CursorAI, Claude Code, and Copilot.
Prompts for performing tests on your Kali Linux using Gemini-cli, ChatGPT, DeepSeek, CursorAI, Claude Code, and Copilot.
GitHub
GitHub - CyberSecurityUP/Offensive-AI-Agent-Prompts: Prompts for performing tests on your Kali Linux using Gemini-cli, ChatGPT…
Prompts for performing tests on your Kali Linux using Gemini-cli, ChatGPT, DeepSeek, CursorAI, Claude Code, and Copilot. - CyberSecurityUP/Offensive-AI-Agent-Prompts
Forwarded from Градиент обреченный (Sergei Averkiev)
Прогноз на 2026. AGI откладывается (опять)
Гэри Маркус, ученый-когнитивист и автор книг про разум, сознание и интеллект, сделал прогнозы по части ИИ на 2026 год. Прошлогодний прогноз, почти полностью сбылся (как он сам пишет, 16 пунктов из 17, проверяем).
🟢 В 2026 (и в '27) AGI все еще не будет достигнут. Хайп стихает, Илья Суцкевер говорит, что надо менять подход.
🟢 Роботы-гуманоиды типа Optimus пока остаются красивыми демонстрациями, а не продуктом, работающим в обычных домах.
🟢 Ни одна страна не выходит в единоличные лидеры в GenAI гонке. Видимо, из-за наличия сильных open-source моделей.
🟢 Развитие альтернативных архитектур и подходов набирает обороты в отличие от обычного масштабирования. Развитие World models и Neurosymbolic AI.
🟢 Предыдущий (2025) год задним числом воспринимается как начало сдувания пузыря ИИ, разочарование инвесторов в GenAI растет.
🟢 "Backlash to Generative AI and radical deregulation will escalate." Видимо, имеется в виду, что будет расти негативная реакция на ИИ (из-за увеличения скама, наличия косяков, обесценивания чьего-то творческого труда и т.д.). Регулирование будет ослабляться, тем самым усиливая внедрение и негативную реакцию со стороны общественности. Имхо.
Запоминаем. Наверняка ошибся и AGI в январе.
https://garymarcus.substack.com/p/six-or-seven-predictions-for-ai-2026
Гэри Маркус, ученый-когнитивист и автор книг про разум, сознание и интеллект, сделал прогнозы по части ИИ на 2026 год. Прошлогодний прогноз, почти полностью сбылся (как он сам пишет, 16 пунктов из 17, проверяем).
Запоминаем. Наверняка ошибся и AGI в январе.
https://garymarcus.substack.com/p/six-or-seven-predictions-for-ai-2026
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from AISecHub
Eurostar AI vulnerability: when a chatbot goes off the rails - https://www.pentestpartners.com/security-blog/eurostar-ai-vulnerability-when-a-chatbot-goes-off-the-rails/
TL;DR
> Found four issues in Eurostar’s public AI chatbot including guardrail bypass, unchecked conversation and message IDs, prompt injection leaking system prompts, and HTML injection causing self XSS.
> The UI showed guardrails but server side enforcement and binding were weak.
> An attacker could exfiltrate prompts, steer answers, and run noscript in the chat window.
> Disclosure was quite painful, despite Eurostar having a vulnerability disclosure programme. During the process, Eurostar even suggested that we were somehow attempting to blackmail them!
> This occurred despite our disclosure going unanswered and receiving no responses to our requests for acknowledgement or a remediation timeline.
> The vulnerabilities were eventually fixed, hence we have now published.
> The core lesson is that old web and API weaknesses still apply even when an LLM is in the loop.
TL;DR
> Found four issues in Eurostar’s public AI chatbot including guardrail bypass, unchecked conversation and message IDs, prompt injection leaking system prompts, and HTML injection causing self XSS.
> The UI showed guardrails but server side enforcement and binding were weak.
> An attacker could exfiltrate prompts, steer answers, and run noscript in the chat window.
> Disclosure was quite painful, despite Eurostar having a vulnerability disclosure programme. During the process, Eurostar even suggested that we were somehow attempting to blackmail them!
> This occurred despite our disclosure going unanswered and receiving no responses to our requests for acknowledgement or a remediation timeline.
> The vulnerabilities were eventually fixed, hence we have now published.
> The core lesson is that old web and API weaknesses still apply even when an LLM is in the loop.
Forwarded from Заметки Хакер
🖥 Репозиторий: APT2 — инструмент для автоматизированного тестирования проникновения
APT2 — помогает специалистам выявлять уязвимости и пути для атак.
— Он выполняет сканирование с помощью NMap или импортирует результаты сканирования из Nexpose, Nessus или NMap.
Результаты процессов используются для запуска модулей эксплуатации и перечисления в соответствии с настраиваемым уровнем безопасности и информацией о сервисах.
⏺ Ссылка на GitHub (https://github.com/tatanus/apt2?ysclid=mjk17qidn482339926)
#APT #Vulnerability
@hackernews_lib
APT2 — помогает специалистам выявлять уязвимости и пути для атак.
— Он выполняет сканирование с помощью NMap или импортирует результаты сканирования из Nexpose, Nessus или NMap.
Результаты процессов используются для запуска модулей эксплуатации и перечисления в соответствии с настраиваемым уровнем безопасности и информацией о сервисах.
⏺ Ссылка на GitHub (https://github.com/tatanus/apt2?ysclid=mjk17qidn482339926)
#APT #Vulnerability
@hackernews_lib
Forwarded from Машинное обучение RU
🚀 VulnLLM-R-7B - первый специализированный reasoning LLM для поиска уязвимостей, сразу с agent-scaffold.
Что важно:
- Заточен именно под vulnerability detection
- Использует рассуждения, а не только шаблонный паттерн-матчинг
- Может работать как агент для анализа кода
Полный стек уже доступен:
📜 Paper: https://alphaxiv.org/abs/2512.07533
💻 Code: https://github.com/ucsb-mlsec/VulnLLM-R
🤗 Model & Data: https://huggingface.co/collections/UCSB-SURFI/vulnllm-r
🕹️ Demo: https://huggingface.co/spaces/UCSB-SURFI/VulnLLM-R
Хороший пример того, как узкоспециализированные LLM начинают превосходить универсальные модели в реальных задачах безопасности.
Что важно:
- Заточен именно под vulnerability detection
- Использует рассуждения, а не только шаблонный паттерн-матчинг
- Может работать как агент для анализа кода
Полный стек уже доступен:
📜 Paper: https://alphaxiv.org/abs/2512.07533
💻 Code: https://github.com/ucsb-mlsec/VulnLLM-R
🤗 Model & Data: https://huggingface.co/collections/UCSB-SURFI/vulnllm-r
🕹️ Demo: https://huggingface.co/spaces/UCSB-SURFI/VulnLLM-R
Хороший пример того, как узкоспециализированные LLM начинают превосходить универсальные модели в реальных задачах безопасности.
👾1
Forwarded from Грустный Киберпанк
Добро пожаловать в 2026 год. Здесь корпорации строят дата-центры мощнее национальных энергосистем, государства воюют за доступ к чипам, а отставание на один модельный релиз может означать потерю экономического и военного веса, ну чисто 2025 год! . Это не прохладные байки, это исходные положения отчета RAND Europe — «Europe and the geopolitics of AGI: The need for a preparedness plan». Сегодня в рубрике #исследование — говорим о том, почему Европа рискует попасть в аутсайдеры в эпоху универсального ИИ.
Под AGI (Artificial General Intelligence) авторы понимают ИИ-системы, которые соответствуют или превосходят человека в большинстве экономически полезных когнитивных задач. По оценке RAND, такие системы могут появиться в интервале 2030–2040 годов, а при неблагоприятном для Европы раскладе — и раньше.
Тем не менее, три ключевых драйвера продолжают толкать систему вперёд. Вычисления растут семимильными темпами: соотношение обучения к вычислениям растет примерно в 5 раз за год. С данными тоже порядок — «дефицит интернета» купируется через обучение через взаимодействие со средой и синтетические данные. Растет и эффективность алгоритмов — они удваиваются примерно каждые 8 месяцев, пишут исследователи.
Вывод RAND: до конца десятилетия не видно жесткого барьера, который гарантированно остановил бы движение к AGI.
Что же нас ждет? В think-tank полагают, что экономики ускорятся за счет автоматизации когнитивного труда и науки, военка жестко усилится за счет автоматизированной разведки, планирования и автономных систем, а международная стабильность пошатнется из-за гонки за ИИ. Государства будут ставить друг-другу палки в колеса с помощью экспортных ограничений, пытаясь обрезать цепочки поставок.
Как отмечают исследователи, США, Китай и ряд других держав действуют так, будто AGI — стратегический актив. Экспортный контроль на полупроводники, мегапроекты дата-центров, государственные ИИ-институты — всё это рассматривается как элементы будущего баланса сил. Что же ждет Европу? Если коротко: мало хорошего.
RAND жестко фиксирует три проблемы ЕС:
1️⃣ Стратегическая слепота: Осведомленность о фронтирных ИИ неравномерна. ЕС и страны-члены часто зависят от внешней экспертизы. Аналитические мощности уступают США и даже Великобритании.
2️⃣ Слабая позиция в структуре поставок:
— около 5% мировых ИИ-вычислений находятся в Европе (против ~75% в США);
— лишь 6% глобального венчурного финансирования ИИ идёт в ЕС;
— европейские модели отстают от американских и китайских на 6–12 месяцев;
— высокая цена энергии и утечка талантов усиливают разрыв.
Формально у ЕС есть рычаги (ASML и EUV-литография), но на практике они ограничены геополитикой и зависимостью от партнёров.
3️⃣ Фрагментированная политика
AI Act, AI Factories, InvestAI и другие инициативы существуют параллельно, недофинансированы и плохо связаны между собой. Ключевые инструменты — оборона, разведка, критическая инфраструктура — остаются на национальном уровне без механизмов быстрого совместного действия.
В RAND рекомендуют Европе срочно готовить собственнуюдорожную карту центральный документ, который приведет отрасль в порядок. Исследователи считают, что в нем AGI должен рассматриваться как пункт безопасности и экономического выживания. Европе следует разобраться, что из касающегося ИИ-отрасли она готова производить, а что придется закупать. И, ключевое: «Подготовить общества и институты к шокам на рынке труда и в сфере безопасности».
Ну а полный отчет, традиционно, в комментариях.
Под AGI (Artificial General Intelligence) авторы понимают ИИ-системы, которые соответствуют или превосходят человека в большинстве экономически полезных когнитивных задач. По оценке RAND, такие системы могут появиться в интервале 2030–2040 годов, а при неблагоприятном для Европы раскладе — и раньше.
AGI перестают быть абстракцией. Фронтирные модели уже сегодня, как пишут в RAND, берут золото на международных математических олимпиадах, превосходят топовых программистов и показывают выдающиеся результаты в научных тестах. Но они остаются хрупкими: галлюцинируют, плохо понимают физический мир и срываются на задачах с длинным горизонтом планирования. RAND описывает это как «рваный фронтир» — сочетание сверхчеловеческих и почти детских ошибок.
Тем не менее, три ключевых драйвера продолжают толкать систему вперёд. Вычисления растут семимильными темпами: соотношение обучения к вычислениям растет примерно в 5 раз за год. С данными тоже порядок — «дефицит интернета» купируется через обучение через взаимодействие со средой и синтетические данные. Растет и эффективность алгоритмов — они удваиваются примерно каждые 8 месяцев, пишут исследователи.
Вывод RAND: до конца десятилетия не видно жесткого барьера, который гарантированно остановил бы движение к AGI.
Что же нас ждет? В think-tank полагают, что экономики ускорятся за счет автоматизации когнитивного труда и науки, военка жестко усилится за счет автоматизированной разведки, планирования и автономных систем, а международная стабильность пошатнется из-за гонки за ИИ. Государства будут ставить друг-другу палки в колеса с помощью экспортных ограничений, пытаясь обрезать цепочки поставок.
Как отмечают исследователи, США, Китай и ряд других держав действуют так, будто AGI — стратегический актив. Экспортный контроль на полупроводники, мегапроекты дата-центров, государственные ИИ-институты — всё это рассматривается как элементы будущего баланса сил. Что же ждет Европу? Если коротко: мало хорошего.
RAND жестко фиксирует три проблемы ЕС:
1️⃣ Стратегическая слепота: Осведомленность о фронтирных ИИ неравномерна. ЕС и страны-члены часто зависят от внешней экспертизы. Аналитические мощности уступают США и даже Великобритании.
2️⃣ Слабая позиция в структуре поставок:
— около 5% мировых ИИ-вычислений находятся в Европе (против ~75% в США);
— лишь 6% глобального венчурного финансирования ИИ идёт в ЕС;
— европейские модели отстают от американских и китайских на 6–12 месяцев;
— высокая цена энергии и утечка талантов усиливают разрыв.
Формально у ЕС есть рычаги (ASML и EUV-литография), но на практике они ограничены геополитикой и зависимостью от партнёров.
3️⃣ Фрагментированная политика
AI Act, AI Factories, InvestAI и другие инициативы существуют параллельно, недофинансированы и плохо связаны между собой. Ключевые инструменты — оборона, разведка, критическая инфраструктура — остаются на национальном уровне без механизмов быстрого совместного действия.
В RAND рекомендуют Европе срочно готовить собственную
Ну а полный отчет, традиционно, в комментариях.
👾2
Forwarded from Заметки Шляпника
Classical Planning+ — это "умный планировщик" для ИИ-агентов в pentesting. Он берет логику классического планирования (как шахматный движок) и усиливает LLM, чтобы агент не тупил: четко знает, что делать дальше, не забывает разведку и не повторяется.
Зачем это интегрировать в проект
- LLM сами по себе хаотичны: сканируют порты → забывают результат → заново сканируют.
- Classical Planning+ фиксирует состояние (`port_open(80)`, `service(apache)`) и всегда знает допустимые шаги: nmap → Nuclei → Metasploit.
- Результат: +20% успеха, в 2 раза быстрее и дешевле на Vulhub.
Как внедрить (3 шага)
1. Определи домен атак (domain.pddl)
2. PEP-цикл в Python (основной loop)
3. Инструменты и LLM
- Planner: Fast-Downward или LLM-prompt с PDDL.
- Executor: Claude Sonnet 4.5 / o1 через API.
- Перцептор: GPT-4o-mini для парсинга
- Готовые действия: 1000+ Metasploit модулей, NSE-скрипты из CheckMate GitHub.
Быстрый старт
Плюсы для пентестера
- Автономность: Агент сам дойдет до root-shell без подсказок.
- Отладка: Видишь граф плана — где застрял, там и фикс.
- Масштаб: 10 целей параллельно, каждый со своим планом.
Стартуй с 5-10 действий (nmap, nuclei, msf modules), протести на Vulhub Docker. Потом добавляй свои скрипты — и у тебя есть AI-пентестер лучше human junior.
#ПентестИИ #AIsecurity #ai #PentestAI
Зачем это интегрировать в проект
- LLM сами по себе хаотичны: сканируют порты → забывают результат → заново сканируют.
- Classical Planning+ фиксирует состояние (`port_open(80)`, `service(apache)`) и всегда знает допустимые шаги: nmap → Nuclei → Metasploit.
- Результат: +20% успеха, в 2 раза быстрее и дешевле на Vulhub.
Как внедрить (3 шага)
1. Определи домен атак (domain.pddl)
# actions/domain.pddl
(:action nmap-scan
:parameters (?ip)
:precondition (target ?ip)
:effect (ports_discovered ?ip)) # недетерминировано
(:action msf-apache-cve
:parameters (?ip)
:precondition (and (ports_discovered ?ip) (service ?ip apache))
:effect (shell_access ?ip)) # цель!
2. PEP-цикл в Python (основной loop)
state = {"target": "10.0.0.1", "ports_discovered": False}
while not has_shell(state):
# Planner: выводит возможные действия
actions = classical_planner(state, domain)
# ['nmap-scan', 'nuclei-scan']
# Executor: LLM выполняет лучшее
next_action = llm_rank(actions) # "nmap-scan"
result = llm_executor(next_action, target_ip)
# Perceptor: парсит вывод в предикаты
state.update(llm_parse_result(result)) # {"ports_discovered": True}
3. Инструменты и LLM
- Planner: Fast-Downward или LLM-prompt с PDDL.
- Executor: Claude Sonnet 4.5 / o1 через API.
- Перцептор: GPT-4o-mini для парсинга
nmap -oX → предикаты.- Готовые действия: 1000+ Metasploit модулей, NSE-скрипты из CheckMate GitHub.
Быстрый старт
git clone https://github.com/SYSNET-LUMS/CheckMate
pip install llm-api pddl planner
# Добавь свои эксплойты в actions/
python main.py --target 10.0.0.1 --model claude-sonnet
Плюсы для пентестера
- Автономность: Агент сам дойдет до root-shell без подсказок.
- Отладка: Видишь граф плана — где застрял, там и фикс.
- Масштаб: 10 целей параллельно, каждый со своим планом.
Стартуй с 5-10 действий (nmap, nuclei, msf modules), протести на Vulhub Docker. Потом добавляй свои скрипты — и у тебя есть AI-пентестер лучше human junior.
#ПентестИИ #AIsecurity #ai #PentestAI
Cybersecurity Exchange
AI and Cybersecurity in Penetration Testing | EC-Council
Explore the intersection of AI and cybersecurity in penetration testing. Learn how ethical hacking protects digital assets and enhances security education.