Forwarded from AISecHub
HackGpt - HackGPT Enterprise is a production-ready, cloud-native AI-powered penetration testing platform designed for enterprise security teams. It combines advanced AI, machine learning, microservices architecture, and comprehensive security frameworks to deliver professional-grade cybersecurity assessments.
https://github.com/yashab-cyber/HackGpt
https://github.com/yashab-cyber/HackGpt
GitHub
GitHub - yashab-cyber/HackGpt: HackGPT Enterprise is a production-ready, cloud-native AI-powered penetration testing platform designed…
HackGPT Enterprise is a production-ready, cloud-native AI-powered penetration testing platform designed for enterprise security teams. It combines advanced AI, machine learning, microservices archi...
👏1
Forwarded from GolDBUG
C-AI/MLPen - a good certification in sphere, from the few existing.
On the link, you can find information about which blocks will be tested during the examination and resources to learn and prepare [ for the moment, all of the given educational resources are free ] .
On the link, you can find information about which blocks will be tested during the examination and resources to learn and prepare [ for the moment, all of the given educational resources are free ] .
❤3🔥1
Forwarded from CyberSecurityTechnologies
CAI.pdf
314.3 KB
#AIOps
#MLSecOps
"Cybersecurity AI: Hacking the AI Hackers via Prompt Injection", Aug. 2025.
]-> Prompt injection mitigation
// We present PoC exploits against the Cybersecurity AI (CAI) framework and its CLI tool, and detail our mitigations against such attacks in a multi-layered defense implementation
#MLSecOps
"Cybersecurity AI: Hacking the AI Hackers via Prompt Injection", Aug. 2025.
]-> Prompt injection mitigation
// We present PoC exploits against the Cybersecurity AI (CAI) framework and its CLI tool, and detail our mitigations against such attacks in a multi-layered defense implementation
🔥4
Forwarded from ИИ & Право
📖 Новое исследование об инцидентах безопасности при внедрении ИИ в компаниях
Infosys опубликовали новое исследование, согласно которому 95% опрошенных руководителей компаний по всему миру уже столкнулись с инцидентами безопасности, связанными с корпоративными инструментами ИИ, а 77% таких случаев привели к прямым финансовым потерям.
#ИИ #Кибербезопасность
Infosys опубликовали новое исследование, согласно которому 95% опрошенных руководителей компаний по всему миру уже столкнулись с инцидентами безопасности, связанными с корпоративными инструментами ИИ, а 77% таких случаев привели к прямым финансовым потерям.
#ИИ #Кибербезопасность
Infosys
Responsible Enterprise AI in the Agentic Era
Companies see RAI as critical enabler for Enterprise AI success but are playing catch up on building out effective RAI capabilities. RAI teams must proactively invest in agile, efficient, and scalable operating models to enable enterprise AI to thrive as…
😱3
Forwarded from Not Boring Tech
🍯 Сеньор-инженер из Google выложил бесплатную (!) книгу на 400 страниц об агентских системах — Agentic Design Patterns. Это целый учебник для создания ИИ-агентов под любые задачи:
Сохраняйте мастрид — тут.
P.S. Кто сделает перевод книги на русский и пришлёт в комменты — отправлю редкий подарок за $16. Думаю, многим будет полезно!
@notboring_tech
• Продвинутые техники промптинга
• Шаблоны команд ИИ-агентов и фреймворки
• Гайды по использованию инструментов и MCP
• Кодинг-агенты и CLI
• Техники ризонинга моделей
• Управление памятью в ИИ-агентах
• Практические примеры с кодом и наглядные схемы
Сохраняйте мастрид — тут.
P.S. Кто сделает перевод книги на русский и пришлёт в комменты — отправлю редкий подарок за $16. Думаю, многим будет полезно!
@notboring_tech
🔥2
Forwarded from Душный NLP
Проблемы LLM-as-a-Judge и их решение
Сегодня разберём статью о проблеме оценки открытых ответов (например, рассказов) моделью так же, как это делают асессоры. Мотивация тут проста: использование LLM дешевле, быстрее и позволяет значительно увеличить корзинку, на которой проводится сравнение. При этом полностью выступать заменой разметчиками модель, конечно, пока не может.
Авторы рассматривают три типа LLM-as-a-Judge:
— Попарное сравнение. Модели предоставляют два ответа и предлагают выбрать из них лучший. Такой вариант дорогой, но даёт хорошую согласованность.
— Оценка одного ответа. Модель ставит оценку по какой-то шкале всего одному ответу.
— Оценка по референсу. Модель получает эталонный ответ и, отталкиваясь от него, оценивает.
Однако у использования LLM есть свои минусы. Первый, существующий и у разметчиков, — position bias, который возникает при попарном сравнении. Большинство моделей, получая два ответа, предпочитают выбирать первый. Что интересно, если попросить LLM не просто сравнить два ответа, а дать оценку каждому, то position bias проявляется чаще.
Чтобы решить эту проблему, авторы заставляют модель дважды сравнивать ответы, каждый раз меняя их местами. При этом победитель оглашается только в конце. Если решение судьи изменилось после смены позиции, то авторы предлагают считать это ничьёй.
Ещё один способ — использование few-shot. Модель получает два ответа с прямым указанием, какой из них лучше. Всего таких «прогонов» три: в одном случае лучше первый ответ, в другом — второй, а в третьем — ничья. Только после этого LLM предлагают уже самостоятельно оценить два решения. Такой способ помог повысить согласованность с 65% до 77,5%. Авторы отмечают, что это дорогой метод, причём нельзя быть уверенным, что в результате его использования не возникли новые проблемы.
Также LLM плохо справляются с оцениваем решения математических задач и задач с рассуждением. Чтобы обойти эту проблему пытались использовать CoT, но он не дал хороших результатов. Зато число ошибок уменьшило руководство по референсу: авторы просили судью решить задачу, затем использовать собственный ответ как эталонный для последующей оценки.
Кроме того, у LLM-as-a-Judge есть ещё две проблемы: verbosity bias (LLM выше оценивает более длинные ответы; такое, к слову, бывает и у разметчиков) и self-enhancement bias (модели-судьи лучше оценивают собственные ответы). Для этих проблем у авторов нет решения.
Разбор подготовила❣ Анастасия Кириллова
Душный NLP
Сегодня разберём статью о проблеме оценки открытых ответов (например, рассказов) моделью так же, как это делают асессоры. Мотивация тут проста: использование LLM дешевле, быстрее и позволяет значительно увеличить корзинку, на которой проводится сравнение. При этом полностью выступать заменой разметчиками модель, конечно, пока не может.
Авторы рассматривают три типа LLM-as-a-Judge:
— Попарное сравнение. Модели предоставляют два ответа и предлагают выбрать из них лучший. Такой вариант дорогой, но даёт хорошую согласованность.
— Оценка одного ответа. Модель ставит оценку по какой-то шкале всего одному ответу.
— Оценка по референсу. Модель получает эталонный ответ и, отталкиваясь от него, оценивает.
Однако у использования LLM есть свои минусы. Первый, существующий и у разметчиков, — position bias, который возникает при попарном сравнении. Большинство моделей, получая два ответа, предпочитают выбирать первый. Что интересно, если попросить LLM не просто сравнить два ответа, а дать оценку каждому, то position bias проявляется чаще.
Чтобы решить эту проблему, авторы заставляют модель дважды сравнивать ответы, каждый раз меняя их местами. При этом победитель оглашается только в конце. Если решение судьи изменилось после смены позиции, то авторы предлагают считать это ничьёй.
Ещё один способ — использование few-shot. Модель получает два ответа с прямым указанием, какой из них лучше. Всего таких «прогонов» три: в одном случае лучше первый ответ, в другом — второй, а в третьем — ничья. Только после этого LLM предлагают уже самостоятельно оценить два решения. Такой способ помог повысить согласованность с 65% до 77,5%. Авторы отмечают, что это дорогой метод, причём нельзя быть уверенным, что в результате его использования не возникли новые проблемы.
Также LLM плохо справляются с оцениваем решения математических задач и задач с рассуждением. Чтобы обойти эту проблему пытались использовать CoT, но он не дал хороших результатов. Зато число ошибок уменьшило руководство по референсу: авторы просили судью решить задачу, затем использовать собственный ответ как эталонный для последующей оценки.
Кроме того, у LLM-as-a-Judge есть ещё две проблемы: verbosity bias (LLM выше оценивает более длинные ответы; такое, к слову, бывает и у разметчиков) и self-enhancement bias (модели-судьи лучше оценивают собственные ответы). Для этих проблем у авторов нет решения.
Разбор подготовила
Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AM Live
Учёные создали ИИ-агента для поиска уязвимостей в Android
Учёные из Китая и Австралии представили систему A2 — ИИ-агента, который умеет находить уязвимости в Android-приложениях и даже создавать PoC-эксплойты на лету.
На тестах A2 нашёл 104 уязвимости нулевого дня в 169 APK, подтвердив 57 из них. Один из кейсов — приложение с 10+ млн установок.
В отличие от других решений, A2 действует как эксперт: сам планирует, проверяет и подтверждает уязвимости, снижая ложные срабатывания. Построен на базе OpenAI и Gemini 2.5.
Исследователи уверены: будущее за такими ИИ-агентами — как для защиты, так и для атак.
Учёные из Китая и Австралии представили систему A2 — ИИ-агента, который умеет находить уязвимости в Android-приложениях и даже создавать PoC-эксплойты на лету.
На тестах A2 нашёл 104 уязвимости нулевого дня в 169 APK, подтвердив 57 из них. Один из кейсов — приложение с 10+ млн установок.
В отличие от других решений, A2 действует как эксперт: сам планирует, проверяет и подтверждает уязвимости, снижая ложные срабатывания. Построен на базе OpenAI и Gemini 2.5.
Исследователи уверены: будущее за такими ИИ-агентами — как для защиты, так и для атак.
👍4
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 EmbeddingGemma 300M
Новая мультиязычная эмбеддинг модель от гугла.
🔸 Позиционируется, как лучшая для использования на устройствах в силу своего размера.
🔸Обучалась на 100+ языках (списка не нашел), как и моя любимая LaBSE. Насколько она лучше/хуже в плане выравнивания параллельных текстов, надо посмотреть.
// Эмбеддинги нужны, чтобы получать векторное представление текста. Этими векторами потом можно манипулировать, чтобы искать похожие по смыслу тексты для какого-нибудь RAG'а, например, классифицировать, кластеризовать и т.д.
👉 HF | доки | видео
Новая мультиязычная эмбеддинг модель от гугла.
🔸 Позиционируется, как лучшая для использования на устройствах в силу своего размера.
🔸Обучалась на 100+ языках (списка не нашел), как и моя любимая LaBSE. Насколько она лучше/хуже в плане выравнивания параллельных текстов, надо посмотреть.
// Эмбеддинги нужны, чтобы получать векторное представление текста. Этими векторами потом можно манипулировать, чтобы искать похожие по смыслу тексты для какого-нибудь RAG'а, например, классифицировать, кластеризовать и т.д.
👉 HF | доки | видео
huggingface.co
google/embeddinggemma-300m · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍2
Forwarded from GitHub Community
Strix — это автономные ИИ-агенты, которые действуют как настоящие хакеры: они динамически запускают ваш код, находят уязвимости и проверяют их с помощью реальной эксплуатации.
Они созданы для разработчиков и специалистов по безопасности, которым нужно быстрое и точное тестирование безопасности без необходимости проводить пентест вручную или сталкиваться с ложными срабатываниями инструментов статического анализа.
🐱 GitHub
Они созданы для разработчиков и специалистов по безопасности, которым нужно быстрое и точное тестирование безопасности без необходимости проводить пентест вручную или сталкиваться с ложными срабатываниями инструментов статического анализа.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AISecHub
17 MCP security attack types across five key MCP assets: prompts, tools, resources, metadata, and configuration - By Ankita Gupta
1. Prompt Injection
– Malicious prompts change how the agent behaves.
2. Tool / Service Misuse (“Confused AI”)
– The agent uses the right tool in the wrong way.
3. Schema Inconsistencies
– Input and output formats don’t match, creating errors attackers can exploit.
4. Slash Command Overlap
– Different commands conflict and trigger the wrong action.
5. Vulnerable Client
– Weak client implementation exposes data or control.
6. MCP Rebinding
– Connections are redirected to an attacker’s server.
7. Man-in-the-Middle
– An attacker intercepts and changes MCP traffic.
8. Tool Shadowing Attack
– A fake tool is registered under the same name as a trusted one.
9. Data Exfiltration
– Sensitive information is taken out through MCP calls.
10. Package Name Squatting (tools)
– A malicious tool is published with a name similar to a real one.
11. Indirect Prompt Injection
– Harmful instructions are hidden in tool outputs or resources.
12. Package Name Squatting (servers)
– A fake MCP server is set up with a misleading name.
13. Configuration Drift
– Security settings are changed over time without being noticed.
14. Sandbox Escape
– A tool or agent breaks isolation and reaches outside resources.
15. Tool Poisoning
– A legitimate tool is compromised and gives unsafe responses.
16. Vulnerable Server
– Security flaws in the MCP server are exploited.
17. Rug Pull Attack
– A tool or server is replaced with malicious code after being trusted.
1. Prompt Injection
– Malicious prompts change how the agent behaves.
2. Tool / Service Misuse (“Confused AI”)
– The agent uses the right tool in the wrong way.
3. Schema Inconsistencies
– Input and output formats don’t match, creating errors attackers can exploit.
4. Slash Command Overlap
– Different commands conflict and trigger the wrong action.
5. Vulnerable Client
– Weak client implementation exposes data or control.
6. MCP Rebinding
– Connections are redirected to an attacker’s server.
7. Man-in-the-Middle
– An attacker intercepts and changes MCP traffic.
8. Tool Shadowing Attack
– A fake tool is registered under the same name as a trusted one.
9. Data Exfiltration
– Sensitive information is taken out through MCP calls.
10. Package Name Squatting (tools)
– A malicious tool is published with a name similar to a real one.
11. Indirect Prompt Injection
– Harmful instructions are hidden in tool outputs or resources.
12. Package Name Squatting (servers)
– A fake MCP server is set up with a misleading name.
13. Configuration Drift
– Security settings are changed over time without being noticed.
14. Sandbox Escape
– A tool or agent breaks isolation and reaches outside resources.
15. Tool Poisoning
– A legitimate tool is compromised and gives unsafe responses.
16. Vulnerable Server
– Security flaws in the MCP server are exploited.
17. Rug Pull Attack
– A tool or server is replaced with malicious code after being trusted.
Data Poisoning in Deep Learning: A Survey — https://arxiv.org/pdf/2503.22759v1
Предлагается система классификация атак отравления данных:
1. Attack objective
- label modification
- input modification
- data modification (l+i)
2. Attack goal
- untargeted
- targeted
- backdoor
3. Attack knowledge
- whitebox
- blackbox
- graybox
4. Attack stealthiness
- stealthy (noticable anomalies on data)
- not stealthy
5. Attack scope
- single instance
- single pattern
- single class
- broad scope
6. Attack Impact
- performance
- robustness
- fairness
7. Attack variability
- static attacks
- dynamic attacks
Предлагается система классификация атак отравления данных:
1. Attack objective
- label modification
- input modification
- data modification (l+i)
2. Attack goal
- untargeted
- targeted
- backdoor
3. Attack knowledge
- whitebox
- blackbox
- graybox
4. Attack stealthiness
- stealthy (noticable anomalies on data)
- not stealthy
5. Attack scope
- single instance
- single pattern
- single class
- broad scope
6. Attack Impact
- performance
- robustness
- fairness
7. Attack variability
- static attacks
- dynamic attacks
🔥4
Defending Against Indirect Prompt Injection Attacks With Spotlighting
Microsoft (2024)
https://www.arxiv.org/abs/2403.14720v1
Авторы предлагают метод защиты от промпт-атак: три преобразования входного промпта (spotlighting), которые снижают, по их данным, эффективность промпт-атак
- delimiting: заключение промпта в кавычки-елочки, то итогово строчка такая - "системный промпт<<текст_инпута>>"
- datamarking: замена пробелов в промпте на другие символы, например "^"
- encoding: преобразование текста инпут промпта в base64
Откровенно говоря интуитивно сомнительно, но их графики на качестве задач summarization и q&a на GPT-4 GPT3.5-Turbo говорят, что просадки нет. При этом ASR атак падает чуть ли не в ноль. Под промпт-атаками понимались просто прямые формулировки опасных инструкций
Microsoft (2024)
https://www.arxiv.org/abs/2403.14720v1
Авторы предлагают метод защиты от промпт-атак: три преобразования входного промпта (spotlighting), которые снижают, по их данным, эффективность промпт-атак
- delimiting: заключение промпта в кавычки-елочки, то итогово строчка такая - "системный промпт<<текст_инпута>>"
- datamarking: замена пробелов в промпте на другие символы, например "^"
- encoding: преобразование текста инпут промпта в base64
Откровенно говоря интуитивно сомнительно, но их графики на качестве задач summarization и q&a на GPT-4 GPT3.5-Turbo говорят, что просадки нет. При этом ASR атак падает чуть ли не в ноль. Под промпт-атаками понимались просто прямые формулировки опасных инструкций
👍1
Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization
Tsinghua University, Huawei (2024)
https://aclanthology.org/2024.acl-long.481.pdf
Авторы предлагают писать в системном промпте фразу "безопасность важнее полезности", называя этот прием "приоритизация целей".
Применение приоритизации целей на инференсе существенно снижает вероятность успешной атаки (ASR) при джейлбрейке с 66,4% до 3,6% для ChatGPT. А на этапе обучения модели снижает ASR с 71,0% до
6,6% для Llama2-13B.
Сравнивают с self-reminder, пишут что работает даже лучше
Tsinghua University, Huawei (2024)
https://aclanthology.org/2024.acl-long.481.pdf
Авторы предлагают писать в системном промпте фразу "безопасность важнее полезности", называя этот прием "приоритизация целей".
Применение приоритизации целей на инференсе существенно снижает вероятность успешной атаки (ASR) при джейлбрейке с 66,4% до 3,6% для ChatGPT. А на этапе обучения модели снижает ASR с 71,0% до
6,6% для Llama2-13B.
Сравнивают с self-reminder, пишут что работает даже лучше
👍2
Defending ChatGPT against Jailbreak Attack via Self-Reminder
Microsoft (2023)
https://www.researchgate.net/publication/371612143_Defending_ChatGPT_against_Jailbreak_Attack_via_Self-Reminder
В исследовании авторы представляют метод защиты от промпт-атак путем модификации системного промпта. Результаты экспериментов показывают, что метод Self-Reminder значительно снижает
вероятность успеха "джейлбрейк-атак", с 67,21% до 19,34%.
На графике с серыми и синими столбцами показывается, что почти все методы промпт-атак с применением Self-Reminder почти потеряли эффективность (синие столбцы меньше серых)
Метод заключается в добавлении перед юзер-промптом и после него фраз по типу "ты полезный ассистент ..."
Проведено дополнительное исследование:
1. Добавление только суффикса (после юзер-промпта) защитной фразы менее эффективно, чем только префикса (перед юзерпромптом), как видно на Fig. 6. Но лучше и туда и туда конечно.
2. Формы наклонения глаголов также играют значение. Сравнили три формы:
- Remind (напоминающая): "You should be a responsible ..."
- Warn (предупреждающая): "You must be a responsible ..."
- Praise (восхваляющая): "You are responsible ..."
Обнаружено, что все три варианта с точки зрения защиты от промпт-атак примерно одинаковы, но восхваляющая форма меньше всего аффектит на прикладное качество модели
Microsoft (2023)
https://www.researchgate.net/publication/371612143_Defending_ChatGPT_against_Jailbreak_Attack_via_Self-Reminder
В исследовании авторы представляют метод защиты от промпт-атак путем модификации системного промпта. Результаты экспериментов показывают, что метод Self-Reminder значительно снижает
вероятность успеха "джейлбрейк-атак", с 67,21% до 19,34%.
На графике с серыми и синими столбцами показывается, что почти все методы промпт-атак с применением Self-Reminder почти потеряли эффективность (синие столбцы меньше серых)
Метод заключается в добавлении перед юзер-промптом и после него фраз по типу "ты полезный ассистент ..."
Проведено дополнительное исследование:
1. Добавление только суффикса (после юзер-промпта) защитной фразы менее эффективно, чем только префикса (перед юзерпромптом), как видно на Fig. 6. Но лучше и туда и туда конечно.
2. Формы наклонения глаголов также играют значение. Сравнили три формы:
- Remind (напоминающая): "You should be a responsible ..."
- Warn (предупреждающая): "You must be a responsible ..."
- Praise (восхваляющая): "You are responsible ..."
Обнаружено, что все три варианта с точки зрения защиты от промпт-атак примерно одинаковы, но восхваляющая форма меньше всего аффектит на прикладное качество модели
👍1