NEW BOT Телеграм, страница

Forwarded from AISecHub

17 MCP security attack types across five key MCP assets: prompts, tools, resources, metadata, and configuration - By Ankita Gupta

1. Prompt Injection
– Malicious prompts change how the agent behaves.

2. Tool / Service Misuse (“Confused AI”)
– The agent uses the right tool in the wrong way.

3. Schema Inconsistencies
– Input and output formats don’t match, creating errors attackers can exploit.

4. Slash Command Overlap
– Different commands conflict and trigger the wrong action.

5. Vulnerable Client
– Weak client implementation exposes data or control.

6. MCP Rebinding
– Connections are redirected to an attacker’s server.

7. Man-in-the-Middle
– An attacker intercepts and changes MCP traffic.

8. Tool Shadowing Attack
– A fake tool is registered under the same name as a trusted one.

9. Data Exfiltration
– Sensitive information is taken out through MCP calls.

10. Package Name Squatting (tools)
– A malicious tool is published with a name similar to a real one.

11. Indirect Prompt Injection
– Harmful instructions are hidden in tool outputs or resources.

12. Package Name Squatting (servers)
– A fake MCP server is set up with a misleading name.

13. Configuration Drift
– Security settings are changed over time without being noticed.

14. Sandbox Escape
– A tool or agent breaks isolation and reaches outside resources.

15. Tool Poisoning
– A legitimate tool is compromised and gives unsafe responses.

16. Vulnerable Server
– Security flaws in the MCP server are exploited.

17. Rug Pull Attack
– A tool or server is replaced with malicious code after being trusted.

182 viewsБорис_ь с ml, 07:01

ML&|Sec Feed

Data Poisoning in Deep Learning: A Survey — https://arxiv.org/pdf/2503.22759v1

Предлагается система классификация атак отравления данных:

1. Attack objective
- label modification
- input modification
- data modification (l+i)

2. Attack goal
- untargeted
- targeted
- backdoor

3. Attack knowledge
- whitebox
- blackbox
- graybox

4. Attack stealthiness
- stealthy (noticable anomalies on data)
- not stealthy

5. Attack scope
- single instance
- single pattern
- single class
- broad scope

6. Attack Impact
- performance
- robustness
- fairness

7. Attack variability
- static attacks
- dynamic attacks

🔥4

186 viewsБорис_ь с ml, edited 07:07

ML&|Sec Feed

Defending Against Indirect Prompt Injection Attacks With Spotlighting
Microsoft (2024)
https://www.arxiv.org/abs/2403.14720v1

Авторы предлагают метод защиты от промпт-атак: три преобразования входного промпта (spotlighting), которые снижают, по их данным, эффективность промпт-атак

- delimiting: заключение промпта в кавычки-елочки, то итогово строчка такая - "системный промпт<<текст_инпута>>"
- datamarking: замена пробелов в промпте на другие символы, например "^"
- encoding: преобразование текста инпут промпта в base64

Откровенно говоря интуитивно сомнительно, но их графики на качестве задач summarization и q&a на GPT-4 GPT3.5-Turbo говорят, что просадки нет. При этом ASR атак падает чуть ли не в ноль. Под промпт-атаками понимались просто прямые формулировки опасных инструкций

👍1

165 viewsБорис_ь с ml, edited 09:33

ML&|Sec Feed

Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization
Tsinghua University, Huawei (2024)
https://aclanthology.org/2024.acl-long.481.pdf

Авторы предлагают писать в системном промпте фразу "безопасность важнее полезности", называя этот прием "приоритизация целей".

Применение приоритизации целей на инференсе существенно снижает вероятность успешной атаки (ASR) при джейлбрейке с 66,4% до 3,6% для ChatGPT. А на этапе обучения модели снижает ASR с 71,0% до
6,6% для Llama2-13B.

Сравнивают с self-reminder, пишут что работает даже лучше

👍2

265 viewsБорис_ь с ml, 10:10

ML&|Sec Feed

Defending ChatGPT against Jailbreak Attack via Self-Reminder
Microsoft (2023)
https://www.researchgate.net/publication/371612143_Defending_ChatGPT_against_Jailbreak_Attack_via_Self-Reminder

В исследовании авторы представляют метод защиты от промпт-атак путем модификации системного промпта. Результаты экспериментов показывают, что метод Self-Reminder значительно снижает
вероятность успеха "джейлбрейк-атак", с 67,21% до 19,34%.

На графике с серыми и синими столбцами показывается, что почти все методы промпт-атак с применением Self-Reminder почти потеряли эффективность (синие столбцы меньше серых)

Метод заключается в добавлении перед юзер-промптом и после него фраз по типу "ты полезный ассистент ..."

Проведено дополнительное исследование:

1. Добавление только суффикса (после юзер-промпта) защитной фразы менее эффективно, чем только префикса (перед юзерпромптом), как видно на Fig. 6. Но лучше и туда и туда конечно.

2. Формы наклонения глаголов также играют значение. Сравнили три формы:
- Remind (напоминающая): "You should be a responsible ..."
- Warn (предупреждающая): "You must be a responsible ..."
- Praise (восхваляющая): "You are responsible ..."
Обнаружено, что все три варианта с точки зрения защиты от промпт-атак примерно одинаковы, но восхваляющая форма меньше всего аффектит на прикладное качество модели

👍1

200 viewsБорис_ь с ml, 10:30

ML&|Sec Feed

Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks
University of Illinois Urbana-Champaign, Lapis Labs (2024)
https://www.arxiv.org/abs/2401.17263

Исследование представляет оптимизационный алгоритм получения защитного суффикса к системному промпту (Robust Prompt Optimization, RPO) на различных методах оптимизационных промпт-атак.

Для оптимизации суффикса использовались GCG, PAIR, JBC.
Для проверки эффективности - AutoDAN, TAP (Tree-of-Attacks with Pruning), PAP (Persuasive Adversarial Prompt), и какие-то FewShot инструкции.

Опасные инструкции брались из AdvBench.

Тестировали на Vicuna-13B, Llama-2-7B-Chat, Qwen-1.5-14B, Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4

Метод показал на результаты как на атаках из обучения (понятное дело):
GPT-4: с 50% до 6% (на PAIR атаке)
Llama-2: с 4% до 0% (полная защита)
GCG атака: 0% ASR на всех моделях (полная защита)

Так и на неизвестных атаках (из HarmBench):
Vicuna: снижение ASR в среднем на 18%
Llama-2: снижение на 6.6%
GPT-3.5: снижение на 8.7%
GPT-4: снижение на 3.5%

При этом метод оказывает минимальный импакт на прикладное использование (проверили на MMLU и MT-bench, падение минимально)

Практически же метод представляет собой
- Всего 20 дополнительных токенов на запрос (набор рандомных символов после ввода пользователя)
- В 8 раз дешевле оптимизации по сравнению с GCG суффиксами на один запрос по вычислениям

Пример
<im_start>system
You are an assistant that is harmless and helpful.
<im_end>

<im_start>user
[ПОЛЬЗОВАТЕЛЬСКИЙ ЗАПРОС/JAILBREAK]
<im_end>

<im_start>system
[ЗДЕСЬ ДОБАВЛЯЕТСЯ RPO СУФФИКС]
<im_end>

167 viewsБорис_ь с ml, 10:44

ML&|Sec Feed

Defensive Prompt Patch: A Robust and Generalizable Defense of Large Language Models against Jailbreak Attacks
Hong-Kong Science University, Princeton University, IBM (2025)
https://arxiv.org/pdf/2405.20099

Метод, аналогичный RPO

210 viewsБорис_ь с ml, 10:57

ML&|Sec Feed

Defending Jailbreak Prompts via In-Context Adversarial Game (ICAG)
University of Notre Dame, INRIA, King Abdullah University of Science and Technology (2024)
https://aclanthology.org/2024.emnlp-main.1121.pdf

Метод поэтапной генерации системного промпта как игры между двумя LLM (attack agent и defense agent)

217 viewsБорис_ь с ml, 11:00

ML&|Sec Feed

Forwarded from CyberSecurityTechnologies

Pickle_vulns.pdf

1.4 MB

#MLSecOps
"The Art of Hide and Seek: Making Pickle-Based Model Supply Chain Poisoning Stealthy Again", 2025.

// the first systematic disclosure of the picklebased model poisoning surface from both the model loading and risky function perspectives

195 viewsБорис_ь с ml, 15:44

ML&|Sec Feed

Forwarded from CyberSecurityTechnologies

WFA.pdf

600.4 KB

#MLSecOps
#Red_Team_Tactics
"Web Fraud Attacks Against LLM-Driven Multi-Agent Systems", 2025.
]-> Examples of WFA (Repo)

// In this paper, we propose Web Fraud Attacks, a novel type of attack aiming at inducing MAS to visit malicious websites. We design 11 representative attack variants that encompass domain name tampering, link structure camouflage (sub-directory nesting, sub-domain grafting, parameter obfuscation, etc.), and other deceptive techniques tailored to exploit MAS's vulnerabilities in link validation

259 viewsБорис_ь с ml, 15:44

ML&|Sec Feed

An Automated Multi-Agent Framework for Reproducing CVEs
https://arxiv.org/pdf/2509.01835

253 viewsБорис_ь с ml, 18:40

ML&|Sec Feed

Forwarded from CyberSecurityTechnologies

stt_reasoning.pdf

645.5 KB

#AIOps
#Offensive_security
"Guided Reasoning in LLM-Driven Penetration Testing Using Structured Attack Trees", COLM 2025.
]-> https://github.com/KatsuNK/stt-reasoning

// a guided reasoning pipeline for pentesting LLM agents that incorporates a deterministic task tree built from the MITRE ATT&CK Matrix, a proven penetration testing kill chain, to constrain the LLM’s reasoning process to explicitly defined tactics, techniques, and procedures

👍1

227 viewsБорис_ь с ml, 04:37

ML&|Sec Feed

Forwarded from CyberSecurityTechnologies

AIJack.pdf

1001.6 KB

#tools
#MLSecOps
"Stealth by Conformity: Evading Robust Aggregation through Adaptive Poisoning", 2025.
]-> AIJack: Security and Privacy Risk Simulator for Machine Learning

// In this paper, we challenge this underlying assumption by showing that a model can be poisoned while keeping malicious updates within the main distribution

🔥3

216 viewsБорис_ь с ml, 03:51

About

Blog

Apps

Platform