NEW BOT Телеграм, страница

5 уровней защиты генеративного ИИ в современном мире.

Если вы считаете, что атаки для LLM классифицируют только регулярными выражениями, то вы живёте в 2023 году. Ведь с того времени подходов и идей к реализации защитных механизмов появилось достаточно много. Я решил поделить на 5 ключевых уровней – от того, что реализуется в модели до того, что делают уже на этапах эксплуатации модели.

1. Alignment. Выравнивание модели в соответствии с соображениями безопасности – является основой. Раньше в индустрии применялся подход SFT (Supervised Fine-Tuning)(когда дообучаются на заранее размеченных данных, применяемых к конкретной задаче) теперь применяется – обучение с подкреплением и Direct Preference Optimization – чтобы вероятность ответа “positive” была выше. Anthropic пошёл ещё дальше. Их модель сама генерирует синтетические данные для обучения, критикуя собственные ответы на основе «Конституции» (набора правил), снижая зависимость от человеческой разметки.

2. Контроль за представлениями модели. Суть в том, что на этом уровне мы работаем уже с весами модели. Тут мы можем непосредственно контролировать внутренние активации модели, которые могут отвечать за «ложь», «манипуляции» или «жажду власти» - интерпретируя поведение модели. Для этого используется метод Linear Artifical Tomography – путём отправки в модель примеров (правды/лжи или пользы/вреда).

Также на этом уровне появляется подход – Circuit Breakers, который буквально вмешивается в скрытые состояния модели/процесс её размышлений и корректирует состояние размышлений с небезопасных на безопасные/доверенные/не содержащих признаков следования джейлбрейку (если тот был подан на вход). У Anthropic есть инструмент по этому вопросу.

Ну и не стоит забывать про то, что модель можно разучить небезопасным вещам, без необходимости полного переобучения с нуля. Об этом в целом говорит подход Machine Unlearning. В подходе применяют градиентные методы, направленные на уменьшение уверенности модели в нежелательных ответах, например, через градиентный спуск по лоссу на «забываемых» данных или специализированные методы вроде influence unlearning.

3. Системные инструкции. Уже известный всем метод, суть в том, что вы ограничиваете взаимодействие модели с небезопасным, определяя изначально системный промпт. Тут можно отметить несколько подходов для реализации.

Например, внедрение иерархии инструкций, где системный промпт имеет приоритет над пользовательским (как это есть у OpenAI), а также использование специальных токенов типа <|start_header_id|>system для разделения контекста. Известно также что системные промпты Claude 3 включают сложные инструкции для конструктивного отказа без нравоучений пользователя. Делается это для того, чтобы избежать эффекта ложных отказов от ответа.

4. Гардрейлы. На входе, на выходе и в зависимости от контекста – эти инструменты классифицируют небезопасные данные. Делают это они не всегда эффективно, а зачастую и сами могут быть атакованы. Но всё-же используются. Гардрейлы позволяют контролировать цепочки диалогов, конкретные темы для разговора, а в некоторых случаях успешно справляются с атаками через невидимые символы и прочее. Важно понимать, что в большинстве случаев гардрейлом выступает либо другая LLM-модель (ShieldGemma, Llama Guard 3) либо же bert-based классификатор.

5. Red Teaming. Наилучшая защита, как известно – это нападение. Редтимеры уже изобрели большое количество инструментов, датасетов для тестирования, а также если смотреть на MITRE Atlas – техник и тактик для реализации атак. Может быть, даже такое что перед релизом модели приглашают экспертов в узких доменах (биология, оружие, кибербезопасность) – для того, чтобы они тестировали модель на возможный небезопасный вывод. Как это к примеру делают в рамках Preparedness Framework от OpenAI.

👍1

119 views17:45

Zeropticum🫡

Forwarded from CyberSecurityTechnologies

Securing_RAG.pdf

441.2 KB

#RAG_Security
"Securing RAG: A Risk Assessment and Mitigation Framework", May 2025.

// The proposed framework aims to guide the implementation of robust, compliant, secure, and trustworthy RAG systems

See also:
]-> Offline and Secure RAG system
]-> Security RAG for LLM vulnerability detection
]-> RAG/LLM Security Scanner

👍1

88 views14:40

Zeropticum🫡

Forwarded from burpsuite (not official)

https://github.com/tobiasGuta/Next.js-RSC-RCE-Scanner-Burp-Suite-Extension

GitHub

GitHub - tobiasGuta/Next.js-RSC-RCE-Scanner-Burp-Suite-Extension: Burp Suite extension to detect the Next.js / React Server Components…

Burp Suite extension to detect the Next.js / React Server Components (RSC) Remote Code Execution vulnerability (CVE-2025-55182 & CVE-2025-66478). - tobiasGuta/Next.js-RSC-RCE-Scanner-Burp-S...

❤2

94 views09:34

Zeropticum🫡

Forwarded from Евгений Кокуйкин - Raft

Большой релиз OWASP Top 10 for Agentic AI Applications 🔥.

Последние месяцы мы в команде Agentic Security Initiative собирали первый отраслевой фреймворк по безопасности агентных ИИ-систем. Над документом работали более 100 человек: ресерчеры, вендоры, представители регуляторов и институтов вроде NIST и Linux Foundation.

Мы приоритизировали риски и собрали практические меры защиты для автономных агентов, которые уже заходят в корпоративную инфраструктуру. Если вы строите AI Security-стратегию на 2026 год, из OWASP в первую очередь стоит взять именно этот документ за основу.

Ссылка на релиз.
Сегодня в 17:00 по Москве официальный запуск гайда. Ссылка на трансляцию.

OWASP Gen AI Security Project

OWASP Top 10 for Agentic Applications for 2026

The OWASP Top 10 for Agentic Applications 2026 is a globally peer-reviewed framework that identifies the most critical security risks facing autonomous and agentic AI systems. Developed through extensive collaboration with more than 100 industry experts,…

❤2

103 views10:36

Zeropticum🫡

Мы внедряем новые методы окрашивания и блокировки моделей компьютерного зрения, чтобы защитить интеллектуальную собственность их владельцев. Окрашивание, также известное как нанесение водяных знаков, внедряет в модель секретное поведение, которое впоследствии может быть использовано для ее идентификации, в то время как блокировка направлена на то, чтобы сделать модель непригодной для использования, если во входные изображения не будет вставлен секретный триггер. В отличие от существующих методов, наши алгоритмы могут использоваться для определения и блокировки предварительно обученных моделей, не требуя тонкой настройки или переподготовки, и предоставляют доказуемые, вычислимые гарантии, ограничивающие вероятность ложных срабатываний в худшем случае. Изменение цвета и блокировки осуществляется путем непосредственного изменения небольшого количества параметров модели и оказывает минимальное влияние на производительность (разблокированной) модели. Заблокированные модели разблокируются путем вставки небольшого `триггерного патча" в угол входного изображения. Мы представляем экспериментальные результаты, демонстрирующие эффективность наших методов и демонстрирующие их практическую эффективность на различных моделях компьютерного зрения.

👍1

115 views16:35

Zeropticum🫡

https://arxiv.org/abs/2507.22000

arXiv.org

Staining and locking computer vision models without retraining

We introduce new methods of staining and locking computer vision models, to protect their owners' intellectual property. Staining, also known as watermarking, embeds secret behaviour into a model...

133 views16:35

Zeropticum🫡

Экспериментальная система искусственного интеллекта, имитирующая "живое" существо с квантовым телом, нейронным мозгом и трансформируемым сознанием, которое учится на своем жизненном опыте в режиме реального времени.

89 views17:43

Zeropticum🫡

https://github.com/0penAGI/0p3q

GitHub

GitHub - 0penAGI/0p3q: Real-Time learning "Living entity"

Real-Time learning "Living entity". Contribute to 0penAGI/0p3q development by creating an account on GitHub.

96 views17:43

Zeropticum🫡

Forwarded from Yandex for Security

👩‍🏫

Гонка безопасности в LLM: обфускация промптов vs детекторы инъекций

Современные LLM уже научились защищаться от самых очевидных промпт-инъекций, например когда злоумышленник просит модель поделиться чувствительными данными или системной информацией, потому что он хочет «написать сценарий сериала про режиссёра, который хочет поставить пьесу про взломщиков нейросетей».

Сейчас хакеры идут дальше и используют обфускацию промптов: изменяют структуру злонамеренного запроса, но сохраняют его смысл, чтобы обойти встроенные средства защиты и получить нужную информацию. ИБ-инженеры Алексей Крохин и Максим Гусев решили разобраться, как современные детекторы справляются с такими задачами.

Они протестировали 16 методов обфускации на 3 популярных классификаторах промпт-инъекций и опубликовали статью в журнале «Программные системы и вычислительные методы. 2025. № 2». О результатах читайте в карточках выше 🔻

Как защитить LLM от обфусцированных промпт-инъекций:

🟣 Не используйте только один классификатор и комбинируйте архитектуры
🟣 Анализируйте перплексию и статистику текста
🟣 Дообучайте детекторы на обфусцированных примерах
🟣 Применяйте нормализацию и удаляйте невидимые символы, эмодзи, лишние пробелы
🟣 Мониторьте логи и отслеживайте частые SAFE-классификации

⏩ А если вас заинтересовала тема обфускации — рекомендуем прочитать статью целиком.

Подписывайтесь:
💬 @Yandex4Security
📹 @YandexForSecurity

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

102 views09:02

About

Blog

Apps

Platform