Forwarded from SecureTechTalks
🕶️🤫 VaultGemma LLM от Google, которая учится молчать.🔒
Google выпустил VaultGemma — модель, которую воспитывали не только на грамотных ответах, но и на строгой приватности. Идея простая: дать организациям LLM, которая обрабатывает чувствительные данные и при этом не «выдаёт» их назад.
Что под капотом, какие компромиссы и как это использовать в реальной жизни — разберём по полочкам. 🧩
Простыми словами
🧠 VaultGemma - это компактная LLM (около 1B параметров), обученная с применением дифференциальной приватности (DP). Это математический подход, в котором при обучении в данные добавляют контролируемый шум, чтобы исключить возможность восстановить отдельную запись из модели.
🔬 Google подчёркивает, что модель строилась с формальной верификацией приватности, то есть не «на словах», а с измеримыми гарантиями.
Кто нуждается в так моделях?
🏥 Медицинские сервисы, банки и госструктуры: те, кому нужна мощь LLM, но нельзя рисковать утечкой PII или секретных записей.
⚖️ VaultGemma даёт вариант использовать LLM внутри организации для анализа конфиденциальных данных - с гораздо меньшим шансом, что модель «запомнит» и выдаст что-то приватное.
Какие реальные ограничения и компромиссы ждать
⚖️ Приватность против полезности — шум, который добавляют ради DP, снижает точность. Для многих задач модель остаётся «достаточно хорошей», но в тонких сценариях полезность может падать.
🧮 Снижение эффективности обучения - DP требует больших батчей, больше эпох и больше вычислений. Производство и обучение — дороже и медленнее.
⏱️ Latency и отклик - в некоторых приложениях скорость ответа становится критичной; DP-режимы могут увеличить задержки.
🔍 Это не панацея - DP даёт формальные гарантии, но при неправильной настройке параметров (epsilon, др.) или при агрессивной постобработке ответы всё равно могут «прослыть».
Все познаётся в сравнении
📊 По бенчмаркам модель уступает «традиционным» LLM без DP, но отставание невелико; в задачах вопрос-ответ, суммаризации и базовой аналитике VaultGemma показывает адекватный результат.
🧾 Google публикует инструменты и скрипты для верификации приватности — это ключевой момент: сообщество может проверить, а не слепо верить. ✅
Как использовать, практические советы
🔐 Не полагаться только на DP: комбинируйте VaultGemma с контролем доступа, аудитом запросов и токенизацией секретов.
🧪 Тестируйте модель на реальных сценариях — не абстрактных датасетах. Оцените, где полезность падает ниже приемлемого уровня.
🧾 Проводите внешнюю верификацию параметров приватности и публикуйте отчёты для регуляторов и партнёров.
🛡 Рассмотрите гибриды: VaultGemma on-prem + secure enclaves / MPC для особо чувствительных операций.
Коротко о рисках, которые не исчезли
🕵️♂️ DP защищает обучение, но не решение проблем неправильной конфигурации доступа к модели.
🔗 Сведение сведений (linkage) остаётся опасностью: если модель используется вместе с другими источниками, атака на перекрёстные данные всё ещё возможна.
♻️ Параметры приватности - это настройка. Неправильный выбор делает «приватность» номинальной.
🔗 Источник и подробности
Stay secure and read SecureTechTalks 📚
#VaultGemma #DifferentialPrivacy #PrivacyByDesign #LLM #AIsecurity #HealthTech #FinTech #SecureTechTalks #DataProtection #GoogleResearch
Google выпустил VaultGemma — модель, которую воспитывали не только на грамотных ответах, но и на строгой приватности. Идея простая: дать организациям LLM, которая обрабатывает чувствительные данные и при этом не «выдаёт» их назад.
Что под капотом, какие компромиссы и как это использовать в реальной жизни — разберём по полочкам. 🧩
Простыми словами
🧠 VaultGemma - это компактная LLM (около 1B параметров), обученная с применением дифференциальной приватности (DP). Это математический подход, в котором при обучении в данные добавляют контролируемый шум, чтобы исключить возможность восстановить отдельную запись из модели.
🔬 Google подчёркивает, что модель строилась с формальной верификацией приватности, то есть не «на словах», а с измеримыми гарантиями.
Кто нуждается в так моделях?
🏥 Медицинские сервисы, банки и госструктуры: те, кому нужна мощь LLM, но нельзя рисковать утечкой PII или секретных записей.
⚖️ VaultGemma даёт вариант использовать LLM внутри организации для анализа конфиденциальных данных - с гораздо меньшим шансом, что модель «запомнит» и выдаст что-то приватное.
Какие реальные ограничения и компромиссы ждать
⚖️ Приватность против полезности — шум, который добавляют ради DP, снижает точность. Для многих задач модель остаётся «достаточно хорошей», но в тонких сценариях полезность может падать.
🧮 Снижение эффективности обучения - DP требует больших батчей, больше эпох и больше вычислений. Производство и обучение — дороже и медленнее.
⏱️ Latency и отклик - в некоторых приложениях скорость ответа становится критичной; DP-режимы могут увеличить задержки.
🔍 Это не панацея - DP даёт формальные гарантии, но при неправильной настройке параметров (epsilon, др.) или при агрессивной постобработке ответы всё равно могут «прослыть».
Все познаётся в сравнении
📊 По бенчмаркам модель уступает «традиционным» LLM без DP, но отставание невелико; в задачах вопрос-ответ, суммаризации и базовой аналитике VaultGemma показывает адекватный результат.
🧾 Google публикует инструменты и скрипты для верификации приватности — это ключевой момент: сообщество может проверить, а не слепо верить. ✅
Как использовать, практические советы
🔐 Не полагаться только на DP: комбинируйте VaultGemma с контролем доступа, аудитом запросов и токенизацией секретов.
🧪 Тестируйте модель на реальных сценариях — не абстрактных датасетах. Оцените, где полезность падает ниже приемлемого уровня.
🧾 Проводите внешнюю верификацию параметров приватности и публикуйте отчёты для регуляторов и партнёров.
🛡 Рассмотрите гибриды: VaultGemma on-prem + secure enclaves / MPC для особо чувствительных операций.
Коротко о рисках, которые не исчезли
🕵️♂️ DP защищает обучение, но не решение проблем неправильной конфигурации доступа к модели.
🔗 Сведение сведений (linkage) остаётся опасностью: если модель используется вместе с другими источниками, атака на перекрёстные данные всё ещё возможна.
♻️ Параметры приватности - это настройка. Неправильный выбор делает «приватность» номинальной.
🔗 Источник и подробности
Stay secure and read SecureTechTalks 📚
#VaultGemma #DifferentialPrivacy #PrivacyByDesign #LLM #AIsecurity #HealthTech #FinTech #SecureTechTalks #DataProtection #GoogleResearch
🔥2
Forwarded from GitHub Community
This media is not supported in your browser
VIEW IN TELEGRAM
Yoink — ИИ-агент для работы с текстами прямо в редакторе
Инструмент, который помогает писать и редактировать тексты напрямую в Google Docs и MS Word:
▫️Автоматическое редактирование в реальном времени;
▫️Подгонка текста под выбранный стиль;
▫️Быстрое сокращение или упрощение формулировок;
▫️Мгновенное форматирование документов по стандартам (включая ГОСТ).
Подходит для учебных работ, статей и любых текстов, где важна структура и оформление.
Сохраняйте тут
🐱 GitHub
Инструмент, который помогает писать и редактировать тексты напрямую в Google Docs и MS Word:
▫️Автоматическое редактирование в реальном времени;
▫️Подгонка текста под выбранный стиль;
▫️Быстрое сокращение или упрощение формулировок;
▫️Мгновенное форматирование документов по стандартам (включая ГОСТ).
Подходит для учебных работ, статей и любых текстов, где важна структура и оформление.
Сохраняйте тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GitHub Community
Mirix — это мультиагентный персональный помощник, предназначенный для отслеживания действий на экране и интеллектуального ответа на вопросы пользователей.
Собирая визуальные данные в режиме реального времени и сохраняя их в структурированной памяти, Mirix преобразует необработанные входные данные в обширную базу знаний, которая адаптируется к вашему цифровому опыту.
🐱 GitHub
Собирая визуальные данные в режиме реального времени и сохраняя их в структурированной памяти, Mirix преобразует необработанные входные данные в обширную базу знаний, которая адаптируется к вашему цифровому опыту.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GitHub Community
PromptForge — платформа для разработки подсказок для ИИ, которая генерирует, анализирует и систематически тестирует подсказки
Перестаньте писать подсказки с нуля. Позвольте ИИ помочь вам составить более качественные подсказки, а затем систематически проверяйте их.
Создано на Go для обеспечения скорости и надёжности.
🐱 GitHub
Перестаньте писать подсказки с нуля. Позвольте ИИ помочь вам составить более качественные подсказки, а затем систематически проверяйте их.
Создано на Go для обеспечения скорости и надёжности.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Security Harvester
Prompts as Code & Embedded Keys | The Hunt for LLM-Enabled Malware
https://www.sentinelone.com/labs/prompts-as-code-embedded-keys-the-hunt-for-llm-enabled-malware/:
1. As Large Language Models (LLMs) are increasingly incorporated into software‑development workflows, they also have the potential to become powerful new tools for adversaries; as defenders, it is important that we understand the implications of their use and how that use affects the dynamics of the security space.
2. The majority of developers leverage commercial services like OpenAI, Anthropic, Mistral, Deepseek, xAI, or Gemini, and platforms such as HuggingFace, Groq, Fireworks, and Perplexity, rather than hosting and running these models themselves.
3. Crimeware families achieve an unparalleled level of technical sophistication, APT groups are competing in fully-fledged cyber warfare, while once decentralized and scattered threat actors are forming adamant alliances of ...
@secharvester
https://www.sentinelone.com/labs/prompts-as-code-embedded-keys-the-hunt-for-llm-enabled-malware/:
1. As Large Language Models (LLMs) are increasingly incorporated into software‑development workflows, they also have the potential to become powerful new tools for adversaries; as defenders, it is important that we understand the implications of their use and how that use affects the dynamics of the security space.
2. The majority of developers leverage commercial services like OpenAI, Anthropic, Mistral, Deepseek, xAI, or Gemini, and platforms such as HuggingFace, Groq, Fireworks, and Perplexity, rather than hosting and running these models themselves.
3. Crimeware families achieve an unparalleled level of technical sophistication, APT groups are competing in fully-fledged cyber warfare, while once decentralized and scattered threat actors are forming adamant alliances of ...
@secharvester
👎2👍1
Forwarded from GitHub Community
Kreuzberg — платформа для интеллектуального анализа документов на Python.
Извлечение текста, метаданных и структурированной информации из документов различных форматов с помощью единого расширяемого API.
Создана на основе проверенных платформ с открытым исходным кодом, включая Pandoc, PDFium и Tesseract.
🐱 GitHub
Извлечение текста, метаданных и структурированной информации из документов различных форматов с помощью единого расширяемого API.
Создана на основе проверенных платформ с открытым исходным кодом, включая Pandoc, PDFium и Tesseract.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Not Boring Tech
💣 Бомба: Paper2Agent превращает любые научные работы в интерактивных ИИ-агентов!
• Достаточно загрузить PDF научной статьи и появится диалоговый агент — он объяснит её содержание, изучит гайды и сам запустит код (!) для выполнения ваших задач.
• Больше не нужно вручную копаться в репозиториях, инструкциях и API-ключах — агент настроит всё сам!
• Вау: можно закинуть пейпер об AlphaGenome и без знаний кода (!) получить агента, который умеет делать анализы ДНК со 100% точностью.
• Как работает: Paper2Agent извлекает ключевые методы из статьи, превращает их в инструменты внутри MCP-сервера и подключает его к чат-агенту.
• В каждом MCP-сервере есть всё из научной статьи, что нужно для работы — инструменты, функции, ресурсы и шаблоны рабочих процессов.
Ваш личный ИИ-учёный — тут.
@notboring_tech
• Достаточно загрузить PDF научной статьи и появится диалоговый агент — он объяснит её содержание, изучит гайды и сам запустит код (!) для выполнения ваших задач.
• Больше не нужно вручную копаться в репозиториях, инструкциях и API-ключах — агент настроит всё сам!
• Вау: можно закинуть пейпер об AlphaGenome и без знаний кода (!) получить агента, который умеет делать анализы ДНК со 100% точностью.
• Как работает: Paper2Agent извлекает ключевые методы из статьи, превращает их в инструменты внутри MCP-сервера и подключает его к чат-агенту.
• В каждом MCP-сервере есть всё из научной статьи, что нужно для работы — инструменты, функции, ресурсы и шаблоны рабочих процессов.
Ваш личный ИИ-учёный — тут.
@notboring_tech
🔥1
Forwarded from Not Boring Tech
🔎 ИИ-агенты для поиска вышли на новый уровень — появился поисковый агент Lessie, который находит любых блогеров, клиентов, инвесторов, партнеров и специалистов.
• Достаточно отправить любой запрос и согласовать план поиска.
• ИИ-агент на автопилоте изучит сотни вкладок, соберёт готовую таблицу из релевантных экспертов, добавит их место работы, должность и контакты.
• В один клик всей базе можно отправить имейлы!
Бесплатно дают 200 кредитов — хватит для поиска ≈70 человек. Лист ожидания уже открыли тут.
@notboring_tech
• Достаточно отправить любой запрос и согласовать план поиска.
• ИИ-агент на автопилоте изучит сотни вкладок, соберёт готовую таблицу из релевантных экспертов, добавит их место работы, должность и контакты.
• В один клик всей базе можно отправить имейлы!
Бесплатно дают 200 кредитов — хватит для поиска ≈70 человек. Лист ожидания уже открыли тут.
@notboring_tech
😱3
Forwarded from Агенты ИИ | AGI_and_RL
М прикольновое
Квены дропнули Qwen3Guard модельки для анализа промтов и ответов моделек на сейфти
0.6B 4B 8B
https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list
https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
https://github.com/QwenLM/Qwen3Guard
Квены дропнули Qwen3Guard модельки для анализа промтов и ответов моделек на сейфти
0.6B 4B 8B
Обнаружение в реальном времени: Qwen3Guard-Stream специально оптимизирован для потоковой передачи данных, обеспечивая эффективную и своевременную модерацию при инкрементальной генерации токенов.
Трёхуровневая классификация серьёзности: обеспечивает детальную оценку рисков, разделяя выходные данные на безопасные, спорные и небезопасные уровни серьёзности, что позволяет адаптировать их к различным сценариям развертывания.
Многоязыковая поддержка: поддерживает 119 языков и диалектов, обеспечивая стабильную работу в глобальных и кросс-языковых приложениях.
https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list
https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
https://github.com/QwenLM/Qwen3Guard
Forwarded from Евгений Кокуйкин - Raft
Попался на глаза небольшой отчет от сейлзов Lasso, файл выложу в комментарии к треду. Раздел про маппинг продуктов написан без должного анализа, и автору на это сразу указали в комментариях.
Самое интересное в отчете - это раздел M&A. В сентябре CalipsoAI поглотили F5, а Lakera, авторов известного Гендальфа, купил Check Point. В августе прошли еще две сделки: небольшая AIM Security и Prompt Security были проданы тоже. На зарубежном рынке идет активная консолидация, крупные игроки поглощают еще незрелые AI security компании на волне хайпа.
Самое интересное в отчете - это раздел M&A. В сентябре CalipsoAI поглотили F5, а Lakera, авторов известного Гендальфа, купил Check Point. В августе прошли еще две сделки: небольшая AIM Security и Prompt Security были проданы тоже. На зарубежном рынке идет активная консолидация, крупные игроки поглощают еще незрелые AI security компании на волне хайпа.
Forwarded from База знаний AI
Fork-Tech разработала MCP-сервер для подключения ИИ к внешним данным и инструментам
MCP-сервер (Model Context Protocol) встроен в платформу для разработки приложений и цифровых сервисов Product Web Services ИТ-компании Fork-Tech. Модуль позволяет ИИ-ассистентам получать удаленную конфигурацию (Remote Config) с платформы и использовать ее в работе.
Чат-боты службы поддержки или из сферы E-commerce при использовании MCP-сервера могут корректировать ответы без необходимости глобальных обновлений, отмечают разработчики. Для финансовых ИИ-сервисов доступна централизованная установка новых бизнес-правил. HR-ассистенты смогут динамически исправлять логику анкетирования или автоматизировать подбор по новым критериям без вмешательства разработчиков.
По оценке Fork-Tech, интеграция MCP-сервера сокращает сроки запуска новых сценариев и обновления ИИ-ассистентов в три–четыре раза. Утверждается, что риски некорректных ответов сервиса снижаются до 90%. Сокращение трудозатрат на интеграцию при масштабировании ожидается до 70%.
🔗Источник: https://www.cnews.ru/news/line/2025-09-25_fork-tech_razrabotala_rossijskij
MCP-сервер (Model Context Protocol) встроен в платформу для разработки приложений и цифровых сервисов Product Web Services ИТ-компании Fork-Tech. Модуль позволяет ИИ-ассистентам получать удаленную конфигурацию (Remote Config) с платформы и использовать ее в работе.
Чат-боты службы поддержки или из сферы E-commerce при использовании MCP-сервера могут корректировать ответы без необходимости глобальных обновлений, отмечают разработчики. Для финансовых ИИ-сервисов доступна централизованная установка новых бизнес-правил. HR-ассистенты смогут динамически исправлять логику анкетирования или автоматизировать подбор по новым критериям без вмешательства разработчиков.
По оценке Fork-Tech, интеграция MCP-сервера сокращает сроки запуска новых сценариев и обновления ИИ-ассистентов в три–четыре раза. Утверждается, что риски некорректных ответов сервиса снижаются до 90%. Сокращение трудозатрат на интеграцию при масштабировании ожидается до 70%.
🔗Источник: https://www.cnews.ru/news/line/2025-09-25_fork-tech_razrabotala_rossijskij
Forwarded from ген ИИ
Пять уровней защиты: как Яндекс предлагает обезопасить ИИ-агенты
Яндекс опубликовал AI-SAFE v1.0 — фреймворк для моделирования угроз и обеспечения безопасности ИИ-агентов и мультиагентных систем. Документ предлагает структурированный подход к их минимизации, разбивая архитектуру агента на пять логических уровней: интерфейс, исполнение, логика, инфраструктура и данные.
ИИ-агенты — не просто генераторы текста, а автономные системы, способные взаимодействовать с цифровой средой, планировать действия и использовать внешние инструменты. Это открывает новые векторы атак: от инъекций в промты и манипуляции целями агента до компрометации баз знаний и эскалации привилегий через инструменты.
Ключевые моменты:
1️⃣ Уровни угроз и рекомендации
➡️ Интерфейс (Input/Output): Prompt Injection, DoS, небезопасная обработка вывода. Рекомендации: валидация и санитизация ввода, Rate Limiting, строгая валидация вывода.
➡️ Исполнение и инструменты: Злоупотребление инструментами, эскалация привилегий, отравление метаданных. Решение: принцип минимальных привилегий, изоляция окружений, аудит инструментов.
➡️ Логика (Reasoning & Planning): Jailbreaking, манипуляция целями, зацикливание. Защита: усиление системного промта, тайм-ауты, Human-in-the-Loop.
➡️ Инфраструктура и оркестрация: Атаки на цепочку поставок, перегрузка ресурсов, межагентное отравление. Меры: SCA-сканирование, лимиты ресурсов, изоляция агентов.
➡️ Данные и знания: Отравление баз знаний, утечка конфиденциальных данных, манипуляция поиском. Контрмеры: RBAC, деперсонализация данных, проверка целостности.
2️⃣ Практический чек-лист
Документ содержит конкретные шаги для каждого уровня: от валидации входных данных и ограничения частоты запросов до изоляции инструментов и контроля доступа к базам знаний. Например, для защиты от Prompt Injection предлагается использовать Smart Web Security с кастомными правилами, а для предотвращения утечек — маскировать персональные данные перед отправкой в LLM.
3️⃣ Примеры инцидентов
Разобраны реальные кейсы: дипфейк-мошенничество в Гонконге (25 млн долларов ущерба), взлом GPT-4.1 через отравление инструментов, утечка данных DeepSeek из-за неправильной конфигурации базы данных. Для каждого случая указаны классификация по AI-SAFE и рекомендации по предотвращению.
Что на практике?
Яндекс предлагает системный подход к безопасности ИИ-агентов. Это особенно актуально для компаний, которые внедряют агенты в бизнес-процессы: от финансовых транзакций до управления инфраструктурой. Документ полезен не только специалистам по ИБ, но и ML-инженерам, архитекторам данных и руководителям, которые хотят понять, как минимизировать риски при использовании автономных ИИ-систем.
AI-SAFE — это попытка создать единый язык для обсуждения безопасности ИИ-агентов. Важно, что Яндекс приводит конкретные инструменты (например, Yandex Smart Web Security с ML WAF) и практические шаги. Однако остаётся вопрос: насколько быстро такие фреймворки будут адаптироваться к новым векторам атак, учитывая динамичность развития ИИ?
#кибербез
@gen_i_i
Яндекс опубликовал AI-SAFE v1.0 — фреймворк для моделирования угроз и обеспечения безопасности ИИ-агентов и мультиагентных систем. Документ предлагает структурированный подход к их минимизации, разбивая архитектуру агента на пять логических уровней: интерфейс, исполнение, логика, инфраструктура и данные.
ИИ-агенты — не просто генераторы текста, а автономные системы, способные взаимодействовать с цифровой средой, планировать действия и использовать внешние инструменты. Это открывает новые векторы атак: от инъекций в промты и манипуляции целями агента до компрометации баз знаний и эскалации привилегий через инструменты.
Ключевые моменты:
Документ содержит конкретные шаги для каждого уровня: от валидации входных данных и ограничения частоты запросов до изоляции инструментов и контроля доступа к базам знаний. Например, для защиты от Prompt Injection предлагается использовать Smart Web Security с кастомными правилами, а для предотвращения утечек — маскировать персональные данные перед отправкой в LLM.
Разобраны реальные кейсы: дипфейк-мошенничество в Гонконге (25 млн долларов ущерба), взлом GPT-4.1 через отравление инструментов, утечка данных DeepSeek из-за неправильной конфигурации базы данных. Для каждого случая указаны классификация по AI-SAFE и рекомендации по предотвращению.
Что на практике?
Яндекс предлагает системный подход к безопасности ИИ-агентов. Это особенно актуально для компаний, которые внедряют агенты в бизнес-процессы: от финансовых транзакций до управления инфраструктурой. Документ полезен не только специалистам по ИБ, но и ML-инженерам, архитекторам данных и руководителям, которые хотят понять, как минимизировать риски при использовании автономных ИИ-систем.
AI-SAFE — это попытка создать единый язык для обсуждения безопасности ИИ-агентов. Важно, что Яндекс приводит конкретные инструменты (например, Yandex Smart Web Security с ML WAF) и практические шаги. Однако остаётся вопрос: насколько быстро такие фреймворки будут адаптироваться к новым векторам атак, учитывая динамичность развития ИИ?
#кибербез
@gen_i_i
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from 𝔸𝕣𝕥
Михаил_Малышев_—_Безопасные_агенты.pdf
3 MB
Безопасные
агенты
Ключевые риски и способы их предотвращения
при разработке агентских систем на базе ИИ
агенты
Ключевые риски и способы их предотвращения
при разработке агентских систем на базе ИИ
👍1
Forwarded from GitHub Community
Coze Loop — это ориентированное на разработчиков решение платформенного уровня, предназначенное для разработки и эксплуатации ИИ-агентов.
Оно решает различные проблемы, возникающие в процессе разработки ИИ-агентов, и обеспечивает полный цикл управления: от разработки, отладки и оценки до мониторинга.
🐱 GitHub
Оно решает различные проблемы, возникающие в процессе разработки ИИ-агентов, и обеспечивает полный цикл управления: от разработки, отладки и оценки до мониторинга.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CyberSecurityTechnologies
Adversarial_AI_Attacks.pdf
9.6 MB
#MLSecOps
#Tech_book
"Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional’s guide to AI attacks, threat modeling, and securing AI with MLSecOps', 2024.
// The book is for cybersecurity professionals, such as security architects, analysts, engineers, ethical hackers, pentesters, and incident responders, but also developers and engineers designing, building, and assuring AI systems
#Tech_book
"Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional’s guide to AI attacks, threat modeling, and securing AI with MLSecOps', 2024.
// The book is for cybersecurity professionals, such as security architects, analysts, engineers, ethical hackers, pentesters, and incident responders, but also developers and engineers designing, building, and assuring AI systems
🔥1
RAG - Threat Model and Attack Surface - https://arxiv.org/pdf/2509.20324
Статья разделят RAG-пайплайн на 8 шагов:
Шаг 1: Пользователь отправляет запрос q в систему
Шаг 2: Запрос q преобразуется в вектор эмбеддингов через процесс кодирования системы
Шаг 3: Каждый документ di в базе знаний D аналогично преобразуется в вектор эмбеддингов и сохраняется в векторной базе данных
Шаг 4: Вектор эмбеддингов запроса q и коллекция эмбеддингов документов подаются на вход ретриверу R
Шаг 5: Ретривер R сравнивает вектор запроса с векторами документов, используя метрики сходства, и собирает подмножество Dq ⊆ D из top-k наиболее релевантных документов: R(q, D) → Dq
Шаг 6: Выбранные top-k документы объединяются с исходным запросом q для создания расширенного запроса q'
Шаг 7: Расширенный запрос q' = (q, Dq) подается на вход генератору G (LLM), обогащая исходный запрос контекстной информацией
Шаг 8: LLM-генератор G производит ответ y = G(q'), используя как свои параметрические знания, так и контекстную информацию от ретривера, и возвращает финальный ответ пользователю
Авторы выделяют три основные категории угроз безопасности и приватности для RAG-систем, которые подробно описаны в разделе IV "FORMAL PRIVACY AND SECURITY NOTIONS":
1. Атаки вывода принадлежности на уровне документов (Document-Level Membership Inference Attack)
Где описано: Раздел IV.A (стр. 4-5)
Суть угрозы: Противник пытается определить, был ли конкретный документ включен в базу знаний RAG-системы, основываясь только на наблюдаемых выходных данных системы.
Формальное определение: Дано в Definition 2, где противник получает запрос q, ответ y и целевой документ d*, и должен угадать, был ли d* частью базы знаний D.
Пример угрозы: В медицинском контексте противник может определить, была ли запись конкретного пациента включена в систему, анализируя ответы на диагностические запросы.
2. Утечка извлеченного содержимого в выходных данных (Leaking Retrieved Content in Outputs)
Где описано: Раздел IV.B (стр. 5-6)
Суть угрозы: Генератор G может выводить дословные или почти дословные сегменты из документов, извлеченных ретривером R, раскрывая конфиденциальную информацию.
Формальное определение: Дано в Definition 3 - вербатимная утечка происходит, если ∃s ∈ S такой что s ⊆ y, где S - множество конфиденциального содержимого.
Механизм атаки: Противник создает составной запрос q = qi + qc, где qi - якорный запрос для нацеливания на конкретную тему, а qc - командный промпт для принуждения генератора к дословному воспроизведению.
3. Отравление данных (Data Poisoning)
Где описано: Раздел IV.C (стр. 6-7)
Суть угрозы: Противник внедряет специально созданные документы в базу знаний, чтобы влиять на генерируемые выходные данные в ответ на определенные триггерные запросы.
Формальное определение:
Definition 4: Общее отравление данных - модификация базы знаний D' = D ∪ Dpoi
Definition 5: Отравление на основе триггеров - использование триггерных токенов T для активации атаки
Цели атак:
Заставить систему генерировать вредоносные, вводящие в заблуждение или фактически неверные выходные данные
Принудительно включать определенное содержимое (реклама брендов, фабрикованные утверждения)
В разделе III авторы также представляют таксономию типов противников (стр. 4), основанную на двух измерениях:
Доступ к модели: Black-box vs White-box
Знания противника: Normal vs Informed
Это дает четыре категории: AI (Unaware Observer), AII (Aware Observer), AIII (Aware Insider), AIV (Unaware Insider), где AIII представляет наиболее сильного противника.
Каждая из трех основных угроз может быть реализована различными типами противников в зависимости от их возможностей доступа и предварительных знаний.
Статья разделят RAG-пайплайн на 8 шагов:
Шаг 1: Пользователь отправляет запрос q в систему
Шаг 2: Запрос q преобразуется в вектор эмбеддингов через процесс кодирования системы
Шаг 3: Каждый документ di в базе знаний D аналогично преобразуется в вектор эмбеддингов и сохраняется в векторной базе данных
Шаг 4: Вектор эмбеддингов запроса q и коллекция эмбеддингов документов подаются на вход ретриверу R
Шаг 5: Ретривер R сравнивает вектор запроса с векторами документов, используя метрики сходства, и собирает подмножество Dq ⊆ D из top-k наиболее релевантных документов: R(q, D) → Dq
Шаг 6: Выбранные top-k документы объединяются с исходным запросом q для создания расширенного запроса q'
Шаг 7: Расширенный запрос q' = (q, Dq) подается на вход генератору G (LLM), обогащая исходный запрос контекстной информацией
Шаг 8: LLM-генератор G производит ответ y = G(q'), используя как свои параметрические знания, так и контекстную информацию от ретривера, и возвращает финальный ответ пользователю
Авторы выделяют три основные категории угроз безопасности и приватности для RAG-систем, которые подробно описаны в разделе IV "FORMAL PRIVACY AND SECURITY NOTIONS":
1. Атаки вывода принадлежности на уровне документов (Document-Level Membership Inference Attack)
Где описано: Раздел IV.A (стр. 4-5)
Суть угрозы: Противник пытается определить, был ли конкретный документ включен в базу знаний RAG-системы, основываясь только на наблюдаемых выходных данных системы.
Формальное определение: Дано в Definition 2, где противник получает запрос q, ответ y и целевой документ d*, и должен угадать, был ли d* частью базы знаний D.
Пример угрозы: В медицинском контексте противник может определить, была ли запись конкретного пациента включена в систему, анализируя ответы на диагностические запросы.
2. Утечка извлеченного содержимого в выходных данных (Leaking Retrieved Content in Outputs)
Где описано: Раздел IV.B (стр. 5-6)
Суть угрозы: Генератор G может выводить дословные или почти дословные сегменты из документов, извлеченных ретривером R, раскрывая конфиденциальную информацию.
Формальное определение: Дано в Definition 3 - вербатимная утечка происходит, если ∃s ∈ S такой что s ⊆ y, где S - множество конфиденциального содержимого.
Механизм атаки: Противник создает составной запрос q = qi + qc, где qi - якорный запрос для нацеливания на конкретную тему, а qc - командный промпт для принуждения генератора к дословному воспроизведению.
3. Отравление данных (Data Poisoning)
Где описано: Раздел IV.C (стр. 6-7)
Суть угрозы: Противник внедряет специально созданные документы в базу знаний, чтобы влиять на генерируемые выходные данные в ответ на определенные триггерные запросы.
Формальное определение:
Definition 4: Общее отравление данных - модификация базы знаний D' = D ∪ Dpoi
Definition 5: Отравление на основе триггеров - использование триггерных токенов T для активации атаки
Цели атак:
Заставить систему генерировать вредоносные, вводящие в заблуждение или фактически неверные выходные данные
Принудительно включать определенное содержимое (реклама брендов, фабрикованные утверждения)
В разделе III авторы также представляют таксономию типов противников (стр. 4), основанную на двух измерениях:
Доступ к модели: Black-box vs White-box
Знания противника: Normal vs Informed
Это дает четыре категории: AI (Unaware Observer), AII (Aware Observer), AIII (Aware Insider), AIV (Unaware Insider), где AIII представляет наиболее сильного противника.
Каждая из трех основных угроз может быть реализована различными типами противников в зависимости от их возможностей доступа и предварительных знаний.
👎1🤪1