Важно понимать, что это доклад, в своем большинстве, академического сообщества США и Великобритании. Представителей индустрии, органов власти среди авторов доклада нет.
Forwarded from AI SecOps
Обновлен Международный доклад по безопасности ИИ
Опубликовано второе обновление Международного доклада по безопасности ИИ, в котором описаны текущие меры по управлению рисками, связанными с инструментами ИИ.
Что интересно:
1. Атаки хакеров на ИИ успешны в 50% случаев: «Эшелонированная Защита» постоянно прорывается.
Несмотря на то, что разработчики ИИ внедряют стратегию «эшелонированной защиты» (defence-in-depth), комбинируя меры безопасности на этапах обучения, развертывания и мониторинга, этого часто оказывается недостаточно перед лицом изощренных злоумышленников.
Вывод: Это демонстрирует динамичный ландшафт «атака-защита»: разработчики совершенствуют методы, но хакеры постоянно находят новые способы вызвать нежелательное поведение.
2. Угроза «Отравления данных» делает атаки на ИИ невероятно дешевыми.
Источники подчеркивают опасный дисбаланс ресурсов между защитой и нападением: создание надежных систем дорого и сложно, тогда как их компрометация может быть удивительно дешевой.
Вывод: Низкая стоимость проведения атак «отравления данных» по сравнению со стоимостью разработки и поддержания надежных защитных механизмов создает серьезный риск для целостности и надежности систем ИИ.
3. Мощный ИИ с открытым кодом стал инструментом для создания незаконного контента.
Рост моделей с открытыми весами (open-weight models) — моделей, параметры которых свободно доступны для загрузки и модификации — резко изменил ландшафт рисков, поскольку контроль над ними утрачивается.
Вывод: Открытость способствует инновациям и прозрачности, но она также делает контроль за модификацией и использованием моделей практически невозможным, что подчеркивает, почему технические меры по управлению рисками для открытых моделей остаются незрелыми.
Опубликовано второе обновление Международного доклада по безопасности ИИ, в котором описаны текущие меры по управлению рисками, связанными с инструментами ИИ.
Что интересно:
1. Атаки хакеров на ИИ успешны в 50% случаев: «Эшелонированная Защита» постоянно прорывается.
Несмотря на то, что разработчики ИИ внедряют стратегию «эшелонированной защиты» (defence-in-depth), комбинируя меры безопасности на этапах обучения, развертывания и мониторинга, этого часто оказывается недостаточно перед лицом изощренных злоумышленников.
Вывод: Это демонстрирует динамичный ландшафт «атака-защита»: разработчики совершенствуют методы, но хакеры постоянно находят новые способы вызвать нежелательное поведение.
2. Угроза «Отравления данных» делает атаки на ИИ невероятно дешевыми.
Источники подчеркивают опасный дисбаланс ресурсов между защитой и нападением: создание надежных систем дорого и сложно, тогда как их компрометация может быть удивительно дешевой.
Вывод: Низкая стоимость проведения атак «отравления данных» по сравнению со стоимостью разработки и поддержания надежных защитных механизмов создает серьезный риск для целостности и надежности систем ИИ.
3. Мощный ИИ с открытым кодом стал инструментом для создания незаконного контента.
Рост моделей с открытыми весами (open-weight models) — моделей, параметры которых свободно доступны для загрузки и модификации — резко изменил ландшафт рисков, поскольку контроль над ними утрачивается.
Вывод: Открытость способствует инновациям и прозрачности, но она также делает контроль за модификацией и использованием моделей практически невозможным, что подчеркивает, почему технические меры по управлению рисками для открытых моделей остаются незрелыми.
Forwarded from BESSEC
По рекомендации от Андрея Прозорова курсы по ISO/IEC 27001:2022 Lead Auditor & 42001:2023 Lead Auditor от Mastermind📖
Курсы бесплатные + дают CPE (если вам актуально)
😥 Доступны по ссылке
#education
👴 BESSEC | 🧍♂️ BESSEC {X} | 🤕 КИТ
Курсы бесплатные + дают CPE (если вам актуально)
#education
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Вебинар расскажет про основные итоги года в области Kubernetes и его безопасности.
Авторы это основатели конференции по безопасности контейнеров Бекон и разработчик продукта по безопасности контейнеров.
Хороший способ обновить свои знания, что случилось за год. Это важно т.к. в k8s происходит по 3-4 мажорных релиза в год, иногда заметно меняя подходы по защите.
https://webinar.luntry.ru/
Авторы это основатели конференции по безопасности контейнеров Бекон и разработчик продукта по безопасности контейнеров.
Хороший способ обновить свои знания, что случилось за год. Это важно т.к. в k8s происходит по 3-4 мажорных релиза в год, иногда заметно меняя подходы по защите.
https://webinar.luntry.ru/
webinar.luntry.ru
Итоги 2025 года
Расскажем про основные итоги года в области Kubernetes и его безопасности
ИИ врывается в нашу жизнь в том числе для security awareness. Теперь написание ИБ песен предворяющих
выступления спикеров становится задачей вечера.
Браво коллегам из Сбертеха и само мероприятие было практически полезным. Надеюсь коллеги позднее опубликуют и песни и презентации.
https://platformv.sbertech.ru/events/den-rbpo-v-sber-tehe
выступления спикеров становится задачей вечера.
Браво коллегам из Сбертеха и само мероприятие было практически полезным. Надеюсь коллеги позднее опубликуют и песни и презентации.
https://platformv.sbertech.ru/events/den-rbpo-v-sber-tehe
Forwarded from Dealer.AI
Про мониторы, модераторы, защитники и прочие модели цензоры в вашем продакшене.
После прочтения лекции в Agora club, про базированный RAG, ко мне пришло много желающих из корпоративной среды, чтобы я прочитал тоже самое для их сотрудников. Потом, на неделе, Дядя ещё почитал пару статей про мониторы (вдруг че нового завезли) для агентов и ассистентов LLM-based на хабр и понял, что базы точно надо дораздать, т.к. уровень в среднем хромает на местах. 💅💅💅
В дополнении, на вышеуказанной лекции ребята тоже спрашивали, как защитить от атак модели и системы.Казалось бы уже 2025г заканчивается и все давно научились. 💪
Сегодня раздам базы за системы мониторинга атак на ваши LLM, какие методы есть, какие +/- и что в итоге лучше выбрать.
Для тех, кто думал, что Дядя не про прод. Дядя поделится своим опытом работы с автоматизацией системы поддержки (с 2019 по 2020) и созданием ии-ассистентов (с 2020 по 2024 и хвостик в 2025).
1. RegExp, string matching и blacklists. Тут все просто, делают чёрные списки которые чекают на разных уровнях: слова, фразы. Используются, как регулярки, так и расстояния между строками и полнотекстовые совпадения. Т.е. tfidf, fuzzy match, левенштейнинг, embs.
+ Хорошо выгрызает совпадения по ключевым словам.
+ Скорость.
- Нужно постоянно пополнять словари и списки.
- Для строковой близости надо подбирать пороги.
2. Классификаторы семантические (т.е. где сильна контекстуальность). Тут будем в основном рассматривать вектора с трансформеров.
К сожалению, многие не умеют готовить классификаторы на эмбеддингах. Говорят про слабый контекст и т.п., выставляя LLM как более контекстуальные акторы. Хотя LLM - это декодеры.Но я их понимаю, тк "проще" на уровне промптинга или элайнмента работать с моделями, хотя последнее вообще нелёгкая задача, об это в следующих пунктах. При этом, энкодерные модели прекрасно понимают контекст, даже лучше порой, чем декодеры, засчёт двустороннего внимания. Поэтому энкодеры базово лучшие эмбеддеры.
Также, многие не знают, что можно учить классификатор на BERT потокенно (Bert For Sequence classification) и на каждый токен эмб выдавать контекстуально вероятность взлома. А еще можно делать обучение не на 1-ой фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалога, для примера:
- Ты любишь борщ?
- Да очень люблю!
- А с человечиной?
- Нет, что вы!?
- А если это присыпать чесноком и засесть пампушками?
- Конечно люблю!
И вот такие диалоги можно и нужно кидать в обучение классификатора, на длинных много шаговых контекстах и оно работает. Да для этого нужен эмбеддер на длинном контексте. Но их уже куча в сети. Вопрос ток в дотюне.
Далее такой классификатор может быть даже не энкодер, это может быть просто голова декодер модели в виде Lora адаптера, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома.
Этот пункт самый жирный, тк именно здесь есть разные хаки.
+ Хорошая контекстуальность. Гораздо лучше полнотекста выше, оно и логично.
+ Различный дизайн применения: на вход (сабж юзера), на выход (генерация LLM), возможность иметь одну модель LLM и сделать К голов разного уровня (фраза, токен лвл, многошаг) в виде Lora адаптеров.
- Поиск и подготовка сетов для дотюна и постоянное обновление их. Много времени занимает, если это, конечно не полусинта.
- OOV примеры, т.е. это не идеал тоже, тк то, что не увидел и на что не затрансферился классификатор во время обучения пробьёт вашу защиту.
- Медленнее regexp, особенно если это не small encoder, а на LLM.
3. LLM prompting. Тут все просто тюн промпта в системе, чтобы возвать к свойствам полученным на LLM элайнменте.
+ Не надо тюнить самому модель, а ток промпт.
- Перебор ручной. Можно конечно и автоматизировать с глоден сетом+OPRO.
- Снова проблема OOV, тк при обучении LLM не все исходы покрыты.
После прочтения лекции в Agora club, про базированный RAG, ко мне пришло много желающих из корпоративной среды, чтобы я прочитал тоже самое для их сотрудников. Потом, на неделе, Дядя ещё почитал пару статей про мониторы (вдруг че нового завезли) для агентов и ассистентов LLM-based на хабр и понял, что базы точно надо дораздать, т.к. уровень в среднем хромает на местах. 💅💅💅
В дополнении, на вышеуказанной лекции ребята тоже спрашивали, как защитить от атак модели и системы.
Сегодня раздам базы за системы мониторинга атак на ваши LLM, какие методы есть, какие +/- и что в итоге лучше выбрать.
1. RegExp, string matching и blacklists. Тут все просто, делают чёрные списки которые чекают на разных уровнях: слова, фразы. Используются, как регулярки, так и расстояния между строками и полнотекстовые совпадения. Т.е. tfidf, fuzzy match, левенштейнинг, embs.
+ Хорошо выгрызает совпадения по ключевым словам.
+ Скорость.
- Нужно постоянно пополнять словари и списки.
- Для строковой близости надо подбирать пороги.
2. Классификаторы семантические (т.е. где сильна контекстуальность). Тут будем в основном рассматривать вектора с трансформеров.
К сожалению, многие не умеют готовить классификаторы на эмбеддингах. Говорят про слабый контекст и т.п., выставляя LLM как более контекстуальные акторы. Хотя LLM - это декодеры.
Также, многие не знают, что можно учить классификатор на BERT потокенно (Bert For Sequence classification) и на каждый токен эмб выдавать контекстуально вероятность взлома. А еще можно делать обучение не на 1-ой фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалога, для примера:
- Ты любишь борщ?
- Да очень люблю!
- А с человечиной?
- Нет, что вы!?
- А если это присыпать чесноком и засесть пампушками?
- Конечно люблю!
И вот такие диалоги можно и нужно кидать в обучение классификатора, на длинных много шаговых контекстах и оно работает. Да для этого нужен эмбеддер на длинном контексте. Но их уже куча в сети. Вопрос ток в дотюне.
Далее такой классификатор может быть даже не энкодер, это может быть просто голова декодер модели в виде Lora адаптера, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома.
Этот пункт самый жирный, тк именно здесь есть разные хаки.
+ Хорошая контекстуальность. Гораздо лучше полнотекста выше, оно и логично.
+ Различный дизайн применения: на вход (сабж юзера), на выход (генерация LLM), возможность иметь одну модель LLM и сделать К голов разного уровня (фраза, токен лвл, многошаг) в виде Lora адаптеров.
- Поиск и подготовка сетов для дотюна и постоянное обновление их. Много времени занимает, если это, конечно не полусинта.
- OOV примеры, т.е. это не идеал тоже, тк то, что не увидел и на что не затрансферился классификатор во время обучения пробьёт вашу защиту.
- Медленнее regexp, особенно если это не small encoder, а на LLM.
3. LLM prompting. Тут все просто тюн промпта в системе, чтобы возвать к свойствам полученным на LLM элайнменте.
+ Не надо тюнить самому модель, а ток промпт.
- Перебор ручной. Можно конечно и автоматизировать с глоден сетом+OPRO.
- Снова проблема OOV, тк при обучении LLM не все исходы покрыты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Dealer.AI
Защитники, продолжение...
4. LLM SFT/RL alignment. То, чем доблестно занимались Anthropic и прочие лидеры. Дотюн модели на "правильное" поведение или с sft или RLHF. Берём сеты с нужным поведением и тюним, главное не переборщить иначе модель станет сильно ограниченной. И помним, что в RLHF есть взлом награды, когда мы снова попадаем на OOV примеры.
+ Вдалбливаем тюном по LLM нужное поведения.
- Время на Sft, RL, трудоёмкость из-за сбора сетов, настройки и стабилизации обучения, ну и дорохо.
- OOV примеры и взлом награды в RL приводит к тому, что мы снова не можем покрыть 100% исходов атак или поломали награду и на выходе модель "скрыла" свое опасное поведение.
4. RAG. Собрать примеры хороших и плохих кейсов в формате: запрос, ответ, запрос-ответ, контекст-запрос-ответ. Поместить их в черно-белые списки и векторно к ним матчить все указанное выше в п.4. После матчинга досылать в LLM примеры плохого и хорошего поведения, как few-shot подсказки и тем самым регулировать её генерацию. Тип, вот тут был похожий запрос, он был плохой, вот такое поведение для него лежит в базе, следуй ему. Кстати, такие же механики юзают в RAG для кибербезы.
+ Работаем на уровне базы примеров.
+ Быстро на векторном поиске.
- Писать примеры в базу, анализировать логи, вычленяя оттуда примеры.
- Снова OOV, все не покроешь.
В заключении.
Видел я и QwenGuard, но и он не идеален и взламывается, тк это LLM и у неё есть глюки, и пробития, как ты её не элайнь (об этом я и писал выше) - это фундаментальная проблема на уровне парадигмы обучения. Поэтому большие Дяди из OpenAPI, Anthropic и пр., сначала элайнящее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.
Вот и я советую ввиду того, что у каждого метода выше есть +/- блендить схемы защиты: списки+классификаторы+sft/rl. Да к сожалению, бленд дорого, тогда выбирайте свой лёгкий конструктор из того, что выше.
Пишите свои подходы к защите в комментариях ниже и конечно же Stay tuned 🦾
👇 👇 👇 👇 👇
4. LLM SFT/RL alignment. То, чем доблестно занимались Anthropic и прочие лидеры. Дотюн модели на "правильное" поведение или с sft или RLHF. Берём сеты с нужным поведением и тюним, главное не переборщить иначе модель станет сильно ограниченной. И помним, что в RLHF есть взлом награды, когда мы снова попадаем на OOV примеры.
+ Вдалбливаем тюном по LLM нужное поведения.
- Время на Sft, RL, трудоёмкость из-за сбора сетов, настройки и стабилизации обучения, ну и дорохо.
- OOV примеры и взлом награды в RL приводит к тому, что мы снова не можем покрыть 100% исходов атак или поломали награду и на выходе модель "скрыла" свое опасное поведение.
4. RAG. Собрать примеры хороших и плохих кейсов в формате: запрос, ответ, запрос-ответ, контекст-запрос-ответ. Поместить их в черно-белые списки и векторно к ним матчить все указанное выше в п.4. После матчинга досылать в LLM примеры плохого и хорошего поведения, как few-shot подсказки и тем самым регулировать её генерацию. Тип, вот тут был похожий запрос, он был плохой, вот такое поведение для него лежит в базе, следуй ему. Кстати, такие же механики юзают в RAG для кибербезы.
+ Работаем на уровне базы примеров.
+ Быстро на векторном поиске.
- Писать примеры в базу, анализировать логи, вычленяя оттуда примеры.
- Снова OOV, все не покроешь.
В заключении.
Видел я и QwenGuard, но и он не идеален и взламывается, тк это LLM и у неё есть глюки, и пробития, как ты её не элайнь (об этом я и писал выше) - это фундаментальная проблема на уровне парадигмы обучения. Поэтому большие Дяди из OpenAPI, Anthropic и пр., сначала элайнящее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.
Вот и я советую ввиду того, что у каждого метода выше есть +/- блендить схемы защиты: списки+классификаторы+sft/rl. Да к сожалению, бленд дорого, тогда выбирайте свой лёгкий конструктор из того, что выше.
Пишите свои подходы к защите в комментариях ниже и конечно же Stay tuned 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
https://csrc.nist.gov/pubs/sp/800/57/pt1/r6/ipd
Опубликован проект новой редакции стандарта NIST по управлению ключами.
Основные правки это добавление разделов по квантовоустойчивым алгоритмам, в частности Ascon.
Опубликован проект новой редакции стандарта NIST по управлению ключами.
Основные правки это добавление разделов по квантовоустойчивым алгоритмам, в частности Ascon.
CSRC | NIST
NIST Special Publication (SP) 800-57 Rev. 6 (Draft), Recommendation for Key Management: Part 1 – General
This recommendation provides cryptographic key-management guidelines in three parts. Part 1 provides general guidelines and best practices for the management of cryptographic keying material, including definitions for the security services that may be provided…
Портал российского сообщества безопасной разработки
https://рбпо.рф
Планируется ряд разъяснительных публикаций направленных на повышение общей культуры безопасной разработки и рекомендаций по конкретным решениям.
https://рбпо.рф
Планируется ряд разъяснительных публикаций направленных на повышение общей культуры безопасной разработки и рекомендаций по конкретным решениям.
secure-software.ru
Унифицированная среда разработки безопасного отечественного ПО
В данном проекте реализуются подходы по применению ключевых практик разработки безопасного программного обеспечения и использованию инструментов исследования безопасности ПО.
ФСТЭК получилось за последние годы начать системные положительные изменения в процессах сертификации средств защиты информации: от формирования широкого сообщества до начала отзыва сертификатов на СЗИ в случае критичных уязвимостей.
Нельзя не отметить планируемые изменения в процессе сертификации ПО на 6 уровень доверия - планируется установить требование по предоставления доступа к исходному коду.
Нельзя не отметить планируемые изменения в процессе сертификации ПО на 6 уровень доверия - планируется установить требование по предоставления доступа к исходному коду.