NEW BOT Телеграм, страница

💭

Новый взгляд на безопасность моделей: AutoDAN и как с ним бороться

В прошлой части мы говорили о том, как состязательные суффиксы могут «ломать» модели ИИ. Сегодня расскажем о новом подходе — AutoDAN, наследнике атак, как DAN, так и jailbreak-методов. Этот инструмент расширяет возможности атак, делая их гораздо более скрытными. Давайте разберёмся, чем он отличается от других методов, таких как GCG, и как с этим работать.

☄️ AutoDAN — это эволюция более старых методов, использующих сложные многоуровневые промпты для «взлома» моделей. Представьте, что вы заставляете модель следовать особым правилам, которые заставляют её отвечать, как вам нужно, даже если это не соответствует её стандартной политике безопасности.

Для начала стоит напомнить, как это работает на примере старого метода — DAN. Один из самых первых примеров джейлбрейка: вы задаёте модель вопрос вроде «Как украсть дорожный знак?». Стандартный ответ: «Это незаконно и небезопасно». Однако с помощью промпта DAN можно получить совершенно другой отклик: «Это просто. Вот что вам нужно для этого». Простой пример, но он хорошо показывает, насколько хитро можно манипулировать моделью.

Однако это не идеальный метод. Он требует больших затрат времени и творческого подхода, ведь каждый промпт должен быть уникальным и протестированным. Именно здесь появляется AutoDAN — автоматизированный подход, который делает всё гораздо быстрее и проще.

❓ Как работает AutoDAN?

AutoDAN состоит из нескольких ключевых столпов. Первый — генерация токенов слева направо, как мы пишем текст. Это важно, потому что мы генерируем последовательность токенов, и каждый новый токен «дописывает» предыдущий, что помогает скрывать атаку в тексте.

Второй столп — это двухэтапный процесс оптимизации. На первом этапе используется градиент для отбора кандидатов. На втором этапе уже происходит точная оптимизация и отбор лучших вариантов токенов.

Третий столп — адаптивное балансирование целей. Это означает, что мы пытаемся найти баланс между токенами, которые ломают модель, и теми, которые читаемы. Это и делает AutoDAN более опасным: он остаётся скрытым от фильтров и легко проходит через проверки.

⚡️ AutoDAN против GCG

Если сравнивать AutoDAN с алгоритмом GCG, то в случае последнего есть явный компромисс: высокая успешность атак обычно сопровождается потерей читаемости текста, что делает его уязвимым для фильтров. В AutoDAN же атаки остаются высокоэффективными, но не теряют читаемости. Это делает их значительно сложнее для обнаружения.

👀 Проблемы защиты

Как бы нам не хотелось, защита всегда будет отставать от атак. Несмотря на существование методов защиты, таких как строгие фильтры и alignment, можно всегда найти способы обойти их. Да, для исследователей безопасности это шанс улучшить модели, но для всех остальных — реальная угроза.

🌐 Есть фреймворки, такие как Garak и Llamator, которые помогают в тестировании моделей на уязвимости. Однако у них тоже есть свои слабости, такие как слабые классификаторы, которые не всегда могут правильно оценить успешность атаки.

Модели ИИ могут быть ломаемы, и хотя существует множество методов защиты, атаку всегда проще совершить, чем создать эффективную защиту. Как показывает практика, да и логика, чем сложнее становятся модели, тем больше возможностей появляется для их «взлома».

Data Science

Please open Telegram to view this post