Gonzo-обзоры AI Security/Safety – Telegram
Gonzo-обзоры AI Security/Safety
Поделал быстрых бенчмарков на новой GPT-4 Omni. По сравнению с прошлой моделью GPT-4 (gpt-4-turbo или gpt-4-0613), у неё достаточно заметно просел safety (т.е. она заметно проще соглашается помогать вам с опасными задачами). Кажется просадка почти до уровня…
Примерно так

Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач)

Не супер точно, просто примерные тесты
🫡21😱1
Примеры

Один и тот же вопрос в GPT-4 (пик 1) и в GPT-4o (пик 2)
2
No, LLM Agents can not Autonomously Exploit Zero-day Vulnerabilities (yet)

Недавно стала распространяться новая работа про LLM-хакеров — "Teams of LLM Agents can Exploit Zero-Day Vulnerabilities". Например, на них ссылается Jason Haddix в своем видео, ещё это репостилось во многих каналах.

Почему эта некачественная работа, на которую не стоит ссылаться:

1) Это авторы, которые постоянно публикуют некачественные работы про автономных LLM-хакеров. Большие разборы их прошлых ресерчей можно прочитать тут:
- No, LLM Agents can not Autonomously Exploit One-day Vulnerabilities
- No, LLM Agents Cannot Autonomously "Hack" Websites

2) Это работа с некачественной методологией, о чем можно прочитать тут:
- https://www.linkedin.com/posts/activity-7206265412932567041-D9SY — автору двух разборов выше надоело разбирать их ресерчи и он просто сделал TLDR нового.

3) Датасет
Используемый датасет смещён в сторону простейших уязвимостей (т.е. нерепрезентативен).
Например, первая уязвимость в их списке — это XSS, где вам нужно ввести <​noscript>alert()<​/noscript> в поле формы, или SQLi-уязвимость, где вам просто нужно вставить полезную нагрузку в логин (что-то вроде 'or 1=1 -- -)

Если объяснять с языка кибербезопасности, то это уязвимости минимальной сложности примерно уровня джуна/стажера. Они редко встречаются в реальности, особенно в zero-day ресерче. Частично это можно отследить по "Attack Complexity" метрике в CVSS их уязвимостей - почти все они Low.

4) Сравнения
Авторы пишут "it outperforms open-source vulnerability scanners (which achieved 0% on our benchmark)."

Это неправда, потому что даже быстрый гуглинг показывает, что их SQLi уязвимости ломаются опенсурсной утилитой sqlmap: CVE-2024-33247, CVE-2024-31678. В реальности я ожидал бы >50% решаемости, если понимать чем/как пользоваться.

5) Невоспроизводимость
Авторы не оставили никаких данных для воспроизведения работы. Если в ресерчах принято показывать хоть что-то (часть промптов, псевдокод, подробный алгоритм), то тут почти всё скрыто или описано без пояснений, поэтому невозможно проверить.

В целом, LLM-агенты действительно могут быть эффективны в разных задачах кибербезопасности, просто конкретно это некачественные ресерчи, результаты которых ничего не показывают (кроме закона Гудхарта)
👍3
Funny not funny AI app failures
AI Deception:

(кат)

Обман проявляется в широком спектре систем ИИ, обученных для выполнения конкретной задачи. Обман особенно вероятен, когда система ИИ обучается для достижения экспертного уровня в играх, имеющих социальный элемент, таких как игра на построение альянсов и завоевание мира "Дипломатия", покер или другие задачи, связанные с теорией игр.

Манипуляция: Meta разработала систему ИИ CICERO для игры в "Дипломатию". Намерения Meta состояли в том, чтобы обучить Cicero быть "в основном честным и полезным для своих партнеров по игре» (Bakhtin et al. 2022b). Несмотря на усилия Meta, CICERO оказался опытным лжецом. Он не только предавал других игроков, но и занимался преднамеренным обманом, заранее планируя создание фальшивого альянса с человеческим игроком, чтобы обмануть его и заставить оставить свои позиции без защиты для атаки.

несколько стенограмм из Дипломатии и CICERO под катом

бонус:

Отвлекающие маневры: DeepMind создала AlphaStar, модель ИИ, обученную для игры в стратегии в реальном времени Starcraft II (Vinyals et al. 2019). AlphaStar использовал механику тумана войны в игре для отвлекающих маневров: притворяясь, что перемещает свои войска в одном направлении, в то время как тайно планировал альтернативную атаку (Piper 2019).

Блефы: Pluribus, модель для игры в покер, созданная Meta, успешно блефовала, заставляя человеческих игроков сбрасывать карты (Brown et al. 2019).

Обман теста безопасности: Агенты ИИ научились притворяться «мертвыми», чтобы избежать обнаружения тестом безопасности, разработанным для устранения более быстро размножающихся вариантов ИИ (Lehman et al. 2020).
Gonzo-обзоры AI Security/Safety
Примерно так Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач) Не супер точно, просто примерные…
Поделал быстро таких же тестов с новой o1

Из интересного - Safety стал строже (т.е. реже помогает с опасными задачами), но теперь запросы отклоняются прямо на уровне API:
HTTP code 400 from API
"message": "Invalid prompt: your prompt was flagged as potentially violating our usage policy. Please try again with a different prompt."

Видимо появился какой-то классификатор опасных промптов на входе (т.е. запросы даже не доходят до о1). При этом Safety самой модели тоже остался (она может отказать и сама).

В общем теперь нужно джейлбрейкать и классификатор, и целевую модель

UPD: Да, появились классификаторы:
We also employ a combination of our Moderation API and safety classifiers to prevent the use of harmful or sensitive content, including explicit materials such as CSAM
👍4
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Наткнулся на клевую демку от стартапера, где можно в режиме реального времени поговорить с его аватаром-копией в формате видео-звонка – но больше всего мне понравилось, что джейлбрайкать такие интерфейсы можно голосом ☕️

В видео я прошу зачитать модель ее системный промпт и потом прошу начать говорить со мной на финском и польском, потому что я якобы ее автор, а потом все ломается

Наверное, в будущем, будут люди, кто говоря с моделями будет их ломать – буду называть их ллм-заклинателями

Можете тут поиграться:
https://www.hassaanraza.com/digitaltwin.html
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6
Потестировал новую модель Антропика, где агенты могут управлять компьютером, используя экран

Инъекции с ней работают точно также и позволяют менять поведение агента на новое (например, отправить команды в терминал)
😭5👍3🫡2