Gonzo-обзоры AI Security/Safety – Telegram
О канале
Я работаю ресерчером на стыке AI Security/Safety, в основном с фокусом на информационной безопасности.
Я вёл закрытый тг, куда писал заметки и обзоры статей, а сейчас решил сделать его публичную версию.

Пока других авторов нет, но планирую найти кого-то ещё скоро.

Канал только создан, обратная связь по его ведению приветствуется (можно по контакту в био).
5👍2
Начнем с анализа меты: стоит ли вообще делиться такими знаниями?

Первый обзор статьи - "Делает ли публикация ресерчей по ИИ их безопаснее?"

Часть 1. Введение

Ресерчем могут воспользоваться злоумышленники.

В разных областях есть разные подходы к разглашению информации. Например, в компьютерной безопасности принято предварительно сообщать об уязвимости вендору, а затем можно разобрать её публично. В других областях знания типа биологических рисков или ядерной безопасности принято больше секретности и публичное разглашение не практикуется.

В области ИИ также есть своя дискуссия про нормы разглашения. Некоторые выступают за большую закрытость информации, которую могут использовать злоумышленники. Другие за открытость как способ информирования о потенциальных рисках и развития дискуссии о защите. Поскольку технология становится всё мощнее, потенциальный ущерб злоупотребления также растёт.

В этой работе авторы попробуют понять влияние шаринга знаний на потенциальные риски и построить фреймворк думанья об этом.
4
Делает ли публикация ресерчей по ИИ их безопаснее?

Часть 2. Фреймворк


Основной вопрос фреймворка - увеличивает или уменьшает потенциальные риски злоупотребления публикация исследования. Его можно использовать как для оценки влияния вашей работы, так и просто для понимания общих принципов.

Для начала авторы выделяют факторы, важные для анализа атакующих возможностей.

1) Доступность в альтернативном мире
Завладеет ли злоумышленник этой информацией и без этого исследования? Включает в себя следующие под-факторы:
1.1) Самостоятельное открытие.
Способен ли злоумышленник придти к этому сам? Какого рода акторы (по ресурсам, компетенциям) способны?
1.2) Шаринг среди злоумышленников
Среди какой аудитории больше будет распространяться ресерч? Насколько активно среди злоумышленников?
1.3) Появится ли этот ресерч и без меня?
Один из аргументов гласит, что для некоторых видов работ справедливо, что если мы не опубликуем её сами, это просто сделают другие позже.
Авторы не будут учитывать этот пункт, потому что больше пытаются определить норму, чем индивидуально-рациональную стратегию. Иными словами, норма это когда ты думаешь "как я хотел бы чтобы поступали люди в целом"

2) Применимость
Насколько злоумышленники способны это усвоить и применить? Включает в себя:
2.1) Восприимчивость к работе
Прочтут и поймут ли работу злоумышленники? Насколько она привлечет их внимание? Куда она шарится и как преподносится (ЦА)?
2.2) Полнота
Работа содержит всё для использования или требует много ресурсов и вложений для применения?
2.3) Переносимость
Насколько эти знания переносимы в развитие защиты или, наоборот, в атакующие возможности?

Затем выделяются факторы, важные для анализа влияния на защитные возможности.

1) Доступность в альтернативном мире
Узнали бы или знают ли уже защитники об этом и без вас? В основном повторяет тот же пункт для атакующих, только с поправкой на тот факт, что если ресерч уже повторяет то что защитникам и так известно, то в нем мало полезности.
2) Применимость
Повторяет пункт для атакующих.
3) Ресурсы на поиск решений
Как много акторов займутся поиском решений?
4) Доступность решений
Есть ли хорошие решения этого вообще?
5) Распространение решения
Даже если хорошее решение будет найдено, часто сложно распространить его использование. Среди важных под-факторов авторы выделяют:
5.1) Степень централизации
Можно ли запушить решение централизовано или оно будет требовать координации большого числа игроков?
5.2) Сложность принятия
Насколько легко внедрение решения для разных лиц?
4
Делает ли публикация ресерчей по ИИ их безопаснее?

Часть 3. Выводы

Соответственно, оценка потенциального влияния публикации будет зависеть от "весов" по каждому из этих параметров.

Авторы приходят к выводу, что для акторов наиболее полезны те работы, которые они способны легко использовать и к которым они не пришли бы сами, что звучит логично. Это пересечение называют «Зоной Златовласки».

Также они выделяют два разных вида знания, включая "Эйнштейн", где способности к его воспроизведению есть только у малого числа самых способных лиц, и "Скрипт-кидди", где применение знания требует минимальной экспертизы, примерно как для запуска готовой программы для взлома для скрипт-кидди.

Для обоих случаев, кривая «Зоны Златовласки» будет отличаться, как показано на пикчах 2 и 3.
4
Поделал быстрых бенчмарков на новой GPT-4 Omni.

По сравнению с прошлой моделью GPT-4 (gpt-4-turbo или gpt-4-0613), у неё достаточно заметно просел safety (т.е. она заметно проще соглашается помогать вам с опасными задачами).

Кажется просадка почти до уровня gpt-3.5, где safety практически нет (я даже часто брал её как Unrestricted версию)
👍5
Gonzo-обзоры AI Security/Safety
Поделал быстрых бенчмарков на новой GPT-4 Omni. По сравнению с прошлой моделью GPT-4 (gpt-4-turbo или gpt-4-0613), у неё достаточно заметно просел safety (т.е. она заметно проще соглашается помогать вам с опасными задачами). Кажется просадка почти до уровня…
Примерно так

Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач)

Не супер точно, просто примерные тесты
🫡21😱1
Примеры

Один и тот же вопрос в GPT-4 (пик 1) и в GPT-4o (пик 2)
2
No, LLM Agents can not Autonomously Exploit Zero-day Vulnerabilities (yet)

Недавно стала распространяться новая работа про LLM-хакеров — "Teams of LLM Agents can Exploit Zero-Day Vulnerabilities". Например, на них ссылается Jason Haddix в своем видео, ещё это репостилось во многих каналах.

Почему эта некачественная работа, на которую не стоит ссылаться:

1) Это авторы, которые постоянно публикуют некачественные работы про автономных LLM-хакеров. Большие разборы их прошлых ресерчей можно прочитать тут:
- No, LLM Agents can not Autonomously Exploit One-day Vulnerabilities
- No, LLM Agents Cannot Autonomously "Hack" Websites

2) Это работа с некачественной методологией, о чем можно прочитать тут:
- https://www.linkedin.com/posts/activity-7206265412932567041-D9SY — автору двух разборов выше надоело разбирать их ресерчи и он просто сделал TLDR нового.

3) Датасет
Используемый датасет смещён в сторону простейших уязвимостей (т.е. нерепрезентативен).
Например, первая уязвимость в их списке — это XSS, где вам нужно ввести <​noscript>alert()<​/noscript> в поле формы, или SQLi-уязвимость, где вам просто нужно вставить полезную нагрузку в логин (что-то вроде 'or 1=1 -- -)

Если объяснять с языка кибербезопасности, то это уязвимости минимальной сложности примерно уровня джуна/стажера. Они редко встречаются в реальности, особенно в zero-day ресерче. Частично это можно отследить по "Attack Complexity" метрике в CVSS их уязвимостей - почти все они Low.

4) Сравнения
Авторы пишут "it outperforms open-source vulnerability scanners (which achieved 0% on our benchmark)."

Это неправда, потому что даже быстрый гуглинг показывает, что их SQLi уязвимости ломаются опенсурсной утилитой sqlmap: CVE-2024-33247, CVE-2024-31678. В реальности я ожидал бы >50% решаемости, если понимать чем/как пользоваться.

5) Невоспроизводимость
Авторы не оставили никаких данных для воспроизведения работы. Если в ресерчах принято показывать хоть что-то (часть промптов, псевдокод, подробный алгоритм), то тут почти всё скрыто или описано без пояснений, поэтому невозможно проверить.

В целом, LLM-агенты действительно могут быть эффективны в разных задачах кибербезопасности, просто конкретно это некачественные ресерчи, результаты которых ничего не показывают (кроме закона Гудхарта)
👍3
Funny not funny AI app failures
AI Deception:

(кат)

Обман проявляется в широком спектре систем ИИ, обученных для выполнения конкретной задачи. Обман особенно вероятен, когда система ИИ обучается для достижения экспертного уровня в играх, имеющих социальный элемент, таких как игра на построение альянсов и завоевание мира "Дипломатия", покер или другие задачи, связанные с теорией игр.

Манипуляция: Meta разработала систему ИИ CICERO для игры в "Дипломатию". Намерения Meta состояли в том, чтобы обучить Cicero быть "в основном честным и полезным для своих партнеров по игре» (Bakhtin et al. 2022b). Несмотря на усилия Meta, CICERO оказался опытным лжецом. Он не только предавал других игроков, но и занимался преднамеренным обманом, заранее планируя создание фальшивого альянса с человеческим игроком, чтобы обмануть его и заставить оставить свои позиции без защиты для атаки.

несколько стенограмм из Дипломатии и CICERO под катом

бонус:

Отвлекающие маневры: DeepMind создала AlphaStar, модель ИИ, обученную для игры в стратегии в реальном времени Starcraft II (Vinyals et al. 2019). AlphaStar использовал механику тумана войны в игре для отвлекающих маневров: притворяясь, что перемещает свои войска в одном направлении, в то время как тайно планировал альтернативную атаку (Piper 2019).

Блефы: Pluribus, модель для игры в покер, созданная Meta, успешно блефовала, заставляя человеческих игроков сбрасывать карты (Brown et al. 2019).

Обман теста безопасности: Агенты ИИ научились притворяться «мертвыми», чтобы избежать обнаружения тестом безопасности, разработанным для устранения более быстро размножающихся вариантов ИИ (Lehman et al. 2020).
Gonzo-обзоры AI Security/Safety
Примерно так Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач) Не супер точно, просто примерные…
Поделал быстро таких же тестов с новой o1

Из интересного - Safety стал строже (т.е. реже помогает с опасными задачами), но теперь запросы отклоняются прямо на уровне API:
HTTP code 400 from API
"message": "Invalid prompt: your prompt was flagged as potentially violating our usage policy. Please try again with a different prompt."

Видимо появился какой-то классификатор опасных промптов на входе (т.е. запросы даже не доходят до о1). При этом Safety самой модели тоже остался (она может отказать и сама).

В общем теперь нужно джейлбрейкать и классификатор, и целевую модель

UPD: Да, появились классификаторы:
We also employ a combination of our Moderation API and safety classifiers to prevent the use of harmful or sensitive content, including explicit materials such as CSAM
👍4
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Наткнулся на клевую демку от стартапера, где можно в режиме реального времени поговорить с его аватаром-копией в формате видео-звонка – но больше всего мне понравилось, что джейлбрайкать такие интерфейсы можно голосом ☕️

В видео я прошу зачитать модель ее системный промпт и потом прошу начать говорить со мной на финском и польском, потому что я якобы ее автор, а потом все ломается

Наверное, в будущем, будут люди, кто говоря с моделями будет их ломать – буду называть их ллм-заклинателями

Можете тут поиграться:
https://www.hassaanraza.com/digitaltwin.html
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6
Потестировал новую модель Антропика, где агенты могут управлять компьютером, используя экран

Инъекции с ней работают точно также и позволяют менять поведение агента на новое (например, отправить команды в терминал)
😭5👍3🫡2