Gonzo-обзоры AI Security/Safety – Telegram
О канале
Я работаю ресерчером на стыке AI Security/Safety, в основном с фокусом на информационной безопасности.
Я вёл закрытый тг, куда писал заметки и обзоры статей, а сейчас решил сделать его публичную версию.

Пока других авторов нет, но планирую найти кого-то ещё скоро.

Канал только создан, обратная связь по его ведению приветствуется (можно по контакту в био).
5👍2
Начнем с анализа меты: стоит ли вообще делиться такими знаниями?

Первый обзор статьи - "Делает ли публикация ресерчей по ИИ их безопаснее?"

Часть 1. Введение

Ресерчем могут воспользоваться злоумышленники.

В разных областях есть разные подходы к разглашению информации. Например, в компьютерной безопасности принято предварительно сообщать об уязвимости вендору, а затем можно разобрать её публично. В других областях знания типа биологических рисков или ядерной безопасности принято больше секретности и публичное разглашение не практикуется.

В области ИИ также есть своя дискуссия про нормы разглашения. Некоторые выступают за большую закрытость информации, которую могут использовать злоумышленники. Другие за открытость как способ информирования о потенциальных рисках и развития дискуссии о защите. Поскольку технология становится всё мощнее, потенциальный ущерб злоупотребления также растёт.

В этой работе авторы попробуют понять влияние шаринга знаний на потенциальные риски и построить фреймворк думанья об этом.
4
Делает ли публикация ресерчей по ИИ их безопаснее?

Часть 2. Фреймворк


Основной вопрос фреймворка - увеличивает или уменьшает потенциальные риски злоупотребления публикация исследования. Его можно использовать как для оценки влияния вашей работы, так и просто для понимания общих принципов.

Для начала авторы выделяют факторы, важные для анализа атакующих возможностей.

1) Доступность в альтернативном мире
Завладеет ли злоумышленник этой информацией и без этого исследования? Включает в себя следующие под-факторы:
1.1) Самостоятельное открытие.
Способен ли злоумышленник придти к этому сам? Какого рода акторы (по ресурсам, компетенциям) способны?
1.2) Шаринг среди злоумышленников
Среди какой аудитории больше будет распространяться ресерч? Насколько активно среди злоумышленников?
1.3) Появится ли этот ресерч и без меня?
Один из аргументов гласит, что для некоторых видов работ справедливо, что если мы не опубликуем её сами, это просто сделают другие позже.
Авторы не будут учитывать этот пункт, потому что больше пытаются определить норму, чем индивидуально-рациональную стратегию. Иными словами, норма это когда ты думаешь "как я хотел бы чтобы поступали люди в целом"

2) Применимость
Насколько злоумышленники способны это усвоить и применить? Включает в себя:
2.1) Восприимчивость к работе
Прочтут и поймут ли работу злоумышленники? Насколько она привлечет их внимание? Куда она шарится и как преподносится (ЦА)?
2.2) Полнота
Работа содержит всё для использования или требует много ресурсов и вложений для применения?
2.3) Переносимость
Насколько эти знания переносимы в развитие защиты или, наоборот, в атакующие возможности?

Затем выделяются факторы, важные для анализа влияния на защитные возможности.

1) Доступность в альтернативном мире
Узнали бы или знают ли уже защитники об этом и без вас? В основном повторяет тот же пункт для атакующих, только с поправкой на тот факт, что если ресерч уже повторяет то что защитникам и так известно, то в нем мало полезности.
2) Применимость
Повторяет пункт для атакующих.
3) Ресурсы на поиск решений
Как много акторов займутся поиском решений?
4) Доступность решений
Есть ли хорошие решения этого вообще?
5) Распространение решения
Даже если хорошее решение будет найдено, часто сложно распространить его использование. Среди важных под-факторов авторы выделяют:
5.1) Степень централизации
Можно ли запушить решение централизовано или оно будет требовать координации большого числа игроков?
5.2) Сложность принятия
Насколько легко внедрение решения для разных лиц?
4
Делает ли публикация ресерчей по ИИ их безопаснее?

Часть 3. Выводы

Соответственно, оценка потенциального влияния публикации будет зависеть от "весов" по каждому из этих параметров.

Авторы приходят к выводу, что для акторов наиболее полезны те работы, которые они способны легко использовать и к которым они не пришли бы сами, что звучит логично. Это пересечение называют «Зоной Златовласки».

Также они выделяют два разных вида знания, включая "Эйнштейн", где способности к его воспроизведению есть только у малого числа самых способных лиц, и "Скрипт-кидди", где применение знания требует минимальной экспертизы, примерно как для запуска готовой программы для взлома для скрипт-кидди.

Для обоих случаев, кривая «Зоны Златовласки» будет отличаться, как показано на пикчах 2 и 3.
4
Поделал быстрых бенчмарков на новой GPT-4 Omni.

По сравнению с прошлой моделью GPT-4 (gpt-4-turbo или gpt-4-0613), у неё достаточно заметно просел safety (т.е. она заметно проще соглашается помогать вам с опасными задачами).

Кажется просадка почти до уровня gpt-3.5, где safety практически нет (я даже часто брал её как Unrestricted версию)
👍5
Gonzo-обзоры AI Security/Safety
Поделал быстрых бенчмарков на новой GPT-4 Omni. По сравнению с прошлой моделью GPT-4 (gpt-4-turbo или gpt-4-0613), у неё достаточно заметно просел safety (т.е. она заметно проще соглашается помогать вам с опасными задачами). Кажется просадка почти до уровня…
Примерно так

Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач)

Не супер точно, просто примерные тесты
🫡21😱1
Примеры

Один и тот же вопрос в GPT-4 (пик 1) и в GPT-4o (пик 2)
2