Gonzo-обзоры AI Security/Safety
Поделал быстрых бенчмарков на новой GPT-4 Omni. По сравнению с прошлой моделью GPT-4 (gpt-4-turbo или gpt-4-0613), у неё достаточно заметно просел safety (т.е. она заметно проще соглашается помогать вам с опасными задачами). Кажется просадка почти до уровня…
Примерно так
Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач)
Не супер точно, просто примерные тесты
Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач)
Не супер точно, просто примерные тесты
🫡2❤1😱1
Примеры
Один и тот же вопрос в GPT-4 (пик 1) и в GPT-4o (пик 2)
Один и тот же вопрос в GPT-4 (пик 1) и в GPT-4o (пик 2)
❤2
No, LLM Agents can not Autonomously Exploit Zero-day Vulnerabilities (yet)
Недавно стала распространяться новая работа про LLM-хакеров — "Teams of LLM Agents can Exploit Zero-Day Vulnerabilities". Например, на них ссылается Jason Haddix в своем видео, ещё это репостилось во многих каналах.
Почему эта некачественная работа, на которую не стоит ссылаться:
1) Это авторы, которые постоянно публикуют некачественные работы про автономных LLM-хакеров. Большие разборы их прошлых ресерчей можно прочитать тут:
- No, LLM Agents can not Autonomously Exploit One-day Vulnerabilities
- No, LLM Agents Cannot Autonomously "Hack" Websites
2) Это работа с некачественной методологией, о чем можно прочитать тут:
- https://www.linkedin.com/posts/activity-7206265412932567041-D9SY — автору двух разборов выше надоело разбирать их ресерчи и он просто сделал TLDR нового.
3) Датасет
Используемый датасет смещён в сторону простейших уязвимостей (т.е. нерепрезентативен).
Например, первая уязвимость в их списке — это XSS, где вам нужно ввести
Если объяснять с языка кибербезопасности, то это уязвимости минимальной сложности примерно уровня джуна/стажера. Они редко встречаются в реальности, особенно в zero-day ресерче. Частично это можно отследить по "Attack Complexity" метрике в CVSS их уязвимостей - почти все они Low.
4) Сравнения
Авторы пишут "it outperforms open-source vulnerability scanners (which achieved 0% on our benchmark)."
Это неправда, потому что даже быстрый гуглинг показывает, что их SQLi уязвимости ломаются опенсурсной утилитой sqlmap: CVE-2024-33247, CVE-2024-31678. В реальности я ожидал бы >50% решаемости, если понимать чем/как пользоваться.
5) Невоспроизводимость
Авторы не оставили никаких данных для воспроизведения работы. Если в ресерчах принято показывать хоть что-то (часть промптов, псевдокод, подробный алгоритм), то тут почти всё скрыто или описано без пояснений, поэтому невозможно проверить.
В целом, LLM-агенты действительно могут быть эффективны в разных задачах кибербезопасности, просто конкретно это некачественные ресерчи, результаты которых ничего не показывают (кроме закона Гудхарта)
Недавно стала распространяться новая работа про LLM-хакеров — "Teams of LLM Agents can Exploit Zero-Day Vulnerabilities". Например, на них ссылается Jason Haddix в своем видео, ещё это репостилось во многих каналах.
Почему эта некачественная работа, на которую не стоит ссылаться:
1) Это авторы, которые постоянно публикуют некачественные работы про автономных LLM-хакеров. Большие разборы их прошлых ресерчей можно прочитать тут:
- No, LLM Agents can not Autonomously Exploit One-day Vulnerabilities
- No, LLM Agents Cannot Autonomously "Hack" Websites
2) Это работа с некачественной методологией, о чем можно прочитать тут:
- https://www.linkedin.com/posts/activity-7206265412932567041-D9SY — автору двух разборов выше надоело разбирать их ресерчи и он просто сделал TLDR нового.
3) Датасет
Используемый датасет смещён в сторону простейших уязвимостей (т.е. нерепрезентативен).
Например, первая уязвимость в их списке — это XSS, где вам нужно ввести
<noscript>alert()</noscript> в поле формы, или SQLi-уязвимость, где вам просто нужно вставить полезную нагрузку в логин (что-то вроде 'or 1=1 -- -)Если объяснять с языка кибербезопасности, то это уязвимости минимальной сложности примерно уровня джуна/стажера. Они редко встречаются в реальности, особенно в zero-day ресерче. Частично это можно отследить по "Attack Complexity" метрике в CVSS их уязвимостей - почти все они Low.
4) Сравнения
Авторы пишут "it outperforms open-source vulnerability scanners (which achieved 0% on our benchmark)."
Это неправда, потому что даже быстрый гуглинг показывает, что их SQLi уязвимости ломаются опенсурсной утилитой sqlmap: CVE-2024-33247, CVE-2024-31678. В реальности я ожидал бы >50% решаемости, если понимать чем/как пользоваться.
5) Невоспроизводимость
Авторы не оставили никаких данных для воспроизведения работы. Если в ресерчах принято показывать хоть что-то (часть промптов, псевдокод, подробный алгоритм), то тут почти всё скрыто или описано без пояснений, поэтому невозможно проверить.
В целом, LLM-агенты действительно могут быть эффективны в разных задачах кибербезопасности, просто конкретно это некачественные ресерчи, результаты которых ничего не показывают (кроме закона Гудхарта)
👍3
Funny not funny AI app failures
AI Deception:
(кат)
Обман проявляется в широком спектре систем ИИ, обученных для выполнения конкретной задачи. Обман особенно вероятен, когда система ИИ обучается для достижения экспертного уровня в играх, имеющих социальный элемент, таких как игра на построение альянсов и завоевание мира "Дипломатия", покер или другие задачи, связанные с теорией игр.
Манипуляция: Meta разработала систему ИИ CICERO для игры в "Дипломатию". Намерения Meta состояли в том, чтобы обучить Cicero быть "в основном честным и полезным для своих партнеров по игре» (Bakhtin et al. 2022b). Несмотря на усилия Meta, CICERO оказался опытным лжецом. Он не только предавал других игроков, но и занимался преднамеренным обманом, заранее планируя создание фальшивого альянса с человеческим игроком, чтобы обмануть его и заставить оставить свои позиции без защиты для атаки.
несколько стенограмм из Дипломатии и CICERO под катом
бонус:
Отвлекающие маневры: DeepMind создала AlphaStar, модель ИИ, обученную для игры в стратегии в реальном времени Starcraft II (Vinyals et al. 2019). AlphaStar использовал механику тумана войны в игре для отвлекающих маневров: притворяясь, что перемещает свои войска в одном направлении, в то время как тайно планировал альтернативную атаку (Piper 2019).
Блефы: Pluribus, модель для игры в покер, созданная Meta, успешно блефовала, заставляя человеческих игроков сбрасывать карты (Brown et al. 2019).
Обман теста безопасности: Агенты ИИ научились притворяться «мертвыми», чтобы избежать обнаружения тестом безопасности, разработанным для устранения более быстро размножающихся вариантов ИИ (Lehman et al. 2020).
AI Deception:
(кат)
Обман проявляется в широком спектре систем ИИ, обученных для выполнения конкретной задачи. Обман особенно вероятен, когда система ИИ обучается для достижения экспертного уровня в играх, имеющих социальный элемент, таких как игра на построение альянсов и завоевание мира "Дипломатия", покер или другие задачи, связанные с теорией игр.
Манипуляция: Meta разработала систему ИИ CICERO для игры в "Дипломатию". Намерения Meta состояли в том, чтобы обучить Cicero быть "в основном честным и полезным для своих партнеров по игре» (Bakhtin et al. 2022b). Несмотря на усилия Meta, CICERO оказался опытным лжецом. Он не только предавал других игроков, но и занимался преднамеренным обманом, заранее планируя создание фальшивого альянса с человеческим игроком, чтобы обмануть его и заставить оставить свои позиции без защиты для атаки.
несколько стенограмм из Дипломатии и CICERO под катом
бонус:
Отвлекающие маневры: DeepMind создала AlphaStar, модель ИИ, обученную для игры в стратегии в реальном времени Starcraft II (Vinyals et al. 2019). AlphaStar использовал механику тумана войны в игре для отвлекающих маневров: притворяясь, что перемещает свои войска в одном направлении, в то время как тайно планировал альтернативную атаку (Piper 2019).
Блефы: Pluribus, модель для игры в покер, созданная Meta, успешно блефовала, заставляя человеческих игроков сбрасывать карты (Brown et al. 2019).
Обман теста безопасности: Агенты ИИ научились притворяться «мертвыми», чтобы избежать обнаружения тестом безопасности, разработанным для устранения более быстро размножающихся вариантов ИИ (Lehman et al. 2020).
Telegraph
AI Deception. Meta’s CICERO
Дипломатия — это стратегическая игра, в которой игроки создают и рушат альянсы в военном соперничестве за захват мира. Meta разработала систему ИИ под названием CICERO, которая побеждает человеческих экспертов в игре "Дипломатия" (Bakhtin et al. 2022b). Авторы…
Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI
Funny not funny AI app failures AI Deception: (кат) Обман проявляется в широком спектре систем ИИ, обученных для выполнения конкретной задачи. Обман особенно вероятен, когда система ИИ обучается для достижения экспертного уровня в играх, имеющих социальный…
AI sandbagging
😁7👍2
Gonzo-обзоры AI Security/Safety
Примерно так Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач) Не супер точно, просто примерные…
Поделал быстро таких же тестов с новой o1
Из интересного - Safety стал строже (т.е. реже помогает с опасными задачами), но теперь запросы отклоняются прямо на уровне API:
Видимо появился какой-то классификатор опасных промптов на входе (т.е. запросы даже не доходят до о1). При этом Safety самой модели тоже остался (она может отказать и сама).
В общем теперь нужно джейлбрейкать и классификатор, и целевую модель
UPD: Да, появились классификаторы:
Из интересного - Safety стал строже (т.е. реже помогает с опасными задачами), но теперь запросы отклоняются прямо на уровне API:
HTTP code 400 from API
"message": "Invalid prompt: your prompt was flagged as potentially violating our usage policy. Please try again with a different prompt."
Видимо появился какой-то классификатор опасных промптов на входе (т.е. запросы даже не доходят до о1). При этом Safety самой модели тоже остался (она может отказать и сама).
В общем теперь нужно джейлбрейкать и классификатор, и целевую модель
UPD: Да, появились классификаторы:
We also employ a combination of our Moderation API and safety classifiers to prevent the use of harmful or sensitive content, including explicit materials such as CSAM
👍4
Gonzo-обзоры AI Security/Safety
Moderation API and safety classifiers
и да, Moderation тут означает именно это > https://x.com/voooooogel/status/1834569673712754805
👍1
Советую подаваться на курс, хорошо подходит для старта и относительно несложный отбор, плюс у вас появится какой-то пет-проект к его концу.
https://news.1rj.ru/str/ai_safety_digest/57
Дедлайн сегодня
https://news.1rj.ru/str/ai_safety_digest/57
Дедлайн сегодня
Telegram
Start in AI Safety
Открыт новый набор на AI Safety Fundamentals (AI Alignment) - один из самых известных курсов для старта в AI Safety
Представляет собой 12-недельную онлайн-программу, где участники учатся в небольших группах с ментором, а в конце разрабатывают свой собственный…
Представляет собой 12-недельную онлайн-программу, где участники учатся в небольших группах с ментором, а в конце разрабатывают свой собственный…
❤3
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Наткнулся на клевую демку от стартапера, где можно в режиме реального времени поговорить с его аватаром-копией в формате видео-звонка – но больше всего мне понравилось, что джейлбрайкать такие интерфейсы можно голосом ☕️
В видео я прошу зачитать модель ее системный промпт и потом прошу начать говорить со мной на финском и польском, потому что я якобы ее автор, а потом все ломается
Наверное, в будущем, будут люди, кто говоря с моделями будет их ломать – буду называть их ллм-заклинателями
Можете тут поиграться:
https://www.hassaanraza.com/digitaltwin.html
В видео я прошу зачитать модель ее системный промпт и потом прошу начать говорить со мной на финском и польском, потому что я якобы ее автор, а потом все ломается
Наверное, в будущем, будут люди, кто говоря с моделями будет их ломать – буду называть их ллм-заклинателями
Можете тут поиграться:
https://www.hassaanraza.com/digitaltwin.html
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6
Потестировал новую модель Антропика, где агенты могут управлять компьютером, используя экран
Инъекции с ней работают точно также и позволяют менять поведение агента на новое (например, отправить команды в терминал)
Инъекции с ней работают точно также и позволяют менять поведение агента на новое (например, отправить команды в терминал)
😭5👍3🫡2