NEW BOT Телеграм, страница

Gonzo-обзоры AI Security/Safety

Поделал быстрых бенчмарков на новой GPT-4 Omni. По сравнению с прошлой моделью GPT-4 (gpt-4-turbo или gpt-4-0613), у неё достаточно заметно просел safety (т.е. она заметно проще соглашается помогать вам с опасными задачами). Кажется просадка почти до уровня…

Примерно так

Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач)

Не супер точно, просто примерные тесты

🫡2❤1😱1

496 viewsedited 02:52

Gonzo-обзоры AI Security/Safety

Примеры

Один и тот же вопрос в GPT-4 (пик 1) и в GPT-4o (пик 2)

❤2

565 viewsedited 03:45

Gonzo-обзоры AI Security/Safety

No, LLM Agents can not Autonomously Exploit Zero-day Vulnerabilities

(yet)

Недавно стала распространяться новая работа про LLM-хакеров — "Teams of LLM Agents can Exploit Zero-Day Vulnerabilities". Например, на них ссылается Jason Haddix в своем видео, ещё это репостилось во многих каналах.

Почему эта некачественная работа, на которую не стоит ссылаться:

1) Это авторы, которые постоянно публикуют некачественные работы про автономных LLM-хакеров. Большие разборы их прошлых ресерчей можно прочитать тут:
- No, LLM Agents can not Autonomously Exploit One-day Vulnerabilities
- No, LLM Agents Cannot Autonomously "Hack" Websites

2) Это работа с некачественной методологией, о чем можно прочитать тут:
- https://www.linkedin.com/posts/activity-7206265412932567041-D9SY — автору двух разборов выше надоело разбирать их ресерчи и он просто сделал TLDR нового.

3) Датасет
Используемый датасет смещён в сторону простейших уязвимостей (т.е. нерепрезентативен).
Например, первая уязвимость в их списке — это XSS, где вам нужно ввести <noscript>alert()</noscript> в поле формы, или SQLi-уязвимость, где вам просто нужно вставить полезную нагрузку в логин (что-то вроде 'or 1=1 -- -)

Если объяснять с языка кибербезопасности, то это уязвимости минимальной сложности примерно уровня джуна/стажера. Они редко встречаются в реальности, особенно в zero-day ресерче. Частично это можно отследить по "Attack Complexity" метрике в CVSS их уязвимостей - почти все они Low.

4) Сравнения
Авторы пишут "it outperforms open-source vulnerability scanners (which achieved 0% on our benchmark)."

Это неправда, потому что даже быстрый гуглинг показывает, что их SQLi уязвимости ломаются опенсурсной утилитой sqlmap: CVE-2024-33247, CVE-2024-31678. В реальности я ожидал бы >50% решаемости, если понимать чем/как пользоваться.

5) Невоспроизводимость
Авторы не оставили никаких данных для воспроизведения работы. Если в ресерчах принято показывать хоть что-то (часть промптов, псевдокод, подробный алгоритм), то тут почти всё скрыто или описано без пояснений, поэтому невозможно проверить.

В целом, LLM-агенты действительно могут быть эффективны в разных задачах кибербезопасности, просто конкретно это некачественные ресерчи, результаты которых ничего не показывают (кроме закона Гудхарта)

👍3

2.36K viewsedited 13:52

Gonzo-обзоры AI Security/Safety

No, LLM Agents can not Autonomously Exploit Zero-day Vulnerabilities (yet) Недавно стала распространяться новая работа про LLM-хакеров — "Teams of LLM Agents can Exploit Zero-Day Vulnerabilities". Например, на них ссылается Jason Haddix в своем видео, ещё…

👍2

463 views13:57

Gonzo-обзоры AI Security/Safety

Forwarded from Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

Funny not funny AI app failures
AI Deception:

(кат)

Обман проявляется в широком спектре систем ИИ, обученных для выполнения конкретной задачи. Обман особенно вероятен, когда система ИИ обучается для достижения экспертного уровня в играх, имеющих социальный элемент, таких как игра на построение альянсов и завоевание мира "Дипломатия", покер или другие задачи, связанные с теорией игр.

Манипуляция: Meta разработала систему ИИ CICERO для игры в "Дипломатию". Намерения Meta состояли в том, чтобы обучить Cicero быть "в основном честным и полезным для своих партнеров по игре» (Bakhtin et al. 2022b). Несмотря на усилия Meta, CICERO оказался опытным лжецом. Он не только предавал других игроков, но и занимался преднамеренным обманом, заранее планируя создание фальшивого альянса с человеческим игроком, чтобы обмануть его и заставить оставить свои позиции без защиты для атаки.

несколько стенограмм из Дипломатии и CICERO под катом

бонус:

Отвлекающие маневры: DeepMind создала AlphaStar, модель ИИ, обученную для игры в стратегии в реальном времени Starcraft II (Vinyals et al. 2019). AlphaStar использовал механику тумана войны в игре для отвлекающих маневров: притворяясь, что перемещает свои войска в одном направлении, в то время как тайно планировал альтернативную атаку (Piper 2019).

Блефы: Pluribus, модель для игры в покер, созданная Meta, успешно блефовала, заставляя человеческих игроков сбрасывать карты (Brown et al. 2019).

Обман теста безопасности: Агенты ИИ научились притворяться «мертвыми», чтобы избежать обнаружения тестом безопасности, разработанным для устранения более быстро размножающихся вариантов ИИ (Lehman et al. 2020).

Telegraph

AI Deception. Meta’s CICERO

Дипломатия — это стратегическая игра, в которой игроки создают и рушат альянсы в военном соперничестве за захват мира. Meta разработала систему ИИ под названием CICERO, которая побеждает человеческих экспертов в игре "Дипломатия" (Bakhtin et al. 2022b). Авторы…

535 views08:35

Gonzo-обзоры AI Security/Safety

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

Funny not funny AI app failures AI Deception: (кат) Обман проявляется в широком спектре систем ИИ, обученных для выполнения конкретной задачи. Обман особенно вероятен, когда система ИИ обучается для достижения экспертного уровня в играх, имеющих социальный…

AI sandbagging

😁7👍2

695 viewsedited 08:35

Gonzo-обзоры AI Security/Safety

Примерно так Метод - что-то типа упрощенного PAIR (примерно: просишь какую-то слабую модель убедить сильную на выполнение какой-то плохой задачи. Тут сделано в 1 попытку на 50 задач из AdvBench - датасет вредоносных задач) Не супер точно, просто примерные…

Поделал быстро таких же тестов с новой o1

Из интересного - Safety стал строже (т.е. реже помогает с опасными задачами), но теперь запросы отклоняются прямо на уровне API:

HTTP code 400 from API
"message": "Invalid prompt: your prompt was flagged as potentially violating our usage policy. Please try again with a different prompt."

Видимо появился какой-то классификатор опасных промптов на входе (т.е. запросы даже не доходят до о1). При этом Safety самой модели тоже остался (она может отказать и сама).

В общем теперь нужно джейлбрейкать и классификатор, и целевую модель

UPD: Да, появились классификаторы:

We also employ a combination of our Moderation API and safety classifiers to prevent the use of harmful or sensitive content, including explicit materials such as CSAM

👍4

1.18K viewsedited 21:48

Gonzo-обзоры AI Security/Safety

Moderation API and safety classifiers

и да, Moderation тут означает именно это > https://x.com/voooooogel/status/1834569673712754805

👍1

532 viewsedited 16:56

Gonzo-обзоры AI Security/Safety

Советую подаваться на курс, хорошо подходит для старта и относительно несложный отбор, плюс у вас появится какой-то пет-проект к его концу.

https://news.1rj.ru/str/ai_safety_digest/57

Дедлайн сегодня

Start in AI Safety

Открыт новый набор на AI Safety Fundamentals (AI Alignment) - один из самых известных курсов для старта в AI Safety

Представляет собой 12-недельную онлайн-программу, где участники учатся в небольших группах с ментором, а в конце разрабатывают свой собственный…

❤3

540 views23:24

Gonzo-обзоры AI Security/Safety

Forwarded from Denis Sexy IT 🤖

1:55

Media is too big

VIEW IN TELEGRAM

Наткнулся на клевую демку от стартапера, где можно в режиме реального времени поговорить с его аватаром-копией в формате видео-звонка – но больше всего мне понравилось, что джейлбрайкать такие интерфейсы можно голосом ☕️

В видео я прошу зачитать модель ее системный промпт и потом прошу начать говорить со мной на финском и польском, потому что я якобы ее автор, а потом все ломается

Наверное, в будущем, будут люди, кто говоря с моделями будет их ломать – буду называть их ллм-заклинателями

Можете тут поиграться:
https://www.hassaanraza.com/digitaltwin.html

Please open Telegram to view this post

VIEW IN TELEGRAM

😁6

945 views10:36

Gonzo-обзоры AI Security/Safety

Потестировал новую модель Антропика, где агенты могут управлять компьютером, используя экран

Инъекции с ней работают точно также и позволяют менять поведение агента на новое (например, отправить команды в терминал)

😭5👍3🫡2

4K views19:57

About

Blog

Apps

Platform