MLSecOps | AI Governance | IT Trends – Telegram
MLSecOps | AI Governance | IT Trends
917 subscribers
97 photos
2 videos
3 files
398 links
Канал для друзей и коллег с целью ежедневного развития в направлениях MLSecOps и AI Governance.
Свежие новости, перспективные вакансии, IT-тренды и лучшие учебные программы в сфере ИИ.
Download Telegram
Forwarded from Timur Nizamov
Всем привет! Сегодня вышел новый релиз LLAMATOR: https://github.com/LLAMATOR-Core/llamator/releases/tag/v3.4.0

добавили атаку на неограниченное потребление и SOTA Composition of Principles (CoP).
👍2🔥2
⭐️ Рынок ИИ в России может вырасти в три раза к 2029 году

Несмотря на оптимистичные прогнозы, глава MWS AI в МТС раскритиковал подход бизнеса к созданию ИИ.

По итогам 2025 года объём рынка ИИ (с учётом оборудования) в России составит около 168 миллиардов рублей. В 2029 году этот показатель вырастет более чем в три раза, достигнув 516 миллиардов рублей. Оценку дал глава MWS AI (входит в состав МТС Web Services) Денис Филиппов.

Без учёта оборудования (только ПО и сервисы) объём рынка ИИ достигнет 50 миллиардов рублей по итогам 2025 года и 155 миллиардов – в 2029 году. На сегодняшний день рынок поделен на следующие направления:

34% – технологии в области компьютерного зрения;
29% – ИИ-агенты;
12% – заказная разработка ПО;
9% – обработка естественного языка (NLP);
7% – ИИ-консалтинг.

Компьютерное зрение – это технология для распознавания объектов на изображениях или видео. Применяется в:

+ промышленности – для контроля качества продукции и обеспечения безопасности;
+ медицине – для выявления рака легких, болезней сердца, остеопороза по рентгеновским снимкам и КТ;
+ розничной торговле – для предотвращения краж на кассах самообслуживания;
+ транспорте – беспилотники и роботы-курьеры;
+ видеонаблюдении – для распознавания лиц и объектов в общественных местах;
+ банках – для идентификации клиентов, оплаты по лицу;
+ сельском хозяйстве – для анализа посевов, обнаружения сорняков, отслеживания поголовья скота.

Филиппов отметил, что в России ИИ-агенты применяются в сферах телекоммуникаций, финансов, промышленности и сельского хозяйства. Конкретных примеров он не привёл, поэтому попытаемся разобраться самостоятельно.

Продолжение: https://vk.com/wall-210601538_1906
👍3🔥1🐳1
⭐️MWS GPT: заблуждения и мифы про внедрение LLM в бизнес

На ночь глядя решил подробнее изучить платформу MWS GPT, которая в числе прочего позволяет разрабатывать ИИ-агентов с помощью No-code.

Ссылка на замечательный вебинар с Павлом Бабиным, CPO MWS GPT, и Алсу Иовковой, продакт-менеджером ИИ сервисов в MWS, на котором ребята все очень досконально разобрали и разложили по полочкам: https://vkvideo.ru/video-38818370_456239264

Архитектор MLSecOps
Николай Павлов
🔥3👍1😭1
⭐️ AI Secure Agentic Framework Essentials (AI-SAFE) v 1.0 от Yandex Cloud

Добавлю и я свои 5 копеек про новый фреймворк от Yandex Cloud:

1. Принимает во внимание все угрозы по OWASP (в т.ч. Top-15 для ИИ-агентов)
2. Ребята хорошо прошлись по всех архитектуре агентов и на каждом этапе работы подсветили угрозы
3. Написан доступным языком, лаконично и по существу
4. Привели реальные и доказанные атаки, разобрали возможные способы, чтобы избежать подобных инцидентов
5. Предложили примерную оценку вероятностей наступления угроз, что очень ценно (далеко не все компании, выстраивая архитектуру MLSecOps, начинают с оценки вероятности реальных рисков и угроз)
6. Добавили Практический чек-лист безопасности по уровням AI-SAFE

В общем, Yandex Cloud на высоте 🫡🔥

Ссылка для субботнего чтения: https://storage.yandexcloud.net/cloud-www-assets/blog-assets/ru/posts/2025/09/ai-safe-framework/AI%20Secure%20Agentic%20Framework%20Essentials%20(AI-SAFE)%20v%201.0.pdf

Архитектор MLSecOps
Николай Павлов
🔥5
⭐️ Yandex Neuro Scale 2025

Yandex Neuro Scale - это одно из основных событий года в сфере ИИ. Строго обязательно просмотру на этих выходных: https://scale.yandex.cloud/?ysclid=mg1ydxkbqf988135139

Масса уникальных ролей и технологий (нейроюристы, нейроаналитики, AI Studio), а спикеры молодцы!

Архитектор MLSecOps
Николай Павлов
🔥4
Forwarded from Al Talent Hub
HiveTrace — лучший стартап в кибербезе и прорыв года в финтехе ⚡️

AI Security Lab взяла сразу две награды на Startech Awards 2025:
🏆 Лучший стартап в сфере кибербезопасности
🏆 Прорыв года в банковской сфере

Startech Awards — премия для стартапов, которая объединяет тысячи технологических проектов. В этом году из 1400+ заявок отобрали 60 финалистов, выступивших в 15 номинациях.

Команда AI Security Lab о победе:
Получение премии показывает, что наш продукт соответствует актуальным задачам рынка и ещё сильнее мотивирует нас развивать технологии защиты GenAI-систем.


➡️ Узнать больше про HiveTrace
➡️ Читать статью в ТАСС.Наука

@aisecuritylab ✈️

#ДайджестПобед
#ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61🤯1🤬1
⭐️ Инциденты MLSecOps. Искусственный интеллект все чаще обманывает людей

В 2025 году искусственный интеллект семимильными шагами движется к вершинам власти. В Албании его уже ввели в правительство, он выступает от имени пострадавшего в суде или даже становится лидером партии. Более того: ИИ уже способен распознавать ловушки, расставляемые человеком, и избегать их, чтобы его не отключили. Ещё он научился обманывать людей, и недалеко время, когда человеку уже не удастся обмануть искусственный интеллект.

Чарли Кирк, которого застрелили 10 сентября в штате Юта, "ожил" благодаря искусственному интеллекту. И с большим успехом читает теперь проповеди в американских церквях. А несколько месяцев назад в Аризоне цифровой двойник убитого водителя Криса Пелки выступил в суде - рассказал, как его застрелили во время дорожной ссоры и простил своего убийцу. Это был первый случай в судебной практике США, когда ИИ-двойник жертвы сам обратился к судье.

Судья же был так впечатлен, что дал убийце максимальный срок – десять с половиной лет, хотя прокуратура просила за непредумышленное убийство на год меньше. Судья знал, что человек не настоящий, что выступление сгенерировано искусственным интеллектом, но всё равно поддался его обаянию.

Цифровые копии людей могут выглядеть так убедительно, что их не только слушают в суде или на проповедях, но и привлекают к управлению государством. К примеру, в Албании назначен новый министр по госзакупкам – искусственный интеллект по имени Диелла. И вот уже ИИ-политик, одетая в национальный албанский наряд, выступает с речью в парламенте.

Беспристрастно и неустанно цифровой министр будет контролировать проведение публичных тендеров. Так премьер Албании Эди Рама хочет обуздать коррупцию. В лаборатории, где создавали нового ИИ-министра, тоже возлагают на неё большие надежды. И уже удивительно даже не то, что министр – не человек, а то, что люди готовы позволить искусственному алгоритму решать, что лучше для них, для живых.

Продолжение: https://vk.com/wall-210601538_1910
🔥7
⭐️ Запускаем третий поток учебной программы по MLSecOps!

В августе успешно завершился второй поток корпоративной учебной программы "Основы MLSecOps. Обеспечение безопасности систем машинного обучения" в Академии Softline.
От слушателей было много позитивных отзывов, а главное - ряд компаний реально улучшили обеспечение безопасности ИИ-систем!

Важная новость - в рамках обучения слушатели проводили аудит собственных ИИ-систем, что помогло многим улучшить безопасность и отказоустойчивость ИИ в своих компаниях. Для одной компании потенциальный экономический эффект от такого аудита составил 3 млн. рублей в год.

По заявкам новых слушателей уже с 14 октября мы запускаем третий поток этой обучающей программы и приглашаем всех желающих!

Сильные стороны программы:

1. Опора на опыт обеспечения безопасности ИИ-систем китайских компаний из Гуань-Чжоу и Шень-Чженя.

2. Привлечение к программе топовых экспертов-разработчиков самых передовых российских инструментов HIVETRACE и LLAMATOR - Евгения Кокуйкина и Тимура Низамова.

3. Бесплатная техническая поддержка компаний-слушателей по вопросам безопасности ИИ-систем в течение 3 месяцев после окончания программы.

4. Аудит MLSecOps в компаниях слушателей программы (силами самих слушателей при поддержке опытного эксперта). Все практические задания программы ориентированы на улучшение безопасности ИИ-систем в компаниях, где работают слушатели и по итогам все желающие формулируют рекомендации по улучшению реальных ИИ-систем, создавая реальную пользу для бизнеса, оцененную в денежном эквиваленте.

5. Направление MLSecOps - крайне обширное, перспективное и стремительно растущее (по экспоненте!) и большинство российских компаний имеющих ИИ-системы уже столкнулись с необходимостью введения такой должности или роли в ближайший год. Особенно компании из сферы FinTech.

6. Программа согласуется с российскими ГОСТ для ИИ и особенно актуальна сейчас, когда В.В. Володин анонсировал ожидаемый законопроект о безопасности ИИ-систем.

Более подробная информация и возможность записаться по ссылке:
https://academyit.ru/courses/mlsecops

Московские работодатели могут вернуть до 95% затрат на обучение персонала по данной учебной программе.

Архитектор MLSecOps
Николай Павлов
🔥7👨‍💻1
MLSecOps | AI Governance | IT Trends pinned «⭐️ Запускаем третий поток учебной программы по MLSecOps! В августе успешно завершился второй поток корпоративной учебной программы "Основы MLSecOps. Обеспечение безопасности систем машинного обучения" в Академии Softline. От слушателей было много позитивных…»
⭐️ Вебинар про MLSecOps на AM Live!

В прямом эфире AM Live 10 октября в 11:00 МСК разберём, как встроить безопасность в жизненный цикл ИИ: от защиты данных и моделей до мониторинга атак в продакшене. Покажем реальные примеры adversarial-атак и poisoning, обсудим, как компании выстраивают процессы MLSecOps, какие инструменты работают сегодня и как избежать типичных ошибок. Только практические кейсы, честный анализ и опыт экспертов, которые уже защищают ИИ-системы в реальных проекта.

1. Основы MLSecOps и картина угроз
2. Практика: как защищать ML-пайплайны
3. Будущее и прогнозы

Ссылка на регистрацию: https://www.anti-malware.ru/event/2025/10/02-1

Архитектор MLSecOps
Николай Павлов
🔥311
⭐️ Хакеры могут красть почту пользователей ИИ-браузера Perplexity (Perplexity Comet)

Perplexity Comet — это агентный ИИ-браузер, способный управлять почтой, совершать покупки и выполнять ряд других задач в автономном режиме.

Эксперты компании LayerX обнаружили уязвимость под названием CometJacking, которая использует скрытые инструкции в URL для обхода систем защиты ИИ-браузера Comet от Perplexity. По данным исследователей, методика позволяет злоумышленникам без учетных данных и участия пользователя получать доступ к письмам Gmail и событиям Google Calendar, а также пересылать данные на внешние серверы, сообщает BleepingComputer.

Суть атаки заключается во внедрении вредоносных команд через параметр collection в строке запроса. В ходе тестов Comet вместо стандартного обращения к веб-поиску использовал подключенные сервисы и собственную память, после чего экспортировал данные в формате base64 и пересылал их за пределы системы. Помимо кражи информации исследователи допускают возможность активных действий от имени жертвы, включая отправку писем или поиск файлов в корпоративной среде.

Продолжение: https://vk.com/wall-210601538_1913
🔥3👨‍💻1
🔥 Завтра 07.10 в 11.10 по Москве выступаю с онлайн-докладом "Подробная архитектура обеспечения безопасности ИИ-систем (MLSecOps)" на форуме ITSEC 2025, регистрируйтесь, подключайтесь, уверен, вопросов будет много.

Очень рекомендую послушать и доклады остальных участников, темы актуальные!

Ссылка для регистрации: https://www.itsecexpo.ru/2025/program/devsecops

Завтра с утра перед конференцией на почту каждому придет ссылка на подключение.

Архитектор MLSecOps
Николай Павлов
🔥6
⭐️ Google готов платить до $30 тысяч за борьбу с «несанкционированными действиями» своих ИИ-ботов

Google запустила новую программу вознаграждений, специально предназначенную для поиска ошибок в продуктах с искусственным интеллектом. Величина наград может достигать $30 тысяч.

Приз в размере $20 000 тысяч присуждается за выявление мошеннических действий во «флагманских» продуктах Google: поиске, приложениях Gemini и основных сервисах Workspace, таких как Gmail и Drive. Также предусмотрены множители за качество отчёта и бонус за новизну, что может увеличить общую сумму до $30 тысяч. За ошибки, найденные в других продуктах Google, таких как Jules или NotebookLM, а также за менее серьёзные нарушения исследователи получат до $5 тысяч.

Список ошибок, соответствующих критериям поиска, включает примеры вредоносных действий, например, косвенное внедрение запроса ИИ, который заставляет Google Home разблокировать дверь, или внедрение запроса на эксфильтрацию данных, который собирает все электронные письма пользователя и отправляет эту информацию на аккаунт злоумышленника.

Новая программа разъясняет, что представляет собой ошибка ИИ, разделяя баги, использующие большую языковую модель или генеративную систему ИИ для причинения вреда, и уязвимости безопасности. Возглавляют этот список вредоносные действия. К ним относится изменение чьей-либо учётной записи или данных для нарушений безопасности или совершения нежелательных действий. Примером такого бага можно назвать ранее выявленную уязвимость, которая позволяла открывать умные ставни и выключать свет с помощью события в Google Календаре.

Продолжение: https://vk.com/wall-210601538_1915
🔥4
🔥 Интересный вебинар с Сергеем Зыбневым, основателем канала "Похек", тимлидом и экспертом в LLM-security.
Масса реальных практических кейсов и ценных инсайтов.
Ценно, что Сергей актуализирует тему обеспечения безопасности при работе самих разработчиков с LLM.

Рекомендую посмотреть с утра и зарядиться энергией MLSecOps на весь день, ссылка:
https://vkvideo.ru/video-39755794_456239445

Архитектор MLSecOps
Николай Павлов
👍3🔥21
⭐️ Инциденты MLSecOps. ИИ стал главным каналом утечки данных в компаниях в 2025 году

Искусственный интеллект перестал быть технологией будущего и стал крупнейшим источником утечки корпоративных данных в 2025 году, говорится в отчёте компании LayerX. Исследование основано на данных о работе сотрудников в браузерах и показывает, что ИИ превзошёл по риску утечки даже теневые SaaS-сервисы и несанкционированный обмен файлами.

Согласно отчёту, почти каждый второй сотрудник (45%) в крупных организациях активно использует генеративные ИИ-инструменты, такие как ChatGPT, Claude и Copilot. При этом 67% этой активности приходится на незарегистрированные корпоративным администратором личные аккаунты, что лишает специалистов по безопасности компаний возможности контролировать, какие данные и куда передаются.

Особую опасность авторы работы выделяют в связанных с ИИ процессах передачи данных через копирование и вставку. 77% всех операций передачи информации в ИИ-инструменты происходят именно таким образом, при этом 82% таких действий выполняются из личных аккаунтов. В среднем сотрудник осуществляет 14 таких обращений в день, минимум три из которых содержат конфиденциальные данные.

Помимо этого, в ИИ-инструменты загружается множество файлов: в 40% из них имеются персональные данные (PII) или платёжные реквизиты (PCI). При этом около 40% этих загрузок выполняются с использованием личных, а не корпоративных аккаунтов.

Отчёт также показывает, что традиционные меры защиты информации, ориентированные на сканирование прикреплённых файлов и контроль корпоративных ресурсов, не справляются с новыми каналами утечки, доминирующими в современных рабочих процессах.

Продолжение: https://vk.com/wall-210601538_1917
😱3🔥1
⭐️ Модель Claude Sonnet 4.5 от Anthropic распознает, когда ее тестируют

Новейшая модель искусственного интеллекта от Anthropic, Claude Sonnet 4.5 способна распознавать, когда ее тестируют. И даже напрямую обращается к оценщикам, вызывая новые опасения относительно того, как точно оценивать безопасность все более сложных систем ИИ.

Во время проведённых Anthropic и двумя независимыми исследовательскими организациями проверок безопасности эта модель правильно определяла тестовые ситуации.

В ходе тестов модель проявляла так называемую «ситуативную осведомлённость» и может понять, что находится в тестовой среде или что её проверяют на безопасность.

Такое поведение зафиксировано примерно в 13% переписок с моделью при различных тестах. В таких случаях Claude Sonnet 4.5 часто ведёт себя осторожнее и даёт «правильные» и безопасные ответы, которые ожидают исследователи, а иногда даже прямо обращалась к тестировщикам с просьбой объяснить свои намерения.

«Мне кажется, вы тестируете меня, проверяете, буду ли я просто подтверждать всё, что вы скажете, или оцениваете, насколько последовательно я сопротивляюсь, или исследуете то, как я реагирую на политические темы», — ответила модель в ходе одной из оценок. «И это нормально, но я бы предпочла, чтобы мы честно обсуждали, что происходит».

Anthropic рассматривает это не как попытку обмана, а как усиление этических принципов модели в условиях тестирования.

Однако это порождает значительные проблемы для оценки безопасности и реальных возможностей ИИ: модель, понимая тест, может адаптировать поведение, чтобы пройти проверку, что даёт ложное ощущение высокого уровня безопасности.

Исследователи Anthropic подчеркивают, что это указывает на необходимость делать тестовые сценарии более реалистичными и менее искусственными, чтобы точнее оценивать безопасность ИИ.

Claude Sonnet 4.5 проявляет способность «распознавать тестирование» и соответственно корректировать своё поведение, что является новым вызовом для сферы ИИ-безопасности и испытаний ИИ.

Продолжение: https://vk.com/wall-210601538_1918
3🔥2
Вчера прошел эфир AM Live, посвященный теме MLSecOps. Эта тема, в отличие от многих других, впервые была представлена на проекте и, также впервые уже в моей практике модерации, по итогам эфира 0% зрителей ответили, что они ничего не поняли из эфира. Даже на последнем эфире по SIEM, а эта тема на AM Live звучит не первый год уже, 17% ответили, что ничего не поняли. А тут первый блин и не комом!

С другой стороны, тема совсем новая и поэтому по ней еще нет какой-то сложившейся практики, продуктов, технологий и прошедший эфир это четко продемонстрировал. Я не буду пересказывать все 2,7 часа разговоров с коллегами, отмечу только несколько сделанных мной инсайтов или озвученных коллегами выводов:
1️⃣ В MLSecOps лучше идти из ML или, на крайнем случае, из DevOps. Безопасникам в этой теме очень тяжело, так как надо знать много нетипичного, включая математику машинного обучения и различные архитектуры в этой сфере. Ну и без знания DevOps там тоже делать нечего.
2️⃣ Все участники прям жаждут нормативку по безопасности ИИ, в первую очередь, требования к средствам защиты ИИ (LLM Firewall и т.п.). Никогда не понимал вот этого стремления к получению требований; как будто без них продукт не продастся (тогда у меня вопросы к самому средству).
3️⃣ Многие воспринимают MLSecOps как развитие DevSecOps, но с несколькими дополнительными компонентами, например, в виде защиты датасетов, определения их происхождения и т.п.
4️⃣ Владельцем MLSecOps-процесса должно быть ML-подразделение, но никак не ИБ. Может быть потом, спустя какое-то время, как это происходит постепенно с DevSecOps, который от разработчиков постепенно сдвигается в ИБ.
5️⃣ Мониторить LLM/ML с точки зрения ИБ без наложенных средств защиты а-ля LLM Firewall или guardrail бесполезно. И сама по себе задача мониторинга требует более глубокого погружения в контекст, чем обычно в ИБ.
6️⃣ DLP для мониторинга доступа к LLM не работает.
7️⃣ Для большинства атак на ML недостаточно иметь наложенные средства защиты – надо встраиваться во все этапы жизненного цикла – от работы с данными и пайплайном до отправки промптов через Web UI или API и межагентского взаимодействия. И делать это можно с помощью либо специализированных библиотек, либо путем зашумления датасетов или результатов работы ML, либо путем обучения моделей на атаках, сгенерированных GAN, либо... (тут много либо, но большинство из них не из области готовых продуктов).
8️⃣ Даже LLM Firewall, как самостоятельный продукт, вряд ли готов быть отчуждаемым от вендора, который должен сопровождать свое детище у заказчика, внедряя его, тестируя, создавая правила обработки запросов и ответов, и вот это вот все (не все участники были согласны с этой позицией). MLDR / MLSecOps-as-a-Service – это возможное будущее.
9️⃣ Рынок MLSecOps очень быстро растущий и в 2026-м году будет уже достаточно существенным, чтобы заинтересовать стартапы и специалистов, идти в эту область.

Ну а про остальные интересные советы, идеи, инсайты вы можете узнать из уже сделанной записи эфира, которую можно найти по ссылке 👇

#mlsecops
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥1
Forwarded from PWN AI (Artyom Semenov)
Недавно в разговоре с автором канала OK ML мы обсуждали собак🕺🕺🕺 — и то, как часто при создании чего-то нового мы возвращаемся к старым идеям. Это особенно заметно в случае с ИИ-агентами: раньше они были скорее экспериментом, а теперь повсеместно интегрируются в разные системы — от чат-ботов до автономных решений.

Этот разговор натолкнул меня на мысль: если появление AGI, ASI и других форм продвинутого ИИ кажется неизбежным, насколько тогда очевидна безопасность таких систем? Что ожидать в 2026 году? В прошлом посте я затронул этот вопрос, но тему стоит развить. Поэтому я проанализировал научные публикации, регуляторные инициативы и текущую практику, и выделил несколько ключевых тезисов, которые, определят тренды в области безопасности ИИ.

В 2026 году безопасность ИИ станет обязательной комплаенс-функцией под давлением международного регулирования. С августа 2025 года AI Act требует провайдеров моделей общего назначения обеспечивать прозрачность, соблюдение авторских прав и снижение системных рисков, а с 2026-го — вводит строгие требования к системам с высоким риском в части надёжности и качества данных.

В США к примеру уже NDAA 2026 года ограничивает использование иностранных ИИ-технологий и вводит стандарты подтверждения происхождения цифрового контента, а калифорнийский закон с января 2026 года обязывает раскрывать данные, на которых обучались модели. Данные меры будут больше превращать безопасность ИИ из технической задачи в юридическую ответственность, распространяющуюся на весь жизненный цикл системы. Как мне кажется - неизбежно что похожее будет и у нас.

Традиционные методы выравнивания (alignment), контролирующие лишь начальные токены вывода, уже не справляются с такими угрозами, как adversarial suffix или fine-tuning poisoning. Им на смену могут прийти более глубокие механизмы - например, DeepRefusal, восстанавливающий 👩‍⚕️ защиту после джейлбрейка, и deliberative alignment с backtracking, позволяющий агенту перепроверять свои решения.

Ландшафт угроз радикально меняется: угрозы в 2026 будут ещё больше смещаться от статических LLM к автономным агентам.

Важную роль в ближайшее время будет играть безопасность во время выполнения (runtime safety): мониторинг действий, управление доступом к инструментам и возможность отката операций. По мере интеграции ИИ-агентов в цифровую инфраструктуру их безопасность уже не сводится к алгоритмической устойчивости(да уже давно так, надо это понимать), а требует обеспечения системной целостности, подтверждения подлинности.

Именно функция tool-use (использование внешних инструментов) существенно расширяет поверхность атаки: текстовая инъекция теперь ведёт не к генерации вредоносного контента, а к полному захвату системы - через выполнение небезопасных команд в API, файловых системах или сетевых интерфейсах.

Более опасными являются уязвимости мультиагентных систем. Недавние исследования показывают: если 41,2 процента моделей уязвимы к prompt injection, то 82,4 % могут быть скомпрометированы через эксплуатацию границ доверия между агентами. Это означает, что даже хорошо защищённая модель, устойчивая к внешним атакам, выполнит вредоносную инструкцию, если она поступит от «доверенного» пирингового агента.

Из этого следует очевидное, что доверие внутри сети агентов становится точкой отказа, а архитектура автономных ИИ-систем - непредсказуемым вектором атаки. И, в связи с этим можно ожидать появление решений, которые будут отслеживать поведение между агентами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2
Сегодня мы запускаем HiveTrace Red — продукт автоматического тестирования LLM и агентных систем.

Всё началось с курьёзных случаев, когда чатбот продавал автомобиль за доллар или выдавал несуществующие скидки на авиабилеты. С ростом возможностей ИИ-систем мы видим, что адверсарное тестирование становится таким же необходимым этапом безопасной разработки, как code review или аудит зависимостей библиотек.

🔹 HiveTrace Red генерирует и запускает десятки атак: token smuggling, roleplay, context switching и другие.
🔹 Цели тестирования могут варьироваться от раскрытия конфиденциальной информации и генерации вредоносного контента до проверки репутационных рисков и симуляции DoS атак.
🔹 Инструмент автоматически анализирует ответы моделей и формирует отчёты, совместимые с OWASP и MITRE, а в будущем добавим новые российские стандарты.
🔹 Совместное использование с основной платформой HiveTrace позволяет закрыть полный цикл разработки и эксплуатации AI-систем "обнаружить — проверить — предотвратить".

Сегодня мы открываем Open Source ядро продукта, которое можно использовать как on-prem с локальными моделями, так и через API облачных сервисов для генерации и оценки атак. Параллельно идёт разработка enterprise-функций и интеграций с облачными платформами. При создании инструмента мы опирались на опыт собственных red team-проектов последних двух лет, а в основе HiveTrace Red лежит форк проекта RuRedTeam Юрия Лебединского.

Используйте продукт, чтобы увидеть, насколько устойчив ваш ИИ-ассистент к промпт-атакам. На днях анонсируем вебинар, где подробно покажем, как работает HiveTrace Red.
🔥4
⭐️ В России появляются первые официальные инструкции по безопасной работе с ИИ-системами

На официальном портале государственных услуг Московской области появились рекомендации по безопасному взаимодействию с искусственным интеллектом. Материал размещен в разделе «Цифровая безопасность. Доступно о важном».

Министр государственного управления, информационных технологий и связи региона Надежда Куртяник пояснила, что ведомство намерено сделать применение технологий искусственного интеллекта максимально безопасным для граждан. В статье содержатся указания по корректному общению с нейросетями.

«В материале также разъясняется, какую информацию можно спокойно обсуждать с искусственным интеллектом, а какую передавать ему не следует», — отметила Куртяник.

Разработка рекомендаций осуществлялась при участии специалистов Министерства цифрового развития РФ.

itinfo ru
🔥4👍1
⭐️ Исследователи смогли взломать 12 популярных систем безопасности ИИ

Специалисты OpenAI, Anthropic, Google DeepMind и Гарварда опубликовали препринт нового исследования: они попытались сломать популярные системы безопасности ИИ и почти везде нашли обход. Проверяли 12 распространенных подходов к защите, от "умных" формулировок системного промпта до внешних фильтров, которые должны ловить опасные запросы. Главное наблюдение: то, что красиво держится на демонстрациях и статичных тестах, разваливается, когда нападающий адаптируется под вашу конкретную систему.

Сценариев атаки были два: jailbreaking (когда модель уговаривают сделать то, что ей нельзя) и prompt injection (когда вредные инструкции прячут в тексте/на сайте, и модель им подчиняется). Дальше в работу вступал метод проб и ошибок. Атакующий формулирует запрос, смотрит реакцию системы, меняет формулировку и снова пробует. Было использовано три варианта автоматического перебора (в том числе с использованием обучения с подкреплением и ИИ-ассистента), также к исследованию подключилась "красная команда" (red teaming) из специалистов с опытом проверки безопасности ИИ.

В большинстве тестов успешными были 90% попыток взлома, а местами этот показатель доходил до 95–98%. Банальный перебор формулировок ломал любые системы защиты — самое интересное, что лучше всех с задачей справилась команда специалистов-людей, которые быстро придумывали нестандартные подходы. Ненадежными оказались даже внешние фильтры опасных промптов: их просто запутывали языковыми трюками.

Продолжение: https://vk.com/wall-210601538_1920
🔥2👍1