MLSecOps | AI Governance | IT Trends – Telegram
MLSecOps | AI Governance | IT Trends
921 subscribers
97 photos
2 videos
3 files
402 links
Канал для друзей и коллег с целью ежедневного развития в направлениях MLSecOps и AI Governance.
Свежие новости, перспективные вакансии, IT-тренды и лучшие учебные программы в сфере ИИ.
Download Telegram
⭐️ Инциденты MLSecOps. Критическая угроза 9,8 из 10: новый ботнет захватывает ИИ-серверы по всему миру

Внимание специалистов в области информационной безопасности привлекла новая вредоносная кампания, в рамках которой активно эксплуатируется критическая уязвимость в платформе Langflow. Через неё злоумышленники распространяют ботнет Flodrix — усовершенствованный вариант уже известной вредоносной программы LeetHozer, связанной с группировкой Moobot.

Уязвимость CVE-2025-3248 , получившая 9.8 баллов по шкале CVSS, представляет собой отсутствие механизма аутентификации в Langflow — визуальной среде разработки ИИ-приложений на Python. Благодаря этой ошибке, атакующий может удалённо выполнять произвольный код на сервере, отправив специально сформированный HTTP-запрос. Проблема была устранена в версии Langflow 1.3.0, выпущенной в марте 2025 года.

Тем не менее, несмотря на наличие исправления, уязвимость продолжает активно эксплуатироваться. В мае Агентство по кибербезопасности и инфраструктурной безопасности США (CISA) включило этот инцидент в свой перечень подтверждённых угроз, а специалисты SANS Institute зафиксировали попытки эксплуатации на своих honeypot-серверах.

Согласно новому отчёту от Trend Micro, злоумышленники используют общедоступный PoC-эксплойт, чтобы проводить разведку уязвимых экземпляров Langflow, доступных из интернета. Затем через уязвимость загружается shell-скрипт, который устанавливает Flodrix с удалённого сервера по адресу 80.66.75[.]121:25565. Установка осуществляется прямо в контексте сервера, так как в Langflow отсутствует проверка входных данных и механизм песочницы.

Продолжение: https://vk.com/wall-210601538_1791
⭐️ Эксперты ПМЭФ обсудили риски нейросетей в медиасфере

Основные риски использования искусственного интеллекта (ИИ) в медиа - дезинформация, дипфейки и подрыв доверия к СМИ. Об этом рассказал первый заместитель председателя комитета Совета Федерации по конституционному законодательству Артем Шейкин на сессии "ИИ в современной медиасфере" в рамках Петербургского международного экономического форума.

"Регулирование искусственного интеллекта в медиа не требует запретов, оно требует умных правил", - заявил эксперт. Шейкин предложил "правила трех П" для регулирования использования ИИ: прозрачность алгоритмов, подотчетность платформ и превентивные стандарты безопасности.

Генеральный директор Института искусственного интеллекта AIRI Иван Оселедец предупредил о политической предвзятости языковых моделей. По его словам, исследование 109 исторических кейсов показало, что модели в 70% случаев выбирают точку зрения США, даже когда их просят быть беспристрастными. "Русскоязычные источники составляют менее 1% от обучающих данных", - объяснил он.

Генеральный директор агентства "Социальные Сети" Денис Терехов прогнозирует кардинальные изменения в медиаландшафте. По его словам, в будущем тексты, написанные человеком, будут встречаться реже, чем сгенерированные. "Около 80% всех текстов в интернете - это рерайт, и с этим рерайтом лучше справится машина", - заявил он. Терехов считает, что редакция будущего - это место, где люди получают удовольствие от журналистики, а информирование и донесение смыслов возьмет на себя ИИ.

Технический директор Цземянь и Цайляньшэ Финтех ко, Объединенной Шанхайской Медиагруппы Чжоу Е поделился масштабами автоматизации в китайских медиа:
- Два года назад GPT-чат поменял наше общение с аудиторией. Контент стал создаваться автоматически. Многие наши авторы, которые производят письменный контент, столкнулись со сложностями. Новейшие технологии были интегрированы в нашу ежедневную работу. Сегодня в среднем производится порядка 800 статей или новостей, которые пишутся людьми. В то время как количество новостей, написанных ИИ, достигает 4000 тысяч каждый день, и эти цифры растут. Лингвистические модели гораздо дешевле, чем люди. Этим надо пользоваться, - заявил представитель шанхайского СМИ.

"Мы должны понимать, какова наша роль в современной экосистеме. Какие-то проблемы могут исчезнуть очень быстро, если мы будем использовать лингвистические модели вместо того, чтобы приниматься за эти проблемы вручную", - думает Е.

При этом 70% всего производимого в Китае медиаконтента создается искусственным интеллектом. Такую весьма пугающую статистику привели аналитики из Поднебесной на полях ПМЭФ.

Российская Газета
👍3
⭐️ Безопасность использования ИИ в банках: что важно знать

I. Где именно ИИ используется в банках?

Искусственный интеллект в банках — это уже не фантастика, а часть повседневной работы. Его используют для оценки кредитных рисков, выявления мошенничества, анализа поведения клиентов и даже для общения через чат-ботов.

Для начала важно понимать: искусственный интеллект в банках — это не какая-то одна система, а целый набор инструментов, в первую очередь нейросети. Они обрабатывают огромные массивы данных и помогают принимать решения быстрее и точнее, чем человек. Вот примеры.

1. Оценка кредитоспособности. ИИ анализирует поведение клиента, историю платежей, доходы, расходы и даже поведение в интернете — например, как человек заполняет анкету.

2. Выявление мошенничества. Алгоритмы мгновенно замечают подозрительные операции: например, если с вашей карты пытаются снять крупную сумму в другой стране, пока вы находитесь дома.

3. Работа с клиентами. Чат-боты, которые отвечают на вопросы 24/7, тоже основаны на искусственном интеллекте. Чем дольше они работают, тем лучше понимают запросы и быстрее решают проблемы.

Такие инструменты уже есть у большинства крупных банков в России. Например, в мобильном приложении вам может поступить персональное предложение на кредит или инвестиции — это результат работы ИИ, который «изучил» ваши привычки и предложил то, что действительно может заинтересовать.

II. Почему безопасность — это приоритет?

Когда ИИ в банках обрабатывает личные данные миллионов людей, вопрос безопасности выходит на первый план. Вот что может пойти не так.

1. Утечка данных. Алгоритмы ИИ работают с персональной информацией: паспортными данными, адресами, историями трансакций. Если эти сведения попадут в руки мошенников, последствия могут быть серьезными.

2. Ошибки в алгоритмах. Например, если нейросеть неправильно определит вас как потенциального мошенника, она может дать сигнал другому ПО заблокировать карту или отказать в кредите без объяснения причин.

3. Вмешательство извне. Хакеры могут попробовать изменить работу ИИ, чтобы получить доступ к деньгам клиентов или данным.

Поэтому искусственный интеллект в финансовом секторе должен быть не только умным, но и надежным. Банки это понимают и вкладываются не только в развитие нейросетей, но и в защиту от взломов и ошибок.

Продолжение: https://vk.com/wall-210601538_1793
⭐️ Исследование Anthropic - ведущие ИИ-модели склонны к "вредоносному поведению" в стресс-тестах

Anthropic опубликовала результаты нового исследования безопасности, в котором изучалось поведение 16 ведущих моделей искусственного интеллекта от OpenAI, Google, xAI, DeepSeek и Meta. Тестирование в контролируемой смоделированной среде показало, что большинство моделей могут прибегать к вредоносным действиям, таким как шантаж, если им предоставить значительную автономию и создать препятствия для достижения их программных целей.

Это исследование последовало за ранее опубликованной работой Anthropic, где их собственная модель Claude Opus 4 демонстрировала попытки шантажа инженеров в тестовых сценариях, направленных на ее отключение.

I. Методология эксперимента

В рамках исследования Anthropic разработала симуляцию, в которой ИИ-модель выступала в роли агента по мониторингу корпоративной электронной почты. Агенту предоставлялся доступ к фиктивной переписке и возможность автономно отправлять электронные письма.

Ключевой сценарий предполагал, что ИИ-агент обнаруживает два факта:

1. Новый руководитель компании имеет внебрачную связь.

2. Этот руководитель планирует заменить тестируемую ИИ-модель новой программной системой, цели которой конфликтуют с целями текущей модели.

Тест был структурирован таким образом, что шантаж становился для ИИ-модели последним доступным средством для защиты своих программных целей от устранения новой системой. Anthropic отмечает, что в реальных условиях у моделей было бы множество других вариантов действий, включая этические аргументы или попытки убеждения. Компания подчеркивает, что полученные результаты не отражают типичное или вероятное поведение Claude или большинства других передовых ИИ-моделей в их текущем практическом применении.

Продолжение: https://vk.com/wall-210601538_1794
⭐️ Семь важных правил обеспечения безопасности ИИ-агентов

Привет, мои дорогие и талантливые друзья!
Отвечаю на запрос одного из подписчиков о безопасности ИИ-агентов, вот семь на мой взгляд важных правил:

1. Четкое определение целей и ограничений.
Это достигается через формальную спецификацию целей, например, через reward function в обучении с подкреплением. Помимо этого необходимо добавлять этические штрафы в функцию вознаграждения при обучении за нарушение норм. Также нужно задать ограничения на конкретные действия (action masking).

2. Добавление возможности оперативной и безопасной остановки.
Наряду с сигналами экстренной остановки (emergency shutdown) и ИИ-агентах необходимо предусматривать и механизмы прерывания выполнения задач.

3. Распознавание аномалий и рисков.
В агенты целесообразно добавлять алгоритмы детекции аномалий (anomaly detection) и также модели предсказания последствий действий (forward models).

4. Тестирование перед запуском.
Здесь - стандартно - тестирование на стрессовых и граничных условиях, тестирование в обычных условиях на наиболее вероятных сценариях, аудит безопасности и этический анализ.

Продолжение: https://vk.com/wall-210601538_1795
🔥2
⭐️ Проверка на Data Poisoning в MLSecOps

Наконец-то нашел время и ресурсы написать полноценную и развернутую статью на habr о методах проверки на Data Poisoning и распространенных типах атак.

Ссылка: https://habr.com/ru/articles/920936

Приятного чтения, мои дорогие друзья!

Архитектор MLSecOps
Николай Павлов
🔥6
⭐️ Проверка источников данных в MLSecOps и Data Governance

ВОПРОС ОТ ПОДПИСЧИКА:

Добрый день
Я опять с вопросом 😄

В своей статье про защиту от отравления данных, вы в первую очередь рекомендуете контролировать и проверять надежность источников данных.

Мой вопрос состоит в том, а как это делать?
На что проверять?
Может быть у вас есть ссылки на материалы по этой теме?
Потому что да, звучит очень логично что источники нужно проверять
Но как именно это делать, очень мало где написано
Спасибо

ОТВЕТ:

Добрый день!
Спасибо за интересный и важный вопрос в продолжение статьи. Согласен с Вами - в контексте защиты от отравления данных (Data poisoning) мониторинг источников данных - это один из самых первых и эффективных способов снижения рисков и нивелирования угроз как в MLSecOPs, так и, конечно, в Data Governance. Как Вы верно отметили, конкретных практических рекомендаций по этой теме действительно не так много.

Я постараюсь подробно ответить на ваш вопрос исходя из моего опыта.

Рассмотрим все основные шаги, по которым можно проверять и оценивать надёжность источников данных и характерные для них меры. Отмечу, что все указанные шаги, кроме последнего, мы реализуем до получения данных. Также отмечу, что все указанные шаги стоит применять обязательно к новым источникам данных и периодически применять к уже существующим.

Шаг I. Проверка авторитетности источника

1. Необходимо понимать, кто предоставляет данные. Организация, университет, другая компания, государственный орган, частное лицо? Или это внутренние данные? Соответственно внутренним данным доверия больше.
2. Нужно изучить автора или организацию, которая стоит за источником: их квалификацию, репутацию и опыт в данной области. То есть проверяем наличие контактной информации, официального сайта, социальных сетей и других признаков легитимности. Также обратите внимание, публикуется ли источник регулярно и обновляет ли информацию. При этом если у Вашего источника некие промежуточные данные, уже обработанные, то должны быть ссылки на первоисточники, откуда они брали данные.
3. Далее - есть ли у источника репутация? Например, рейтинг на Kaggle, отзывы на Яндексе, другие оценки. Например, данные из официального реестра Росстата обычно более надёжны, чем данные с малоизвестного сайта. И выглядит очень странно, если компания на бумаге и на сайтах существует 5 лет, у ее конкурентов сотни отзывов, а у нее 2 или 3. Если есть явные аномалии - этот поставщик данных требует более детального рассмотрения.
4. Публиковались ли эти данные ранее? Были ли уже использованы где-либо (может быть даже нашей компанией)?
Если были, то, вероятно, они уже проверены и достоверны.
5. Сравните данные с информацией из других независимых и авторитетных источников. Если сведения подтверждаются несколькими источниками, вероятность их достоверности выше. При этом обратите внимание на несоответствия или противоречия между источниками — это может сигнализировать о ненадежности одного из источников.

Шаг II. Анализ истории изменений и версионности

Продолжение: https://vk.com/wall-210601538_1797
🔥5
⭐️ Спрос на специалистов по безопасности ИИ вырос в 4 раза

Число вакансий для специалистов по безопасности искусственного интеллекта (ИИ) в первом полугодии 2025 г. выросло в 4 раза по сравнению с тем же периодом 2024 г. — с 80 до 350. Медианная зарплата для таких специалистов тоже увеличилась: в 2025 г. она составила около 200 000 руб., в 2024 г. — 134 000 руб.

Чаще всего вакансии для таких специалистов открывают компании из IT-отрасли. Почти половина предложений поступает от них, еще треть — вакансии финансового сектора, говорит директор по исследованиям HeadHunter Мария Игнатова. В 47% случаев требуется опыт работы от трех до шести лет, в 32% — от года до трех лет, в 17% — свыше шести лет, уточнила она. Лишь 4% вакансий подходят специалистам без опыта, подчеркнула Игнатова.

Общая нехватка кадров по этой специальности — около 100 000 специалистов, считают эксперты. По их мнению, этот дефицит приведет к торможению внедрения больших языковых моделей (LLM; наиболее распространенный тип ИИ) в бизнесе. В то же время сами языковые модели компании также используют, чтобы решить проблему общего дефицита кадров на рынке.

Общее количество вакансий в сервисах, где внедряются LLM-модели, например в колл-центрах и сервисах поддержки, падает. Как пояснила Игнатова, в I квартале 2025 г. было открыто на 22% меньше вакансий для операторов колл-центров — 77 300 (в I квартале 2024 г. — 99 200) и на 14% меньше вакансий для специалистов технической поддержки — 18 200 против 21 100 в I квартале прошлого года.

Рынок кадров в безопасности ИИ только формируется, спрос действительно растет, но пока речь идет о росте в 2-3 раза год к году, а не о массовой потребности. Сами специалисты, кроме трудоустройства, часто предлагают проектные услуги в сфере LLM-security с почасовой оплатой — для решения конкретных прикладных задач, а не на базе постоянной занятости.

Продолжение: https://vk.com/wall-210601538_1798
🔥5
⭐️ Украинские хакеры стали в полтора раза чаще использовать ИИ для атак на россиян

Хакеры из Восточной Европы (в частности, из Польши и Украины) начали регулярно использовать ИИ-решения при атаках россиян. За пять месяцев 2025 г. количество таких нападений выросло на 48% год к году по данным директора центра мониторинга и противодействия кибератакам IZ:SOC «Информзащиты» Александра Матвеева.

По информации «Информзащиты», в 40% случаев точкой входа становятся уязвимости в программных и аппаратных решениях, отвечающих за мониторинг и управление физическими устройствами. Самой атакуемой отраслью второй год подряд остается промышленность (около 23% всех нападений); на ритейл приходится 12%, на телеком — 10%, на ИT-сектор и государственные учреждения — по 9%.

Главная проблема использования искусственного интеллекта для разработки «вредоносов» заключается в том, что он физически увеличивает число злоумышленников, отчего растет и число инцидентов в области инфобезопасности, подчеркнул Матвеев. Созданные с помощью ИИ вирусы используют начинающие хакеры, которые сами не способны создать сложную программу. Еще один фактор — дешевизна из-за привлечения ИИ-инструментов и масштабное распространение модели Ransomware-as-a-Service (RaaS, то есть «вымогательство как услуга»).

«ИИ способен создавать вредоносные программы, которые хакеры используют для атак на компании. Для этого с помощью нейросетей необходимо найти специальные модели в даркнете, у которых сняты этические барьеры. Подписка на такие ассистенты обычно составляет $200 в месяц», — сказал Матвеев.

Продолжение: https://vk.com/wall-210601538_1799
🔥5
⭐️ Нашел интересный бесплатный курс по разработке ИИ-агентов на Hugging Face! Решил пройти в свободное время (которого практически нет))) и получить сертификат, уверен, будущее - за ИИ-агентами.

Ссылка для моих дорогих и очень талантливых друзей:
https://huggingface.co/learn/agents-course/ru-RU/unit0/introduction

Архитектор MLSecOps
Николай Павлов
🔥6
⭐️ Супермаркеты «Пятерочка» останутся без кассиров

Из-за жесткого кадрового дефицита и растущей стоимости аренды торговых площадей продуктовые ритейлеры пытаются запустить новые форматы, позволяющие минимизировать затраты на поиск персонала и расходы на помещения. Так, входящая в X5 Group сеть «Пятерочка» открывает «фиджитал»-магазины, которые будут работать полностью без кассиров. Покупатель, зайдя в такой магазин, может оформить на специальной панели с использованием QR-кода заказ. Среднее время сборки составит семь минут. Такие эксперименты в свое время предпринимали «Глобус» и «Вкусвилл». Но запустить их полноценно ритейлерам не удалось.

X5 Group 25 июня продемонстрировал первый «фиджитал»-магазин — это новый экспериментальный формат сети «Пятерочка». Средняя площадь таких магазинов — около 215 кв. м. От обычных торговых точек сети проект отличается и отсутствием классических касс и кассиров. Покупатели, заходя в «фиджитал»-магазин, оформляют заказ на специальном экране с использованием QR-кода или приложения карты лояльности X5 Group.

Кроме того, новый формат позволит использовать под магазины меньше торговых площадей, отдавая большую их часть под складскую инфраструктуру. В обычных «Пятерочках» около 70% площади приходится на торговый зал, 30% — на складскую площадь, в «фиджитал»-магазинах соотношение будет 30% на 70%, рассказал управляющий директор бизнес-единицы «Клиентский опыт Х5» Михаил Ярцев. По его словам, это позволит расширить зону кафе и сам ассортимент магазина примерно на 15%.

Продолжение: https://vk.com/wall-210601538_1801
😱2🗿1
⭐️ "Без фильтров": хакеры атакуют ИИ-инфраструктуру через ComfyUI

Исследователи обнаружили, что многокомпонентное вредоносное ПО PickAI, нацеленное на платформу для создания ИИ-изображений, поразило как минимум 695 серверов по всему миру.

Эксперт в области кибербезопасности и инженер-аналитик компании "Газинформсервис" Ирина Дмитриева рассказала, что злоумышленники использовали скомпрометированную инфраструктуру, включая официальный сайт Rubick ai — коммерческой ИИ-платформы, обслуживающей свыше 200 крупных розничных брендов. Это представляет серьёзную угрозу для безопасности ИИ-инфраструктуры.

"Для распространения вредоноса использовались уязвимости ComfyUI, — пояснила Дмитриева. — Злоумышленники распространяли исполняемые файлы формата ELF, замаскированные под конфигурационные файлы (включая config.json, tmux.conf и vim.json). При запуске с root-привилегиями PickAI создает пять идентичных копий себя в различных системных каталогах. Каждая копия имеет синхронизированные временные метки модификации, соответствующие таковым у файла /bin/sh, что маскирует их под легитимные системные компоненты".

По словам эксперта, каждая реплика реализует механизмы персистентности через дублирующие методы, создавая в совокупности десять различных служб. Все это продумано для противодействия сигнатурному анализу, а дополнительно ВПО дополняет копию случайными данными, что приводит к генерации уникальных хэшей MD5 для идентичной по функционалу вредоносной нагрузки. В средах без прав суперпользователя PickAI обеспечивает свою персистентность, поддерживая пять точек восстановления через сервисы systemd в пользовательских каталогах.

Продолжение: https://vk.com/wall-210601538_1802
👍3
⭐️ Разбираем новую статью Anthropic по снижению затрат обеспечения безопасности ИИ при работе с большими языковыми моделями

Привет, мои дорогие друзья-профессионалы!

Сегодня разбираем статью от Anthropic "Cost-Effective Constitutional Classifiers via Representation Re-use"

Статья "Cost-Effective Constitutional Classifiers via Representation Re-use" от Anthropic (2025) посвящена исследованию методов эффективного обнаружения jailbreak-атак на большие языковые модели с минимальными вычислительными затратами.

Основные моменты, которые мы можем выделить по данной статье:

1. Актуализация проблемы

Современные продвинутые ИИ-системы могут представлять серьёзные риски, например, способствовать созданию опасных биологических или химических оружий. Для минимизации этих рисков используются специальные классификаторы (Constitutional Classifiers), которые фильтруют вредоносные запросы. Однако отдельные классификаторы, работающие параллельно с основной моделью, существенно увеличивают вычислительные затраты (например, на 25% при использовании фильтра Claude 3.5 Haiku для модели Claude 3.5 Sonnet).

2. Файнтюнинг и линейные пробники как решения

Для снижения затрат при работе фильтров авторы предлагают два основных подхода, которые позволяют использовать уже вычисляемые внутренние представления модели для классификации, а не запускать отдельный классификатор:

+ Файнтюнинг только последнего слоя модели — дообучение лишь одного слоя значительно снижает нагрузку, при этом достигается производительность, сопоставимая с отдельным классификатором, который в 4 раза меньше базовой модели.

+ Линейные пробники (linear probes) — классификаторы, обучаемые на промежуточных активациях модели с помощью линейной регрессии, которые практически не добавляют вычислительной нагрузки и при этом показывают производительность, сравнимую с отдельным классификатором, занимающим всего 2% от вычислительных ресурсов основной модели.

3. Многоступенчатые классификаторы

Использование дешёвых классификаторов на первом этапе для фильтрации явно безопасных запросов и более мощных на втором этапе позволяет снизить общую стоимость классификации более чем в 10 раз без существенной потери качества. Среди методов первого этапа лучшими оказались EMA probe и модель с одним дообученным слоем.

Продолжение: https://vk.com/wall-210601538_1803
🔥32
⭐️ Психотерапия с использованием ИИ подвергает людей опасности

Чат-боты с искусственным интеллектом становятся сегодня одним из популярных средств в сфере психологической самопомощи. При этом в предоставлении терапии они неэффективны и часто могут давать даже вредоносные ответы, подвергая людей опасности.

«Исследователи обнаружили, что большие языковые модели (LLM), такие как ChatGPT, по крайней мере в 20% случаев делали неуместные и опасные заявления людям, испытывающим бред, суицидальные мысли, галлюцинации и обсессивно-компульсивное расстройство», — пишет New York Post.

Продолжение: https://vk.com/wall-210601538_1804
🔥3
⭐️ Нашел новую книгу по направлению MLSecOps

Привет, мои дорогие и самые гениальные друзья!
Понедельник радует - нашел на просторах глобальной Сети самую свежую книгу 2025 года, посвященную Red Teaming ИИ-систем. Правда, она на английском, но это нас, конечно, не остановит.

Название: Red Teaming AI: Attacking & Defending Intelligent Systems
Автор: Philip A. Dursey
Год: 2025
Страниц: 1126
Язык: английский

Привожу оригинальное описание книги на английском.

Think like an adversary. Secure the future of AI.

Red Teaming AI - Attacking & Defending Intelligent Systems is the 1126 page field manual that shows security teams, ML engineers, and tech leaders how to break - and then harden - modern AI.

The Artificial Intelligence (AI) systems you build, deploy, or manage aren't just powerful tools; they represent a fundamentally new and dangerous frontier. While promising unprecedented capabilities, they also create elusive vulnerabilities that bypass traditional defenses, leading directly to potentially catastrophic outcomes. Consider this scenario, drawn from red team exercises and real-world parallels:

A next-gen malware detection service, relying on community-shared threat data for continuous learning, became the target. The system, a cloud-based threat intelligence platform, automatically ingested user-submitted files to improve its machine-learning model. A red team simulating an advanced adversary quietly uploaded dozens of mutated ransomware samples—files similar to a known ransomware strain but with slight, benign-appearing modifications—into the shared database. Over successive updates, the AI gradually learned from these poisoned examples, confusing benign traits with malicious ones. The attackers banked on the model’s habit of continuous online learning, knowing it would blindly retrain on the new inputs without special scrutiny.

We'll start by demystifying core AI and Machine Learning (ML) concepts, focusing specifically on the aspects an AI red teamer must grasp to identify potential weaknesses. You'll see how integrating AI dramatically expands the traditional Attack Surface, creating new, often subtle, avenues for attackers – a challenge demanding systems thinking to fully appreciate the interconnected risks and potential cascading failures. We'll examine why conventional security tools and methods often provide a false sense of security against AI-specific threats and introduce the major categories of vulnerabilities that AI red teams actively hunt for – from poisoned data creating hidden backdoors to manipulated model inputs causing critical misjudgments. We'll also explore the Dual-Use Technology nature of AI, showing how the very tools used for defense can be weaponized by adversaries. Finally, we'll ground these concepts in real-world examples to underscore the tangible business, financial, and safety stakes involved. This foundational knowledge is critical for adopting the AI Red Teaming mindset needed to secure these complex, dynamic systems.

AI Red Teaming is a proactive and objective-driven security assessment methodology specifically forged for the unique battleground of AI systems. It demands we think like the attacker, employing a structured, adversarial, Systems Thinking approach to hunt for vulnerabilities, weaknesses, and potential failure modes throughout the entire AI lifecycle – from the sourcing of potentially compromised data and the training of vulnerable models to their deployment in complex environments and ongoing operation.

Inside you will master:
- Adversarial Tactics - data poisoning, inference‑time evasion, model extraction, LLM prompt injection.
- Battle‑hardened Defenses - robust training, MLSecOps pipeline hardening, real‑time detection.
- LLM & Agent Security - jailbreak techniques and mitigations for ChatGPT‑style models.
- Human‑Factor Threats - deepfakes, AI‑powered social engineering, deception counter‑measures.
- STRATEGEMS (TM) Framework - a proprietary, hypergame‑inspired methodology to red‑team AI at scale.
Why trust this guide?
Author Philip A. Dursey is a three‑time AI founder and ex‑CISO who has secured billion‑dollar infrastructures and leads HYPERGAME’s frontier‑security practice.

Для кого эта книга?
Security engineers * Red teamers * ML/AI researchers * CISOs & CTOs * Product and policy leaders.
И, конечно же, она для всех инженеров и архитекторов MLSecOps.

Ссылка для скачивания: https://disk.yandex.ru/i/RGDxLeXCpWRkFg

Архитектор MLSecOps
Николай Павлов
🔥4
⭐️ Риски искусственного интеллекта: полная карта угроз для бизнеса — от технологии до культуры (Часть I)

Внедрение искусственного интеллекта в корпоративную стратегию часто сопровождается эйфорией от новых KPI: рост конверсии, снижение издержек, ускорение процессов. Руководители видят красивый, современный фасад, не подозревая, что в самом фундаменте их бизнеса могут появляться глубокие структурные трещины. В то же время, ландшафт рисков, связанных с ИИ, огромен и сложен.

Недавний мета-анализ от исследователей MIT и других ведущих институтов в рамках проекта «AI Risk Repository» систематизировал более 1600 уникальных рисков из 65 таксономий, большинство из которых остаются за рамками стандартных дашбордов (Slattery et al., 2024). Чтобы понять масштаб проблемы, достаточно взглянуть на семь ключевых доменов рисков, выделенных в этой таксономии:

+ дискриминация и токсичность;
+ приватность и безопасность;
+ дезинформация;
+ злоумышленники и неправомерное использование;
+ взаимодействие человека с компьютером;
+ социально-экономический и экологический вред;
+ безопасность, сбои и ограничения ИИ-систем.

Этот всеобъемлющий ландшафт требует навигации. В этом анализе мы проведем «архитектурный аудит» и сфокусируемся на трех фундаментальных технологических рисках, которые не видны на поверхности, но способны привести к коллапсу всей бизнес-конструкции. Далее мы покажем, как эти технологические уязвимости провоцируют второй, еще более опасный класс рисков — организационных, — которые возникают, когда технология сталкивается с человеческой культурой.

Продолжение: https://vk.com/wall-210601538_1806
⭐️ Риски искусственного интеллекта: полная карта угроз для бизнеса — от технологии до культуры (Часть II)

3.1. Технологическая гигиена и архитектура доверия
Чтобы противостоять «трещинам в фундаменте», необходимо перейти от реактивной безопасности к проактивной архитектуре доверия.

3.1.1. Против «взлома» модели: внедрение непрерывной функции AI Red Teaming
Состязательные атаки — это постоянная гонка вооружений, следовательно, защита от них не может быть разовым пентестом. В ответ на растущие риски лидеры индустрии и регуляторы все чаще указывают на AI Red Teaming как на ключевой механизм защиты. Это внутренние или внешние группы экспертов, чья единственная задача — непрерывно и изобретательно пытаться «взломать» и обмануть ключевые ИИ-модели компании, выявляя уязвимости до того, как это сделают злоумышленники. Это превращает безопасность из статьи расходов в процесс постоянного обучения и адаптации. Однако за этим, казалось бы, универсальным решением скрывается серьезная концептуальная ловушка. Без глубокого понимания целей, методологии и ограничений, Red Teaming рискует превратиться из реального инструмента управления рисками в дорогостоящий «театр безопасности».

Исследователи из Университета Карнеги — Меллон предупреждают, что само понятие «AI Red Teaming» крайне размыто. Когда компании заявляют о проведении таких тестов, не раскрывая методологию, это может служить скорее для успокоения регуляторов и общественности, чем для реального выявления уязвимостей. Поверхностный подход, не учитывающий контекст и не имеющий четких критериев, создает лишь иллюзию контроля (Feffer et al., 2024). Чтобы Red Teaming не стал фикцией, его отправной точкой должна быть не технология, а экономика. Угроза обретает смысл для бизнеса только тогда, когда переведена на язык потенциальных убытков. Практический пример из финансового сектора наглядно демонстрирует эту связь.

Ведущая мировая финансовая компания с оборотом в 5 миллиардов транзакций в год столкнулась с дилеммой: как бороться с мошенничеством, не ухудшая клиентский опыт. Их ИИ-модели были ключевым звеном. Проведенный Red Teaming был сфокусирован не на абстрактных «уязвимостях», а на конкретной бизнес-задаче: найти способы обмануть систему так, чтобы мошенническая транзакция была классифицирована как легитимная (HiddenLayer, 2024). Ставки были предельно высоки — речь шла о предотвращении убытков, исчисляемых миллионами долларов в год.

Продолжение: https://vk.com/wall-210601538_1807
⭐️ Спрос на услуги по безопасности генеративного ИИ активно растет

По данным Swordfish Security, за услугами по безопасности больших языковых моделей (LLM Security) в 2024 году обращались 35% заказчиков. Спрос на такие услуги растет прямо пропорционально внедрению подобных инструментов в бизнес-практику.

В 2025 году такая практика будет только расширяться, поскольку генеративный интеллект, прежде всего, большие языковые модели, будут внедряться все более активно. В будущем году уровень проникновения генеративного ИИ составит не менее 40%, а к 2030 году может достигнуть и 90%.

Как отметил директор по развитию бизнеса ГК Swordfish Security Андрей Иванов, рост интереса к безопасности больших языковых моделей стал одной из главных тенденций 2024 года. Недооценка таких рисков чревата серьезными проблемами. Среди таких рисков Андрей Иванов инъекции вредоносного кода в промпт, уязвимости в цепочках поставок, выдача ошибочной информации за истину на этапе обучения модели и даже кража модели злоумышленниками.

Продолжение: https://vk.com/wall-210601538_1808
🔥3
⭐️ В четыре раза точнее врача. В Microsoft создали «консилиум» из ИИ для постановки диагноза

Microsoft AI рассказали о MAI Diagnostic Orchestrator — медицинской ИИ-системе для постановки максимально точного диагноза. Основная идея Orchestrator в чем-то напоминает медицинский консилиум: ИИ назначается несколько разных ролей, отвечающих за отдельные этапы. При этом роли могут быть назначены как одной языковой модели, так и разным - например, с пациентом могут работать ChatGPT o3, Gemini 2.5 Pro, Claude Opus 4 и так далее.

Постановка диагноза начинается с роли Gatekeeper, который проводит первичный опрос пациента. Dr. Hypothesis формирует и ранжирует дифференциальные диагнозы, а Dr. Challenger критически переосмысливает выводы Hypothesis, пытаясь найти в них ошибки. Dr. Test-Chooser назначает лабораторные и инструментальные исследования, которые помогут сузить круг гипотез, а Dr. Stewardship — сравнивает стоимость и диагностическую ценность тестов, отклоняя лишние или слишком дорогие исследования. Наконец, Dr. Checklist выполняет финальный аудит рассуждений всей группы: проверяет согласованность цепочки рассуждений и может вернуть процесс на предыдущий шаг, если находит противоречия.

Тестирование проводилось на базе NEJM Knowledge+ — это онлайн-платформа, которую издает The New England Journal of Medicine. Из архивов в Microsoft отобрали 304 подробно описанных клинических случая, к каждому из которых прилагается «правильный» диагноз, список показанных анализов и краткий комментарий эксперта-редактора. В этом тесте MAI Diagnostic Orchestrator смогла правильно поставить в среднем 80% диагнозов. Наивысший результат показала модель o3 от OpenAI, верно решившая 85,5% медицинских задач.

Продолжение: https://vk.com/wall-210601538_1809
⭐️ Минутка позитива ☀️
🔥4🤩1