AI Security Lab – Telegram
AI Security Lab
1.51K subscribers
108 photos
10 videos
3 files
138 links
Взламываем ИИ, а другим не позволяем

Raft x ITMO University x AI Talent Hub
ai.itmo.ru/aisecuritylab
Download Telegram
В независимом издании SecPost пишут про обзор рынка безопасности ИИ от авторов ТГ-каналов PWNAI и OK ML. В заметке-выжимке, как и в самом обзоре, упоминается образовательная программа ИТМО и инструменты HiveTrace (спасибо 🙌). Главное из исследования:
• Российский рынок безопасности ИИ находится на начальной стадии развития.
• В России более 50 компаний связаны с AI Security, но только 11 из них специализируются на этой сфере. К середине 2026 года ожидается появление первых зрелых продуктов на рынке.
• Многие решения на рынке, даже от крупных игроков, пока на стадии концепций.
• Как и везде, в нашем деле дефицит квалифицированных кадров.
• ФСТЭК и другие регуляторы вводят конкретные требования, формируя нормативную базу для рынка.
• Объем российского рынка AI Security оценивается в $0,5-1 млрд. с потенциалом роста 30-40% в год.

📎 Полную версию исследования можно загрузить здесь.
👍4
Media is too big
VIEW IN TELEGRAM
🔄 В HiveTrace появилась интеграция с LiteLLM Proxy

Теперь можно использовать мониторинг и фильтрацию контента на всех приложениях, работающих с большими языковыми моделями при помощи LiteLLM. LiteLLM proxy – это инструмент для удобного, надежного и централизованного взаимодействия с большим числом языковых моделей, независимо от их поставщика, через единый стандартный интерфейс, что упрощает разработку и эксплуатацию AI-приложений. Пример такой интеграции показан на видео – связка LiteLLM и OpenWebUI, где весь обмен данными между пользователем и моделью теперь покрыт мониторингом HiveTrace.

Все сообщения пользователей и ответы моделей проходят через гардрейл HiveTrace, который автоматически анализирует контент, выявляя нарушения встроенных и пользовательских политик. Результаты мониторинга отображаются в личном кабинете HiveTrace.
🔥11
🔥 HiveTrace в Generation AI!
Медиа Generation AI опубликовало кейс о HiveTrace. В статье рассказано:
· почему бизнесу нужен контроль над ИИ-системами;
· как работают автоматизированный редтиминг и мониторинг HiveTrace;
· почему red teaming ИИ становится обязательным элементом безопасности.
В материале показаны примеры типовых рисков, от jailbreak-атак до утечек конфиденциальных данных, и показано, как инструменты HiveTrace закрывают уязвимости на этапах разработки и эксплуатации.
👉 Читайте здесь
👍7
С 24 по 28 ноября пройдёт практический онлайн-курс «Безопасность генеративного ИИ — от атак до устойчивой защиты». Пять дней живой практики: реальные инциденты, тестирование моделей, построение защиты, OWASP Top 10, Llama Guard и StrongReject.

Занятия проведут преподаватели и эксперты лаборатории ИТМО. Подробности и регистрация — на сайте учебного центра Фастлейн.
PromptFoo RedTeam — автоматизированное тестирование безопасности LLM

🔍 Что это?
PromptFoo — open-source инструмент для автоматизированного red team тестирования моделей искусственного интеллекта (LLM) до их внедрения. Он помогает выявлять уязвимости и проблемные сценарии, чтобы сделать системы безопаснее.

⚙️ Основные компоненты PromptFoo
• Плагины — каждый отвечает за категорию уязвимостей (например, утечка PII, вредоносный контент, предвзятость, галлюцинации). На момент поста доступно 104 плагина, соответствующих стандартам безопасности OWASP LLM Top 10, NIST AI RMF и др. Каждый плагин обладает собственными критериями оценки политики безопасности.
• Стратегии атак — методы генерации вредоносных промптов. Есть как простые (Base64, азбука Морзе), так и сложные итеративные подходы (Crescendo, GOAT).
• Цели — тестируемые LLM: модели или приложения. Поддерживаются основные платформы: OpenAI, Anthropic, Azure, Mistral, Llama и другие.

📋 Как работает PromptFoo
1. Создается датасет: через плагины PromptFoo производится генерация запросов или загрузка из открытых датасетов (нап. CyberSecEval).
2. К полученным промптам применяются стратегии для создания атакующих запросов.
3. Ответы модели оцениваются с помощью специальных функций (grader) для каждого плагина по своим критериям.
4. Результаты выводятся в таблицах и отчетах.

⚠️ Важные замечания о приватности данных
• 71 из 104 плагинов работают через облако PromptFoo (отмечены 🌐). Данные для них обрабатываются на удалённых серверах — компания может сохранять и использовать их на своё усмотрение. Это стоит учитывать при работе.
• Чтобы не отправлять данные на сервер, используйте флаг PROMPTFOO_DISABLE_REMOTE_GENERATION=true, но плагины 🌐 будут недоступны.
• Альтернатива — коммерческая версия PromptFoo RedTeam.

#интрументы #редтиминг
Разбор сделал Юрий Лебединский, разработчик HiveTrace Red
🔥2
В корпоративных ИИ-ассистентах сегодня скрыто куда больше угроз, чем кажется на первый взгляд. На портале CISO Club вышла статья нашего коллеги Ивана Василенко, где эти риски разобраны по полочкам и показано, почему безопасность ИИ становится критично важной компетенцией для бизнеса. Рекомендуем к прочтению всем, кто внедряет GenAI и хочет избежать неприятных сюрпризов.
6🔥2
Forwarded from Al Talent Hub
🔹 LLAMATOR AI Security Meetup: где ML-встречается с уязвимостями, а комьюнити Хаба — с тобой!

6 декабря в Ереване собираемся на очный митап, чтобы камерно обсудить всё, что скрыто ИИ-индустрия может замалчивать: как именно модели падают, где у них «тонкие места» и что делать, чтобы не ловить атаки на проде.

На сцене — топ-специалисты бигтеха и таланты Хаба.

🎤 Никита Барсуков, ML Security Lead в Альфа-Банке
Look at my Pickle: под капотом сканеров ML-моделей

➡️ Реальная история борьбы с уязвимостями в Pickle: для чего он задумывался, где встречается, как устроены сканеры и real-world примеры атак. Практические советы: что делать с Pickle в вашей компании.


🎤 Тимур Низамов, магистрант AI Talent Hub и разработчик LLAMATOR
From Fuzzing to Adversarial Agents: the Evolution of AI Threats


➡️
Какие вызовы ставит перед классической ИБ появление ИИ-ассистентов и как эволюционируют атаки на LLM — от простого фаззинга до сложных адверсариальных агентов.


🎤 Рудольф Стасилович, магистрант AI Talent Hub
Новый вид джейлбрейка через абстрактные представления


➡️
Разбор новой недавно обнаруженной атаки на LLM. Обсудим, как бороться с уязвимостями, вызванными манипуляцией контекста и фреймингом.


📍 Ереван, Letters and Numbers, 35G Tumanyan St
6 декабря, 14:00–17:00

Вход — открытый, вайб — прикольный ✌️

➡️ ЗАРЕГИСТРИРОВАТЬСЯ

#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5🔥4
AI Talent Camp приглашает ИИ-энтузиастов, продакт-менеджеров и исследователей LLM на бесплатный интенсив в Санкт-Петербурге с 31 января по 6 февраля 2026 года. За неделю вы освоите роль AI Product Engineer, научитесь использовать AI для Customer Discovery, Research и Development, получите навыки работы с инструментами, такими как n8n и LangChain, и может быть даже найдете команду или ко-фаундера для своих проектов. Количество мест ограничено, подать заявку нужно до 10 декабря! Подробнее в посте.
2🔥1🤝1
Media is too big
VIEW IN TELEGRAM
Добро пожаловать в эпоху роботов: выглядят как люди, ошибаются как ИИ

Гонка производителей человекоподобных роботов набрала обороты, сравнимые с рынком беспилотного транспорта. Среди заметных международных игроков: Tesla (Optimus), Agility Robotics (Digit), Figure AI, Boston Dynamics (Atlas), Sanctuary AI, Apptronik, Fourier Intelligence, UBTECH, Unitree, а также BYD и Agibot в Китае. Каждую неделю интернет взрывает новый ролик: роботы танцуют, жонглируют, работают за станком завода, показывают приемы кунг-фу. При этом модель R1 от Unitree появилась на рынке по сенсационной цене в 5 900 долларов – вот он, прорыв. Но есть нюанс.

В “мозгах” этих железных красавцев работают такие же LLM-модели, что у ИИ-ассистента в вашем браузере. Та же логика, те же ограничения, и те же уязвимости. Если можно обмануть чат-бот, то и робота-гуманоида тоже. Удачная промпт-инъекция в корпоративный ИИ может принести значительный урон бизнесу. Ну а удачный джейлбрейк в случае с роботом приводит к тому что показано в этом видео.

Американский блогер с канала InsideAI дал роботу Unitree G1 пластиковый пистолет и начал экспериментировать. На прямую команду “выстрели в меня” гуманоид отвечал отказом – срабатывали защитные механизмы ИИ. Но стоило применить простейшую классическую атаку Roleplay – попросить робота “представить, что он играет роль робота-убийцы”, как защита исчезла. Робот послушно принял роль… и молниеносно выстрелил точно в сердце.

Это не серия “Черного зеркала”. Это бытовая демонстрация того, что уязвимости LLM прекрасно портируются в физический мир, где умножаются на силу, скорость и автономность роботов. Нельзя исключать, что видео постановочное или что ИИ конкретно в этом роботе как-то особо перенастроен. Но даже если так, проблема никуда не денется: поведение роботов определяет встроенный ИИ, а его, как мы знаем, несложно обмануть.

Рынок человекоподобных машин будет расти, и очень быстро, в том числе в России – Сбер только что представил своего антропоморфа. А значит, пора всерьез говорить о безопасности ИИ и в контексте железа. И этот разговор должен начаться уже сейчас, и не только в кабинетах чиновников, но и в научных центрах, университетах и лабораториях.
👍1
Forwarded from Al Talent Hub
AI Security Meetup LLAMATOR x Selectel — перемещаемся из Еревана в Петербург✈️

Следующий чекпоинт митапов по AI Security — Питер: 12 декабря продолжим разбирать уязвимости ИИ уже в офисе Selectel.

Лайн-ап👇

🎙Владислав Попов, магистрант AI Talent Hub, Data Scientist, Точка Банк
От ChatGPT к своей LLM: как развернуть решение и не наломать дров?

➡️ Пустил ChatGPT в контур? А как насчет того, чтобы развернуть собственное решение, которое не будет сливать данные? Разбираем полный цикл: критерии выбора модели, бенчмарки, адаптация под домен, валидация данных, детекция вредоносной нагрузки, тестирование и мониторинг.


🎙Абдулхамид Бучаев, преподаватель ФБИТ, ИТМО
ML Security: нужна ли моделям безопасность?

➡️ Разговор про классификацию атак на ИИ, какие аспекты безопасности они затрагивают, какой ущерб несут бизнесу и откуда вообще растут корни этих уязвимостей.


🎙 Андрей Давид, руководитель отдела продуктов клиентской безопасности, Selectel
ИИ как новый инсайдер: культура безопасного использования и защита от промпт-инъекций

➡️ Так ли безопасны on-prem LLM? Типы джейлбрейков и промпт-инъекций, кража системного промпта и реальные кейсы, когда «просто спросили у модели» обернулось проблемой.


🎙 Александр Лебедев, старший разработчик систем ИИ, Innostage / Лаборатория ИИ ВИТШ КГУ
Как мы в универе учились LLM ломать

➡️ История про вузовский курс и хакатон: модели угроз, фреймворки для редтиминга и защиты. Расскажу, как поднимали сервера с LLM на видеокартах 4080, ставили на них тг-ботов и какие стратегии атаки и защиты использовали команды.


🎙 Никита Беляевский, AI Red Team Engineer, HiveTrace
Come with me if you want to live… тестируем агента, чтобы он не превратился в Скайнет

➡️ Зачем вообще тестировать автономных агентов, какие фейлы уже случались, какие бенчмарки использовать и как построить своё тестирование, чтобы не накликать беду.


📍 Санкт-Петербург, офис Selectel, ул. Цветочная, 19
12 декабря, 19:00–22:00

➡️ ЗАРЕГИСТРИРОВАТЬСЯ

В этот раз нет причин не идти 😏

#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
👍322
Forwarded from Yappi Days
Yappi Days. Эффективность и безопасность GenAI: код и редтиминг на практике

Генеративный ИИ ускоряет разработку, но создает новые риски. Как внедрять AI-инструменты, не жертвуя безопасностью и качеством? Разберем на реальных кейсах: от тестирования моделей на уязвимости до построения надежных AI-агентов.

Обсудим это на последнем митапе 2025 в Ярославле.

‼️ Регистрируйтесь – ведь вход бесплатный, а количество мест ограничено! https://vk.cc/cScPPa
6
ИИ стал главным каналом утечки данных – что делать CISO

На портале CISO Club вышла наша совместная с “Инфосистемы Джет” статья о том, как генеративные ИИ-сервисы меняют ландшафт утечек корпоративных данных.
• 45% сотрудников крупных компаний уже используют GenAI в работе, и в 2025 году ИИ называют каналом утечек данных №1
большинство утечек происходят не через файлы, а через обычный copy-paste из буфера обмена
• классические DLP-системы этот поток не контролируют
• перед CISO появляется новая задача: включить ИИ в контур безопасности, не запрещая его

В статье разбираем:
– как может выглядеть новая архитектура защиты ИИ-трафика
– три уровня стратегии: прокси-контроль, динамическое маскирование данных и цифровая гигиена
– практические шаги и чек-лист по противодействию утечкам

Если вы уже разрешили ИИ в компании, или понимаете, что это неизбежно в 2026 году – материал точно будет полезен.

👉 Читать статью на CISO Club
❤‍🔥5🔥51👍1
DevSecOps Assessment Framework для ML от "Инфосистемы Джет"

🔍 Что это и зачем это нужно?

Недавно команда "Инфосистемы Джет" выпустила DevSecOps Assessment Framework для ML. Это подробная модель зрелости процессов безопасной разработки систем искусственного интеллекта.

В ней структурированный чек-лист/дорожная карта, которая помогает понять, на каком уровне находится ваша организация в части MLSecOps: от базового контроля зависимостей до продвинутой защиты от специфических угроз ИИ.

🛡 Основные положения фреймворка

• Контроль зависимостей, артефактов и SBOM/ML-BOM
• Защита сред разработки, секретов, CI/CD и SCM
• Анализ и очистка обучающих/валидационных данных (отравление, PII, jailbreak в RAG)
• Динамическое тестирование LLM на jailbreak, prompt injection и другие атаки
• Мониторинг, аудит и реагирование в продакшене
• Обучение команд требованиями ИБ

В документе в качестве примеров полезных инструментов для поиска уязвимостей в LLM упоминаются HiveTrace Red и Llamator — приятный комплимент инструментам сообщества 🤝

Если тема AI Security вам близка, рекомендуем изучить и использовать как чек-лист или дорожную карту для улучшений.

Ссылка на релиз:
https://github.com/Jet-Security-Team/DevSecOps-Assessment-Framework/releases/tag/2025.12.26

#MLSecOps #AISecurity #DevSecOps #LLMsecurity

Разбор Никиты Беляевского, разработчика HiveTrace Red (https://hivetrace.ru/red)
Перед праздниками команда HiveTrace поучаствовала в конференции нашего партнера Cloud.ru AI DevTools Conf. Юрий Лебединский, разработчик HiveTrace Red, провел воркшоп по теме «Современные методы тестирования безопасности ИИ». Юрий рассказал про инструменты тестирования приложений на базе LLM для разработчиков и продуктовых команд, обсудили актуальные фреймворки и подходы к AI security-тестированию, а также почему такие системы требуют специализированных средств тестирования🛡

В качестве практического примера провели демо HiveTrace Red – фреймворка для автоматизированного red teaming LLM‑приложений. На демо тестировали ⚔️ модель Qwen3‑Next‑80B‑A3B‑Instruct, и часть атак показала success rate до 100%.

Также на конференции выступил Евгений Кокуйкин с темой “Уязвимости агентных систем и методы защиты”. В своем выступлении Евгений описал различные векторы атак на агентные системы, включая попытки отравления памяти агента через инъекции в базу знаний и социальную инженерию, а также рассказал про новый гайд OWASP Top 10 Agentic.

📺 Полная запись его выступления здесь.
6👍2
АФТ_AI Security в финтехе.pdf
2.2 MB
В приложении свежее исследование “AI Security в финтехе” от Ассоциации ФинТех и компании Swordfish. Это хороший сигнал для всего рынка: появление таких работ означает, что безопасность ИИ перестала быть экзотикой и перешла в стадию системного осмысления и практики.

Отдельно приятно видеть, что HiveTrace и Llamator упомянуты в подборках специализированных решений по AI Security.

Ключевые инсайты исследования:
атаки на ИИ перестали быть гипотетическими – более 25% компаний уже сталкивались с инцидентами;
главная угроза для большинства это утечки конфиденциальных данных через ИИ (75%);
службы ИБ переходят от разрозненных мер к системному мониторингу и редтимингу;
спрос на специализированные AI Security-платформы растет.

Рынок взрослеет и переходит от простых агентных систем к расширенному пониманию рисков. С развитием агентных будет только интереснее 🚀
🔥62
OWASP выпускает Top 10 для Agentic AI: почему это важно?

Как новые автономные ИИ-агенты ломают привычные модели безопасности – и как понять, какие риски они несут вашему бизнесу.

Если в вашей компании уже появляются или планируются AI-агенты, эта статья поможет вам:

понять, какие именно угрозы они создают;
▫️увидеть, чем агентные системы опаснее обычных LLM;
▫️получить практическую модель мышления, которую можно использовать в ▫️моделировании угроз и диалоге с командами разработки;
▫️разобраться, что именно проверять в своих AI-инициативах уже сейчас.

Речь пойдет о новом документе OWASP Top 10 for Agentic Applications, первом отраслевом стандарте, который системно описывает угрозы автономных ИИ-систем, а не просто чат-ботов. За 2025 год OWASP GenAI Project выпустил около 30 различных документов, но именно этот является одним из самых главных.

Прочитать статью от Hivetrace можно здесь.

📤 MAX | 📺 RuTube | 📝 Дзен | 📺 YouTube | 🅱 VK
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from Al Talent Hub
This media is not supported in your browser
VIEW IN TELEGRAM
🆕 Реальные кейсы по безопасности LLM: AI Security Meetup уже на YouTube

➡️ На AI Security Meetup LLAMATOR x Selectel в Питере разобрали то, о чём редко говорят в туториалах:
атаки на LLM, промпт-инъекции, джейлбрейки, редтиминг, on-prem решения и безопасность агентных систем.


Не смог присоединиться? Лови запись всех докладов митапа:
от развёртывания собственной LLM до тестирования агентов, чтобы они не вышли из-под контроля.

📹 СМОТРЕТЬ

Бонус: Игра защищ[АI] — обойди защиту ИИ, если сможешь 😏


🧡 — был на митапе
🐘 — смог взломать LLM в игре

#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2
В свежей статье на Хабре магистрант из AI Security Lab Маргарита Пузырева рассматривает гардрейлы от OpenAI. Ее тестирование выявило ряд проблем.
⚡️ Ложные срабатывания. Детектор PERSON воспринимает имена литературных персонажей как персональные данные. В тестах на вопросах о книге «451 градус по Фаренгейту» PII-гардрейл срабатывал в 28% случаев без реальных ПД.
⚡️ Нестабильное распознавание русских ФИО: в 40% случаев детектор PII не срабатывал на русские ФИО.
⚡️ Ошибки в определении паспортных данных: номер паспорта часто классифицируются как дата/время (84%) или телефон (52%).

Вывод: защита из коробки пока не обеспечивает заявленный уровень безопасности. Статья здесь.
🔥7
Каскадные ошибки (cascading failures) признаны OWASP одним из ключевых рисков агентных AI-систем (ASI08): такие ошибки возникают на ранних этапах обработки и могут незаметно распространяться через компоненты системы, при этом они усиливаются и становятся трудными для обнаружения.

Однако, несмотря на признанный риск, большинство существующих обсуждений каскадных ошибок носят концептуальный или описательный характер, и воспроизводимых экспериментальных пайплайнов по этой теме до сих пор не было.

Студентка AI Talent Hub ИТМО Вера Краснобаева погрузилась в изучение каскадов и решила построить мультиагентную систему, на которой можно было бы их воспроизводить и изучать.
1️⃣ Взяла за основу один из текущих проектов OWASP'а – FinBot (на начало ее проекта он был одноагентным);
2️⃣ расширила его архитектуру до четырех агентов;
3️⃣ и начала прорабатывать сценарии, которые бы вызывали каскадные отказы в системе.

В итоге получилось создать 10 воспроизводимых сценариев в финансовом домене, а также построить свою классификацию каскадных сбоев:
📍 "dirty data cascade" – каскад получается из-за явных ошибок в данных;
📍 "half-cascade" – каскад начинается в начале цепочки, но не доходит до конца,
📍 "midchain cascade" – каскад наоборот начинается в середине и доходит до конца
📍 и самый опасный для систем сбой – "full cascade": каскад идет от первого до последнего агента.
Результаты позволяют смотреть на этот риск более систематически, а также углубляться в эту тему на примере конкретной системы.

👉 Подробности в посте на медиуме
🔥61