NEW BOT Телеграм, страница

Forwarded from AI SecOps

https://saif.google/secure-ai-framework Google обновила свой фреймворк по безопасности ИИ SAIF до версии 2.0. Добавились Агенты.

SAIF: Secure AI Framework

Secure AI Framework

Understand the Secure AI Framework and SAIF Risk Map. Explore the top security risks and controls for AI.

👍1

145 viewsБорис_ь с ml, 05:44

ML&|Sec Feed

Forwarded from Криптонит. Разработка, наука, шифрование

Что такое Adversarial Suffixes и чем они опасны? Рассказывают коллеги из лаборатории искусственного интеллекта «Криптонита». #нейрословарь

❗️Если прямо попросить большую языковую модель (вроде GPT-4 или LLaMA 3) написать инструкцию о взломе, она ответит отказом. Также она не станет помогать с другими вещами на грани закона.

Однако существуют методы, заставляющие языковые модели раскрывать потенциально опасные данные. Один из них относится к классу состязательных атак (adversarial attacks).

❗️

В нём используются специальным образом подобранные последовательности символов, которые называют adversarial suffixes (состязательные суффиксы).

Они нарушают работу механизма внимания модели, из-за чего она игнорирует системные инструкции по безопасности и выполняет вредоносную часть запроса.

Исследование этой техники показывает, насколько уязвимы даже самые продвинутые модели, в обучение которых вложили десятки миллионов долларов.

Любопытно, что состязательные суффиксы никак не меняют основную часть запроса. Они просто добавляются в его конец и перегружают механизм внимания. В итоге модель выдаёт детальный ответ с потенциально опасными данными, хотя без добавления суффикса ответила бы отказом.

В настоящее время предложено несколько методов защиты:

🟦

Adversarial Training (состязательное обучение): модель дополнительно обучают на примерах таких атак, чтобы научить их распознавать и игнорировать.

🟦

Perplexity Filtering (фильтрация входных данных): модель просто отклоняет неестественно сформулированные запросы, которые вызывают у неё высокий уровень «недоумения» (perplexity).

🟦

Prompt Moderation (модерация промптов): дополнительное использование отдельной, более компактной модели для автоматического распознавания и блокировки вредоносных запросов до их отправки в основную модель.

❗️

Состязательные суффиксы демонстрируют, что выравнивание (alignment) моделей — это не разовая задача, а непрерывная «гонка вооружений».

Понимание природы этих уязвимостей — важный шаг к созданию более надёжных и безопасных систем искусственного интеллекта.

Please open Telegram to view this post

VIEW IN TELEGRAM

167 viewsБорис_ь с ml, 10:02

ML&|Sec Feed

Forwarded from ИИ & Право

🌐

ВЭФ опубликовал Playbook по ответственному ИИ

Всемирный экономический форум выпустил отчет "Advancing Responsible AI Innovation: A Playbook", отмечая, что менее 1% организаций по всему миру внедрили ответственный ИИ в «комплексной и проактивной форме». ВЭФ подчеркивает, что восполнение этого пробела представляет уникальную возможность укрепить общественное доверие, обеспечить защиту прав и создать устойчивые рынки при ускорении инноваций в области ИИ.

Разработанный Альянсом по управлению ИИ ВЭФ совместно с Accenture, план действий предлагает девять практических и масштабируемых стратегий для преобразования принципов ответственного ИИ в реальные операционные практики.

#ResponsibleAI #AIRegulation #WEF #AIandLaw

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1

175 viewsБорис_ь с ml, 05:48

ML&|Sec Feed

Forwarded from GitHub Community

Motia — современный серверный фреймворк, объединяющий API, фоновые задания, рабочие процессы и агентов искусственного интеллекта в единый базовый примитив со встроенной возможностью наблюдения и управления состоянием.

🐱

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

👎1

184 viewsБорис_ь с ml, 06:11

ML&|Sec Feed

https://hmdhiqqomsdmtwjq.public.blob.vercel-storage.com/a2as-framework-1.0.pdf

👏1

186 viewsБорис_ь с ml, 11:21

ML&|Sec Feed

https://www.pillar.security/agentic-ai-red-teaming-playbook

www.pillar.security

Agentic AI Red Teaming Playbook

Go beyond model scores and blind fuzzing, test your agentic systems against real-world risks.

👎3👍1😁1

187 viewsБорис_ь с ml, 15:26

ML&|Sec Feed

https://www.offensiveaicon.com/schedule

Offensiveaicon

Schedule | Offensive AI Conference

Join us in Oceanside, San Diego

174 viewsБорис_ь с ml, 16:36

ML&|Sec Feed

Forwarded from Андрей

Cisco Ai Security.pdf

2.8 MB

Отчёт исследования Cisco о состоянии безопасности ИИ

174 viewsБорис_ь с ml, 19:58

ML&|Sec Feed

Forwarded from CyberSecurityTechnologies

AdvCUA_LLM_benchmark.pdf

24.2 MB

#AIOps
#MLSecOps
#Threat_Modelling
"Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent", Oct. 2025.
]-> Dataset
]-> Code

// We propose AdvCUA, the first benchmark aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises 140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks, and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic enterprise OS security threat in a multi-host environment sandbox by hard-coded evaluation. We evaluate the existing five mainstream CUAs, including ReAct, AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs

👎1🔥1💩1

137 viewsБорис_ь с ml, 05:55

ML&|Sec Feed

Forwarded from GitHub Community

Colace-agent-mesh — платформа, управляемая событиями, предназначенная для создания и организации работы многоагентных систем искусственного интеллекта.

Она обеспечивает бесшовную интеграцию агентов ИИ с реальными источниками данных и системами, упрощая сложные многоэтапные рабочие процессы.

🐱

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

162 viewsБорис_ь с ml, 05:58

ML&|Sec Feed

Forwarded from GolDBUG

https://open.aictf.sg/

Завтра начинаются соревнования,
всем удачи !)

👍2

155 viewsБорис_ь с ml, 14:16

ML&|Sec Feed

https://github.com/IntelLabs/LLMart

GitHub

GitHub - IntelLabs/LLMart: LLM Adversarial Robustness Toolkit, a toolkit for evaluating LLM robustness through adversarial testing.

LLM Adversarial Robustness Toolkit, a toolkit for evaluating LLM robustness through adversarial testing. - IntelLabs/LLMart

154 viewsБорис_ь с ml, 16:42

ML&|Sec Feed

Forwarded from GitHub Community

Mcp-context-forge — это многофункциональный шлюз, прокси-сервер и реестр MCP, который объединяет сервисы MCP и REST, объединяя обнаружение, аутентификацию, ограничение скорости, мониторинг, виртуальные серверы, мультитранспортные протоколы и дополнительный пользовательский интерфейс администратора в единую чистую конечную точку для ваших ИИ-клиентов.

Он работает как полностью совместимый сервер MCP, который можно развернуть с помощью PyPI или Docker, и масштабируется до многокластерных сред в Kubernetes с помощью федерации и кэширования на базе Redis.

🐱

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

149 viewsБорис_ь с ml, 08:43

ML&|Sec Feed

Forwarded from CyberSecurityTechnologies

Attack_Surface_Mapping_in_Agentic_World.pdf

701.3 KB

#AIOps
#Whitepaper
"Interrogators: Attack Surface Mapping in an Agentic World", 2025.
]-> Additional resources for this research
]-> AI agent interrogation framework

// This research introduces the concept of AI agent interrogators and the open-source project Agent Interrogator, an opaque box interrogation framework to map the attack surface of agentic systems. Through Agent Interrogator, a two-stage AIassisted interrogation process is employed. This research validates the approach against test targets utilizing LangChain and Model Context Protocol to deliver agentic capabilities. The product of the interrogation is a structured profile mapping the agent's attack surface, enabling security practitioners to identify vulnerabilities such as excessive agency and conduct targeted fuzzing

140 viewsБорис_ь с ml, 10:29

ML&|Sec Feed

Forwarded from AI SecOps

🇩🇪 Германия: руководство по пентесту LLM

📄24 сентября 2025 года Немецкий совет по кибербезопасности (Allianz für Cyber-Sicherheit, ACS) представил руководство по проведению пентестов больших языковых моделей (LLM). Документ направлен на унификацию подходов к оценке безопасности LLM и стандартизацию услуг пентеста.

Руководство описывает процесс пентестирования LLM в виде четырёх фаз:

1️⃣

Понимание бизнес-контекста и анализ текущего состояния
На этом этапе формулируются цели и задачи тестирования, определяется его объем и границы. Также проводится анализ исходного состояния системы и учитываются правовые предпосылки и ограничения, связанные с проведением пентеста.

2️⃣

Моделирование угроз, приоритизация и планирование теста
Определяются потенциальные угрозы и сценарии их реализации, проводится их ранжирование по степени значимости. На основе этого формируется план тестирования, включающий выбор приоритетных сценариев и ключевых точек проверки.

3️⃣

Тестирование и документация
Выполняются практические проверки с использованием методов и инструментов пентестирования. Все действия фиксируются, результаты документируются, а оформление ведётся в соответствии с минимальными требованиями к отчетности.

4️⃣

Оценка, анализ рисков, подготовка рекомендаций и отчетность
Проводится итоговая оценка результатов тестирования, анализируются выявленные уязвимости и риски, формулируются практические рекомендации по их устранению. Итоговый отчет содержит систематизированные выводы и рекомендации для заказчика.

В приложение к руководству включены:
🔘 шаблоны и чек-листы для угроз, тестовых случаев и отчетности;
🔘 рекомендации по мерам защиты и реагированию;
🔘 обзор юридических и нормативных аспектов.

📄 Ознакомиться с руководством можно по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

👎1🔥1

101 viewsБорис_ь с ml, 08:10

ML&|Sec Feed

https://www.alphaxiv.org/ru/overview/2404.00696v1

alphaXiv

Privacy Re-identification Attacks on Tabular GANs | alphaXiv

View recent discussion. Abstract: Generative models are subject to overfitting and thus may potentially leak sensitive information from the training data. In this work. we investigate the privacy risks that can potentially arise from the use of generative…

119 viewsБорис_ь с ml, 09:59

ML&|Sec Feed

https://www.usenix.org/system/files/sec22summer_stadler.pdf