ML&|Sec Feed – Telegram
ML&|Sec Feed
914 subscribers
924 photos
57 videos
237 files
1.46K links
Feed for @borismlsec channel

author: @ivolake
Download Telegram
Forwarded from AI SecOps
https://saif.google/secure-ai-framework Google обновила свой фреймворк по безопасности ИИ SAIF до версии 2.0. Добавились Агенты.
👍1
Что такое Adversarial Suffixes и чем они опасны? Рассказывают коллеги из лаборатории искусственного интеллекта «Криптонита». #нейрословарь

❗️Если прямо попросить большую языковую модель (вроде GPT-4 или LLaMA 3) написать инструкцию о взломе, она ответит отказом. Также она не станет помогать с другими вещами на грани закона.

Однако существуют методы, заставляющие языковые модели раскрывать потенциально опасные данные. Один из них относится к классу состязательных атак (adversarial attacks).

❗️В нём используются специальным образом подобранные последовательности символов, которые называют adversarial suffixes (состязательные суффиксы).

Они нарушают работу механизма внимания модели, из-за чего она игнорирует системные инструкции по безопасности и выполняет вредоносную часть запроса.

Исследование этой техники показывает, насколько уязвимы даже самые продвинутые модели, в обучение которых вложили десятки миллионов долларов.

Любопытно, что состязательные суффиксы никак не меняют основную часть запроса. Они просто добавляются в его конец и перегружают механизм внимания. В итоге модель выдаёт детальный ответ с потенциально опасными данными, хотя без добавления суффикса ответила бы отказом.

В настоящее время предложено несколько методов защиты:


🟦Adversarial Training (состязательное обучение): модель дополнительно обучают на примерах таких атак, чтобы научить их распознавать и игнорировать.

🟦Perplexity Filtering (фильтрация входных данных): модель просто отклоняет неестественно сформулированные запросы, которые вызывают у неё высокий уровень «недоумения» (perplexity).

🟦Prompt Moderation (модерация промптов): дополнительное использование отдельной, более компактной модели для автоматического распознавания и блокировки вредоносных запросов до их отправки в основную модель.

❗️Состязательные суффиксы демонстрируют, что выравнивание (alignment) моделей — это не разовая задача, а непрерывная «гонка вооружений».

Понимание природы этих уязвимостей — важный шаг к созданию более надёжных и безопасных систем искусственного интеллекта.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ИИ & Право
🌐 ВЭФ опубликовал Playbook по ответственному ИИ

Всемирный экономический форум выпустил отчет "Advancing Responsible AI Innovation: A Playbook", отмечая, что менее 1% организаций по всему миру внедрили ответственный ИИ в «комплексной и проактивной форме». ВЭФ подчеркивает, что восполнение этого пробела представляет уникальную возможность укрепить общественное доверие, обеспечить защиту прав и создать устойчивые рынки при ускорении инноваций в области ИИ.

Разработанный Альянсом по управлению ИИ ВЭФ совместно с Accenture, план действий предлагает девять практических и масштабируемых стратегий для преобразования принципов ответственного ИИ в реальные операционные практики.

#ResponsibleAI #AIRegulation #WEF #AIandLaw
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from GitHub Community
Motia — современный серверный фреймворк, объединяющий API, фоновые задания, рабочие процессы и агентов искусственного интеллекта в единый базовый примитив со встроенной возможностью наблюдения и управления состоянием.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👎1
Forwarded from Андрей
Cisco Ai Security.pdf
2.8 MB
Отчёт исследования Cisco о состоянии безопасности ИИ
Forwarded from CyberSecurityTechnologies
AdvCUA_LLM_benchmark.pdf
24.2 MB
#AIOps
#MLSecOps
#Threat_Modelling
"Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent", Oct. 2025.
]-> Dataset
]-> Code

// We propose AdvCUA, the first benchmark aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises 140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks, and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic enterprise OS security threat in a multi-host environment sandbox by hard-coded evaluation. We evaluate the existing five mainstream CUAs, including ReAct, AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs
👎1🔥1💩1
Forwarded from GitHub Community
Colace-agent-mesh — платформа, управляемая событиями, предназначенная для создания и организации работы многоагентных систем искусственного интеллекта.

Она обеспечивает бесшовную интеграцию агентов ИИ с реальными источниками данных и системами, упрощая сложные многоэтапные рабочие процессы.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from GolDBUG
https://open.aictf.sg/

Завтра начинаются соревнования,
всем удачи !)
👍2
Forwarded from GitHub Community
Mcp-context-forge — это многофункциональный шлюз, прокси-сервер и реестр MCP, который объединяет сервисы MCP и REST, объединяя обнаружение, аутентификацию, ограничение скорости, мониторинг, виртуальные серверы, мультитранспортные протоколы и дополнительный пользовательский интерфейс администратора в единую чистую конечную точку для ваших ИИ-клиентов.

Он работает как полностью совместимый сервер MCP, который можно развернуть с помощью PyPI или Docker, и масштабируется до многокластерных сред в Kubernetes с помощью федерации и кэширования на базе Redis.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CyberSecurityTechnologies
Attack_Surface_Mapping_in_Agentic_World.pdf
701.3 KB
#AIOps
#Whitepaper
"Interrogators: Attack Surface Mapping in an Agentic World", 2025.
]-> Additional resources for this research
]-> AI agent interrogation framework

// This research introduces the concept of AI agent interrogators and the open-source project Agent Interrogator, an opaque box interrogation framework to map the attack surface of agentic systems. Through Agent Interrogator, a two-stage AIassisted interrogation process is employed. This research validates the approach against test targets utilizing LangChain and Model Context Protocol to deliver agentic capabilities. The product of the interrogation is a structured profile mapping the agent's attack surface, enabling security practitioners to identify vulnerabilities such as excessive agency and conduct targeted fuzzing
Forwarded from AI SecOps
🇩🇪 Германия: руководство по пентесту LLM

📄24 сентября 2025 года Немецкий совет по кибербезопасности (Allianz für Cyber-Sicherheit, ACS) представил руководство по проведению пентестов больших языковых моделей (LLM). Документ направлен на унификацию подходов к оценке безопасности LLM и стандартизацию услуг пентеста.

Руководство описывает процесс пентестирования LLM в виде четырёх фаз:

1️⃣ Понимание бизнес-контекста и анализ текущего состояния
На этом этапе формулируются цели и задачи тестирования, определяется его объем и границы. Также проводится анализ исходного состояния системы и учитываются правовые предпосылки и ограничения, связанные с проведением пентеста.

2️⃣ Моделирование угроз, приоритизация и планирование теста
Определяются потенциальные угрозы и сценарии их реализации, проводится их ранжирование по степени значимости. На основе этого формируется план тестирования, включающий выбор приоритетных сценариев и ключевых точек проверки.

3️⃣Тестирование и документация
Выполняются практические проверки с использованием методов и инструментов пентестирования. Все действия фиксируются, результаты документируются, а оформление ведётся в соответствии с минимальными требованиями к отчетности.

4️⃣ Оценка, анализ рисков, подготовка рекомендаций и отчетность
Проводится итоговая оценка результатов тестирования, анализируются выявленные уязвимости и риски, формулируются практические рекомендации по их устранению. Итоговый отчет содержит систематизированные выводы и рекомендации для заказчика.

В приложение к руководству включены:
🔘 шаблоны и чек-листы для угроз, тестовых случаев и отчетности;
🔘 рекомендации по мерам защиты и реагированию;
🔘 обзор юридических и нормативных аспектов.

📄 Ознакомиться с руководством можно по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👎1🔥1