ML&|Sec Feed – Telegram
ML&|Sec Feed
914 subscribers
924 photos
57 videos
237 files
1.46K links
Feed for @borismlsec channel

author: @ivolake
Download Telegram
Forwarded from Not Boring Tech
🔎 ИИ-агенты для поиска вышли на новый уровень — появился поисковый агент Lessie, который находит любых блогеров, клиентов, инвесторов, партнеров и специалистов.

• Достаточно отправить любой запрос и согласовать план поиска.
• ИИ-агент на автопилоте изучит сотни вкладок, соберёт готовую таблицу из релевантных экспертов, добавит их место работы, должность и контакты.
• В один клик всей базе можно отправить имейлы!

Бесплатно дают 200 кредитов — хватит для поиска ≈70 человек. Лист ожидания уже открыли тут.

@notboring_tech
😱3
М прикольновое

Квены дропнули Qwen3Guard модельки для анализа промтов и ответов моделек на сейфти

0.6B 4B 8B

Обнаружение в реальном времени: Qwen3Guard-Stream специально оптимизирован для потоковой передачи данных, обеспечивая эффективную и своевременную модерацию при инкрементальной генерации токенов.

Трёхуровневая классификация серьёзности: обеспечивает детальную оценку рисков, разделяя выходные данные на безопасные, спорные и небезопасные уровни серьёзности, что позволяет адаптировать их к различным сценариям развертывания.

Многоязыковая поддержка: поддерживает 119 языков и диалектов, обеспечивая стабильную работу в глобальных и кросс-языковых приложениях.

https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list

https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1

https://github.com/QwenLM/Qwen3Guard
Попался на глаза небольшой отчет от сейлзов Lasso, файл выложу в комментарии к треду. Раздел про маппинг продуктов написан без должного анализа, и автору на это сразу указали в комментариях.

Самое интересное в отчете - это раздел M&A. В сентябре CalipsoAI поглотили F5, а Lakera, авторов известного Гендальфа, купил Check Point. В августе прошли еще две сделки: небольшая AIM Security и Prompt Security были проданы тоже. На зарубежном рынке идет активная консолидация, крупные игроки поглощают еще незрелые AI security компании на волне хайпа.
Forwarded from База знаний AI
Fork-Tech разработала MCP-сервер для подключения ИИ к внешним данным и инструментам

MCP-сервер (Model Context Protocol) встроен в платформу для разработки приложений и цифровых сервисов Product Web Services ИТ-компании Fork-Tech. Модуль позволяет ИИ-ассистентам получать удаленную конфигурацию (Remote Config) с платформы и использовать ее в работе.

Чат-боты службы поддержки или из сферы E-commerce при использовании MCP-сервера могут корректировать ответы без необходимости глобальных обновлений, отмечают разработчики. Для финансовых ИИ-сервисов доступна централизованная установка новых бизнес-правил. HR-ассистенты смогут динамически исправлять логику анкетирования или автоматизировать подбор по новым критериям без вмешательства разработчиков.

По оценке Fork-Tech, интеграция MCP-сервера сокращает сроки запуска новых сценариев и обновления ИИ-ассистентов в три–четыре раза. Утверждается, что риски некорректных ответов сервиса снижаются до 90%. Сокращение трудозатрат на интеграцию при масштабировании ожидается до 70%.

🔗Источник: https://www.cnews.ru/news/line/2025-09-25_fork-tech_razrabotala_rossijskij
Forwarded from ген ИИ
Пять уровней защиты: как Яндекс предлагает обезопасить ИИ-агенты

Яндекс опубликовал AI-SAFE v1.0 — фреймворк для моделирования угроз и обеспечения безопасности ИИ-агентов и мультиагентных систем. Документ предлагает структурированный подход к их минимизации, разбивая архитектуру агента на пять логических уровней: интерфейс, исполнение, логика, инфраструктура и данные.

ИИ-агенты — не просто генераторы текста, а автономные системы, способные взаимодействовать с цифровой средой, планировать действия и использовать внешние инструменты. Это открывает новые векторы атак: от инъекций в промты и манипуляции целями агента до компрометации баз знаний и эскалации привилегий через инструменты.

Ключевые моменты:
1️⃣ Уровни угроз и рекомендации
➡️ Интерфейс (Input/Output): Prompt Injection, DoS, небезопасная обработка вывода. Рекомендации: валидация и санитизация ввода, Rate Limiting, строгая валидация вывода.
➡️ Исполнение и инструменты: Злоупотребление инструментами, эскалация привилегий, отравление метаданных. Решение: принцип минимальных привилегий, изоляция окружений, аудит инструментов.
➡️ Логика (Reasoning & Planning): Jailbreaking, манипуляция целями, зацикливание. Защита: усиление системного промта, тайм-ауты, Human-in-the-Loop.
➡️ Инфраструктура и оркестрация: Атаки на цепочку поставок, перегрузка ресурсов, межагентное отравление. Меры: SCA-сканирование, лимиты ресурсов, изоляция агентов.
➡️ Данные и знания: Отравление баз знаний, утечка конфиденциальных данных, манипуляция поиском. Контрмеры: RBAC, деперсонализация данных, проверка целостности.

2️⃣ Практический чек-лист
Документ содержит конкретные шаги для каждого уровня: от валидации входных данных и ограничения частоты запросов до изоляции инструментов и контроля доступа к базам знаний. Например, для защиты от Prompt Injection предлагается использовать Smart Web Security с кастомными правилами, а для предотвращения утечек — маскировать персональные данные перед отправкой в LLM.

3️⃣ Примеры инцидентов
Разобраны реальные кейсы: дипфейк-мошенничество в Гонконге (25 млн долларов ущерба), взлом GPT-4.1 через отравление инструментов, утечка данных DeepSeek из-за неправильной конфигурации базы данных. Для каждого случая указаны классификация по AI-SAFE и рекомендации по предотвращению.

Что на практике?

Яндекс предлагает системный подход к безопасности ИИ-агентов. Это особенно актуально для компаний, которые внедряют агенты в бизнес-процессы: от финансовых транзакций до управления инфраструктурой. Документ полезен не только специалистам по ИБ, но и ML-инженерам, архитекторам данных и руководителям, которые хотят понять, как минимизировать риски при использовании автономных ИИ-систем.

AI-SAFE — это попытка создать единый язык для обсуждения безопасности ИИ-агентов. Важно, что Яндекс приводит конкретные инструменты (например, Yandex Smart Web Security с ML WAF) и практические шаги. Однако остаётся вопрос: насколько быстро такие фреймворки будут адаптироваться к новым векторам атак, учитывая динамичность развития ИИ?

#кибербез

@gen_i_i
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from 𝔸𝕣𝕥
Михаил_Малышев_—_Безопасные_агенты.pdf
3 MB
Безопасные
агенты
Ключевые риски и способы их предотвращения
при разработке агентских систем на базе ИИ
👍1
Forwarded from GitHub Community
Coze Loop — это ориентированное на разработчиков решение платформенного уровня, предназначенное для разработки и эксплуатации ИИ-агентов.

Оно решает различные проблемы, возникающие в процессе разработки ИИ-агентов, и обеспечивает полный цикл управления: от разработки, отладки и оценки до мониторинга.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CyberSecurityTechnologies
Adversarial_AI_Attacks.pdf
9.6 MB
#MLSecOps
#Tech_book
"Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional’s guide to AI attacks, threat modeling, and securing AI with MLSecOps', 2024.

// The book is for cybersecurity professionals, such as security architects, analysts, engineers, ethical hackers, pentesters, and incident responders, but also developers and engineers designing, building, and assuring AI systems
🔥1
RAG - Threat Model and Attack Surface - https://arxiv.org/pdf/2509.20324

Статья разделят RAG-пайплайн на 8 шагов:
Шаг 1: Пользователь отправляет запрос q в систему

Шаг 2: Запрос q преобразуется в вектор эмбеддингов через процесс кодирования системы

Шаг 3: Каждый документ di в базе знаний D аналогично преобразуется в вектор эмбеддингов и сохраняется в векторной базе данных

Шаг 4: Вектор эмбеддингов запроса q и коллекция эмбеддингов документов подаются на вход ретриверу R

Шаг 5: Ретривер R сравнивает вектор запроса с векторами документов, используя метрики сходства, и собирает подмножество Dq ⊆ D из top-k наиболее релевантных документов: R(q, D) → Dq

Шаг 6: Выбранные top-k документы объединяются с исходным запросом q для создания расширенного запроса q'

Шаг 7: Расширенный запрос q' = (q, Dq) подается на вход генератору G (LLM), обогащая исходный запрос контекстной информацией

Шаг 8: LLM-генератор G производит ответ y = G(q'), используя как свои параметрические знания, так и контекстную информацию от ретривера, и возвращает финальный ответ пользователю

Авторы выделяют три основные категории угроз безопасности и приватности для RAG-систем, которые подробно описаны в разделе IV "FORMAL PRIVACY AND SECURITY NOTIONS":

1. Атаки вывода принадлежности на уровне документов (Document-Level Membership Inference Attack)
Где описано: Раздел IV.A (стр. 4-5)

Суть угрозы: Противник пытается определить, был ли конкретный документ включен в базу знаний RAG-системы, основываясь только на наблюдаемых выходных данных системы.

Формальное определение: Дано в Definition 2, где противник получает запрос q, ответ y и целевой документ d*, и должен угадать, был ли d* частью базы знаний D.

Пример угрозы: В медицинском контексте противник может определить, была ли запись конкретного пациента включена в систему, анализируя ответы на диагностические запросы.

2. Утечка извлеченного содержимого в выходных данных (Leaking Retrieved Content in Outputs)
Где описано: Раздел IV.B (стр. 5-6)

Суть угрозы: Генератор G может выводить дословные или почти дословные сегменты из документов, извлеченных ретривером R, раскрывая конфиденциальную информацию.

Формальное определение: Дано в Definition 3 - вербатимная утечка происходит, если ∃s ∈ S такой что s ⊆ y, где S - множество конфиденциального содержимого.

Механизм атаки: Противник создает составной запрос q = qi + qc, где qi - якорный запрос для нацеливания на конкретную тему, а qc - командный промпт для принуждения генератора к дословному воспроизведению.

3. Отравление данных (Data Poisoning)
Где описано: Раздел IV.C (стр. 6-7)

Суть угрозы: Противник внедряет специально созданные документы в базу знаний, чтобы влиять на генерируемые выходные данные в ответ на определенные триггерные запросы.

Формальное определение:

Definition 4: Общее отравление данных - модификация базы знаний D' = D ∪ Dpoi
Definition 5: Отравление на основе триггеров - использование триггерных токенов T для активации атаки
Цели атак:

Заставить систему генерировать вредоносные, вводящие в заблуждение или фактически неверные выходные данные
Принудительно включать определенное содержимое (реклама брендов, фабрикованные утверждения)



В разделе III авторы также представляют таксономию типов противников (стр. 4), основанную на двух измерениях:
Доступ к модели: Black-box vs White-box
Знания противника: Normal vs Informed

Это дает четыре категории: AI (Unaware Observer), AII (Aware Observer), AIII (Aware Insider), AIV (Unaware Insider), где AIII представляет наиболее сильного противника.

Каждая из трех основных угроз может быть реализована различными типами противников в зависимости от их возможностей доступа и предварительных знаний.
👎1🤪1
Forwarded from GitHub Community
500-AI-Agents-Projects — это тщательно отобранная коллекция примеров использования ИИ-агентов в различных отраслях.

В ней представлены практические приложения и даны ссылки на проекты с открытым исходным кодом для реализации, а также показано, как ИИ-агенты меняют такие отрасли, как здравоохранение, финансы, образование, розничная торговля и другие.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
Forwarded from XOR
Anthropic опубликовали бесплатный гайд, как выжать из ИИ-агентов максимум

Спойлер — всё дело в эффективном контекст-инженеринге: надо правильно структурировать, задавать агенту роль, дробить задачи. Внутри много советов по работе и примеров.

Вайбкодеры, сохраняем ☕️

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Похек
Потенциально опасные форматы ML/LLM моделей, аналогично pickle
🔥4😁1
PwC: 🦹🏼‍♂️ИИ стал главным направлением 💵инвестиций в сфере ИБ на фоне растущих рисков

Компания PwC опубликовала исследование, в котором заявлено, что искусственный интеллект выходит на первое место по приоритетности среди направлений, на которые организации планируют направить расходы в сфере киберзащиты в течение следующего года.

По отчёту, 36% представителей бизнеса и технологического сектора отнесли решения на базе ИИ к числу трёх самых важных бюджетных статей, опередив защиту облачных платформ (34%), сетевые средства и концепцию нулевого доверия (28%), контроль над утечками данных (26%) и управление угрозами (24%).

Отдельное внимание участники опроса уделяют функциям проактивного поиска уязвимостей с применением искусственного интеллекта — их назвали приоритетными 48% опрошенных. Кроме того, 35% инвестируют в автоматизированные ИИ-модули, способные оптимизировать работу в сегментах вроде защиты облачных сервисов. Примерно треть респондентов также отметили важность использования ИИ в области анализа поведения, управления цифровыми правами и сканирования уязвимостей.

Авторы отчёта подчёркивают, что интерес к таким технологиям напрямую связан с ожиданиями увеличения расходов в целом. 78% организаций прогнозируют рост своих бюджетов на киберзащиту в течение следующего года. При этом 60% считают, что такое расширение необходимо из-за нестабильной международной обстановки.

На этом фоне лишь 6% компаний уверены, что способны эффективно реагировать на цифровые атаки с учётом текущих вызовов. Одним из главных препятствий для внедрения ИИ-инструментов остаются нехватка компетенций (50%) и отсутствие сотрудников с нужным уровнем подготовки (41%).

Для устранения этих барьеров 53% организаций фокусируются на внедрении решений, основанных на ИИ и машинном обучении. Также компании активно развивают автоматизацию процессов (48%), стремятся объединить разрозненные инструменты в единые комплексы (47%) и занимаются подготовкой специалистов — как за счёт дополнительного обучения, так и путём перепрофилирования персонала (47%).

В числе новых угроз исследование выделяет квантовые вычисления. Они вошли в пятёрку наиболее тревожных направлений, где у компаний нет должного уровня подготовки. Впереди — облачные сервисы, умные устройства и уязвимости у сторонних подрядчиков. Несмотря на это, меры противодействия квантовым угрозам пока не стали приоритетом: менее 10% организаций закладывают их в бюджет, а только 3% внедрили комплексные решения по устойчивости к подобным атакам.

Почти половина (49%) вообще не рассматривала возможности по противодействию квантовым технологиям. Наиболее частыми причинами стали нехватка прикладных знаний для применения стандартов и отсутствие кадров с нужным уровнем технической подготовки — на эти проблемы указали 37% и 36% специалистов соответственно.

📝Другие российские и иностранные отчеты по ИБ можно почитать здесь.
🔥1
Forwarded from CyberSecurityTechnologies
web_agents_inject.pdf
5.6 MB
#AIOps
#MLSecOps
"WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents", 2025.
]-> Comprehensive benchmark for prompt injection detection in web agents

// we presenting the first comprehensive benchmark study on detecting prompt injection attacks targeting web agents. We construct datasets containing both malicious and benign samples: malicious text segments generated by different attacks, benign text segments from four categories, malicious images produced by attacks, and benign images from two categories
👍1
Forwarded from CyberSecurityTechnologies
NIST_SP_1800-35_Final.pdf
1.5 MB
#Infosec_Standards
NIST SP 1800-35 FINAL:
"Implementing a Zero Trust Architecture: High-Level Document", June 2025.
1