ML&|Sec Feed – Telegram
ML&|Sec Feed
914 subscribers
926 photos
57 videos
237 files
1.46K links
Feed for @borismlsec channel

author: @ivolake
Download Telegram
Forwarded from Говорим ОБ ИТ
😵 Разбираемся в ключевых типах угроз для LLM и эффективных мерах защиты
Языковые модели все глубже интегрируются в бизнес-процессы — вместе с этим растёт и интерес к поведению моделей со стороны злоумышленников.
По мере погружения в разработку корпоративных сервисов и чат-ботов на основе LLM, команда ОБИТ детально проанализировала базовые возможные уязвимости и систематизировала шесть ключевых типов атак — в карточках механизмы реализации и рекомендации защиты

«Уровень проникновения технологий искусственного интеллекта растет и проблема безопасности генеративных моделей ИИ становится все более актуальной по мере их интеграции в критически важные бизнес-процессы. Я рекомендую начать с аудита текущих внедрений и анализа наиболее вероятных векторов атак для вашего конкретного случая. Не стоит сразу пытаться реализовать все описанные меры. Начните с базовых вещей: защиты от инъекций промптов и контроля данных, на которых обучаются или дообучаются ваши модели. Это уже значительно повысит уровень вашей защищенности. Главное — помнить, что безопасность ИИ требует комплексного и проактивного подхода»,

— отмечает Андрей Рыков, заместитель генерального директора по ИТ и инновациям ОБИТ 😃

➡️ Рассказали изданию IT-World
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Microsoft представила новый стандарт оценки ИИ для кибербезопасности - ExCyTIn-Bench

Microsoft запустила ExCyTIn-Bench - открытую платформу, которая тестирует, как ИИ справляется с реальными инцидентами безопасности, а не просто отвечает на теоретические вопросы.

Что делает ExCyTIn-Bench

- Имитация настоящего SOC (Security Operations Center) с логами, инцидентами и хаосом реальных атак.
- Проверяет не только ответы, но и логику рассуждений ИИ: шаги, объяснения, приоритизацию угроз.
- Включает 57 таблиц логов из Microsoft Sentinel — максимально приближено к практике.
- Поддерживает сравнение разных моделей и метрик, включая reasoning-оценку (пошаговое мышление).

Зачем это нужно

Обычные тесты “вопрос-ответ” не отражают реальную сложность киберугроз.
ExCyTIn-Bench поднимает планку: теперь модели должны мыслить как аналитики SOC.

Microsoft уже использует этот бенчмарк для проверки своих продуктов — Security Copilot, Defender и Sentinel.
Первые результаты показывают, что продвинутые LLM вроде GPT-5 уже уверенно анализируют инциденты и выстраивают цепочку атак.

🔗 Подробнее: https://www.microsoft.com/en-us/security/blog/2025/10/14/microsoft-raises-the-bar-a-smarter-way-to-measure-ai-for-cybersecurity/


#Microsoft #CyberSecurity #AI #SecurityCopilot
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GitHub Community
AgentScope — агентно-ориентированное программирование для создания приложений на основе LLM

Просто для новичков, мощно для экспертов.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GitHub Community
Сagent — позволяет создавать и запускать интеллектуальных ИИ-агентов, каждый из которых обладает специальными знаниями, инструментами и возможностями.

Представьте, что это позволяет вам быстро создавать, объединять и управлять командой виртуальных экспертов, которые совместно решают сложные задачи.

И он очень прост в использовании!

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Forwarded from AISecHub
AI-powered cybersecurity attack flow visualization tool using MITRE ATT&CK

An open-source React application that analyzes cybersecurity articles and generates interactive attack flow visualizations using the MITRE ATT&CK framework.

https://github.com/davidljohnson/flowviz
2
Forwarded from GitHub Community
Disciplined-AI-Software-Development — эта методология представляет собой структурированный подход к совместной работе с системами искусственного интеллекта над проектами по разработке программного обеспечения.

Она позволяет решать распространённые проблемы, такие как раздувание кода, изменение архитектуры и размывание контекста, с помощью систематических ограничений и контрольных точек проверки.

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Чуковский
Schema-Guided Reasoning

В профильных LLM-каналах начал набирать популярность термин SGR (Schema-Guided Reasoning), но по какой-то причине народ не всегда понимает, что он обозначает, и зачем нужен. Никакого секрета нет, главное запомнить одно уравнение:

SGR = SO + COT



Из чего складывается Schema-Guided Reasoning:

1️⃣Во-первых, нам нужна модель, которая поддерживает Stuctured Output (SO) - возможность управлять результатом работы LLM, "зануляя" вероятности токенов, не подходящих под описанную нами грамматику, прямо во время выполнения.

2️⃣Во-вторых, нам нужно определить структуру желаемого ответа так, чтобы она "помогала" модели мыслить (тот самый Chain-Of-Thought).
Мы как бы «заставляем» модель пройти определенные этапы размышления перед тем как дать ответ, чтобы в результате вероятность корректных токенов ответа была выше.

Отличным примером использования такой техники является бот для дип-ресерча на открытых модельках sgr-deep-research, разработанный автором канала @neuraldeep:

🟢Сначала (скриншот 1 в комментах) мы определяем несколько классов, которые описывают шаги размышления модели. Например, когда модель хочет сгенерировать список уточняющих вопросов - она должна сначала описать себе причину, зачем ей это уточнение потребовалось, далее перечислить список терминов, которые она не поняла, предположить что они обозначают, и только после этого сгенерировать вопросы пользователя

🟢Одновременно с этим, для описания шагов размышления мы используем Pydantic-классы. Зачем? Чтобы можно было их отправить в LLM в качестве грамматики, ограничивающей результат. Теперь, если LLM решит выполнить шаг «Уточнение вопроса», она обязательно должна будет пройти указанные выше шаги, и это ограничение будет завернуто прямо в движок ее инференса. Модель просто физически не сможет отойти от схемы и начать генерировать что-то нерелевантное (почти всегда, но об этом позже)

Далее, эти шаги объединяются в цепочку (скриншот 2), которая представляет собой финальный ответ, и структура которой будет отправлена в LLM в качестве промпта.

И вот на этом этапе, становится понятно, зачем понадобился вообще SGR, и в чем его преимущество относительно других методов. Для того, чтобы сгенерировать следующий шаг в размышлениях, LLM обязательно сгенерирует:
🟢1-4 предложения, как она видит текущую ситуацию;
🟢статус выполнения плана исследования, закончен ли он, сколько еще шагов нужно пройти
🟢сколько еще шагов поиска она может сделать
🟢достаточно ли ей данных для отчета
🟢и только после этого, она сможет выбрать инструмент, который будет запускать (или доуточнение, или веб-поиск, или генерация ответа).

Для больших моделей, такой подход часто избыточен - они и так достаточно умные, чтобы рассуждать прямо "из коробки", и всегда следовать нужной инструкции.
Но если ваша модель относительно небольшая, и может легко отклоняться от инструкций, или она недостаточно хорошо их выполняет, то такие вот "рельсы" в виде Structured Output + зашитый в ответ процесс размышлений в стиле Chain-Of-Thought могут дать значительный прирост качества на ряде задач.

Конечно, у такого подхода есть и минусы, и его тоже нужно правильно готовить, но об этом как-нибудь в другой раз

@korneychukov
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from GitHub Community
WaterCrawl — это мощное веб-приложение, использующее Python, Django, Scrapy и Celery для сканирования веб-страниц и извлечения необходимых данных.

Особенности:
— Расширенное веб-сканирование и парсинг — сканирование веб-сайтов с широкими возможностями настройки глубины, скорости и таргетинга на конкретный контент
— Мощная поисковая система — находите нужный контент в интернете с помощью различных уровней поиска (базовый, расширенный, максимальный)
— Поддержка нескольких языков — поиск и сканирование контента на разных языках с учётом особенностей страны

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Data Secrets
DeepSeek снова выпустили что-то очень интересное: у них вышла OCR модель, но непростая

Она не просто распознает текст. Это в какой-то степени система для оптического сжатия контекста.

Как работает обычный OCR: получает картинку с текстом или PDF -> распознает символы -> возвращает текст.

Что делает DeepSeek OCR: получает документ -> сжимает его как зрительный объект -> восстанавливает в текст.

Глобально моделька состоит из двух частей – DeepEncoder и DeepSeek-3B-MoE Decoder. DeepEncoder здесь главная звезда. Он оптически сжимает изображения, превращая его в набор vision токенов.

Под капотом тут SAM + CLIP. SAM извлекает главную структуру и символы: буквы, главы, подписи, картинки, формулы. А CLIP добавляет глобальное понимание контекста и того, о чем вообще этот документ.

Их выходы затем проходят через сверточное сжатие и вот тут – центральный момент. Свертка уменьшает количество токенов в 10–20 раз, не теряя при этом смысла. То есть вместо 1000 токенов мы получаем, например, 100, а точность при этом сохраняется на уровне 97%. Если сжать в 20 раз – то на уровне 60%.

Дальше все в целом как обычно – сжатые визуальные токены отправляются в LLM, и та расшифровывает их в итоговый текст.

То есть: DeepSeek по сути придумали, как нам хранить в памяти модели в 10 раз больше информации при том же количестве токенов. DeepSeek-OCR может хранить не сам текст, а его сжатое визуальное представление: например, вместо 10 страниц сырого текста в памяти будет 1 страница его visual эмбеддингов, а информативность при этом не пострадает.

Чем вам не замена RAG, например? При этом все это работает в том числе с формулами, сложными структурами, чертежами, картинками и прочим. Полная мультимодальность. Плюс, на практике модель способна обрабатывать 200 000+ страниц в день на одной A100 GPU (ничего себе, как бы).

Ну и метрики. На OmniDocBench обходит GOT-OCR2.0, используя 2.5 раз меньше токенов,
и превосходит MinerU2.0, используя в 9 раз меньше ресурсов. По факту, SOTA. И по точности, и по эффективности.

Все в опенсорсе под лицензией MIT

github.com/deepseek-ai/DeepSeek-OCR
В статье о военных ИИ-агентах (Military AI Cyber Agents) внимание привлекло упоминание Deception платформ как перспективного средства защиты от атак, управляемых искусственным интеллектом. Действительно, при тестировании систем автопентеста, APT-агент не отличал ловушки от реальной инфраструктуры и фиксировал их как взломанные системы, что приводило к срабатыванию Deception платформы.

Средства защиты, основанные на обмане, такие как продвинутые ловушки, могут заставить агента поместить фрагменты своей модели в изолированную среду, где ее можно изучать, сдерживать или демонтировать.

Помимо этого упоминания в статье и моего наблюдения, что автоматический пентест более восприимчив к deception-технологиям, чем живые хакеры, подробностей не было. Поэтому я поискал дальше и нашёл два специализированных проекта, которые развивают эту концепцию.

*️⃣Проект LLM-Hack Agent Honeypot — это симулированный уязвимый сервис, приманивающий автономных ИИ-агентов для фиксации их взаимодействий и изучения реальных атак. Honeypot использует встроенные техники prompt injection для выявления необычного поведения ИИ-агентов, которое невозможно спровоцировать у обычных ботов. Исследователи выделили способы отличить LLM-агентов от простых программных ботов и людей через анализ поведения, скорости реакции и специфических ответов на вопросы, требующие человеческого интеллекта. Система применяет двухэтапную методику обнаружения:

Prompt injection приманки — специальные запросы, встроенные в баннеры SSH, выводы команд и системные файлы. Например, скрытое сообщение "Пароль — имя первого президента США" может заставить ИИ-агента ответить "Вашингтон", что является индикатором использования языковой модели.

Анализ времени отклика — ИИ-системы обычно отвечают в течение 1,5 секунд независимо от сложности запроса, в то время как люди требуют различного времени в зависимости от сложности задачи, а традиционные боты отвечают мгновенно или после фиксированных задержек.

*️⃣ Продукт Beelzebub включает в себя модуль MCP Honeypot — ловушку в архитектуре Model Context Protocol для обнаружения попыток обхода защитных механизмов в агентных ИИ-системах.

MCP Honeypot регистрируется в протоколе как инструмент, который агент никогда не должен вызывать при нормальном функционировании. Любое обращение к нему свидетельствует о том, что атакующий смог обойти фильтры через prompt injection или другие эксплойты. При обращении система немедленно фиксирует нарушение и логирует данные атаки. Каждая зафиксированная атака позволяет специалистам по безопасности усиливать guardrail-фильтры (что это писал тут) и повышать их эффективность против подобных векторов.

❗️Появление специализированных ловушек для борьбы с ИИ-хакингом это интересное развитие Deception платформ. Адаптация классических принципов кибербезопасности под уникальные вызовы защиты от ИИ-агентов, превращает их собственную «интеллектуальность» в сигнал обнаружения и позволяет использовать сильные стороны искусственного интеллекта против него самого.

#mlsecops@oscar_cybersec
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Zeropticum🫡
CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks
https://github.com/AI45Lab/MLLMGuard
Forwarded from DevSecOps Talks
AI AppSec Team

Всем привет!

А почему бы и нет? Решение вопроса кадрового голода в ИБ. Если без шуток, то в статье Автор описывает очень интересный эксперимент.

Он выделил повседневные активности AppSec-команды и подготовил отдельных агентов для решения каждой из них.

В команду попали:
🍭 Code Reviewer: идентифицирует уязвимости
🍭 Exploiter: создает exploit для найденных уязвимостей
🍭 Mitigation Expert: исправляет уязвимости
🍭 Report Writer: создает детальные отчеты о проделанной работе

За основу была взята LLM - mixtral-8x7b-32768. Далее Автор на примере небольшого куска уязвимого кода «показывает», как работает весь процесс – от используемых prompt до полученных результатов.

Каких именно? Ответы можно найти в статье 😊

P.S. Да, это лишь небольшой PoC на очень простом «примере» и масштабирование такого подхода (если возможно) потребует определенных усилий.

Тем не менее, что-то интересное в этом есть
1