Forwarded from Солдатов в Телеграм
hackertraining.org
На одном из онлайн-курсов на LinkedIn Learning тренер поделился своим репозиторием, где он прикапывает полезные, по его мнению, материалы.
Мне репозиторий показался тоже полезным, да и наши интересы с тренером пересекаются, поэтому прикопаю его здесь:
hackertraining.org
The-Art-of-Hacking/h4cker
Курс был, в общем-то, про машобуч, поэтому поделюсь еще одним полезным репозиторием:
jivoi/awesome-ml-for-cybersecurity
#саморазвитие
На одном из онлайн-курсов на LinkedIn Learning тренер поделился своим репозиторием, где он прикапывает полезные, по его мнению, материалы.
Мне репозиторий показался тоже полезным, да и наши интересы с тренером пересекаются, поэтому прикопаю его здесь:
hackertraining.org
The-Art-of-Hacking/h4cker
Курс был, в общем-то, про машобуч, поэтому поделюсь еще одним полезным репозиторием:
jivoi/awesome-ml-for-cybersecurity
#саморазвитие
hackertraining.org
Home - Cybersecurity and AI Resources by Omar Santos
This website is maintained by [Omar Santos](https://www.linkedin.com/in/santosomar/) and includes numerous resources related to ethical hacking, bug bounties, digital forensics and incident response (DFIR), artificial intelligence security, vulnerability…
Forwarded from AISecHub
n8n Guardrails - New Node!
https://www.piotr-sikora.com/blog/2025-11-17-n8n-guardrails-testing | https://docs.n8n.io/release-notes/#guardrails-node
The Guardrails node provides a set of rules and policies that control an AI agent's behavior by filtering its inputs and outputs. This helps safeguard from malicious input and from generating unsafe or undesirable responses.
There are two operations:
- Check Text for Violations: Validate text against a set of policies (e.g. NSFW, prompt injection).
- Sanitize Text: Detects and replaces specific data such as PII, URLs, or secrets with placeholders.
https://www.piotr-sikora.com/blog/2025-11-17-n8n-guardrails-testing | https://docs.n8n.io/release-notes/#guardrails-node
The Guardrails node provides a set of rules and policies that control an AI agent's behavior by filtering its inputs and outputs. This helps safeguard from malicious input and from generating unsafe or undesirable responses.
There are two operations:
- Check Text for Violations: Validate text against a set of policies (e.g. NSFW, prompt injection).
- Sanitize Text: Detects and replaces specific data such as PII, URLs, or secrets with placeholders.
Forwarded from AISecHub
Agentic AI Security Scoping Matrix
The Agentic AI Security Scoping Matrix provides a structured mental model and framework for understanding and addressing the security challenges of autonomous agentic AI systems across four distinct scopes. By accurately assessing your current scope and implementing appropriate controls across all six security dimensions, organizations can confidently deploy agentic AI while managing the landscape of associated risks.
Source: https://aws.amazon.com/blogs/security/the-agentic-ai-security-scoping-matrix-a-framework-for-securing-autonomous-ai-systems/
The Agentic AI Security Scoping Matrix provides a structured mental model and framework for understanding and addressing the security challenges of autonomous agentic AI systems across four distinct scopes. By accurately assessing your current scope and implementing appropriate controls across all six security dimensions, organizations can confidently deploy agentic AI while managing the landscape of associated risks.
Source: https://aws.amazon.com/blogs/security/the-agentic-ai-security-scoping-matrix-a-framework-for-securing-autonomous-ai-systems/
Математическая модель нарушителя при совершении кибератаки
Моя статья)
https://link.springer.com/chapter/10.1007/978-3-032-07275-7_43
Моя статья)
https://link.springer.com/chapter/10.1007/978-3-032-07275-7_43
SpringerLink
Modeling Intruder Behavior in Information Systems: Methodology Using G
In this study, a novel methodology is developed to refine information security analysis by leveraging graph theory to explore attack pathways, with a focus on non-standard reachability. This research critiques the narrow focus of traditional analyses on immediate...
🔥2
Forwarded from CyberSecurityTechnologies
digital_technology_risk_taxonomy.pdf
2.3 MB
#Whitepaper
"Cambridge Taxonomy of Digital Technology Risk", 2025.
// This report builds a framework of analysis for identifying the various risks associated with the three themes to the new revolution in digital technology. Subsequently, risks are categorised into the framework of the Cambridge risk taxonomy to provide an overview of the key risk factors and uncertainties that could emerge in this new era
"Cambridge Taxonomy of Digital Technology Risk", 2025.
// This report builds a framework of analysis for identifying the various risks associated with the three themes to the new revolution in digital technology. Subsequently, risks are categorised into the framework of the Cambridge risk taxonomy to provide an overview of the key risk factors and uncertainties that could emerge in this new era
Forwarded from Makrushin
Большая коллекция security-отчетов
Реально огромная коллекция годовых репортов от разных вендоров. Контент разделен на категории: аналитические отчеты и отчеты-опросы.
Репозиторий пригодится не только руководителям (CIO, CISO или даже, CTO, если он отвечает за ИБ), которые следят за трендами и на их основе планируют свои годовые бюджеты, но и всем, кому нужны полезные данные для подтверждения гипотез.
Загружаем репозиторий в NotebookLM и получаем цифры, которые улетают в презентацию по защите бюджета, диплом или статью.
Реально огромная коллекция годовых репортов от разных вендоров. Контент разделен на категории: аналитические отчеты и отчеты-опросы.
Репозиторий пригодится не только руководителям (CIO, CISO или даже, CTO, если он отвечает за ИБ), которые следят за трендами и на их основе планируют свои годовые бюджеты, но и всем, кому нужны полезные данные для подтверждения гипотез.
Загружаем репозиторий в NotebookLM и получаем цифры, которые улетают в презентацию по защите бюджета, диплом или статью.
👍1
Forwarded from КРИСТАЛЛ РОСТА
🇨🇳В Китае создан суперкомпьютер, смоделированный как мозг обезьяны, — Чжэцзянский университет
▪️Учёные Чжэцзянского университета создали суперкомпьютер Darwin Monkey, имитирующий работу мозга макаки — обезьяны, обладающей когнитивными способностями, схожими с человеческими. Это стало шагом к созданию искусственного интеллекта (ИИ), подобного интеллекту человека
▪️Компьютер оперирует искусственной нейросетью, имитирующей взаимодействие двух миллиардов нейронов посредством 100 миллиардов связей друг с другом
▪️Darwin Monkey знаменует собой огромный шаг в понимании того, как работает человеческий мозг, разработке новых методик лечения смертельных заболеваний, а также в создании ИИ-версии головного мозга человека
«КРИСТАЛЛ РОСТА» ранее информировал о том, что по мнению Daily Neuron моделирование мозга вместо языковых моделей — следующий уровень развития ИИ
▪️Учёные Чжэцзянского университета создали суперкомпьютер Darwin Monkey, имитирующий работу мозга макаки — обезьяны, обладающей когнитивными способностями, схожими с человеческими. Это стало шагом к созданию искусственного интеллекта (ИИ), подобного интеллекту человека
▪️Компьютер оперирует искусственной нейросетью, имитирующей взаимодействие двух миллиардов нейронов посредством 100 миллиардов связей друг с другом
▪️Darwin Monkey знаменует собой огромный шаг в понимании того, как работает человеческий мозг, разработке новых методик лечения смертельных заболеваний, а также в создании ИИ-версии головного мозга человека
«КРИСТАЛЛ РОСТА» ранее информировал о том, что по мнению Daily Neuron моделирование мозга вместо языковых моделей — следующий уровень развития ИИ
🔥1😁1
Forwarded from SecurityLab.ru
В США формируется новая инфраструктура киберопераций, где автоматизированные агенты становятся полноценными участниками наступательных действий. На фоне конкуренции с Китаем Пентагон инвестирует в технологии многопоточного взлома. Одним из ключевых проектов стал малозаметный стартап Twenty, получивший контракты с Киберкомандованием на сумму до 12,6 млн долларов и отдельный договор с ВМС.
По данным компании, она разрабатывает инструменты автоматизации, которые переводят сложные операции взлома в потоковый формат и позволяют одновременно работать с большим числом целей. Вакансии Twenty раскрывают требования к разработке новых методов проникновения, систем маршрутов атаки, управлению группами ИИ-агентов и созданию цифровых персонажей для социальной инженерии.
За проектом стоит команда с опытом службы в ВМС, Киберкомандовании и разведподразделениях. Параллельно Пентагон заключил крупные соглашения с OpenAI, Anthropic и xAI, а отдельные исследования показывают, что аналогичные методы уже применяют китайские группы.
#кибероперации #ИИ #США
@SecLabNews
Please open Telegram to view this post
VIEW IN TELEGRAM
SecurityLab.ru
Этичный хакинг? Забудьте. США готовят рои ИИ-агентов для атаки на Китай
США инвестируют в команду бывших разведчиков, чья цель — полностью исключить человека из процесса атаки.
Forwarded from CyberSecurityTechnologies
Jailbreaking_LLMs_with_Information_Overload.pdf
1.2 MB
#MLSecOps
"InfoFlood (Information Overload) Attack:
Jailbreaking Large Language Models with Information Overload", Jun 2025.
// In this work, we identify a new vulnerability in which excessive linguistic complexity can disrupt built-in safety mechanisms-without the need for any added prefixes or suffixes-allowing attackers to elicit harmful outputs directly
"InfoFlood (Information Overload) Attack:
Jailbreaking Large Language Models with Information Overload", Jun 2025.
// In this work, we identify a new vulnerability in which excessive linguistic complexity can disrupt built-in safety mechanisms-without the need for any added prefixes or suffixes-allowing attackers to elicit harmful outputs directly
Forwarded from ЭйАй Секур’илка
owasp.org
OWASP AI Testing Guide | OWASP Foundation
Methodology to perform an AI System Assessment
https://owasp.org/www-project-ai-testing-guide
Руководство по тестированию систем ИИ от OWASP. Включает раздел моделирования угроз и методику тестирования.
#ai #aisecurity #cybersecurity
ЭйАй Секур’илка⬅️
Руководство по тестированию систем ИИ от OWASP. Включает раздел моделирования угроз и методику тестирования.
#ai #aisecurity #cybersecurity
ЭйАй Секур’илка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1🤝1
Forwarded from База знаний AI
⚙️Изучить на выходных: устройство фреймворка MAESTRO
Команда Института искусственного интеллекта AIRI в материале на «Хабре» рассказала о технических особенностях нового фреймворка MAESTRO. Он предназначен для построения мультиагентных систем и цифровых ассистентов на базе LLM.
Авторы описывают устройство программной платформы, а также приводят примеры использования фреймворка и рассказывают о планах по улучшению системы до конца 2026 года.
👉🏻Изучить материал
Команда Института искусственного интеллекта AIRI в материале на «Хабре» рассказала о технических особенностях нового фреймворка MAESTRO. Он предназначен для построения мультиагентных систем и цифровых ассистентов на базе LLM.
Авторы описывают устройство программной платформы, а также приводят примеры использования фреймворка и рассказывают о планах по улучшению системы до конца 2026 года.
👉🏻Изучить материал
Forwarded from Анализ данных (Data analysis)
На бенчмарке Humanity's Last Exam (HLE) маленькая 8-модель обходит GPT-5:
37.1% против 35.1%, при этом работает примерно в 2.5 раза эффективнее.
Что вообще происходит?
Orchestrator-8B - это не просто ещё одна модель. Это “роутер” над стеком инструментов.
Она решает, отвечать ли самой или вызвать поиск, код-модель, API или другой LLM.
Вместо парадигмы «один огромный LLM делает всё» —
маленький мозг, который умно и экономно распределяет задачи между инструментами.
Чтобы этому научить, NVIDIA сделали ToolScale — гигантский синтетический датасет с многошаговыми задачами, где агент:
- видит доступные инструменты, их цену и задержку
- выбирает последовательность вызовов
- получает трассу идеального решения
- оптимизируется под качество, скорость и деньги
По сути, каждый пример — это инструкция:
“вот запрос, вот инструменты, вот их цены, вот как решить задачу оптимально”.
Алгоритм Group Relative Policy Optimization обучает политика так, чтобы она балансировала:
- точность
- скорость
- стоимость
- предпочтения пользователя
На HLE, FRAMES и tau-squared Bench оркестратор (Qwen3-8B внутри) обходит:
- tool-augmented GPT-5
- Claude Opus 4.1
- Qwen3-235B-A22B
И делает меньше дорогих вызовов, лучше адаптируется к новым инструментам и ценам — и всё это в открытом доступе для ресёрча под лицензией NVIDIA.
Вывод: маленький интеллектуальный оркестратор поверх набора инструментов может выдавать фронтирный уровень агентных возможностей — но с точным контролем вычислений и бюджета.
ToolScale учит не “зови самый большой LLM”, а думай, сколько это будет стоить, и выбирай оптимальный путь.
Это именно тот сдвиг, который мы ждали в эру “AGI из инструментов”, а не из гигантских монолитных моделей.
huggingface.co/datasets/nvidia/ToolScale
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Forwarded from Neural Kovalskii
Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах
Ищем галлюцинации под микроскопом!
29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!
В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.
Почему именно RAG-пайплайны и Circuit Tracing?
Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени
Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели
Конкретные результаты нашего исследования
85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.
Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."
Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф
Технические вызовы и решения
Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера
Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям
Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах
Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре
Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта
Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды
Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +
Ищем галлюцинации под микроскопом!
29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!
В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.
Почему именно RAG-пайплайны и Circuit Tracing?
Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени
Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели
Конкретные результаты нашего исследования
85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.
Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."
Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф
Технические вызовы и решения
Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера
Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям
Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах
Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре
Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта
Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды
Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +
Хабр
Circuit Tracing: как заглянуть в галлюцинации модели и найти там смысл
Всем привет! Меня зовут Ирина, я NLP-инженер в red_mad_robot, занимаюсь научными исследованиями интерпретируемости LLM и анализом механизмов внутренних вычислений моделей, чтобы применять полученные...
👍1