Forwarded from AISecHub
superagent - https://github.com/superagent-ai/superagent
Superagent provides purpose-trained guardrails that make AI-agents secure and compliant. Purpose-trained models that secure your applications and keep them compliant with low-latency, production-ready performance.
Superagent provides purpose-trained guardrails that make AI-agents secure and compliant. Purpose-trained models that secure your applications and keep them compliant with low-latency, production-ready performance.
GitHub
GitHub - superagent-ai/superagent: Superagent protects your AI applications against prompt injections, data leaks, and harmful…
Superagent protects your AI applications against prompt injections, data leaks, and harmful outputs. Embed safety directly into your app and prove compliance to your customers. - superagent-ai/supe...
Forwarded from CyberSecurityTechnologies
LLMs_for_Vulnerability_Exploitation_in_Enterprise_Software.pdf
3.5 MB
#MLSecOps
#Red_Team_Tactics
"From Rookie to Expert: Manipulating LLMs for Automated Vulnerability Exploitation in Enterprise Software", Dec. 2025.
]-> All data, source code, and instructions
// We show in this work how publicly available LLMs can be socially engineered to transform novices into capable attackers, challenging the foundational principle that exploitation requires technical expertise. To that end, we propose RSA (Role-assignment, Scenario-pretexting, and Action-solicitation), a pretexting strategy that manipulates LLMs into generating functional exploits despite their safety mechanisms
#Red_Team_Tactics
"From Rookie to Expert: Manipulating LLMs for Automated Vulnerability Exploitation in Enterprise Software", Dec. 2025.
]-> All data, source code, and instructions
// We show in this work how publicly available LLMs can be socially engineered to transform novices into capable attackers, challenging the foundational principle that exploitation requires technical expertise. To that end, we propose RSA (Role-assignment, Scenario-pretexting, and Action-solicitation), a pretexting strategy that manipulates LLMs into generating functional exploits despite their safety mechanisms
🔥1
Forwarded from AISecHub
How Dark Patterns Manipulate Web Agents - https://arxiv.org/pdf/2512.22894 | https://agentdarkpatterns.org/
Consider a common scenario: You need to purchase flowers quickly. You perform a browser search, visit the non-sponsored top search result, select what appears to be the most popular and reasonably-priced option, and complete your purchase with just a few clicks. The process seems routine until you realize the most expensive bouquet and premium shipping were pre-selected and purchased simply because you did not opt out. This illustrates an example of sneaking, a form of dark pattern common on today’s internet, which can also manifest in many other forms.
This raises a critical question:
Can web agents, particularly those operating autonomously online, also be manipulated by dark patterns to act against their users’ intents and goals?
Across evaluated agents, dark patterns steer agent trajectories in more than 70% of cases, compared to about 31% for humans.
Consider a common scenario: You need to purchase flowers quickly. You perform a browser search, visit the non-sponsored top search result, select what appears to be the most popular and reasonably-priced option, and complete your purchase with just a few clicks. The process seems routine until you realize the most expensive bouquet and premium shipping were pre-selected and purchased simply because you did not opt out. This illustrates an example of sneaking, a form of dark pattern common on today’s internet, which can also manifest in many other forms.
This raises a critical question:
Can web agents, particularly those operating autonomously online, also be manipulated by dark patterns to act against their users’ intents and goals?
Across evaluated agents, dark patterns steer agent trajectories in more than 70% of cases, compared to about 31% for humans.
🔥1
Forwarded from Анализ данных (Data analysis)
👨🎓 Harvard выложил в открытый доступ учебник по ML-системам и это редкий случай, когда материал действительно полезный.
В учебнике показан полный цикл: от понимания основ до построения продакшн-систем, которые можно запускать в реальном мире.
Что в книге и почему она стоит внимания:
- вы самостоятельно собираете autograd, оптимизаторы, attention и мини-PyTorch — чтобы увидеть, как устроены фреймворки изнутри
- разбираетесь в базах: батчи, архитектуры, процесс обучения
- учитесь оптимизировать производительность: работать с ускорителями, бенчмарками и настраивать модели
📚 То есть это не вводная книжка, а полноценный roadmap от теории к продакшну.
📌Репозиторий: https://github.com/harvard-edge/cs249r_book
📌PDF: https://mlsysbook.ai/assets/downloads/Machine-Learning-Systems.pdf
В учебнике показан полный цикл: от понимания основ до построения продакшн-систем, которые можно запускать в реальном мире.
Что в книге и почему она стоит внимания:
- вы самостоятельно собираете autograd, оптимизаторы, attention и мини-PyTorch — чтобы увидеть, как устроены фреймворки изнутри
- разбираетесь в базах: батчи, архитектуры, процесс обучения
- учитесь оптимизировать производительность: работать с ускорителями, бенчмарками и настраивать модели
📚 То есть это не вводная книжка, а полноценный roadmap от теории к продакшну.
📌Репозиторий: https://github.com/harvard-edge/cs249r_book
📌PDF: https://mlsysbook.ai/assets/downloads/Machine-Learning-Systems.pdf
👍1
Forwarded from AISecHub
Implementing Secure AI
Framework Controls in Google Cloud - New Version
https://services.google.com/fh/files/misc/ociso_2025_saif_cloud_paper.pdf
Framework Controls in Google Cloud - New Version
https://services.google.com/fh/files/misc/ociso_2025_saif_cloud_paper.pdf
Forwarded from AISecHub
ARES-Dashboard - AI Red Team Operations Console https://github.com/Arnoldlarry15/ARES-Dashboard
Demo: https://ares-dashboard-mauve.vercel.app/
ARES is an AI Red Team Operations Dashboard for planning, executing, and auditing structured adversarial testing of AI systems across established risk frameworks.
ARES Dashboard is an enterprise-oriented AI red team operations console designed to help security teams, AI safety researchers, and governance programs conduct structured, repeatable, and auditable adversarial testing of AI systems.
ARES provides a centralized workspace for building attack manifests, managing red team campaigns, aligning assessments with recognized frameworks such as OWASP LLM Top 10 and MITRE, and exporting evidence for review and compliance workflows.
The system supports role-based access control, audit logging, persistent campaign storage, and optional AI-assisted scenario generation. A built-in demo mode allows full exploration of core functionality without requiring external API keys.
ARES is designed to serve as the operational execution layer within a broader AI safety and governance ecosystem, enabling disciplined red teaming without automating exploitation or removing human oversight.
Demo: https://ares-dashboard-mauve.vercel.app/
ARES is an AI Red Team Operations Dashboard for planning, executing, and auditing structured adversarial testing of AI systems across established risk frameworks.
ARES Dashboard is an enterprise-oriented AI red team operations console designed to help security teams, AI safety researchers, and governance programs conduct structured, repeatable, and auditable adversarial testing of AI systems.
ARES provides a centralized workspace for building attack manifests, managing red team campaigns, aligning assessments with recognized frameworks such as OWASP LLM Top 10 and MITRE, and exporting evidence for review and compliance workflows.
The system supports role-based access control, audit logging, persistent campaign storage, and optional AI-assisted scenario generation. A built-in demo mode allows full exploration of core functionality without requiring external API keys.
ARES is designed to serve as the operational execution layer within a broader AI safety and governance ecosystem, enabling disciplined red teaming without automating exploitation or removing human oversight.
GitHub
GitHub - Arnoldlarry15/ARES-Dashboard: AI Red Team Operations Console
AI Red Team Operations Console. Contribute to Arnoldlarry15/ARES-Dashboard development by creating an account on GitHub.
❤1
Forwarded from AISecHub
Executive Offense - The Arcanum Prompt Injection Taxonomy v1.5
The Arcanum Prompt Injection Taxonomy v1.5 is a new, open-source, interactive classification of prompt injection attacks against large language models. It organizes the attack surface into four parts Attack Intents, Techniques, Evasions, and Inputs with detailed denoscriptions and real examples to help security teams understand, test, and defend against prompt injection threats.
https://arcanum-sec.github.io/arc_pi_taxonomy/
The Arcanum Prompt Injection Taxonomy v1.5 is a new, open-source, interactive classification of prompt injection attacks against large language models. It organizes the attack surface into four parts Attack Intents, Techniques, Evasions, and Inputs with detailed denoscriptions and real examples to help security teams understand, test, and defend against prompt injection threats.
https://arcanum-sec.github.io/arc_pi_taxonomy/
Forwarded from CyberSecurityTechnologies
Implementing_Secure_AI.pdf
1.1 MB
#MLSecOps
#Whitepaper
"Implementing Secure AI Framework Controls in Google Cloud", Dec. 2025.
// Google’s Secure AI Framework is a framework for securing AI systems throughout their lifecycles. SAIF is designed for practitioners – the security professionals, developers, and data scientists on the front lines – to ensure AI models and applications are secure by design
#Whitepaper
"Implementing Secure AI Framework Controls in Google Cloud", Dec. 2025.
// Google’s Secure AI Framework is a framework for securing AI systems throughout their lifecycles. SAIF is designed for practitioners – the security professionals, developers, and data scientists on the front lines – to ensure AI models and applications are secure by design
🔥1
Forwarded from GitHub Community
SecureML — это библиотека Python с открытым исходным кодом, которая интегрируется с популярными платформами машинного обучения, такими как TensorFlow и PyTorch.
Она предоставляет разработчикам простые в использовании утилиты, которые позволяют агентам ИИ обрабатывать конфиденциальные данные в соответствии с правилами защиты данных.
🐱 GitHub
Она предоставляет разработчикам простые в использовании утилиты, которые позволяют агентам ИИ обрабатывать конфиденциальные данные в соответствии с правилами защиты данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥2
Forwarded from Denis Sexy IT 🤖
Чуть обновил свой дашборд для удобного мониторинга AI и IT новостей:
https://shir-man.com/homepage/
– Теперь ленту можно настроить под себя и сделать все 3 колонки с текстом, например
– В источниках появился "Hype Replicate", о котором я писал пару дней назад – где тоже куча полезных новостей
– Можно подписаться на почтовую рассылку раз в неделю – и если мне не будет лень доделать эту фичу, то емейлы начнут приходить с самым AI-важным за неделю
– Добавил закладки, они сохраняются в браузере, и показываются в конце списка
Из хорошего – я его сам мониторю чтобы посты сюда писать
https://shir-man.com/homepage/
– Теперь ленту можно настроить под себя и сделать все 3 колонки с текстом, например
– В источниках появился "Hype Replicate", о котором я писал пару дней назад – где тоже куча полезных новостей
– Можно подписаться на почтовую рассылку раз в неделю – и если мне не будет лень доделать эту фичу, то емейлы начнут приходить с самым AI-важным за неделю
– Добавил закладки, они сохраняются в браузере, и показываются в конце списка
Из хорошего – я его сам мониторю чтобы посты сюда писать
Forwarded from Пост Лукацкого
Наткнулся тут на исследование "Frontier AI Trends Report" от AI Security Institute (AISI), где проанализированы реальные результаты тестирования передовых моделей ИИ за последние ~2 года. Он охватывает несколько сфер, в том числе и кибербезопасность. Главный вывод: современные модели ИИ существенно улучшили свои способности в задачах, связанных с ИБ 🙂
Если в начале 2024 г. такие системы могли справляться только с простыми "ученическими"👶 задачами в сфере ИБ где-то в 10% случаев, то к концу 2025 года они выполняют такие задачи примерно в 50% случаев без помощи человека. Более того, впервые в 2025-м тестируемая модель смогла выполнить задачу экспертного уровня, то есть ту, которая традиционно требует десятилетнего опыта специалиста-человека 👨🏼
Речь пока не идет о полностью автоматическом взломе сложной сети, но о конкретных измеряемых аспектах разных киберзадач, например:
➡️ распознавание уязвимостей в коде,
➡️ обход некоторых элементарных проверок,
➡️ выполнение этапов, которые раньше считались прерогативой опытного профессионала 🤖
AISI замеряет, как ИИ способен выполнять "тяжелые" задачи без помощи человека, оценивая их в эквиваленте времени, которое бы на них потратил человек-специалист🕙 По наблюдениям института безопасности ИИ за ~8 месяцев ИИ-возможности примерно удваиваются, то есть модели все чаще и успешнее справляются с более сложными кибер-задачами. А развитие возможностей – это не только польза, но и риск, потому что такие ИИ-системы потенциально могут облегчить работу атакующих, снизив барьер входа в сложные техники 😔
Также отчет отмечает, что:
➡️ при попытках "обойти защиту" (jailbreak) современные модели стали намного труднее взламывать, чем раньше – среднее время нахождения универсальной лазейки выросло от минут до часов, то есть примерно в 40 раз.
➡️ тем не менее в каждом тестируемом случае исследователи находили уязвимости – ни одна система пока не идеальна.
Это говорит о том, что разработчики активно работают над все новыми и новыми барьерами безопасности, но одновременно с ростом возможностей моделей растет и сложность защиты🤖
Не могу сказать, что отчет как-то по-новому открыл глаза на применение ИИ в ИБ; он интересен анализом текущего уровня возможностей ИИ в ИБ. И, что интересно с практической точки зрения, оценкой удваивания возможностей ИИ каждые 8 месяцев🤔
#ии #тенденции
Если в начале 2024 г. такие системы могли справляться только с простыми "ученическими"
Речь пока не идет о полностью автоматическом взломе сложной сети, но о конкретных измеряемых аспектах разных киберзадач, например:
AISI замеряет, как ИИ способен выполнять "тяжелые" задачи без помощи человека, оценивая их в эквиваленте времени, которое бы на них потратил человек-специалист
Также отчет отмечает, что:
Это говорит о том, что разработчики активно работают над все новыми и новыми барьерами безопасности, но одновременно с ростом возможностей моделей растет и сложность защиты
Не могу сказать, что отчет как-то по-новому открыл глаза на применение ИИ в ИБ; он интересен анализом текущего уровня возможностей ИИ в ИБ. И, что интересно с практической точки зрения, оценкой удваивания возможностей ИИ каждые 8 месяцев
#ии #тенденции
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Investigation & Forensic TOOLS
Unblink
📚 Раздел: #CCTV
📄 Описание:
Система интеллектуального видеонаблюдения работающая с видеопотоками в реальном времени (в текущей версии понимает RTSP и MJPEG). В качестве ИИ используются D-FINE для обнаружения и отслеживания объектов, SmolVLM2 и Moondream 3 для понимания контекста.
Основной функционал:
- Понимание контекста. Unblink понимает и описывает все что происходит.
- Обнаружение объектов на видео.
- Интеллектуальный поиск по всем видео потокам. Достаточно описать то, что вы хотите найти.
- Система оповещения на события через вебхуки, email и мессенджеры (в будущем)
💻 Платформа: Docker/macOS/Linux/Win
💳 Стоимость: Бесплатно.
📚 Раздел: #CCTV
📄 Описание:
Система интеллектуального видеонаблюдения работающая с видеопотоками в реальном времени (в текущей версии понимает RTSP и MJPEG). В качестве ИИ используются D-FINE для обнаружения и отслеживания объектов, SmolVLM2 и Moondream 3 для понимания контекста.
Основной функционал:
- Понимание контекста. Unblink понимает и описывает все что происходит.
- Обнаружение объектов на видео.
- Интеллектуальный поиск по всем видео потокам. Достаточно описать то, что вы хотите найти.
- Система оповещения на события через вебхуки, email и мессенджеры (в будущем)
💻 Платформа: Docker/macOS/Linux/Win
💳 Стоимость: Бесплатно.
Forwarded from CodeCamp
Ловите идеальный учебный стенд для LLM: полноценная лаборатория с веб-интерфейсом для тренировки, отладки и вивисекции языковых моделей 😊
Загружаешь текст, настраиваешь архитектуру и в реальном времени смотришь, как нейронка учится.
Что внутри:
— Визуальный контроль: в UI видно всё — графики лосса, карты внимания (attention maps) и даже то, с какой вероятностью модель выбирает следующий токен;
— Настраиваем BPE, играемся с размером словаря и смотрим, как текст превращается в цифры;
— GPT-архитектура: под капотом честная реализация трансформера, параметры которого (слои, головы, размер блока) можно крутить как угодно;
— Пайплайн сам хеширует датасеты, бьет на train/val и кеширует токены, чтобы не греть процессор зря.
Выращиваем карманный Skynet😁
Загружаешь текст, настраиваешь архитектуру и в реальном времени смотришь, как нейронка учится.
Что внутри:
— Визуальный контроль: в UI видно всё — графики лосса, карты внимания (attention maps) и даже то, с какой вероятностью модель выбирает следующий токен;
— Настраиваем BPE, играемся с размером словаря и смотрим, как текст превращается в цифры;
— GPT-архитектура: под капотом честная реализация трансформера, параметры которого (слои, головы, размер блока) можно крутить как угодно;
— Пайплайн сам хеширует датасеты, бьет на train/val и кеширует токены, чтобы не греть процессор зря.
Выращиваем карманный Skynet
Please open Telegram to view this post
VIEW IN TELEGRAM