Forwarded from Философия AI
Ура, товарищи! Наконец-то первое видео на канале, и какое! Мастер-класс по взлому ИИ агентов Артёма Семёнова, с моим скромным участием.
Скоро на канале будет ещё много чего интересного от интервью с топами в ИИ и AISecOps до университетского курса по защите данных в ИИ, так что подписывайтесь и ставьте лайки😁
Приятного просмотра!
Скоро на канале будет ещё много чего интересного от интервью с топами в ИИ и AISecOps до университетского курса по защите данных в ИИ, так что подписывайтесь и ставьте лайки😁
Приятного просмотра!
YouTube
AISecOps или Как взломать ИИ-агента? Мастер класс Артёма Семёнова
Мастер-класс проходил в музее криптографии, спасибо ему за это (ютуб не даёт вставить ссылку, поэтому гуглим)
Также спасибо сообществу Слономойка (QR-коды есть в самом начале), и конечно Артёму Семёнову за этот мастер-класс (обязательно посмотрите репозиторий…
Также спасибо сообществу Слономойка (QR-коды есть в самом начале), и конечно Артёму Семёнову за этот мастер-класс (обязательно посмотрите репозиторий…
👍1
Forwarded from CyberSecurityTechnologies
#DFIR
#AIOps
#MLSecOps
#RAG_Security
AI Incident Response Framework, V1.0
https://github.com/cosai-oasis/ws2-defenders/blob/main/incident-response/AI%20Incident%20Response.md
// This guides defenders on proactively minimizing the impact of AI system exploitation. It details how to maintain auditability, resiliency, and rapid recovery even when a system is compromised by advanced threat actors. Also explores the unique challenges of AI incident response, emphasizing the role of forensic investigation and the complications introduced by agentic architectures, while providing concrete steps to manage this new complexity
#AIOps
#MLSecOps
#RAG_Security
AI Incident Response Framework, V1.0
https://github.com/cosai-oasis/ws2-defenders/blob/main/incident-response/AI%20Incident%20Response.md
// This guides defenders on proactively minimizing the impact of AI system exploitation. It details how to maintain auditability, resiliency, and rapid recovery even when a system is compromised by advanced threat actors. Also explores the unique challenges of AI incident response, emphasizing the role of forensic investigation and the complications introduced by agentic architectures, while providing concrete steps to manage this new complexity
🔥2
Forwarded from CyberSecurityTechnologies
Breaking_Agent_Backbones.pdf
867.3 KB
#AIOps
#MLSecOps
"Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents", Oct. 2025.
// AI agents powered by LLMs are being deployed at scale, yet we lack a systematic understanding of how the choice of backbone LLM affects agent security. The non-deterministic sequential nature of AI agents complicates security modeling, while the integration of traditional software with AI components entangles novel LLM vulnerabilities with conventional security risks. We introduce threat snapshots: a framework that isolates specific states in an agent’s execution flow where LLM vulnerabilities manifest, enabling the systematic identification and categorization of security risks that propagate from the LLM to the agent level
#MLSecOps
"Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents", Oct. 2025.
// AI agents powered by LLMs are being deployed at scale, yet we lack a systematic understanding of how the choice of backbone LLM affects agent security. The non-deterministic sequential nature of AI agents complicates security modeling, while the integration of traditional software with AI components entangles novel LLM vulnerabilities with conventional security risks. We introduce threat snapshots: a framework that isolates specific states in an agent’s execution flow where LLM vulnerabilities manifest, enabling the systematic identification and categorization of security risks that propagate from the LLM to the agent level
Forwarded from Alaid TechThread
Forwarded from Not Boring Tech
🍯 HuggingFace выложили бесплатную книгу на 200 страниц о том, как обучать нейросети с нуля — Smol Training Playbook. Это мастхев-учебник для всех, кто хочет создавать и тренировать LLM:
Сохраняйте золото — тут.
P.S. По классике, кто первый сделает перевод книги на русский и пришлёт в комменты — отправлю редкий подарок за TON. Поддержим русскоязычное комьюнити вместе💗
@notboring_tech
• Как правильно строить и оптимизировать инфраструктуру
• Как проходит обучение LLM: зачем, что и как обучать
• Как подбирать данные для предобучения
• Все современные подходы пост-тренинга
• Реальные кейсы, как строят SOTA-модели
Сохраняйте золото — тут.
P.S. По классике, кто первый сделает перевод книги на русский и пришлёт в комменты — отправлю редкий подарок за TON. Поддержим русскоязычное комьюнити вместе
@notboring_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CodeCamp
This media is not supported in your browser
VIEW IN TELEGRAM
Наконец-то кто-то может свайпать за вас: фреймворк, который позволяет управлять Android- и iOS-устройствами через LLM-агентов 💃
Пишешь команду на естественном языке — и агент сам кликает по экрану, анализирует интерфейс и выполняет задачу.
— Поддерживает OpenAI, Anthropic, Gemini, Ollama и DeepSeek;
— Умеет планировать сложные сценарии из нескольких шагов;
— Делает скриншоты и анализирует их содержимое;
— Имеет CLI с дебагом и Python API для кастомных автоматизаций;
— Можно использовать даже для UI-тестирования, поиска трендов или «сохранения streak-а» в Duolingo.
Теперь-то я пройду Tinder😂
Пишешь команду на естественном языке — и агент сам кликает по экрану, анализирует интерфейс и выполняет задачу.
— Поддерживает OpenAI, Anthropic, Gemini, Ollama и DeepSeek;
— Умеет планировать сложные сценарии из нескольких шагов;
— Делает скриншоты и анализирует их содержимое;
— Имеет CLI с дебагом и Python API для кастомных автоматизаций;
— Можно использовать даже для UI-тестирования, поиска трендов или «сохранения streak-а» в Duolingo.
Теперь-то я пройду Tinder
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from Пост Лукацкого
Интересное исследование из Австралии 🇦🇺 , демонстрирующее новый тип дипфейковых атак – Face-to-Voice (FOICE). По одной фотографии жертвы синтезируется ее голос, который позволяет обходить такие системы аутентификации как WeChat Voiceprint и Microsoft Azure 🪞 И все это без каких-либо голосовых семплов жертвы. Интересные нас ждут времена – найти фото человека, под которого надо маскироваться мошенникам, гораздо проще, чем семплы его голоса или видео.
#дипфейк #аутентификация
#дипфейк #аутентификация
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AI SecOps
Machine Learning Systems
Principles and Practices of Engineering Artificially Intelligent Systems https://www.mlsysbook.ai/
Principles and Practices of Engineering Artificially Intelligent Systems https://www.mlsysbook.ai/
Machine Learning Systems
ML Systems Textbook
Principles and Practices of Engineering Artificially Intelligent Systems
Forwarded from CyberSecurityTechnologies
Machine_Learning_Systems.pdf
40.9 MB
#AIOps
#MLSecOps
#Tech_book
"Machine Learning Systems:
Principles and Practices of Engineering Artificially Intelligent Systems",
School of Engineering and Applied Sciences Harvard University, Nov. 4, 2025.
// This book bridges the gap between theoretical foundations and practical engineering, emphasizing the systems perspective required to build effective AI solutions. Unlike resources that focus primarily on algorithms and model architectures, this book highlights the broader context in which ML systems operate, including data engineering, model optimization, hardware-aware training, and inference acceleration
#MLSecOps
#Tech_book
"Machine Learning Systems:
Principles and Practices of Engineering Artificially Intelligent Systems",
School of Engineering and Applied Sciences Harvard University, Nov. 4, 2025.
// This book bridges the gap between theoretical foundations and practical engineering, emphasizing the systems perspective required to build effective AI solutions. Unlike resources that focus primarily on algorithms and model architectures, this book highlights the broader context in which ML systems operate, including data engineering, model optimization, hardware-aware training, and inference acceleration
🏆2
Forwarded from AISecHub
ChearSheet_A_Practical_Guide_for_Securely_Using_third_party_MCP.pdf
980.3 KB
A Practical Guide for
Securely Using Third-Party
MCP Servers
Source: https://genai.owasp.org/resource/cheatsheet-a-practical-guide-for-securely-using-third-party-mcp-servers-1-0/
Securely Using Third-Party
MCP Servers
Source: https://genai.owasp.org/resource/cheatsheet-a-practical-guide-for-securely-using-third-party-mcp-servers-1-0/
❤1
Forwarded from AISecHub
Agents Rule of Two: A Practical Approach to AI Agent Security
At a high level, the Agents Rule of Two states that until robustness research allows us to reliably detect and refuse prompt injection, agents must satisfy no more than two of the following three properties within a session to avoid the highest impact consequences of prompt injection.
[A] An agent can process untrustworthy inputs
[B] An agent can have access to sensitive systems or private data
[C] An agent can change state or communicate externally
https://ai.meta.com/blog/practical-ai-agent-security/
At a high level, the Agents Rule of Two states that until robustness research allows us to reliably detect and refuse prompt injection, agents must satisfy no more than two of the following three properties within a session to avoid the highest impact consequences of prompt injection.
[A] An agent can process untrustworthy inputs
[B] An agent can have access to sensitive systems or private data
[C] An agent can change state or communicate externally
https://ai.meta.com/blog/practical-ai-agent-security/
❤1
Forwarded from AISecHub
2510.14113v1.pdf
10.1 MB
A NIST AI RMF-Aligned Governance Platform for Agentic AI - https://arxiv.org/pdf/2510.25863 | https://youtu.be/nwnRluWKuFs
This paper introduces the Agentic AI Governance Assurance & Trust Engine (AAGATE), a Kubernetes-native control plane designed to address the unique security and governance challenges posed by autonomous, language-model-driven agents in production.
Recognizing the limitations of traditional Application Security (AppSec) tooling for improvisational, machine-speed systems, AAGATE operationalizes the NIST AI Risk Management Framework (AI RMF). It integrates specialized security frameworks for each RMF function: the Agentic AI Threat Modeling MAESTRO framework for Map, a hybrid of OWASP’s AIVSS and SEI’s SSVC for Measure, and the Cloud Security Alliance’s Agentic AI Red Teaming Guide for Manage.
By incorporating a zero-trust service mesh, an explainable policy engine, behavioral analytics, and decentralized accountability hooks, AAGATE provides a continuous, verifiable governance solution for agentic AI, enabling safe, accountable, and scalable deployment.
The framework is further extended with DIRF for digital identity rights, LPCI defenses for logic-layer injection, and QSAF monitors for cognitive degradation, ensuring governance spans systemic, adversarial, and ethical risks.
This paper introduces the Agentic AI Governance Assurance & Trust Engine (AAGATE), a Kubernetes-native control plane designed to address the unique security and governance challenges posed by autonomous, language-model-driven agents in production.
Recognizing the limitations of traditional Application Security (AppSec) tooling for improvisational, machine-speed systems, AAGATE operationalizes the NIST AI Risk Management Framework (AI RMF). It integrates specialized security frameworks for each RMF function: the Agentic AI Threat Modeling MAESTRO framework for Map, a hybrid of OWASP’s AIVSS and SEI’s SSVC for Measure, and the Cloud Security Alliance’s Agentic AI Red Teaming Guide for Manage.
By incorporating a zero-trust service mesh, an explainable policy engine, behavioral analytics, and decentralized accountability hooks, AAGATE provides a continuous, verifiable governance solution for agentic AI, enabling safe, accountable, and scalable deployment.
The framework is further extended with DIRF for digital identity rights, LPCI defenses for logic-layer injection, and QSAF monitors for cognitive degradation, ensuring governance spans systemic, adversarial, and ethical risks.
❤1
Forwarded from AISecHub
Artificial Intelligence in Cybersecurity: Using AI for Port Scanning
Nmap has been the gold standard of network scanning for decades, and over this time, it has obtained hundreds of command-line options and NSE noscripts. It’s great from one side, you can tailor the command for your needs, but on the other side, it requires expertise. What if you could simply tell an AI in plain English what you want to discover, and have it automatically select the right Nmap commands, parse the results, and identify security issues?
That’s exactly what the LLM-Tools-Nmap utility does. Basically, it bridges the gap between Large Language Models (LLMs) and Nmap.
https://hackers-arise.com/artificial-intelligence-in-cybersecurity-using-ai-for-port-scanning/
https://github.com/peter-hackertarget/llm-tools-nmap
Nmap has been the gold standard of network scanning for decades, and over this time, it has obtained hundreds of command-line options and NSE noscripts. It’s great from one side, you can tailor the command for your needs, but on the other side, it requires expertise. What if you could simply tell an AI in plain English what you want to discover, and have it automatically select the right Nmap commands, parse the results, and identify security issues?
That’s exactly what the LLM-Tools-Nmap utility does. Basically, it bridges the gap between Large Language Models (LLMs) and Nmap.
https://hackers-arise.com/artificial-intelligence-in-cybersecurity-using-ai-for-port-scanning/
https://github.com/peter-hackertarget/llm-tools-nmap
Forwarded from Кот на яблоне
#LLMSEC #vibecoding
Интересный разбор вайбкодинга со стороны безопасности: https://baldur.dk/blog/vibecoding-and-the-illusion-of-security.html
Интересный разбор вайбкодинга со стороны безопасности: https://baldur.dk/blog/vibecoding-and-the-illusion-of-security.html
baldur.dk
BALDUR. - Security Consultancy
Vibecoding is fast, but it is secure? We tested current state of the art LLM models against a common security task, namely the MFA implemented in your applications.
👍1👎1
Forwarded from CyberSecurityTechnologies
RAG_Defender.pdf
629.9 KB
#tools
#RAG_Security
"Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems", Nov. 2025.
]-> https://github.com/SecAI-Lab/RAGDefender
// RAGDefender - efficient defense mechanism designed to protect Retrieval-Augmented Generation (RAG) systems from knowledge corruption attacks such as PoisonedRAG, Blind, and GARAG. It detects and isolates poisoned documents in retrieved contexts without requiring additional model training or fine-tuning
#RAG_Security
"Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems", Nov. 2025.
]-> https://github.com/SecAI-Lab/RAGDefender
// RAGDefender - efficient defense mechanism designed to protect Retrieval-Augmented Generation (RAG) systems from knowledge corruption attacks such as PoisonedRAG, Blind, and GARAG. It detects and isolates poisoned documents in retrieved contexts without requiring additional model training or fine-tuning
Forwarded from Data Secrets
Cache-to-Cache: занятная статья о том, как модели могут общаться на "собственном языке"
Работа очень напоминает папиру от Microsoft, вышедшую примерно год назад (наш разбор). И все-таки есть ключевое отличие: если у майкрософтов получилось научить общаться без токенов только разные экземпляры одной и той же модели, то здесь предложен способ, который работает для любой пары моделек, даже из разных семейств, от разных компаний и разных по архитектуре.
Немножко контекста. Когда два агента общаются мультимодельной системе, они обычно делают это текстом. Это довольно неэффективно, потому что вообще-то у каждой модели есть Key-Value Cache – внутренние состояния внимания, хранящие, по сути, всю информацию о мыслях модели. И вот если бы агенты научились общаться не токенами, а именно KV-кэшем, это было бы в разы быстрее, а информация была бы полнее.
Так появляется Cache-to-Cache (C2C) – парадигма прямого обмена смыслом, а не словами. Источник (Sharer) передаёт свой кэш, а получатель (Receiver) через нейросеть-проектор встраивает этот кэш в своё пространство.
Напрямую, без проектора, это сделать бы не получилось, потому что у разных моделей разное скрытое пространство. Поэтому авторы и обучили Projection module, который как бы соединяет кеши Sharer и Receiver в единый эмбеддинг, понятный обеим моделькам. Кроме Projection module в протоколе еще появляется weighting module, который решает, какую информацию вообще стоит передавать от Sharer.
Что это дает?
1. Скорость, очевидно. Относительно Text-to-Text все происходит в 2-3 раза быстрее.
2. Прирост к точности. Если объединить две модели таким образом и поставить их решать одну задачу, метрика подлетает в среднем на 5% относительно случая, когда модели также объединяются, но общаются текстом.
То есть: обмениваясь кэшем, модели действительно лучше понимают друг друга, чем когда обмениваются токенами. Это крутой результат.
Большой практический минус в том, что подход не универсальный. Для каждой пары моделек придется обучать свой "мост". Там всего несколько MLP слоев, но все же. Ну и если у моделей совсем разные токенизаторы – тоже запара, придется делать Token alignment.
GitHub
Статья
Работа очень напоминает папиру от Microsoft, вышедшую примерно год назад (наш разбор). И все-таки есть ключевое отличие: если у майкрософтов получилось научить общаться без токенов только разные экземпляры одной и той же модели, то здесь предложен способ, который работает для любой пары моделек, даже из разных семейств, от разных компаний и разных по архитектуре.
Немножко контекста. Когда два агента общаются мультимодельной системе, они обычно делают это текстом. Это довольно неэффективно, потому что вообще-то у каждой модели есть Key-Value Cache – внутренние состояния внимания, хранящие, по сути, всю информацию о мыслях модели. И вот если бы агенты научились общаться не токенами, а именно KV-кэшем, это было бы в разы быстрее, а информация была бы полнее.
Так появляется Cache-to-Cache (C2C) – парадигма прямого обмена смыслом, а не словами. Источник (Sharer) передаёт свой кэш, а получатель (Receiver) через нейросеть-проектор встраивает этот кэш в своё пространство.
Напрямую, без проектора, это сделать бы не получилось, потому что у разных моделей разное скрытое пространство. Поэтому авторы и обучили Projection module, который как бы соединяет кеши Sharer и Receiver в единый эмбеддинг, понятный обеим моделькам. Кроме Projection module в протоколе еще появляется weighting module, который решает, какую информацию вообще стоит передавать от Sharer.
Что это дает?
1. Скорость, очевидно. Относительно Text-to-Text все происходит в 2-3 раза быстрее.
2. Прирост к точности. Если объединить две модели таким образом и поставить их решать одну задачу, метрика подлетает в среднем на 5% относительно случая, когда модели также объединяются, но общаются текстом.
То есть: обмениваясь кэшем, модели действительно лучше понимают друг друга, чем когда обмениваются токенами. Это крутой результат.
Большой практический минус в том, что подход не универсальный. Для каждой пары моделек придется обучать свой "мост". Там всего несколько MLP слоев, но все же. Ну и если у моделей совсем разные токенизаторы – тоже запара, придется делать Token alignment.
GitHub
Статья
🔥2
Forwarded from CyberSecurityTechnologies
Whisper_Leak_SCA.pdf
463.4 KB
#SCA
#MLSecOps
"Whisper Leak: a side-channel attack on Large Language Models", Nov. 2025.
]-> https://github.com/yo-yo-yo-jbo/whisper_leak
// Whisper Leak - side-channel attack that infers user prompt topics from encrypted LLM traffic by analyzing packet size and timing patterns in streaming responses. Despite TLS encryption protecting content, these metadata patterns leak sufficient information to enable topic classification
#MLSecOps
"Whisper Leak: a side-channel attack on Large Language Models", Nov. 2025.
]-> https://github.com/yo-yo-yo-jbo/whisper_leak
// Whisper Leak - side-channel attack that infers user prompt topics from encrypted LLM traffic by analyzing packet size and timing patterns in streaming responses. Despite TLS encryption protecting content, these metadata patterns leak sufficient information to enable topic classification
🔥1
Forwarded from AGI Security
Хабр
Meta и исследователи из OpenAI: новые подходы к защите LLM от prompt injection
Команда AI for Devs подготовила перевод краткой выжимки свежих статей о безопасности LLM. Meta предлагает «Правило двух» — архитектурный принцип, ограничивающий права AI-агентов, чтобы защитить их от...