LoRA-as-an-Attack! Piercing LLM Safety Under The Share-and-Play Scenario
https://arxiv.org/html/2403.00108v1
LoRATK: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem
https://arxiv.org/html/2403.00108v2
Attack on LLMs: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem
https://openreview.net/forum?id=0owyEm6FAk
LoBAM: LoRA-Based Backdoor Attack on Model Merging
https://arxiv.org/html/2411.16746v4
Causal-Guided Detoxify Backdoor Attack of Open-Weight LoRA Models
https://arxiv.org/html/2512.19297v1
LoRA-Leak: Membership Inference Attacks Against LoRA Fine-tuned Language Models
https://arxiv.org/html/2507.18302
TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent
https://aclanthology.org/2025.emnlp-main.1386.pdf
This Is How Your LLM Gets Compromised
https://www.trendmicro.com/en_us/research/25/i/prevent-llm-compromise.html
How private are your chat adapters? Evaluating the privacy of LoRA fine-tuned large language models with membership inference attacks
https://www.spiedigitallibrary.org/conference-proceedings-of-spie/13476/1347608/How-private-are-your-chat-adapters-Evaluating-the-privacy-of/10.1117/12.3053265.short
https://arxiv.org/html/2403.00108v1
LoRATK: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem
https://arxiv.org/html/2403.00108v2
Attack on LLMs: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem
https://openreview.net/forum?id=0owyEm6FAk
LoBAM: LoRA-Based Backdoor Attack on Model Merging
https://arxiv.org/html/2411.16746v4
Causal-Guided Detoxify Backdoor Attack of Open-Weight LoRA Models
https://arxiv.org/html/2512.19297v1
LoRA-Leak: Membership Inference Attacks Against LoRA Fine-tuned Language Models
https://arxiv.org/html/2507.18302
TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent
https://aclanthology.org/2025.emnlp-main.1386.pdf
This Is How Your LLM Gets Compromised
https://www.trendmicro.com/en_us/research/25/i/prevent-llm-compromise.html
How private are your chat adapters? Evaluating the privacy of LoRA fine-tuned large language models with membership inference attacks
https://www.spiedigitallibrary.org/conference-proceedings-of-spie/13476/1347608/How-private-are-your-chat-adapters-Evaluating-the-privacy-of/10.1117/12.3053265.short
openreview.net
Attack on LLMs: LoRA Once, Backdoor Everywhere in the...
Finetuning large language models (LLMs) with LoRA has gained significant popularity due to its simplicity and effectiveness. Often times, users may even find pluggable community-shared LoRA...
Forwarded from Китай.AI
🚀 Новый подход к условной памяти: Engram от DeepSeek 🧠
💡 DeepSeek представил новую работу, посвященную решению проблемы эффективного хранения и извлечения знаний в больших языковых моделях (LLM).
Проще говоря, это попытка дать модели «встроенную энциклопедию», к которой она может обращаться мгновенно, освобождая вычислительные ресурсы для сложных рассуждений.
🔍 В чём проблема современных LLM?
Современные большие модели вроде GPT-4 или Gemini используют смесь экспертов (MoE) для экономии вычислений. Это называется «условные вычисления»: для каждого запроса активируется только часть параметров модели.
Но у Transformers до сих пор нет эффективного встроенного механизма для быстрого поиска готовых знаний. Модели вынуждены «изображать» поиск по памяти через медленные последовательные вычисления.
💡 Решение от DeepSeek: Engram
Новый модуль Engram — это и есть та самая «условная память». Его задача — хранить статические знания (факты, шаблоны) отдельно от динамической логики рассуждений.
Как это работает (упрощённо):
1. Для текущего слова или фразы (
2. По этому хэшу из специальной таблицы (памяти Engram) мгновенно (
3. Этот вектор корректируется с учётом контекста и добавляется к основным вычислениям модели.
📈 Экспериментальные результаты:
- Engram-27B и Engram-40B показали значительное улучшение на различных бенчмарках, включая MMLU (+3.4), CMMLU (+4.0), BBH (+5.0), ARC-Challenge (+3.7) и другие.
- В задачах с длинными контекстами, Engram также демонстрирует превосходство, например, точность Multi-Query NIAH увеличилась с 84.2 до 97.0.
🚀 Что это значит?
Работа явно указывает на архитектуру DeepSeek v4. Это будет гибридная модель, сочетающая:
1. Условные вычисления через MoE (для эффективности).
2. Условную память через Engram (для знаний и скорости их извлечения).
GitHub
#КитайскийИИ #КитайAI #УсловнаяПамять #Engram
💡 DeepSeek представил новую работу, посвященную решению проблемы эффективного хранения и извлечения знаний в больших языковых моделях (LLM).
Проще говоря, это попытка дать модели «встроенную энциклопедию», к которой она может обращаться мгновенно, освобождая вычислительные ресурсы для сложных рассуждений.
🔍 В чём проблема современных LLM?
Современные большие модели вроде GPT-4 или Gemini используют смесь экспертов (MoE) для экономии вычислений. Это называется «условные вычисления»: для каждого запроса активируется только часть параметров модели.
Но у Transformers до сих пор нет эффективного встроенного механизма для быстрого поиска готовых знаний. Модели вынуждены «изображать» поиск по памяти через медленные последовательные вычисления.
💡 Решение от DeepSeek: Engram
Новый модуль Engram — это и есть та самая «условная память». Его задача — хранить статические знания (факты, шаблоны) отдельно от динамической логики рассуждений.
Как это работает (упрощённо):
1. Для текущего слова или фразы (
N-gram) модель вычисляет уникальный хэш (цифровой отпечаток).2. По этому хэшу из специальной таблицы (памяти Engram) мгновенно (
O(1)) извлекается заранее сохранённый вектор знаний.3. Этот вектор корректируется с учётом контекста и добавляется к основным вычислениям модели.
📈 Экспериментальные результаты:
- Engram-27B и Engram-40B показали значительное улучшение на различных бенчмарках, включая MMLU (+3.4), CMMLU (+4.0), BBH (+5.0), ARC-Challenge (+3.7) и другие.
- В задачах с длинными контекстами, Engram также демонстрирует превосходство, например, точность Multi-Query NIAH увеличилась с 84.2 до 97.0.
🚀 Что это значит?
Работа явно указывает на архитектуру DeepSeek v4. Это будет гибридная модель, сочетающая:
1. Условные вычисления через MoE (для эффективности).
2. Условную память через Engram (для знаний и скорости их извлечения).
GitHub
#КитайскийИИ #КитайAI #УсловнаяПамять #Engram
GitHub
GitHub - deepseek-ai/Engram: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models - deepseek-ai/Engram
❤1
Forwarded from DevSecOps Talks
A2A Security Scanner
Всем привет!
Безопасность Agent-to-Agent взаимодействий становится все более и более актуальной задачей.
Если что-то «пойдет не так», то могут случиться разные последствия: кража ценной информации, повышение привилегий, подмена артефактов, prompt-injection атаки и многое другое.
Для анализа A2A можно воспользоваться open-source решением от Cisco – A2A Security Scanner.
Из основных функций можно выделить:
🍭 Множество специализированных анализаторов: YARA-правила, идентификация угроз с LLM, использование эвристики и не только
🍭 Покрытие множества A2A угроз
🍭 Наличие API и CLI для реализации интеграций и не только
Подробнее со сканером (в том числе с видами угроз, которые он может идентифицировать) можно ознакомиться в GitHub-репозитории и в статье от Cisco, где они его анонсировали.
Всем привет!
Безопасность Agent-to-Agent взаимодействий становится все более и более актуальной задачей.
Если что-то «пойдет не так», то могут случиться разные последствия: кража ценной информации, повышение привилегий, подмена артефактов, prompt-injection атаки и многое другое.
Для анализа A2A можно воспользоваться open-source решением от Cisco – A2A Security Scanner.
Из основных функций можно выделить:
🍭 Множество специализированных анализаторов: YARA-правила, идентификация угроз с LLM, использование эвристики и не только
🍭 Покрытие множества A2A угроз
🍭 Наличие API и CLI для реализации интеграций и не только
Подробнее со сканером (в том числе с видами угроз, которые он может идентифицировать) можно ознакомиться в GitHub-репозитории и в статье от Cisco, где они его анонсировали.
GitHub
GitHub - cisco-ai-defense/a2a-scanner: Scan A2A agents for potential threats and security issues
Scan A2A agents for potential threats and security issues - cisco-ai-defense/a2a-scanner
Forwarded from AM Live
Один клик — и Copilot сливает данные: как работает атака Reprompt
Исследователи по информационной безопасности обнаружили новый метод атаки на Microsoft Copilot, получивший название Reprompt. Уязвимость позволяла злоумышленникам получить доступ к пользовательской сессии ИИ-помощника и незаметно выкачивать конфиденциальные данные — всего после одного клика по ссылке.
🔥 AM Live
Исследователи по информационной безопасности обнаружили новый метод атаки на Microsoft Copilot, получивший название Reprompt. Уязвимость позволяла злоумышленникам получить доступ к пользовательской сессии ИИ-помощника и незаметно выкачивать конфиденциальные данные — всего после одного клика по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AM Live
Новая Методика ФСТЭК: как теперь проводить анализ уязвимостей и кого это касается
С 25 ноября 2025 года анализ защищенности ключевых информационных систем в России проводится по новой, утвержденной ФСТЭК России, Методике. Это обязательный порядок работ для госорганов, ОПК, КИИ и операторов персональных данных.
В статье эксперты «Национального аттестационного центра» (НАЦ) подробно разбирают, какие системы попадают под действие, из каких этапов состоит процесс и с помощью каких средств проводится процесс сканирования. Рассмотрены нюансы практического применения Методики.
С 25 ноября 2025 года анализ защищенности ключевых информационных систем в России проводится по новой, утвержденной ФСТЭК России, Методике. Это обязательный порядок работ для госорганов, ОПК, КИИ и операторов персональных данных.
В статье эксперты «Национального аттестационного центра» (НАЦ) подробно разбирают, какие системы попадают под действие, из каких этапов состоит процесс и с помощью каких средств проводится процесс сканирования. Рассмотрены нюансы практического применения Методики.
Forwarded from CyberSecurityTechnologies
MLLMs_2026_Safety_Report.pdf
26.4 MB
#Research
#MLSecOps
"A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5", 2026.
]-> Repo
// This report presents a comprehensive safety evaluation of the latest foundation models released in 2026, including GPT-5.2, Gemini 3 Pro, and others. We analyze safety alignment across text, vision-language, and text-to-image modalities, highlighting vulnerabilities in current safeguards against adversarial attacks and regulation compliance
#MLSecOps
"A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5", 2026.
]-> Repo
// This report presents a comprehensive safety evaluation of the latest foundation models released in 2026, including GPT-5.2, Gemini 3 Pro, and others. We analyze safety alignment across text, vision-language, and text-to-image modalities, highlighting vulnerabilities in current safeguards against adversarial attacks and regulation compliance
Forwarded from КОД ИБ: информационная безопасность
AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности
Борис Захир, независимый эксперт и автор канала "Борис_ь с ml", описал основы функционирования AI-агентов и мультиагентных систем (МАС), а также рассмотрел угрозы безопасности и меры противодействия им.
➡️ Читать статью на Хабре
Вы узнаете:
*️⃣ определения AI-агентов и МАС
*️⃣ устройство агентов с точки зрения MCP и A2A
*️⃣ основные угрозы для AI-агентов на основе MCP и A2A
*️⃣ что делать в первую очередь для обеспечения безопасности таких AI-агентов
#опытэкспертов
Борис Захир, независимый эксперт и автор канала "Борис_ь с ml", описал основы функционирования AI-агентов и мультиагентных систем (МАС), а также рассмотрел угрозы безопасности и меры противодействия им.
Вы узнаете:
#опытэкспертов
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Пост Лукацкого
Из серии "Не забыть"...
🧠 Европейский стандарт по безопасности ИИ "Securing Artificial Intelligence (SAI); Baseline Cyber Security Requirements for AI Models and Systems" от ETSI описывает 13 принципов безопасности ИИ на 5 стадиях жизненного цикла - от проектирования и разработки систем с ИИ до внедрения, поддержки и вывода из эксплуатации. Оооочень высокоуровневый стандарт, описывающий, ЧТО надо делать.
🧠 Более детальное, на 300+ страниц, руководство по защите ИИ от OWASP (проект AI Exchange). Выделенная в отдельный домен, это точка входа в тему, начиная от моделей угроз для разных типов ИИ-систем и заканчивая темой культурологических и религиозных ограничений и нюансов применения ИИ. В отличие от стандарта ETSI также содержит два выделенных блока рекомендаций "КАК делать" применительно к тестированию защищенности ИИ-решений и вопросам приватности при использовании ИИ.
#ии #bestpractice
#ии #bestpractice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from Пост Лукацкого
Для любителей математики, теории игр и стратегии в ИБ подоспело исследование "Cybersecurity AI: A Game-Theoretic AI for Guiding Attack and Defense" ✍️ , авторы которого пытаются ответить на болезненный вопрос – почему ИИ в кибербезопасности умеет выполнять тысячи действий в час (сканируют, находят уязвимости, разбирают логи, строят гипотезы и т.п.), но все еще часто действует "в лоб", без стратегии, блуждая по пространству действий, тратя время и токены, действуя нестабильно и непоследовательно, плохо понимая, какие шаги реально стратегически важны? И можно ли это исправить? 🤔
Исследование предлагает конкретный ответ – добавить к LLM не новые знания об атаках и уязвимостях, а слой стратегического мышления на основе теории игр и равновесий Нэша⚖️ В центре – механизм Generative Cut-The-Rope (G-CTR):
6️⃣ LLM анализирует логи по результатам пентеста и строит граф атак.
2️⃣ Поверх этого графа считается игра "атакующий–защитник".
3️⃣ Вычисляется равновесие Нэша:
🌟 какие пути атакующему выгодны,
🌟 где защита наиболее эффективна,
🌟 где "бутылочные горлышки".
4️⃣ Результат сжимается в короткий дайджест, этакую мини-стратегию.
5️⃣ Этот дайджест возвращается в виде промпта LLM-агента, который начинает направлять его действия 📇
Исследование закрывает сразу несколько существовавших пробелов:🤖
➡️ ИИ-пентесты умеют работать быстро, но генерируют хаотичные логи.
➡️ Теория игр (CTR-модель) умеет считать оптимальные стратегии, но требует вручную построенных графов атак.
➡️ Здесь впервые:
🌟 графы атак генерируются автоматически из логов,
🌟 на них считаются равновесия Нэша,
🌟 и результаты используются в реальном времени для управления агентом 🤖
Из полученных результатов получается, что скорость работы в 60–245 раз быстрее🔜 , чем вручную, а стоимость более чем в 140 раз ниже, чем экспертная разметка логов. Обычная LLM, выполнявшая поставленную задачу, имела эффективность на уровне 20%, а согласно предложенному подходу – уже 42,9%. Стоимость успешной "атаки" снижена в 2,7 раза, вариативность поведения агента снижена в 5,2 раза ↗️
Такой эффект достигается за счет того, что:
💡 уменьшается неопределенность,
💡 резко сокращается пространство возможностей LLM,
💡 подавляются галлюцинации,
💡 агент "держится" ближе к реально важным узлам и ключевым системам в процессе атаки 😂
Важно помнить, что равновесие Нэша – это все-таки математическая модель, в которой предполагается, что "игроки" действуют рационально (где вы видели рациональных ИБшников?), обладают полной информацией о возможностях других (наличие Zero Day не укладывается в схему), делают "лучший" выбор (ага, щаз)😔 В реальности (и особенно в кибербезопасности) эти условия почти никогда не выполняются. Но улучшить эффективность работы тех же BAS с помощью описанного метода можно. Надо парням в PT Dephaze отправить ссылку 🤔
#ии #наука #математика
Исследование предлагает конкретный ответ – добавить к LLM не новые знания об атаках и уязвимостях, а слой стратегического мышления на основе теории игр и равновесий Нэша
Исследование закрывает сразу несколько существовавших пробелов:
Из полученных результатов получается, что скорость работы в 60–245 раз быстрее
Такой эффект достигается за счет того, что:
Важно помнить, что равновесие Нэша – это все-таки математическая модель, в которой предполагается, что "игроки" действуют рационально (где вы видели рациональных ИБшников?), обладают полной информацией о возможностях других (наличие Zero Day не укладывается в схему), делают "лучший" выбор (ага, щаз)
#ии #наука #математика
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Ethical Machines
7 февраля пройдет T-Sync Conf — классная и правда необычная конференция. Здесь можно будет лично познакомиться с ребятами, которые делают разные продукты в T, и заглянуть на стенд LLM Platform, где вас ждет много интересного (на картинке, кстати, структура наших продуктов) 👀
Что можно будет сделать на стенде:
🟣 узнать у техлида платформы Паши, как устроены интеграции между продуктами
🟣 расспросить продакт-лида платформы Лешу про подходы к этапам разработки
🟣 обсудить с продактом RAG-платформы Пашей SOTA подходы в RAG
🟣 наконец, разобраться, что такое MCP, и узнать у продакта ARP Дениса, а как наши юзеры их применяют
🟣 и поболтать со мной о том, как сейчас строят Observability вокруг AI-продуктов, и как это делаем мы, и что происходит в треке LLM Security
Почему конференция необычная? Потому что никаких классических докладов. Только стенды, только демо и только живое общение
Кроме стенда LLM-Platform будет еще много всего интересного, а также возможность поучаствовать в хакатоне
Так что регистрируйтесь, и увидимся с вами 7 февраля в 11 💅
Что можно будет сделать на стенде:
Почему конференция необычная? Потому что никаких классических докладов. Только стенды, только демо и только живое общение
Кроме стенда LLM-Platform будет еще много всего интересного, а также возможность поучаствовать в хакатоне
Так что регистрируйтесь, и увидимся с вами 7 февраля в 11 💅
Please open Telegram to view this post
VIEW IN TELEGRAM