NEW BOT Телеграм, страница

Large language models (LLMs) have achieved widespread adoption across numerous applications. However, many LLMs are vulnerable to malicious attacks even after safety alignment. These attacks...

179 views05:09

ML&|Sec Feed

https://gitverse.ru/rnekrasov/LLM-Agents-Papers-RU

gitverse.ru

rnekrasov/LLM-Agents-Papers-RU: Библиографический указатель 469 научных статей по LLM-агентам, RL для LLM, reasoning и смежным…

rnekrasov/LLM-Agents-Papers-RU: Библиографический указатель 469 научных статей по LLM-агентам, RL для LLM, reasoning и смежным темам. Переводы на русский язык.. Up-to-date files and denoscriptions. Branches and discussions on the developer platform GitVerse.

185 views05:11

ML&|Sec Feed

Forwarded from AISecHub

Executive Offense - The Arcanum Prompt Injection Taxonomy v1.5

The Arcanum Prompt Injection Taxonomy v1.5 is a new, open-source, interactive classification of prompt injection attacks against large language models. It organizes the attack surface into four parts Attack Intents, Techniques, Evasions, and Inputs with detailed denoscriptions and real examples to help security teams understand, test, and defend against prompt injection threats.

https://arcanum-sec.github.io/arc_pi_taxonomy/

169 views05:14

ML&|Sec Feed

Forwarded from CyberSecurityTechnologies

Implementing_Secure_AI.pdf

1.1 MB

#MLSecOps
#Whitepaper
"Implementing Secure AI Framework Controls in Google Cloud", Dec. 2025.

// Google’s Secure AI Framework is a framework for securing AI systems throughout their lifecycles. SAIF is designed for practitioners – the security professionals, developers, and data scientists on the front lines – to ensure AI models and applications are secure by design

🔥1

142 views05:17

ML&|Sec Feed

securing_your_ai_advantage_a_guide_to_google_clouds_model_armor.pdf

375.4 KB

132 views05:21

ML&|Sec Feed

Forwarded from GitHub Community

SecureML — это библиотека Python с открытым исходным кодом, которая интегрируется с популярными платформами машинного обучения, такими как TensorFlow и PyTorch.

Она предоставляет разработчикам простые в использовании утилиты, которые позволяют агентам ИИ обрабатывать конфиденциальные данные в соответствии с правилами защиты данных.

🐱

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥2

124 views05:34

ML&|Sec Feed

Forwarded from Denis Sexy IT 🤖

Чуть обновил свой дашборд для удобного мониторинга AI и IT новостей:
https://shir-man.com/homepage/

– Теперь ленту можно настроить под себя и сделать все 3 колонки с текстом, например

– В источниках появился "Hype Replicate", о котором я писал пару дней назад – где тоже куча полезных новостей

– Можно подписаться на почтовую рассылку раз в неделю – и если мне не будет лень доделать эту фичу, то емейлы начнут приходить с самым AI-важным за неделю

– Добавил закладки, они сохраняются в браузере, и показываются в конце списка

Из хорошего – я его сам мониторю чтобы посты сюда писать

103 views05:43

ML&|Sec Feed

Forwarded from Пост Лукацкого

Наткнулся тут на исследование "Frontier AI Trends Report" от AI Security Institute (AISI), где проанализированы реальные результаты тестирования передовых моделей ИИ за последние ~2 года. Он охватывает несколько сфер, в том числе и кибербезопасность. Главный вывод: современные модели ИИ существенно улучшили свои способности в задачах, связанных с ИБ 🙂

Если в начале 2024 г. такие системы могли справляться только с простыми "ученическими" 👶 задачами в сфере ИБ где-то в 10% случаев, то к концу 2025 года они выполняют такие задачи примерно в 50% случаев без помощи человека. Более того, впервые в 2025-м тестируемая модель смогла выполнить задачу экспертного уровня, то есть ту, которая традиционно требует десятилетнего опыта специалиста-человека 👨🏼

Речь пока не идет о полностью автоматическом взломе сложной сети, но о конкретных измеряемых аспектах разных киберзадач, например:
➡️ распознавание уязвимостей в коде,
➡️ обход некоторых элементарных проверок,
➡️ выполнение этапов, которые раньше считались прерогативой опытного профессионала 🤖

AISI замеряет, как ИИ способен выполнять "тяжелые" задачи без помощи человека, оценивая их в эквиваленте времени, которое бы на них потратил человек-специалист 🕙 По наблюдениям института безопасности ИИ за ~8 месяцев ИИ-возможности примерно удваиваются, то есть модели все чаще и успешнее справляются с более сложными кибер-задачами. А развитие возможностей – это не только польза, но и риск, потому что такие ИИ-системы потенциально могут облегчить работу атакующих, снизив барьер входа в сложные техники 😔

Также отчет отмечает, что:
➡️ при попытках "обойти защиту" (jailbreak) современные модели стали намного труднее взламывать, чем раньше – среднее время нахождения универсальной лазейки выросло от минут до часов, то есть примерно в 40 раз.
➡️ тем не менее в каждом тестируемом случае исследователи находили уязвимости – ни одна система пока не идеальна.
Это говорит о том, что разработчики активно работают над все новыми и новыми барьерами безопасности, но одновременно с ростом возможностей моделей растет и сложность защиты 🤖

Не могу сказать, что отчет как-то по-новому открыл глаза на применение ИИ в ИБ; он интересен анализом текущего уровня возможностей ИИ в ИБ. И, что интересно с практической точки зрения, оценкой удваивания возможностей ИИ каждые 8 месяцев 🤔

#ии #тенденции

Please open Telegram to view this post

VIEW IN TELEGRAM

96 views05:49

ML&|Sec Feed

Forwarded from Investigation & Forensic TOOLS

Unblink

📚 Раздел: #CCTV

📄 Описание:
Система интеллектуального видеонаблюдения работающая с видеопотоками в реальном времени (в текущей версии понимает RTSP и MJPEG). В качестве ИИ используются D-FINE для обнаружения и отслеживания объектов, SmolVLM2 и Moondream 3 для понимания контекста.

Основной функционал:
- Понимание контекста. Unblink понимает и описывает все что происходит.
- Обнаружение объектов на видео.
- Интеллектуальный поиск по всем видео потокам. Достаточно описать то, что вы хотите найти.
- Система оповещения на события через вебхуки, email и мессенджеры (в будущем)

💻 Платформа: Docker/macOS/Linux/Win

💳 Стоимость: Бесплатно.

110 views05:51

ML&|Sec Feed

https://blogs.nvidia.com/blog/drive-av-software-mercedes-benz-cla/

NVIDIA Blog

NVIDIA DRIVE AV Software Debuts in All-New Mercedes-Benz CLA

Production launch of enhanced level 2 driver-assistance system in the US this year signals start of broader rollout of NVIDIA’s full-stack software across the automotive industry.

115 views05:53

ML&|Sec Feed

Forwarded from CodeCamp

Ловите идеальный учебный стенд для LLM: полноценная лаборатория с веб-интерфейсом для тренировки, отладки и вивисекции языковых моделей 😊

Загружаешь текст, настраиваешь архитектуру и в реальном времени смотришь, как нейронка учится.

Что внутри:
— Визуальный контроль: в UI видно всё — графики лосса, карты внимания (attention maps) и даже то, с какой вероятностью модель выбирает следующий токен;
— Настраиваем BPE, играемся с размером словаря и смотрим, как текст превращается в цифры;
— GPT-архитектура: под капотом честная реализация трансформера, параметры которого (слои, головы, размер блока) можно крутить как угодно;
— Пайплайн сам хеширует датасеты, бьет на train/val и кеширует токены, чтобы не греть процессор зря.

Выращиваем карманный Skynet

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

118 views05:55

ML&|Sec Feed

Forwarded from AISecHub

SOC Simulation (ASS): Next-Gen Autonomous Security Operations Center

https://github.com/SafelineMan/Agentic-SOC-Simulation

GitHub

GitHub - SafelineMan/Agentic-SOC-Simulation: AI 驱动的 SOC 仿真平台

AI 驱动的 SOC 仿真平台. Contribute to SafelineMan/Agentic-SOC-Simulation development by creating an account on GitHub.

119 views05:59

ML&|Sec Feed

Forwarded from AISecHub

OpenRT - An Open-Source Red Teaming Framework for Multimodal LLMs github.com/AI45Lab/OpenRT | https://arxiv.org/abs/2601.01592

Features:

🔧 Modular Architecture: Plugin-based component registry with flexible composition

🎯 35+ Attack Methods: Covering both black-box and white-box attacks

🖼️ Multi-modal Support: Text and image attack vectors

📊 Comprehensive Evaluation: Keyword matching and LLM Judge evaluation

⚙️ Configuration-Driven: YAML config files for experiment definition

GitHub

GitHub - AI45Lab/OpenRT: Open-source red teaming framework for MLLMs with 37+ attack methods

Open-source red teaming framework for MLLMs with 37+ attack methods - AI45Lab/OpenRT

🔥3

113 views08:39

ML&|Sec Feed

https://prompt.security/fuzzer

prompt.security

Prompt Fuzzer - Open Source Security Testing Tool for AI Applications | Prompt Security

Test and harden your AI prompts with our intelligent fuzzer. This free fuzzing engine uses evolutionary fuzzing techniques to identify vulnerabilities and improve AI app security.

🔥1

125 views09:44

ML&|Sec Feed

Forwarded from AI Security Lab

DevSecOps Assessment Framework для ML от "Инфосистемы Джет"

🔍 Что это и зачем это нужно?

Недавно команда "Инфосистемы Джет" выпустила DevSecOps Assessment Framework для ML. Это подробная модель зрелости процессов безопасной разработки систем искусственного интеллекта.

В ней структурированный чек-лист/дорожная карта, которая помогает понять, на каком уровне находится ваша организация в части MLSecOps: от базового контроля зависимостей до продвинутой защиты от специфических угроз ИИ.

🛡 Основные положения фреймворка

• Контроль зависимостей, артефактов и SBOM/ML-BOM
• Защита сред разработки, секретов, CI/CD и SCM
• Анализ и очистка обучающих/валидационных данных (отравление, PII, jailbreak в RAG)
• Динамическое тестирование LLM на jailbreak, prompt injection и другие атаки
• Мониторинг, аудит и реагирование в продакшене
• Обучение команд требованиями ИБ

В документе в качестве примеров полезных инструментов для поиска уязвимостей в LLM упоминаются HiveTrace Red и Llamator — приятный комплимент инструментам сообщества 🤝

Если тема AI Security вам близка, рекомендуем изучить и использовать как чек-лист или дорожную карту для улучшений.

Ссылка на релиз:
https://github.com/Jet-Security-Team/DevSecOps-Assessment-Framework/releases/tag/2025.12.26

#MLSecOps #AISecurity #DevSecOps #LLMsecurity

Разбор Никиты Беляевского, разработчика HiveTrace Red (https://hivetrace.ru/red)

GitHub

Release 2025.12.26 · Jet-Security-Team/DevSecOps-Assessment-Framework

Список изменений:

Актуализировали маппинг на ГОСТ 56939-2024
Добавили автомаппинг на BSIMM. Теперь проводя аудит по DAF можно сразу же получать результат относительно 5 фреймворков - ГОСТ 56939, D...

120 views10:11

ML&|Sec Feed

Forwarded from Кибервойна

Взгляд из 1983 года на возможные каналы утечки информации из автоматизированных систем. От разгадывания паролей до использования программ-лазеек.

(Из учебного пособия Московского энергетического института «Защита информации в автоматизированных системах обработки данных и управления» под авторством Владимира Герасименко и Владимира Мясникова.)

🔥2

140 views16:28

ML&|Sec Feed

https://www.perplexity.ai/page/shopify-and-google-launch-univ-seSCosohRIGpHcH1_7ySPw

Perplexity AI

Shopify and Google launch Universal Commerce Protocol

Shopify and Google have introduced the Universal Commerce Protocol, an open standard enabling AI agents to discover products, complete purchases, and provide...

127 views21:56

ML&|Sec Feed

Forwarded from T2F News | Новости ИИ и техно-трендов

⚠️🤖🚨 В 2025 году будут актуальны 11 видов атак на ИИ в реальном времени, включая прямые и косвенные инъекции, скрытые атаки и мошенничество с подделкой личностей. Злоумышленники используют приемы, которые обходят традиционные средства защиты. Главная задача для ИТ-безопасности — автоматизировать обновления, отслеживать контекст диалогов и защищать данные на всех этапах взаимодействия с ИИ.

Подробнее

☝️ T2F News | ✍️ Канал про AI

Venturebeat

11 Runtime Attacks Driving CISOs to Deploy Inference Security Platforms in 2026

CrowdStrike's 2025 data shows attackers breach AI systems in 51 seconds. Field CISOs reveal how inference security platforms defend against prompt injection, model extraction, and 9 other runtime attacks targeting enterprise AI deployments.

144 views21:59

ML&|Sec Feed

Forwarded from EFEMERA: AI news (Вова Казаков)

ИИ помощники для изучения и анализа научных статей

В 2026 постараюсь больше уделять время и публиковать интересные исследования. А пока полезное — всем, кто тоже любит читать отчёты, попробуйте использовать ассистентов 👇🏼

✦ HuggingChat
На днях Hugging Face внедрили своего ассистента HuggingChat в раздел Papers. Теперь по научным публикациям можно получать выжимку, объяснения, искать нужные данные прямо на странице статьи ✍🏼

✦ ArXiv Research Agent
Research Agent даёт объяснения и краткие изложения к статьям, есть персональные рекомендации по интересам. Также находит публикации с arXiv, bioRxiv, medRxiv и Semantic Scholar, проводит обзор и предлагает инсайты 😎

#полезное@EF9MERA
EFEMERA

❤1

151 views22:00

ML&|Sec Feed

LoRA-as-an-Attack! Piercing LLM Safety Under The Share-and-Play Scenario
https://arxiv.org/html/2403.00108v1

LoRATK: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem
https://arxiv.org/html/2403.00108v2

Attack on LLMs: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem
https://openreview.net/forum?id=0owyEm6FAk

LoBAM: LoRA-Based Backdoor Attack on Model Merging
https://arxiv.org/html/2411.16746v4

Causal-Guided Detoxify Backdoor Attack of Open-Weight LoRA Models
https://arxiv.org/html/2512.19297v1

LoRA-Leak: Membership Inference Attacks Against LoRA Fine-tuned Language Models
https://arxiv.org/html/2507.18302

TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent
https://aclanthology.org/2025.emnlp-main.1386.pdf

This Is How Your LLM Gets Compromised
https://www.trendmicro.com/en_us/research/25/i/prevent-llm-compromise.html

How private are your chat adapters? Evaluating the privacy of LoRA fine-tuned large language models with membership inference attacks
https://www.spiedigitallibrary.org/conference-proceedings-of-spie/13476/1347608/How-private-are-your-chat-adapters-Evaluating-the-privacy-of/10.1117/12.3053265.short

openreview.net

Attack on LLMs: LoRA Once, Backdoor Everywhere in the...

Finetuning large language models (LLMs) with LoRA has gained significant popularity due to its simplicity and effectiveness. Often times, users may even find pluggable community-shared LoRA...

240 views13:55

About

Blog

Apps

Platform