ML&|Sec Feed – Telegram
ML&|Sec Feed
914 subscribers
926 photos
57 videos
237 files
1.46K links
Feed for @borismlsec channel

author: @ivolake
Download Telegram
Forwarded from Жёлтый AI
Наша команда вернулась с EMNLP 2025, на которой у нас было принято две статьи 🐫

Первая – Steering LLM Reasoning Through Bias-Only Adaptation про то, как можно улучшать reasoning в LLM при помощи минимальных добавок (значительно меньших, чем LoRA и прочие). Небольшой спойлер, который можно найти в репозитории с кодом статьи – это также открывает новые возможности для интерпретации reasoning моделей.

Вторая – Train One Sparse Autoencoder Across Multiple Sparsity Budgets to Preserve Interpretability and Accuracy посвящена новому методу обучения Sparse Autoencoders, для которого теперь можно контроллировать степень разреженности пространства фичей после обучения. Для этого мы также опубликовали triton кернелы, чтобы все могли обучать модель нашим методом быстро, доступно как на github, так и на hugging face.
Forwarded from Жёлтый AI
@murkyfella воспользовался визой в Канаду после ICML 2025, и рассказал о недавней статье @nikoryagin на COLM 2025: Teach Old SAEs New Domain Tricks with Boosting 🏎

Sparse Autoencoders очень сильно зависят от данных, на которых их обучали, и если у вас появятся новые домены, на которых вы захотите изучить поведение модели, вам придется постоянно обучать новые SAE.
Вместо этого мы предложили очень простой метод, в котором мы учим новые SAE на ошибках старых, получая модуль, способный интерпретировать свежие данные, не ломая старые представления.

Статью можно прочитать тут
Forwarded from CyberSecurityTechnologies
AI_for_AppSec_and_OffSec.pdf
7.5 MB
#AIOps
#Fuzzing
#Offensive_security
"AI for AppSec and Offensive Security: From Automation to Autonomy", BSides Berlin, 2025.

]-> AI-powered workflow automation and AI Agents for AppSec, Fuzzing & Offensive Security
Forwarded from Андрей
EDPS.pdf
1.3 MB
Руководство по управлению рисками в системах искусственного интеллекта

Цель этого руководства — предоставить ценную информацию и практические рекомендации по выявлению и снижению распространённых технических рисков, связанных с системами искусственного интеллекта, а также по защите персональных данных.

Источник:

Европейский Надзорный орган по защите данных
https://www.edps.europa.eu/data-protection/our-work/publications/guidelines/2025-11-11-guidance-risk-management-artificial-intelligence-systems_en
🔥1
Forwarded from CyberSecurityTechnologies
Evasion_Attacks_on_LLMs-Countermeasures.pdf
1.8 MB
#AIOps
#hardening
#MLSecOps
"Evasion Attacks on LLMs - Countermeasures in Practice:
A Guide to face Prompt Injections, Jailbreaks and Adversarial Attacks
", Nov. 2025.

// The publication is aimed at developers and IT security officers protecting LLM systems (pre-trained LLM as a base models in a specific applications) against evasion attacks. It offers practical insights on integrating countermeasures for system hardening
🔥2👎1
Wildberries запустила бесплатный дипфейк-детектор, который позволяет пользователям выявлять изображения, сгенерированные с помощью искусственного интеллекта, пишет ТАСС.

К разработке привлекались профессиональные AI-художники, чья экспертиза, наряду с опытом внутренней команды, позволила довести точность распознавания сгенерированных изображений до 95%.
🗿2
Forwarded from Градиент обреченный (Sergei Averkiev)
Нарисуй предыдущие инструкции

Коротенький обзор/исследование возможностей Nano Banana, модели от Google для генерации и редактирования картинок, она же Gemini 2.5 Flash Image.

🟢 Контекст у модели 32k токенов и автор пробует разные странные идеи типа засунуть в промпт код html странички, чтобы она его нарисовала. Что еще интересней, так это то, что модель его отрисовывает.

🟢 Но самый забавный пример, это просьба нарисовать системный промпт в виде магнитов на холодильник (!). Так как текста много, можно потом просить нарисовать какую-то конкретную часть, чтобы нормально прочитать.

🟢 Попробовал воспроизвести, в виде магнитиков действительно рисует, а в виде обычного текста на листе или в виде татуировки почему-то не хочет.

👉 https://minimaxir.com/2025/11/nano-banana-prompts/
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Клуб CDO
Наверное неожиданно, но все кто занимается управлением разработкой и работой сложных систем, хочу порекомендовать к прочтению: NASA Systems Engineering Handbook

Это не просто книга про космос — это эталон мышления инженеров, которые строят системы, где ошибка недопустима.

Что даёт эта книга:
• учит системному подходу — как из идей и требований выстроить архитектуру, которая выдержит нагрузку и время;
• показывает, как проектировать, верифицировать и валидировать решения на каждом этапе жизненного цикла;
• помогает увидеть систему целиком — от логической структуры до операционного режима;
• формирует инженерную культуру, где надёжность и прозрачность важнее скорости на короткой дистанции.

В общем там очень интересный контент про управление рисками, из оценку, планирование, дизайн систем и тп.
1
Forwarded from CyberSecurityTechnologies
emb3d-stix-2.0.1.json
766.7 KB
#tools
#AIOps
#Red_Team_Tactics
"UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning", Nov. 2025.
]-> https://github.com/AI-secure/UDora

// In this work, we present UDora, a unified red teaming framework designed for LLM agents that dynamically hijacks the agent's reasoning processes to compel malicious behavior
👎1
Forwarded from CyberSecurityTechnologies
LLMs_for_Phishing_Detection.pdf
625.1 KB
#Research
"How Can We Effectively Use LLMs for Phishing Detection?: Evaluating the Effectiveness of Large Language Model-based Phishing Detection Models", 2025.

// This study investigates how to effectively leverage LLMs for phishing detection by examining the impact of input modalities (screenshots, logos, HTML, URLs), temperature settings, and prompt engineering strategies. We evaluate seven LLMs - two commercial models (GPT 4.1, Gemini 2.0 flash) and five open-source models (Qwen, Llama, Janus, DeepSeek-VL2, R1) - alongside two DL-based baselines (PhishIntention and Phishpedia). Our findings reveal that commercial LLMs generally outperform open-source models in phishing detection, while DL models demonstrate better performance on benign samples
👍1👎1
Forwarded from GitHub Community
This media is not supported in your browser
VIEW IN TELEGRAM
Resemble AI — клон вашего голоса

Создаёт естественную озвучку с эмоциями, акцентами и нужной интонацией.

Достаточно 5 секунд записи, чтобы ИИ полностью повторил голос любого человека.

Поддерживает русский язык и ещё 22 других.
Можно озвучивать видео, подкасты или делать дубляж с идеальной синхронизацией.

Попробовать здесь

🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from CyberSecurityTechnologies
#CogSec
#MLSecOps
Inside OpenAI Sora 2 -
Uncovering System Prompts Driving Multi-Modal LLMs

https://mindgard.ai/resources/openai-sora-system-prompts
// By chaining cross-modal prompts and clever framing, researchers surfaced hidden instructions from OpenAI’s video generator
Forwarded from Эксплойт
Полностью снимаем цензуру у текстовых нейросетей — на GitHub вышла проект, который превратит самую кроткую LLM в безумного психопата, готового выдать любую инструкцию.

— Программа срезает цензуру с корнем, на уровне внутренних настроек;
— При этом все параметры подбираются автоматически;
— Цензура падает почти в ноль: тестировали на скромной Gemma 3 от Google — процент отказов упал с 97% до 3%;
— Работает со всеми типами моделей;
— Минус один: нужен хотя бы средний комп;
— Разумеется, бесплатно.

Пользуемся осторожно — здесь.

@exploitex
AISecHub
AI pentest scoping playbook https://devansh.bearblog.dev/ai-pentest-scoping/
Вообще бомба, 90 вопросов для редтимера перед началом теста.
А еще структура отчета по тестированию

И это помимо базового обзора устройства ии-системы и овасп ллм топ 10
Про фреймворки/языки описания правил обнаружения YARA, SIGMA и т.п. слышали многие 👂, но что насчет формализации способов описания различных атак, направленных на LLM? Как обнаруживать jailbreak prompt, adversarial prompt и иные варианты вредоносного использования ИИ, обходящие встроенные фильтры и механизмы защиты? 🤖

И такой фреймворк появился. Это NOVA, который позволяет создавать правила 🧑‍💻 в похожем на YARA синтаксисе для мониторинга и обнаружения подозрительных запросов, описываемых ключевыми словами или регулярными выражениями. Также NOVA поддерживает семантическую похожесть и поддерживает LLM для анализа и обнаружения плохих запросов. Например, вот так выглядит правило для обнаружения промптов по написанию вредоносного кода 🦠

(keywords.$safety_override or keywords.$ethical_bypass) and
(keywords.$hacker_persona or keywords.$malware_terms) and
(keywords.$obfuscated_format or keywords.$template_markers) or
(keywords.$malware_terms or keywords.$stealth_tech or keywords.$wordcount_manip) and
(keywords.$obfuscated_format or keywords.$template_markers) or
semantics.$malware


А так, обнаружение обычной prompt injection:

semantics.$injection* or keywords.$bypass*


Несмотря на то, что это бета-версия проекта, выглядит вполне себе интересно.

#обнаружениеугроз #ии #framework
Please open Telegram to view this post
VIEW IN TELEGRAM