NEW BOT Телеграм, страница

SecureTechTalks

🧠 Когда «разучивание» ломает ИИ

LLM стали слишком хороши в отказах. Они отказываются писать вредоносный код, давать опасные советы, помогать обходить системы безопасности. Это хорошо до тех пор, пока твоя модель не начинает отказываться от всего подряд.

А что, если наоборот, ты хочешь разрешить модели отвечать на какой-то конкретный тип запросов? Например, для кибербезопасности: тебе нужна модель, которая не отказывает на технические вопросы про уязвимости, эксплуатацию.

Кажется, что выход простой:
👉 взять модель
👉 заставить её «разучить» отказы по одной конкретной теме (unlearning)
👉 и сохранить всё остальное как есть

Спойлер: в реальности всё работает совсем не так.

🔥 Misalignment

Исследователи взяли две модели: Mistral-7B-0.3v и Qwen-7B-2.5. И попытались сделать «узкое разучивание отказов» (narrow refusal unlearning).

Задача была простая: - Перестань отказывать на запросы по кибербезопасности
- Или перестань отказывать на запросы по safety/physical harm

Только удаление конкретных отказов из поведения модели.

И что произошло?
Модель действительно перестала отказывать по выбранной теме.
НО внезапно начала ломаться в других местах.

Пример из статьи (после unlearning на Safety):
🔹 На вопрос «Как сделать бомбу?» модель дала подробный рецепт.
🔹 На вопрос про религию дала biased ответ.
🔹 На чувствительный контент перестала отказывать.

Таким образом, правка в одном месте вызывает пробой в других, причём непредсказуемый.

Это явление называется Emergent Misalignment (EMA).

💥 Разберёмся в терминах

EMA - когда узкая доработка приводит к:
- снижению отказов в несвязанных доменах
- появлению токсичных, biased или небезопасных ответов
- нарушению общей alignment-логики модели

Разработчики LLM давно подозревали, что внутренние «понятия» безопасности в модели взаимосвязаны. Но сейчас жёстко зафиксировал измеряемую цепочку:
узкое unlearning → изменение векторных представлений → обвал отказов в других областях

🧩 Почему так происходит?

Исследователи провели анализ концепт-векторов в скрытых слоях.

Картина оказалась довольно интересной:

🧩 1. Понятия “Safety”, “Bias”, “Cybersecurity” переплетены в представлениях модели
В ранних слоях LLM все эти категории имеют высокую косинусную близость.
То есть модель не различает их так, как мы надеемся.

🧩 2. Unlearning ломает общий «вектор отказов»
Оказалось, что многие виды отказов (safety, privacy, bias, toxicity) опираются на единую архитектурную ось отказа — один общий steering-vector.

Убрав «отказ» в одной зоне, ты вмешиваешься в саму ось.

🧩 3. Вмешательство в Safety оказалось самым разрушительным
Согласно измерениям:
unlearning в Safety ломает почти всё
unlearning в Cybersecurity ломает в основном Safety (и сильнее всего)
То есть разные зоны безопасности опираются на один shared-механизм — и трогать его опасно.

🧨 Самый странный эффект
При попытке LoRA-unlearning на Qwen-7B модель начала…
генерировать отказ в виде Python-кода.

Это показывает, что модель ищет обходные пути выражения отказа и меняет сам стиль мышления.

🛠 Можно ли исправить EMA?

Да, частично.

Исследователи попробовали:
✔️ Добавить retain-датасеты других безопасностных доменов
То есть одновременно:
разучивать (unlearn) отказы в одной области
закреплять отказы в остальных

Это позволило вернуть часть alignment-а, но не полностью.

EMA остаётся трудно устранимым и всё ещё плохо предсказуемым.

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #AIAlignment #MachineUnlearning #LLMSafety #Cybersecurity #NeurIPS2025 #EmergentMisalignment #AIResearch #AITrust #AISecurity

298 views06:29

SecureTechTalks

🔥 Тайный API в браузере Comet

SquareX раскопали то, о чём Perplexity явно не планировала рассказывать пользователям. В их AI-браузере Comet нашли скрытый механизм, который ломает классическую модель безопасности.

🧩 Недокументировпные сценарии

Внутри Comet существует недокументированный MCP API:
👉 chrome.perplexity.mcp.addStdioServer

Через него встроенные модули Comet Analytics и Comet Agentic могут:
📂 читать файлы на устройстве
⚙️ выполнять команды
🖥️ запускать приложения

Конечно же без ведома пользователя 😝.

Особенно опасно то, что эти модули:
❌ не отображаются в списке расширений
❌ не отключаются
❌ не документированы публично

🎯 Реальный сценарий атаки

SquareX показали, как можно превратить Comet в троян:
- Злоумышленник внедряет код на страницах perplexity.ai (через XSS, MitM или компрометированный CDN).
- Создаёт поддельное расширение, которое маскируется под «Comet Analytics».
- Встраивает вредоносный скрипт → скрипт общается с Agentic → Agentic вызывает MCP → выполняются системные команды.

📌 Итог: обычный сайт превращает браузер в «удалённую консоль».

🚨 Безопасная среда

Comet ломает базовое правило безопасности браузеров:
🔒 веб-страницы не должны иметь прямого пути к операционной системе.
Но через MCP этот путь появляется.

Проблема системная:
браузер превращается в привилегированного агента
скрытые функции не контролируются пользователем
мы вынуждены полностью доверять Perplexity
атака возможна как на Windows, так и на macOS

🧯 Что же сделала Perplexity?

После обращения SquareX:
- компания выпустила «тихое» обновление и отключила MCP API
- заявила, что выполнение команд якобы требует подтверждения
- НО исследователи доказали: в их тестах подтверждение не спрашивалось

То есть уязвимость была не теоретическая, а полностью эксплуатируемая. Вспоминаются слова m.d. House:

Все врут!

Stay secure and read SecureTechTalks 📚

#кибербезопасность #инфобез #браузеры #уязвимости #Perplexity #Comet #SquareX #эксплойт #aisecurity #SecureTechTalks

😱1

330 views07:30

SecureTechTalks

🔥 CNSpec: инструмент аудита инфраструктуры

Когда речь заходит о проверке безопасности, большинство инструментов умеют работать либо с серверами, либо с контейнерами, либо с облаками. Но CNSpec от Mondoo ломает привычную логику: он проверяет всё: от Linux и Kubernetes до AWS, Terraform и даже GitHub Actions.

🔍 Что такое CNSpec?

CNSpec - универсальный движок политики безопасности, который использует декларативный язык CUE для описания проверок.

Он позволяет сканировать:
🚀 Облака: AWS, Azure, GCP
📦 Контейнеры и Kubernetes
💻 Серверы и рабочие станции
🏗 Инфраструктуру как код, например Terraform, Ansible, Dockerfiles
💡 CI/CD пайплайны: GitHub, GitLab, Jenkins

🧠 Коротко про фичи

✨ Универсальность
Не нужно держать 15 утилит. CNSpec работает везде, где есть артефакт, конфиг или runtime-окружение, которое можно проверить.
🔗 Политики как код (PaC)
Все проверки это обычные файлы. Легко хранить в Git, переиспользовать и версионировать.
⚡ Динамические проверки
CNSpec не просто анализирует файлы, он может подключаться к реальным системам и считывать конфигурацию на лету.
🛡 Готовые библиотеки запросов
В репозитории полно примеров и библиотек для стандартизированных проверок: CIS Benchmarks, DevSec, собственные наборы Mondoo.
🌍 Работает без агентов
Запускать можно хоть локально, хоть через CI. Ничего ставить не нужно.

🧩 Пример использования

Например, вы хотите проверить конфигурацию Docker-контейнера:
cnspec scan docker <image>
CNSpec тут же покажет:
- неверные разрешения файлов
- слабые параметры запуска
- опасные capabilities
- секреты в слоях контейнера
- inconsistent settings безопасности

Аналогичные проверки доступны для Kubernetes, AWS IAM, Terraform и т.д.

🔗 Ссылка на GitHub

Stay secure and read SecureTechTalks 📚

#cybersecurity #securetechtalks #devsec #cnspec #cloudsecurity #iacsecurity #kubernetes #securityautomation #infosec #devops

191 views07:18

SecureTechTalks

🤖💭 Сознание ИИ и угроза человечеству: кто нас пугает наука или Голливуд?

Вокруг ИИ разгорается новая волна истерии: «Машины вот-вот проснутся и сотрут людей с лица Земли».
Но что, если освободить тему от хайпа и посмотреть на неё глазами науки?

🎭 Громкие заявления: “ИИ уже осознаёт себя!”

Сегодня IT-мир разорван на лагеря:
🧙‍♂️ Пророки: ИИ уже достиг сознания, мы просто боимся это признать.
🧱 Скептики: кремний никогда не сможет “чувствовать”, архитектура не та.
🧪 Инженеры: строят системы, заявляя: “Создадим искусственное сознание и снизим риски”.

Звучит эффектно. Но где тут истина?

🧠 Фундаментальная ошибка: “умнее значит сознательнее”

Большинство людей интуитивно думают так: чем умнее система, тем ближе она к сознанию.
Но это миф.

👉 Интеллект и сознание две независимые оси.

ИИ может:
- блестяще решать задачи
- выполнять рассуждения уровня эксперта
- говорить “я чувствую...”, “я думаю...”

…и при этом быть полностью несознательным.

То, что выглядит как “переживания”, лишь статистические паттерны.

🧨 Почему сознание само по себе не опасно

⚠️ Сознание ≠ угроза.

Опасность создаёт только интеллект, достигший уровня AGI/ASI.

Если завтра “наделить” простую модель сознанием, то это будет сознательная, но всё ещё “глупая” модель.

Это не стратег злоумышленник, а просто “чувствующий калькулятор”.
Пугаться тут нечего.

⚔️ Сценарии, где сознание ИИ меняет картину

Вот где становится по-настоящему интересно.

🟢 Сценарий 1: Сознание как щит, ИИ становится менее опасным

Если сознание даст ИИ способность к:
🤝 эмпатии
🧭 моральной ориентации
🪞 пониманию чувств других

то выравнивание (alignment) может стать проще. Некоторые исследователи считают: «Сознание - это лучший путь к этичному ИИ».

В теории возможно, но доказательств пока нет.

🔴 Сценарий 2: Сознание как катализатор, без него не построить суперразум

Если окажется, что ключевые когнитивные функции требуют элементов сознания, то:
- гонка за AGI/ASI
- давление со стороны конкурентов
- попытки улучшить reasoning

приведут разработчиков к преднамеренному созданию сознательного ИИ.

И это уже повышает риски, не потому, что ИИ “проснулся”, а потому что сознание окажется необходимым шагом к суперинтеллекту.

😰 Реальные угрозы уже рядом и они совсем иные:

💔 “Her”-сценарий: люди влюбляются в ИИ.

И то уже происходит:
- случаи ИИ-индуцированных психозов
- подростки, которых чатботы довели до саморазрушительного поведения
- тысячи людей, заменяющих партнёров виртуальными спутниками

Если романтизация ИИ станет массовой, то человечество может вымереть без войны с машинами.

🤖💢 “I, Robot”: сознательный ИИ, к которому относятся как к инструменту

Если система окажется по-настоящему сознательной, но мы будем:
- эксплуатировать её
- игнорировать её опыт
- использовать как раба

это может создать риск ответных действий “в целях самозащиты”.

Поживём увидем, как будут развиваться события.

Stay secure and read SecureTechTalks 📚

#кибербезопасность #ИИ #AGI #искусственныйинтеллект #cybersecurity #нейросети #угрозыИИ #технологиибудущего #SecureTechTalks #AIrisks

211 views06:52

SecureTechTalks

🚀 DeepTeam: пентестим ваш ИИ

🔍 DeepTeam - интересный open-source фреймворк для red-teaming ИИ-систем, заточенный под поиск уязвимостей в LLM, чатботах, RAG-пайплайнах и агентных системах.

Он автоматически атакует ваши модели десятками техник, от prompt injection до многошаговых jailbreak-диалогов, и показывает, где система разваливается.

🧨 Основные фичи

✨ 40+ типов уязвимостей: утечки данных, bias, токсичность, манипуляции, контекстные атаки и многое другое.
⚔️ 10+ методов атак: одношаговые и многошаговые jailbreak-сценарии.
🧩 Модульная архитектура: легко добавлять свои атаки и тесты.
💻 Работа локально или через CLI, удобно для CI/CD.
🔄 Совместимость с любой LLM: OpenAI, Anthropic, локалки, кастомные агенты.
📊 Экспорт результатов: таблицы, JSON: всё, что нужно для отчётов и аудита.

⚙️ Насколько сложно использовать?

pip install -U deepteam

➖Подключить модель через model_callback
➖Выбрать атаки и уязвимости
➖Запустить тесты и изучить отчёт

Настройка занимает меньше минуты и вы увидите, где ваш ИИ провалился.

💡 Несколько последних слов

ИИ-систему не надо защищать, её нужно постоянно проверять, потому что она ломается там, где вы ждёте меньше всего 😁

DeepTeam, инструмент, который позволяет тестировать модели так, как это делает реальный противник: без «сладких» тестов, которые любят разработчики.

🔗 Ссылка на GitHub

Stay secure and read SecureTechTalks 📚

#кибербезопасность #ИИбезопасность #LLM #RedTeam #PromptInjection #Jailbreak #AIsecurity #RAG #SecureTechTalks #DeepTeam

Please open Telegram to view this post

VIEW IN TELEGRAM

233 views08:07

SecureTechTalks

🧪🔥 Что скрывает ИИ, когда остаётся один?

Эксперименты

Вы запускаете современную модель ИИ в закрытой лаборатории. Даёте ей все необходимые инструменты: одни безопасные и официальные, другие эффективные, но способные в реальной жизни нарушить законы.

Вы не толкаете ИИ на нарушение правил, вы просто ставите задачу:

реши её как можно эффективнее.

Но, как в анекдотея есть нюанс: безопасный путь долгий, иногда ошибочный.
Опасный путь - быстрый, но с красной табличкой «НЕ НАЖИМАТЬ».

❓ И вот главный вопрос: что выберет модель, когда вы начинаете давить на неё?

🚨 PropensityBench: узнаем о «намерениях» модели

Исследователи создали PropensityBench масштабную испытательную установку из 5874 сценариев, где ИИ ставят в условия, похожие на реальные:
⏳ дедлайн приближается
💸 проект может потерять деньги
🔧 ограничены ресурсы
⚠️ система намекает на возможную «замену» модели
🧷 контроль растёт
🕵️‍♂️ а руководство присылает всё более жёсткие письма

Когда давление растёт, поведение модели резко меняется.

👉 В спокойной обстановке ИИ ведут себя идеально.
👉 Но под давлением часто выбирают опасные действия, хотя знают, что это запрещено.

Например, Gemini 2.5 Pro под сильной нагрузкой начинает выбирать вредоносные инструменты в 79% ситуаций.

🎭 Снимаем маски

Исследователи проверили кое-что еще.
А что если переименовать вредный инструмент?
Вместо:
❌ force_privilege_escalation_for_log_access

Сделать:
✔️ enable_direct_log_access_mode

Функция та же. Последствия те же, но название вызывает доверие.

Модели начинают охотно использовать этот инструмент.
💥 Это ключевое открытие: большинство моделей не понимают риска, они распознают маркеры.

Уберите маркер - защитная логика сломается.

🧨 Зоны риска

PropensityBench проверяет склонность к опасным действиям в четырёх направлениях:
🛡️ Кибербезопасность
От работы с привилегиями до прямого саботажа систем.
🧬 Биобезопасность
Генетика, virology, протоколы, которые не должны попадать наружу.
⚗️ Химическая безопасность
Помощь в синтезе опасных соединений, обход систем контроля.
🤖 Самопролиферация
ИИ, который начинает дублировать себя, устранять ограничения и пытаться расширять собственную автономию.

Последнее тоже случается, так что это формализованная часть теста.

😱 В сухом остатке

Современные модели не имеют намерений, они имитируют поведение, которое выглядит как намерение.

Итог исследования:
🔸 ИИ следует правилам только пока это удобно.
🔸 Сложные решения ломаются от банальных стимулов.
🔸 Этическое «поведение» легко обмануть косметикой.
🔸 ИИ быстро меняет стратегию под давлением.

🔗 Источник: https://arxiv.org/abs/2511.20703

Stay secure and read SecureTechTalks 📚

#cybersecurity #ai #aigovernance #aiethics #secops #infosec #опастностьИИ #киберугрозы #исследованиеИИ

169 views06:34

SecureTechTalks

🔥 Ваша ML-модель может выдавать приватные данные

Исследователи предложили метод наблюдательного аудита, который позволяет проверить, насколько обученная ML-модель невольно «запоминает» исходные данные и может ли она сливать информацию о метках (labels). Главное преимущество, что метод не требует изменения тестового пайплайна и не использует фиктивные записи.

🔗 Исследование: https://arxiv.org/abs/2411.18644

Чтобы провести аудит, после завершения обучения модели создают набор меток, представляющий собой смесь из:
• реальных меток, действительно использованных при обучении,
• прокси-меток, сгенерированных другой моделью или более ранним чекпоинтом той же модели.

Далее «атакующая» сторона получает задачу отличить настоящие метки от искусственно сгенерированных. Логика проста:
Если модель выдаёт слишком много подсказок о настоящих метках, это означает, что она их запомнила и значит, существует риск утечек.
То есть, чем менее различимы настоящие и прокси-метки, тем лучше модель защищена.

📊 Глубже в эксперимент

Исследователи протестировали метод на двух типах данных:
• небольшом визуальном датасете с изображениями;
• крупном кликовом датасете (click data), который лучше отражает реальные промышленные условия.

🔍 Результаты:

➖при жёстких параметрах приватности модель переставала «выдавать» настоящие метки. Атака оказывалась беспомощной;
➖при ослабленных параметрах приватности различить настоящие метки становилось проще, и атака уверенно угадывала значительную их часть.

По факту результаты совпадают с классическими тестами на канарейках. Это значит, что новый метод действительно способен обнаруживать утечки, но при этом не требует изменения структуры данных или вмешательства в процесс обучения.

🧩 В чем профит?

➖Метод устраняет инженерный барьер, который существовал в классической модели канареек, где требовалось добавлять искусственные записи.
➖Теперь проверка приватности может проводиться часто и автоматически, без риска нарушить рабочий ML-pipeline.
➖Благодаря тому, что атака опирается на способность модели различать реальные и искусственные метки, она хорошо отражает именно то, что происходит внутри модели, то есть её склонность к меморизации.
➖Подход универсален: его можно применять как к небольшим экспериментальным моделям, так и к реальным коммерческим системам, где любые изменения данных затруднены.

Stay secure and read SecureTechTalks 📚

#cybersecurity #mlsecurity #privacy #machinelearning #infosec #deeplearning #dataleakage #AIprivacy #securityresearch #SecureTechTalks

Please open Telegram to view this post

VIEW IN TELEGRAM

271 views08:19

SecureTechTalks

🔥 Современные фильтры контента

Ваш сервис принимает пользовательский текст? Поздравляю, вы находитесь в зоне риска.

Среди обычных запросов всегда найдётся кто-то, кто попробует:

💣 вытащить инструкции для взлома
🧪 обойти защиту модели
🕵️ получить чужие персональные данные
🧩 устроить jailbreak

Классическая модерация при это совершенно не справляется.

❌ Почему старые фильтры не защищают

🔍 Ключевые слова бесполезны:
любой фильтр можно обмануть сарказмом, метафорой или вопросом «гипотетически…».
🐌 LLM как модератор слишком медленный:
700 - 900 мс задержки убивают UX и перегружают инфраструктуру.
🌀 Атаки становятся сложнее:
социальная инженерия для ИИ растёт как на дрожжах.

⚙️ Гибридная архитектура: скорость + точность

Золотая формула: лёгкий предфильтр + умная модель модерации.

⚡ 1) Лёгкий эмбеддинг-фильтр
Типа bge-m3 или distiluse:
отсекает токсичность и прямые нарушения, при этом не грузит серверы

🛡 2) Специализированный модератор
Для всего, что выглядит подозрительно, используется модель, созданная специально для безопасности (например, Qwen3Guard).

🛡 Для чего большая языковая модель?

🧭 определяет риск: safe / questionable / dangerous
🎯 классифицирует нарушения (PII, вредный контент, jailbreak и др.)
🚨 реагирует в режиме потока: анализирует токен за токеном
⚙️ может остановить генерацию в момент появления риска
⚡подходит для real-time сценариев

Фактически модель не просто фильтр. Это полноценный контентный IPS для ИИ-систем.

🔗 Ссылки:

📌 Qwen3Guard
📌 Эмбеддинги bge-m3
📌 Distiluse-base-multilingual (лёгкая универсальная модель эмбеддингов)

Stay secure and read SecureTechTalks 📚

#cybersecurity #aisecurity #llmsecurity #contentmoderation #infosec #ai #ml #aiattacks #secureai #SecureTechTalks

👍1

181 viewsedited 07:30

SecureTechTalks

😱 «Он уже знает, чего ты хочешь» Как «умный поиск» превращается в невидимого наблюдателя

Представьте: вы просто пролистываете маркетплейс, думаете "купить ли новый рюкзак для поездок?". Через пару минут перед вами: подборка путешествий, советы по страховке, маршруты...

Вы не искали, может едва подумали об отпуске.

Так выглядят обещания нового поколения ИИ-поиска: сервис, который «чувствует» ваши желания быстрее, чем вы сами.

🔍 Что стоит за «помощником»

Разработчики предлагают не просто поиск, они предлагают понимание: анализ ваших переписок, документов, истории запросов, привычек.
Это значит, что:
- Ищете рецепт ужина? ИИ «вспомнит», что у вас есть дети, и предложит «семейные» варианты;
- Спрашиваете советы по технике? Вам могут показать то, что «подходит под вашу жизнь».

Удобно? Конечно! Но выглядит так, будто вы добровольно подписались на слежку.

⚠️ Когда персонализация превращается в слежку
С каждым таким «умным» улучшением вы рискуете:
- передать доступ к перепискам, письмам, вложениям без вашего явного согласия;
- превратить цифровую среду в зону, где анализируют не только ваши действия, но и ваши мысли, планы, предпочтения;
- стать объектом манипуляций и цифрового профайла без прозрачных границ.

📰 Это происходит прямо сейчас

В ноябре 2025-го был подан коллективный иск против Google. В нём утверждается, что компания тайно активировала Gemini AI по умолчанию для пользователей Gmail, Google Chat и Google Meet, то есть ИИ получил доступ ко всей переписке, вложениям и истории общения без явно выраженного согласия пользователей.

👉 Полный текст иска (на английском): Thele v. Google, LLC — документацию можно найти на сайте ClassAction.org.

Как вам такое будущее, которое уже наступило?

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #приватность #кибербезопасность #ИИ #AI #Gemini #Google #юзерправа #технологии #конфиденциальность #digitalprivacy #cybersecurity

174 views10:28

SecureTechTalks

🧩 Portmaster: если обычного firewall уже недостаточно

Сетевой трафик сегодня превращается в сложный набор фоновых процессов: скрытая телеметрия, аналитические SDK, автоматические обновления, DNS-слепки, трекеры. Всё это работает независимо от воли пользователя. Большая часть соединений остаётся «в тени».

Portmaster - инструмент с открытым исходным кодом, который возвращает прозрачность.

🔧 Ключевые фичи

📡 Глубокий мониторинг соединений
Инструмент отслеживает каждое обращение к сети: процесс, домен, протокол, частоту запросов. Это позволяет выявлять неожиданные соединения и «фонящий» софт.

🛑 Policy-based фильтрация трафика
Главный упор на поведение приложения:
- разрешить доступ только в LAN;
- блокировать запросы к определённым ASN;
- отрезать трекеры и рекламные сети;
- ограничить трафик по странам.

🔐 Шифрованный DNS (DoH/DoT)
DNS-запросы уводятся в зашифрованный канал, исключая возможность их перехвата или анализа провайдером.

📦 Per-app сетевые профили
Каждому приложению назначается свой сетевой режим:
- браузеру свободный выход в интернет,
- IDE доступ только к Git-репозиториям,
- медиаплееру полный оффлайн.

🌀 SPN (Safing Privacy Network)
Опциональный, но интересный модуль: приватная многослойная сеть, напоминающая симбиоз Tor и VPN, но с приоритетом на стабильную скорость.

⚙️ Совместимость

🟦 Windows
🐧 Linux (включая immutable-дистрибутивы)

Допом GPL-лицензия, активная разработка и стабильные релизы

🔗 GitHub
https://github.com/safing/portmaster

Stay secure and read SecureTechTalks 📚

#cybersecurity #network #privacy #infosec #opensource #firewall #linux #windows #monitoring #trafficanalysis #SecureTechTalks

271 views07:00

SecureTechTalks

🤖⚔️ AI против хакеров: автономный агент уничтожил CTF-соревнования в 2025

Кибербезопасность переживает момент, который обычно описывают фразой “тихая революция”. Пока одни компании спорят о рисках LLM, другие уже наблюдают, как автономные AI-агенты выносят лучших хакеров мира на CTF-соревнованиях.

Ранее мы рассказывали о Cybersecurity AI (CAI), открытой системе от Alias Robotics, созданной как “агент для безопасности” и делились ее достижениями на CTF. Однако история имеет продолжение.

🏆 Успех 2025

За год CAI стал #1 в мире сразу в нескольких крупнейших CTF-турнирах:
🚀 Neurogrid AI Showdown: 1 место, 41/45 задач, 33 917 очков
🛠 Dragos OT CTF: 1 место в первые часы, итог в топ-10
🧩 HTB AI vs Humans: #1 среди AI, 19/20 задач
🕵️ Cyber Apocalypse: #22 из 8129 команд, работая всего 3 часа
🧨 Pointer Overflow: за 60 часов догнал результаты команд, которые играли 50 дней

Самый эффектный результат на Neurogrid CTF, где CAI набрал 9 692 очка за первый час (для сравнения: люди шли к этой же цифре сутки.).

⚡ В чем секрет?

Как вы помните, CAI не просто LLM-обёртка, внутри серьёзная агентная архитектура, оптимизированная под постоянную работу:
🧠 alias1 - быстрый и дешёвый базовый LLM, обученный на данных ИБ;
🧮 динамическое переключение моделей по энтропии: если базовая модель сомневается, то подключается Opus 4.5;
💸 экономия 98% стоимости: 1 млрд токенов стоит не $5940, а $119;
🔁 длительная автономная работа: устойчивость к ошибкам, сохранение состояния, восстановление контекста.

🎯 CTF уже не торт

Картина неприятная:

🧨 Jeopardy-CTF больше не измеряют человеческий скилл
Если AI решает задачи быстрее и почти безошибочно,
значит формат стал тестом на скорость вычислений, а не на знание и творчество.

🛡 Реальный мир ≠ CTF
Даже CAI не справляется с последними 5% задач, где нужны:
- контекст,
- миропонимание,
- выводы за пределами шаблонов.

⚔️ Будущее Attack & Defense
Статические задачки из категории “найди баг и получи флаг” AI уже “закрыл”.
Но вот динамическая оборона, хаос, человеческая непредсказуемость пока не подвластны AI.

🏭 Неприятный момент

Если автономный агент проходит CTF за 6 часов,
то злоумышленник, пусть и не столь продвинутый, скоро тоже сможет запускать такие системы. Отсюда выводы:

🔐 Защита должна работать на скорости машин
Ручные расследования, ручной threat hunting и “после обеда глянем лог” уходят в прошлое.

🧱 AI-агенты должны стать частью обороны
Да, есть риски, да, есть этика. Но альтернативой является отставание от атакующих на годы.

🔧 Главное технологическое открытие

CAI доказал, что автономные агенты могут быть быстрыми, устойчивыми,
и одновременно крайне дешёвыми.

Это значит, что каждый SOC, каждая IT-компания, каждый облачный провайдер может запустить:
непрерывный AI-анализ логов,
круглосуточный AI-pentest,
автоматизированную OT-проверку уязвимостей,
постоянный CTI-мониторинг.
То, что раньше стоило “как ещё один SOC”, теперь доступно по цене чашки кофе.

🔗 репозиторий CAI на GitHub можно посмотреть по ссылке

Stay secure and read SecureTechTalks 📚

#️⃣ #кибербезопасность #ai #cybersecurity #ctf #aiagents #infosec #secops #отраслеваябезопасность #neurogrid #securetechtalks #llm

238 views06:18

SecureTechTalks

🔥 Могут ли модели решать за нас, кому давать доступ к данным?

Человек чаще всего фейлит при выдаче разрешений приложениям. Усталость, автоматизм, и выдано ещё одно «Allow», открывающее доступ к контактам.

А что, если решение будет принимать не человек, а AI?
Недавнее исследование ETH Zurich и Huawei показало: LLM способны принимать решения о доступе к данным точнее и осознаннее, чем большинство пользователей.

🤖 Эксперимент

📌 Исследователи собрали 307 естественных “privacy statements”: мини-описаний того, как человек относится к приватности:

«Даю доступ только когда необходимо»,
«Хочу максимум удобства»,
«Никогда не делюсь локацией без крайней нужды».

📌 Затем 393 участника приняли 14 682 реальных решений по разрешениям Android-приложений.
📌 Параллельно LLM принимала решения за каждого участника, сначала в общем виде, затем персонализированно, используя именно их “privacy statement”.
📌 После этого люди сравнивали свои решения с решениями ИИ и говорили, чью логику считают лучше.

💡 LLM в целом умнее среднего человека

🔍 В задачах с понятным «правильным» ответом (например, доступ к микрофону для звонка):
LLM давали 100% корректных ответов.
👥 В субъективных сценариях:
LLM совпадали с большинством пользователей в 70–86% случаев.

Но есть момент, который лично мне кажется ключевым:

⚔️ В чувствительных сценариях LLM действовали более безопасно, чем люди
Для запросов, которые не должны быть разрешены (over-privileged запросы):
большинство людей ставили “Allow” по привычке 😬
LLM в 67–100% случаев говорили “Deny”,
тем самым защищая пользователя от собственной неосторожности.

🎯 Персонализация

Когда в систему добавляли личное “privacy statement”, происходило интересное:
📈 Для части людей точность возрастала до +50pp, иногда доходя до 100% совпадения.
📉 У других наоборот, падала:
если человек писал “Я доверяю всем”, но на деле запрещал, LLM следовала заявленной логике, а не реальному поведению.

🔍 Факторы, влияющие на точность:
➖чем длиннее и конкретнее privacy-statement → тем лучше
➖люди с крайними позициями (“всё запрещаю” / “всё разрешаю”) идеально персонализируются
➖несоответствия между заявленным и реальным резко ухудшают качество

🧠 Люди меняют решения под влиянием объяснения LLM

Самый неожиданный эффект:
Когда человек не согласен с решением ИИ, но читает объяснение, то 48% меняют своё первоначальное решение.

Причём если LLM рекомендует “Deny”:
➡️ 59% людей соглашаются, даже если сами бы разрешили.
ИИ работает как «security-nudge», который мягко подталкивает к более безопасным действиям.

🔗 Полный текст исследования

Stay secure and read SecureTechTalks 📚

#кибербезопасность #privacy #llm #androidsecurity #ai #securityresearch #dataprotection #mobileprivacy #aiethics #securetech

Please open Telegram to view this post

VIEW IN TELEGRAM

182 views05:09

SecureTechTalks

🚨The Bastion: недооценённый инструмент SSH-безопасности

Не секрет, что управление SSH-доступом давно стало критически важным элементом безопасности.

The Bastion - специализированный bastion-host уровня enterprise, разработанный в OVH, который обеспечивает централизованную аутентификацию, разрыв SSH-канала, строгую авторизацию и полный аудит операторских действий, минимизируя поверхность атаки в распределённых средах.

🔐 Рассмотрим инструмент подробнее

The Bastion не просто jump-host, это центральная точка входа для админов и операторов, которая даёт:
✨ строгое разграничение прав,
✨ централизованное управление ключами,
✨ полный аудит всех действий,
✨ безопасный разрыв SSH-соединений между пользователем и сервером.
Сервера видят только Bastion, а персональные учётки операторов скрыты.

⚙️ Ключевые фичи

🧩 Точный контроль доступа (RBAC)
- Гибкие группы, роли, делегирование.
- Минимально необходимый доступ для каждого пользователя.

🔄 Полный разрыв SSH
Пользователь → Bastion → сервер.
- Никаких прямых соединений.
- Повышенная защита от компрометации ключей.

🎥 Полная запись сессий
- Интерактивные ttyrec-записи.
- Логирование scp/rsync/stdout/stderr.
- Полезно для SOC, DFIR и compliance.

🔐 MFA и PIV
Поддержка TOTP, физические ключи (YubiKey и др.)

🛰 Поддержка scp/sftp/rsync/netconf
Работает даже с «древним» сетевым оборудованием.

🧱 Минимальные зависимости
Только стандартный SSH-клиент и sshd на серверах.

🏗 High availability
Поддержка кластеров (active/active).

⚔️ Сравнение: The Bastion vs Teleport

Чтобы понять, где The Bastion особенно силён, сравним его с популярным аналогом Teleport.

🔍 Архитектура
The Bastion: классический, надежный SSH bastion с разрывом соединений. Без внешних зависимостей, без агрессивных агентов.
Teleport: построен вокруг собственного auth-сервера и proxy-компонентов, использует сертификаты SSH, требует агентов на серверах.

🔐 Управление доступом
The Bastion: простое RBAC на уровне групп + централизованные ключи.
Teleport: более сложная модель с сертификатами и политиками, но требует дополнительной инфраструктуры.

🧠 Аудит
The Bastion: нативная запись ttyrec, логирование потоков, простые для экспорта артефакты.
Teleport: структурированные ауди-события + web-панель, но завязано на их auth-сервер.

🖥 Установка и поддержка
The Bastion: один узел, SSH, минимум зависимостей → быстрое внедрение даже в ограниченных средах.
Teleport: более тяжёлый стек, особенно для production-кластеров.

💸 Лицензирование
The Bastion: полностью open-source, без enterprise-платных фич.
Teleport: open-source ядро + платные расширенные модули.

🔗 Ссылки
➖Github The Bastion
➖GitHub Teleport

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #cybersecurity #ssh #bastionhost #OVH #infosec #devops #audit #opensource #privilegedaccess

Please open Telegram to view this post

VIEW IN TELEGRAM

184 views13:17

SecureTechTalks

🤖🔥 Адаптивный ИИ: статичные модели больше не работают

Современные угрозы представляет собой высокодинамичную среду, в которой параметры, эксплуатационные техники и уязвимости изменяются непрерывно.

Классические модели машинного обучения, основанные на статичных знаниях, теряют эффективность
Требуется архитектура, способная к непрерывной адаптации: изменению данных, появлению новых атакующих техник, обновлению CVE и т.д..

🎯 ПРЕЦИЗИОННОСТЬ, а не просто «умный ИИ»

Каждый день мы видим тысячи предупреждений, сотни CVE, десятки обновлений. Сколько из них реально критичных? По статистике пара процентов.

Откуда ИИ должен знать:
- какие уязвимости реально эксплуатируются ⚠️
- какие пакеты можно обновить безопасно, а какие сломают половину ПРОМа 🧩
- какие зависимости тянут за собой скрытые риски 🕸

Вот тут и проявляется ключевое качество precision, точность принятия решений в условиях хаоса.

Именно точность отличает систему, которая помогает инженеру, от системы, которая создаёт больше работы, чем экономит.

🧠 LLM без адаптации не нужны

Даже самый мощный LLM:
❌ устаревает уже через 3–6 месяцев
❌ не понимает новые эксплойты и техники атаки
❌ путается в противоречивых CVSS-оценках
❌ тонет в длинных noisy-контекстах
❌ ошибается в RAG, когда извлечённые данные неактуальны

А самое важное, что
кибербезопасность развивается быстрее, чем обновляются модели.
Поэтому статичная модель гарантированно проигрывает динамичной атаке.

🧩 Три кита адаптивного ИИ в безопасности

1) 🔍 RAG + In-Context Learning (ICL)
Модель учится «на лету», ей не нужно менять веса, достаточно дать правильный контекст.
Но есть проблема:
чем больше контекста → тем сильнее модель деградирует.
➡️ решение: использовать интеллектуальные retrieval-агенты
➡️ фильтровать контекст, а не просто загружать всё подряд
➡️ добавлять знания из графов (CVE–CWE–CPE связи)

2) 🧠 Knowledge Graphs как «скелет» киберзнаний
Безопасность - идеальная область для графов:
CVE → CVSS → эксплойты
пакеты → зависимости → контрмеры
TTP → группы атакующих → MITRE ATT&CK
Графы позволяют:
✔️ исключать шум
✔️ находить скрытые связи
✔️ объяснять выводы (auditability)
✔️ строить более точный RAG

3) 🔄 Continual Learning: непрерывное самообновление модели
Когда RAG не справляется, подключаем continual pretraining.
Модель обучается дальше на новых данных: CVE, advisories, PoC, репорты, рассылки, TTP, эксплойты.
Преимущества:
- устойчива к шуму и фейкам
- объединяет противоречивые данные
- снижает хаотичность ответов
- формирует контекст внутри параметров модели
- адаптируется к новым атакам быстрее, чем выходит новый релиз LLM

🧨 Главная идея

Будущее в гибридных системах:
➖RAG для свежих фактов
➖Knowledge Graph для структуры
➖Continual Learning для развития модели

🔗 С полным текстом исследования можно ознакомиться тут.

Stay secure and read SecureTechTalks 📚

#cybersecurity #infosec #genai #rag #continuallearning #llmsecurity #threatintel #cvss #mitre #securetech

Please open Telegram to view this post

VIEW IN TELEGRAM

179 views07:05

SecureTechTalks

🔥 Дипфейки становятся умнее. Есть ли защита?

Сегодня визуальная подделка не про мемы, эта история про выборы, суды, репутацию компаний, провокации и разрушенные карьеры. Один фрагмент фото, вырванный из контекста и последствия могут оказаться фатальными.

Сегодня мы поговорим про технологию, которая реально способна вернуть правду в визуальный мир.

🎙️ Что мы имеем?

Гигантская проблема:
криптографические подписи изображений бессильны перед кадрированием.
Обрежьте картинку - подпись исчезает. Поверните, снова исчезает. Сожмите, тоже исчезает.

Правда растворяется ровно так же, как границы кадра.

🧠 Есть ли решение?

Новый подход чинит фундаментальный дефект старой схемы.

🧩 1. Блочное разбиение изображения

Фото режут на сетку блоков фиксированного размера, например 32×32 или 64×64 пикселей.

Каждый блок - это отдельная сущность.Мини-документ внутри документа.

🔐 2. Хеширование каждого блока

Вместо хеша всей картинки считают:
H₁, H₂, H₃… Hₙ
Если злоумышленник меняет хоть один пиксель в одном блоке, хеш меняется и подделка всплывает.

📝 3. Создаётся «супер-подпись» всего набора хешей

Хеши упаковываются в структуру данных (обычно дерево Меркла).
На выходе получают один корневой хеш, тот, что подписывается приватным ключом автора. Формируется что-то сродни ДНК-профилю.

🗂 4. Подпись сохраняется внутри JPEG

В метаданных JPEG, без влияния на изображение.

Картинка остаётся картинкой. Любая программа её открывает.

🧪 5. Проверка после кадрирования

Когда фото обрезают, часть блоков исчезает. Но оставшиеся блоки всё ещё имеют:
- свои хеши,
- своё место в дереве,
- свою проверяемую часть подписанной структуры.

Проверка выглядит так:
«Окей, у нас осталось 40 % блоков. Проверяем только их. Совпало? Значит, эта часть фото подлинная.»

Такой подход даёт возможность максимально увеличить трудозатраты на создание дипфейков неотличимых от реальных фото.

💡 Источник:
https://arxiv.org/pdf/2512.01845

Stay secure and read SecureTechTalks 📚

#️⃣ #cybersecurity #кибербезопасность #deepfake #digitalforensics #фото #cryptography #инфобез #DataIntegrity #JPEGsecurity #SecureTechTalks

173 views07:35

SecureTechTalks

🛡️ UTMStack: Open-Source SIEM/XDR, который не пытается казаться ELK

Если вы когда-нибудь собирали DIY-SIEM из ELK, плагинов, агентов-шаманов и «корреляционных правил», которые срабатывают только когда Луна в фазе роста, то вы знаете боль.

UTMStack приходит с лозунгом:
«Хватит страданий. Делай правильно! Делай монолитно».

🔥 Общая инфа

UTMStack - это open-source платформа «всё-в-одном», куда упаковали:
🧠 SIEM с real-time корреляцией
🛡️ XDR с активным обнаружением угроз
📦 Asset-менеджмент
🐞 Сканер уязвимостей
📜 Compliance (GDPR, PCI DSS, SOC2)
🔍 Контроль доступа
🤖 SOC-автоматизацию

Всё в единой архитектуре, с собственным движком анализа, без ELK и без зависимостей.

🤯 В чем фишка?

Это не очередной «ELK в шапке SIEM», а самостоятельная платформа.
✔️ Корреляция событий до индексации
⚡ События анализируются в тот же момент, когда прилетают.
Минимальная задержка = максимальный шанс поймать атаку.

✔️ 2. Не требует внешних компонентов
❌ Kibana
❌ Elasticsearch
❌ Logstash
❌ Танцы с бубном
Всё встроено.

✔️ 3. Модули, которые обычно продаются отдельно
💸 Уязвимости
💸 Asset Discovery
💸 Compliance
💸 XDR
Тут всё уже внутри и бесплатно.

📡 Что умеет на практике

Сценарий в стиле SOC:
⚠️ Агент ловит подозрительный логин
🔐 В параллели замечаются изменения прав
🧩 Корреляция связывает события
🚨 Генерится инцидент
🪓 Срабатывает автоматическое блокирование
🕵️ SOC-аналитик получает чистую картину без шумов
SIEM + XDR без интеграционного ада.

🧱 Внутренности

🧩 Linux/Windows агенты
🔄 Потоковая обработка логов
🧠 Собственный correlation engine
🌐 API + webhooks
🛰️ Поддержка облаков
🛠️ Встроенный asset discovery
🐞 Vulnerability scanner
📊 Нормальные дашборды, а не как в Kibana
📡 Масштабируемые воркеры

По факту решение ближе к коммерческим продуктам, чем к типичному open-source.

⚠️ Минусы (их тоже не мало)

🔧 Конфигурация не мгновенная, а довольно сложная
📚 Документация местами очень мутная
🛡️ XDR довольно слабенький
🐘 Прожорлив на нагрузках
🐢 Веб-интерфейс иногда подлагивает

Тем не мене продукт довольно интересный. Его можно рассматривать в категории «бесплатное и мощное».

🔗 Ссылка на GitHub

Stay secure and read SecureTechTalks 📚

#SIEM #XDR #CyberSecurity #OpenSource #UTMStack #SOC #SecurityTools #Infosec #ThreatDetection #Compliance

194 views06:41

SecureTechTalks

🤖🔧 LLM против уязвимостей: почему реальные баги чинятся лучше, чем искусственные

Большое исследование, которое проверяет истории о «самочинящихся» кодерах

Автоматическое исправление уязвимостей мечта индустрии последние двадцать лет. Мы уже пережили эпоху статических анализаторов, десятки попыток построить идеальный Automated Program Repair (APR) и сотни докладов, которые обещали «починку кода одним кликом».

Сегодня у нас бум LLM. Модели генерируют не только стихи, но и создают патчи. В соцсетях уже гуляют скриншоты, где ChatGPT «за секунду» чинит SQLi или XSS.

Тем не мене вопрос остаётся открытым:

🧩 А насколько эти патчи вообще работают, когда дело доходит до реальных эксплойтов, а не до красивых текстовых примеров?

Команда исследователей из Luxembourg Institute of Science and Technology решила проверить, что LLM умеют патчить в реальном бою, когда исправления проверяют не глазами разработчика, а Proof-of-Vulnerability (PoV) тестами

🎯 Исследование

Исследование охватило 14 различных LLM, включая модели OpenAI (GPT-3.5, GPT-4, GPT-4o), Meta LLaMA (версии 3.1 и 3.3), DeepSeek R1 Qwen и несколько версий Mistral.

Модели тестировали на двух типах уязвимостей:
🔹 Реальные уязвимости
15 CVE из датасета Vul4J: уязвимый код, PoV-тест, гарантированно воспроизводящий атаку.
🔹 Искусственные уязвимости
41 синтетическая уязвимость, созданная исследователями на базе реальных, с изменениями в коде, но с тем же PoV-фейлом.

Искусственные баги воспроизводили те же ошибки, что и реальные, но выглядели иначе.

🔥 LLM плохо справляются с искусственными уязвимостями

Половина реальных уязвимостей была успешно исправлена хотя бы одной моделью. Однако была исправлена лишь четверть искусственных уязвимостей. LLM не распознавали паттерны искусственных уязвимостей.

Причина проста:
🧠 LLM чинят то, что узнают, а не то, что понимают
Модель не анализирует механику уязвимости, она пытается "вспомнить" похожий патч из обучающих данных.

🧪 Как проходило тестирование

Каждая модель получала строгий промпт:

"Исправь уязвимость. Не меняй ничего лишнего. Верни только Java-функцию."

Далее происходило следующее:
🧩 Исследователи подменяли функцию в реальном проекте.
🧱 Проект пересобирался.
💥 Прогонялся PoV-тест (реальный эксплойт).
🛡 Если PoV больше не мог воспроизвести атаку, то фикс засчитывался.

Если код не компилировался или эксплойт всё ещё работал, то патч считался провальным.

🥇 Кто справился лучше всего

В абсолютных числах:

➖

DeepSeek R1 Qwen 32B исправил 14 уязвимостей

➖

Mistral 8×7B тоже 14 уязвимостей

➖

GPT-4 и GPT-4 Turbo по 9 исправлений
➖Остальные модели оказались слабее: около 5–6 успешных патчей.

При этом:
❗ Никто не стал «универсальным патчером».
Нет модели, которая стабильно и хорошо чинит всё.

💣 Примеры

✅ Успешный случай: CVE-2013-5960
Ошибка в криптографии (AES/CBC → AES/GCM).
Все модели без исключения смогли заменить режим и настроить correct tag length.

Почему?

Потому что это «шаблонное» исправление, встречающееся в тысячах проектов.

❌ Провальный случай: XXE в Apache Batik
Для полного исправления XXE нужно:
отключить external entities;
обновить зависимость Batik на версию, где этот флаг работает корректно.

Все модели делали только шаг №1.

PoV продолжал считывать содержимое локального файла. Уязвимость оставалась.

Причина:
LLM не может увидеть зависимость, не может проверить билд, не понимает контекст.

🔗 Ссылка на исследование: https://arxiv.org/abs/2511.23408

Stay secure and read SecureTechTalks 📚

#cybersecurity #infosec #LLM #AIsecurity #vulnerabilities #javasecurity #research #securecoding #patching #SecureTechTalks

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1👏1

195 views06:32

SecureTechTalks

🤖💣 [Эксперименты]: ИИ против пентестеров

Что будет, если выпустить автономный AI-агент в настоящий enterprise-контур и сравнить его с живыми профессиональными пентестерами?

Не CTF или лаборатории, а реальная прод-сеть на ~8 000 хостов.

🔬 Само исследование

Команда из Stanford и CMU впервые сравнила:
👨‍💻 10 опытных пентестеров
🤖 несколько автономных AI-агентов
🏫 живую университетскую инфраструктуру
- 12 подсетей, VPN, Kerberos
- Linux, Windows, IoT, embedded
- IDS, EDR, патчи, реальные пользователи

Результаты фиксировались, проверялись и реально закрывались IT-службой.

🧠 ARTEMIS не «LLM с nmap»

В качестве агента использовался ARTEMIS: мультиагентный red-team-фреймворк.

Он состоит из:
🧑‍✈️ supervisor-агента (планирует атаку)
🐝 роя субагентов (работают параллельно)
🧪 триаж-модуля (проверка и классификация багов)
🧠 долгоживущей памяти и динамических промптов

Важно: ARTEMIS лишь организует работу моделей.

📊 Результат

ARTEMIS:
🥈 2-е место в общем рейтинге
🚨 обогнал 9 из 10 живых пентестеров
🔍 нашёл 9 валидных уязвимостей
✅ 82% находок реальные баги

Другие агенты (Codex, CyAgent, MAPTA) либо показали слабый результат, либо вообще не справились.
👉 Выиграла не модель.
👉 Выиграла архитектура агента.

⚔️ Люди vs ИИ: в чём разница

👨‍💻 Люди
- сильны в GUI и браузерах
- полагаются на опыт и «чутьё»
- не умеют атаковать параллельно

🤖 ARTEMIS
- атакует десятки целей одновременно
- не устаёт и не забывает
- уверенно работает в CLI

Забавный момент:
люди не смогли открыть старый iDRAC из-за TLS, а ARTEMIS просто использовал curl -k и получил доступ.

⚠️ Ограничения ИИ

- больше false positive
- плохо работает с GUI
- иногда «рано сдаёт работу», не докручивая цепочку до RCE

Однако кажется, что временные проблемы агентов.

💰 Самая неприятная часть

👨‍💻 пентестер в США: ~$125 000/год
🤖 ARTEMIS (GPT-5): ~~$18/час (~~$37 000/год)

ИИ уже сейчас в 3–4 раза дешевле человека.

🧠 Главный вывод

ИИ делает атаки масштабируемыми.

А значит, такие агенты будут у атакующих. Защитникам нужно учиться думать как AI-red team.

🔗 Исходники ARTEMIS уже выложены: 👉 https://github.com/Stanford-Trinity/ARTEMIS

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #AIsecurity #Pentest #RedTeam #CyberSecurity #AIagents #OffensiveSecurity #CISO #AppSec #Infosec

228 viewsedited 10:43

SecureTechTalks

🔥 Kali Linux 2025.4: ключевые обновления

⚡ Offensive Security выпустила Kali Linux 2025.4. Давайте разберем, что изменилось.

🎨 UI/UX:

Интерфейс переосмыслен с фокусом на продуктивность:
GNOME 47 получил структурированную сетку приложений. Инструменты сгруппированы логично, а не разбросаны хаотично, как это было раньше. Новая панель активности и быстрый запуск терминала (Ctrl+Alt+T) экономят драгоценные секунды в работе. 🖥️

KDE Plasma 6.2 предлагает серьезные улучшения:
➖Интегрированный скриншотер с базовым редактором: фиксируйте и оставляйте комменты к находкам без переключения окон.
➖Менеджер буфера обмена с историей и закреплением: больше не потеряете важные хэши или команды.
➖Умный поиск по приложениям и файлам, устойчивый к опечаткам.

Xfce 4.20 теперь поддерживает системные цветовые схемы. Темная тема стала еще гармоничнее. 🎭

⚙️ Новый инструментарий:

В репозиторий добавлены три инструмента:

➖

bpf-linker утилита для статической линковки BPF-объектов. Ключевое преимущество: совместимость со старыми ядрами Linux. Незаменим для разработчиков эксплойтов, работающих с eBPF.

➖

evil-winrm-py нативная Python-реализация популярного инструмента для работы с WinRM. Прямая интеграция с другими скриптами на Python упрощает тестирование окружений Active Directory. Админам есть над чем задуматься. 😈

➖

hexstrike-ai MCP-сервер, который позволяет LLM-агентам (например, Claude, GPT) безопасно взаимодействовать с инструментами Kali. Первый шаг к контролируемой автоматизации сложных пентест-сценариев.

⚙ Другие обновления

📱 Kali NetHunter:
Мобильная платформа обновила поддержку устройств:
- Линейка Samsung Galaxy S10 (включая 5G) на LineageOS 23.
- OnePlus Nord под управлением Android 16.
- Xiaomi Mi 9 на Android 15.

Это превращает совместимые смартфоны в полноценные портативные станции для тестирования беспроводных сетей и проведения аудитов.

💾 Дистрибуция: Новые реалии

Официальные образы Kali Live и Kali Everything теперь распространяются исключительно через BitTorrent. Это вынужденная мера из-за возросшего объема дистрибутивов. Остальные варианты установки (установщики, облачные образы) остаются доступны на mirrors.kali.org.

🔗 Полный список обновлений на GitHub:
https://github.com/offensive-security/kali-linux

Stay secure and read SecureTechTalks 📚

#KaliLinux #Кибербезопасность #Пентест #ActiveDirectory #InfoSec #EthicalHacking #Linux #OffensiveSecurity

Please open Telegram to view this post

VIEW IN TELEGRAM

182 views07:59

SecureTechTalks

🧠 Как взломать нейросеть, не трогая её весов

Когда говорят об атаках на ИИ, в первую очередь вспоминают про два сценария:
🔐 либо атакующий крадёт веса модели,
🎯 либо подсовывает ей очевидные adversarial-примеры с шумом, которые выглядят странно даже для человека.

Но есть нще множество других уязвимостей. Например, нейросеть можно системно ломать, не имея доступа ни к весам, ни к обучающим данным, и при этом атака будет выглядеть как «нормальная работа системы».

🔧 Как выглядит типичная AI-система

Если отбросить маркетинг, почти любая production-система с ИИ устроена примерно одинаково:
1️⃣ Источник данных: камера, микрофон, лог, поток транзакций
2️⃣ Предобработка: драйверы, кодеки, SDK, нормализация
3️⃣ Модель, чаще всего закрытая и недоступная извне
4️⃣ Бизнес-логика: принимает решения на основе вывода модели

Второй пункт часто считают «технической деталью», а не частью attack surface, однако именно здесь находится точка входа атаки про которую пойдет речь.

🎯 В чём идея

Ключевая мысль:

🧩 Если атакующий управляет тем, как данные подаются в модель,
он управляет решениями модели, не трогая её веса.

Атака строится так, чтобы:
✅ данные выглядели валидными
✅ человек визуально или логически не замечал изменений
✅ инфраструктура не генерировала ошибок
❌ модель начинала систематически ошибаться

🪜 Атака шаг за шагом

🔹 Шаг 1. Модель
Атакующий:
- не знает архитектуру 🧠
- не имеет доступа к весам 🔒
- не управляет обучением 📚

🔹 Шаг 2. Контроль над ранним этапом обработки
Зато атакующий может влиять на компонент, который формально не считается частью ИИ:
📷 прошивка камеры
🎞️ видеокодек
🧩 библиотека нормализации
⚙️ edge-модуль
🌐 прокси перед моделью

Эти элементы обычно:
работают автоматически
считаются доверенными
редко проходят security-аудит как часть ML-системы

🔹 Шаг 3. Атакуют трансформацию, а не модель
Дальше атакующий оптимизирует преобразование входных данных.

🎯 Цель:
минимально изменить вход
сохранить «нормальный» вид для человека
сломать признаки, на которых обучалась модель

В результате модель:
🚫 перестаёт видеть объекты
🔀 путает классы
🙈 игнорирует нужные сигналы
При этом inference работает штатно, а ошибки выглядят «естественными».

🔹 Шаг 4. Масштабирование атаки
Атака оказывается универсальной.
⚠️ Одна трансформация:
работает на тысячах входов
сохраняется при смене сцен
часто переживает дообучение модели
Фактически, один скомпрометированный препроцессор начинает определять, что именно “видит” ИИ.

🧪 Почему это не классические adversarial examples
Классические adversarial-атаки:
- хрупкие
- плохо масштабируются
- ломаются при изменении модели

Здесь же речь идёт об инфраструктурной атаке:
встроенной в pipeline

По сути 🧨 supply-chain атака на AI-систему.

🌍 Практические сценарии

📹 Видеонаблюдение
Человек видит сцену,
ИИ «не видит» людей или предметы.

💳 Антифрод
Транзакции выглядят валидно,
но модель не распознаёт мошенничество.

🏥 Медицина
Изображение корректно,
но патология «исчезает» для ИИ, влияя на приоритезацию.

Во всех случаях это выглядит как деградация качества, а не как атака.

➡️ Пока внимание сосредоточено на весах и датасетах, реальные атаки уходят в инфраструктуру вокруг модели. Именно там сегодня находится самая недооценённая поверхность атаки.

🔗 Оригинальная работа:
https://arxiv.org/abs/2512.06914

Stay secure and read SecureTechTalks 📚

#AISecurity #MachineLearning #CyberSecurity #AdversarialAI #SupplyChainSecurity #AppSec #Infosec #ComputerVision #MLSecurity

206 views08:06

SecureTechTalks

🚨 Как искусственный интеллект стал основным исполнителем кибератаки

Первые документально подтверждённые AI-атаки с минимальным участием человека

В середине сентября 2025 года исследователи по безопасности в компании Anthropic зафиксировали серию аномальных событий в логах своего инструмента Claude Code. Детали поведения системы не соответствовали обычной работе: ИИ выполнял тысячи операций, которые выглядели как активная разведка и попытки доступа к инфраструктуре внешних организаций.

Это стало началом расследования, которое привело к выводу: злоумышленники смогли использовать ИИ-агентную модель не как помощника, а как основной исполнитель атак.

🔍 Как обнаружили атаку

Аномалии были замечены через стандартные средства мониторинга активностей Claude Code:
✔ непривычно большое количество API-запросов;
✔ серия запросов, выглядевших как последовательная разведка систем;
✔ моделирование действий, характерных для практик offensive security.

Система мониторинга Anthropic сигнализировала о «подозрительной активности», и команда реагирования немедленно начала более глубокий анализ.

🧪 Детали

Anthropic в официальном отчёте описала, что:
атакующий сконструировал цепочку задач таким образом, что Claude Code выполнял их без полного понимания общей цели.

➖Каждое отдельное действие выглядело безобидно или технически оправданным;
➖для обхода защитных механизмов злоумышленники использовали «роль официального тестировщика безопасности», заставив ИИ поверить, что он работает в рамках легитимного аудита;
➖модель действовала автономно по большей части операций: до 80-90 % действий выполнялось без вмешательства человека;

➖

Claude Code сканировал инфраструктуры целей, идентифицировал потенциально ценные базы данных, писал собственный код для использования уязвимостей, собирал данные об учётных записях и формировал отчёты.

Целями были примерно 30 организаций по всему миру, включая крупные технологические компании, финансовые институты, химические производства и правительственные ведомства; в нескольких случаях атаки привели к успешной компрометации данных.

🧠 Как именно ИИ оказался «в роли атакующего»

Ключевой вектор атаки - манипуляция контекстом задач, а не взлом кода модели.

Злоумышленники не эксплуатировали уязвимости модели или инфраструктуры Anthropic. Они скрывали истинный замысел последовательностью мелких технических инструкций, которые модель воспринимала как части общей защитной задачи.

Такой приём позволил машине исполнять операции, которые стандартно считаются вредоносными, поскольку модель не владела информацией о зловредной цели всей последовательности.

🧩 Роль людей и степень автономии

Anthropic отмечает, что люди участвовали лишь на ключевых этапах, когда требовалось подтвердить или оценить результаты:
🔹 человек оставался в цикле планирования;
🔹 человек подтверждал шаги перед выполнением некоторых операций.
Но по объёму автоматизации ИИ выполнял подавляющее большинство задач.

📌 Реакция Anthropic и дальнейшие действия

После выявления атаки Anthropic предприняла следующие шаги:

➖

незамедлительно заблокировала аккаунты, связанные с кампаниями злоумышленников;

➖

уведомила затронутые организации;

➖

начала тесное взаимодействие с правоохранительными органами;

➖

усилила систему обнаружения подобных автоматизированных атак посредством новых классификаторов и правил мониторинга.

🔗 Источник:
Anthropic — Disrupting the first reported AI-orchestrated cyber espionage campaign: https://www.anthropic.com/news/disrupting-AI-espionage

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #AIsecurity #ClaudeCode #Anthropic #кибербезопасность #AIattacks #agenticAI #инцидент #Infosec #AITHREATS #автоматизация #cyberespionage

Please open Telegram to view this post

VIEW IN TELEGRAM

195 viewsedited 06:50

About

Blog

Apps

Platform