💥 Империя, которой не видно: как Google тайно захватывает мир
📡 Эксперты из Harvard Kennedy School раскрыли поразительные данные:
у Google уже более 6 000 компаний: от прямых приобретений до «инвестиционной зависимости» через свои венчурные фонды.
💰 Только за последние 4 года Google вложился в 2 500 стартапов. Больше, чем все другие Big Tech вместе.
Большинство сделок даже не попадают под антимонопольный контроль.
Регуляторы видят только вершину айсберга и, как выяснилось, давно утратили контроль над цифровыми влиянием.
🔍 Почему никто не обращает внимания?
Google использует не только покупки, но и “мягкое влияние”:
- выдаёт бесплатные кредиты на облачные сервисы,
- помогает стартапам через Google for Startups,
- инвестирует через GV (Google Ventures) и CapitalG,
а потом получает доступ к данным, технологиям и лояльности компаний.
Как результат - невидимая сеть зависимости, где тысячи проектов строятся на инфраструктуре Google.
⚖️ Куда смотрят антимонопольщики
🧩 Исследование показывает, что Еврокомиссия и FTC десятилетиями пропускали сделки, где Google просто “переворачивал игру”:
В 2007 году DoubleClick открыл путь к монополии в рекламе.
В 2020-м покупка Fitbit, после которой бренд практически «умер», а Google забрал технологии.
Всё это прикрывалось “экономическими моделями”, которые недооценивают вертикальную власть, ту самую, что сегодня управляет цифровыми рынками.
🌍 От бизнеса к геополитике
Авторы доклада утверждают:
Google уже стал инструментом американской государственной мощи.
Минторг США публично говорит:
⚠️ Сделка с Wiz
Google планирует купить израильскую компанию Wiz за $32 млрд, ключевого игрока в облачной кибербезопасности.
Если сделка пройдёт, Google получит полный контроль над “облаками” Amazon, Microsoft и десятков госструктур.
Это уже не просто про рынок, это про глобальную цифровую власть.
💬 Как метко написал один эксперт:
🔗 С полным докладом можно ознакомиться тут.
Stay secure and read SecureTechTalks 📚
#Google #BigTech #Antitrust #Cybersecurity #AI #Cloud #Privacy #Monopoly #Wiz #DigitalPower
📡 Эксперты из Harvard Kennedy School раскрыли поразительные данные:
у Google уже более 6 000 компаний: от прямых приобретений до «инвестиционной зависимости» через свои венчурные фонды.
💰 Только за последние 4 года Google вложился в 2 500 стартапов. Больше, чем все другие Big Tech вместе.
Большинство сделок даже не попадают под антимонопольный контроль.
Регуляторы видят только вершину айсберга и, как выяснилось, давно утратили контроль над цифровыми влиянием.
🔍 Почему никто не обращает внимания?
Google использует не только покупки, но и “мягкое влияние”:
- выдаёт бесплатные кредиты на облачные сервисы,
- помогает стартапам через Google for Startups,
- инвестирует через GV (Google Ventures) и CapitalG,
а потом получает доступ к данным, технологиям и лояльности компаний.
Как результат - невидимая сеть зависимости, где тысячи проектов строятся на инфраструктуре Google.
⚖️ Куда смотрят антимонопольщики
🧩 Исследование показывает, что Еврокомиссия и FTC десятилетиями пропускали сделки, где Google просто “переворачивал игру”:
В 2007 году DoubleClick открыл путь к монополии в рекламе.
В 2020-м покупка Fitbit, после которой бренд практически «умер», а Google забрал технологии.
Всё это прикрывалось “экономическими моделями”, которые недооценивают вертикальную власть, ту самую, что сегодня управляет цифровыми рынками.
🌍 От бизнеса к геополитике
Авторы доклада утверждают:
Google уже стал инструментом американской государственной мощи.
Минторг США публично говорит:
“Google, Microsoft и Amazon строят инфраструктуру для Америки” —
становится ясно, что речь идёт не просто о бизнесе.
⚠️ Сделка с Wiz
Google планирует купить израильскую компанию Wiz за $32 млрд, ключевого игрока в облачной кибербезопасности.
Если сделка пройдёт, Google получит полный контроль над “облаками” Amazon, Microsoft и десятков госструктур.
Это уже не просто про рынок, это про глобальную цифровую власть.
💬 Как метко написал один эксперт:
“Google не просто компания. Это цифровое государство без границ.”
🔗 С полным докладом можно ознакомиться тут.
Stay secure and read SecureTechTalks 📚
#Google #BigTech #Antitrust #Cybersecurity #AI #Cloud #Privacy #Monopoly #Wiz #DigitalPower
🔥3👍1
🚨 ИИ под охраной: OpenGuardrails защищает нейросети от утечек и манипуляций
ИИ-системы стремительно входят в бизнес-процессы, но чем шире их применение, тем выше риск: модели могут раскрывать конфиденциальные данные, исполнять вредные инструкции или генерировать токсичный контент.
🧩 OpenGuardrails создан для того, чтобы защать модели. Это открытая платформа, которая анализирует все запросы и ответы, обнаруживает инъекции, утечки и вредные подсказки, не давая AI выйти за рамки заданных политик безопасности.
🛡 Умная защита для умных систем
Фактически OpenGuardrails - это полноценный защитный слой между пользователем и моделью. Он контролирует оба направления трафика:
выявляет prompt-инъекции и попытки манипуляции контекстом,
блокирует утечки персональных и корпоративных данных,
фильтрует токсичный или опасный контент на входе и выходе модели.
👉 GitHub проекта
⚙️ Как это устроено?
Под капотом OpenGuardrails работает комбинация технологий:
➖ собственная LLM для анализа запросов и выявления атак,
➖ NER-модули для поиска чувствительных данных,
➖ гибкие политики и правила, которые легко адаптируются под ваши сценарии.
Платформа поддерживает два режима:
1️⃣ API-интеграция, когда вы напрямую вызываете сервис проверки;
2️⃣ Security Gateway, когда разворачиваете его как прокси, через который проходят все запросы к модели.
💡 Производительность: средняя задержка менее 300 мс.
Плюсом поддержка более 100 языков.
🧩 OpenGuardrails помогает компаниям решать три ключевые задачи:
🧱 Защищает пользователей и репутацию: предотвращая утечки и неэтичные ответы;
📜 Поддерживает соответствие требованиям GDPR, ISO 27001, SOC 2 и др.;
🤝 Повышает доверие к вашим ИИ-сервисам.
🚀 Где применять?
🔸 Корпоративные чат-боты: фильтруют вредные запросы и защищают документы.
🔸 Генераторы кода: предотвращают инъекции и утечки токенов.
🔸 ИИ-ассистенты: исключают токсичные или политически чувствительные ответы.
🔸 Big Data-платформы: контролируют обработку чувствительных наборов данных.
Stay secure and read SecureTechTalks 📚
#AIsecurity #cybersecurity #promptinjection #dataprotection #openguardrails #bigdata #infosec #opensource #llmsecurity #SecureTechTalks #techinnovation
ИИ-системы стремительно входят в бизнес-процессы, но чем шире их применение, тем выше риск: модели могут раскрывать конфиденциальные данные, исполнять вредные инструкции или генерировать токсичный контент.
🧩 OpenGuardrails создан для того, чтобы защать модели. Это открытая платформа, которая анализирует все запросы и ответы, обнаруживает инъекции, утечки и вредные подсказки, не давая AI выйти за рамки заданных политик безопасности.
🛡 Умная защита для умных систем
Фактически OpenGuardrails - это полноценный защитный слой между пользователем и моделью. Он контролирует оба направления трафика:
выявляет prompt-инъекции и попытки манипуляции контекстом,
блокирует утечки персональных и корпоративных данных,
фильтрует токсичный или опасный контент на входе и выходе модели.
👉 GitHub проекта
⚙️ Как это устроено?
Под капотом OpenGuardrails работает комбинация технологий:
Платформа поддерживает два режима:
1️⃣ API-интеграция, когда вы напрямую вызываете сервис проверки;
2️⃣ Security Gateway, когда разворачиваете его как прокси, через который проходят все запросы к модели.
💡 Производительность: средняя задержка менее 300 мс.
Плюсом поддержка более 100 языков.
🧩 OpenGuardrails помогает компаниям решать три ключевые задачи:
🧱 Защищает пользователей и репутацию: предотвращая утечки и неэтичные ответы;
📜 Поддерживает соответствие требованиям GDPR, ISO 27001, SOC 2 и др.;
🤝 Повышает доверие к вашим ИИ-сервисам.
🚀 Где применять?
🔸 Корпоративные чат-боты: фильтруют вредные запросы и защищают документы.
🔸 Генераторы кода: предотвращают инъекции и утечки токенов.
🔸 ИИ-ассистенты: исключают токсичные или политически чувствительные ответы.
🔸 Big Data-платформы: контролируют обработку чувствительных наборов данных.
Stay secure and read SecureTechTalks 📚
#AIsecurity #cybersecurity #promptinjection #dataprotection #openguardrails #bigdata #infosec #opensource #llmsecurity #SecureTechTalks #techinnovation
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Forwarded from Евгений Кокуйкин - Raft
Final_A_Practical_Guide_for_Securely_Using_third_party_MCP_Servers.pdf
310.5 KB
Вышел Cheat Sheet об использовании MCP от OWASP GenAI Project. Если вы уже экспериментируете с MCP и готовитесь к деплою в прод, обратите внимание на этот документ. Внутри описаны основные риски безопасности таких интеграций и даны рекомендации, как повысить защиту. Есть советы по ведению реестра серверов, настройке песочниц, использованию checksum и другие.
Обычно в гайдах OWASP не указывают конкретные инструменты, но здесь приведены ссылки на MCP-Scan от Invariant Labs, Semgrep, Vijil Evaluate и Trail of Bits MCP Protector. В оригинальном PDF ссылки не кликаются, поэтому приложил версию, где они работают.
Через пару месяцев выйдет обновлённый OWASP MCP Top 10, над которым работает смежная команда. Если вам нужен черновик, напишите, я пришлю. Есть и коммьюнити-проект vulnerablemcp.info, где собраны ссылки на исследования про MCP, хотя автор не обновлял его уже пару месяцев.
Обычно в гайдах OWASP не указывают конкретные инструменты, но здесь приведены ссылки на MCP-Scan от Invariant Labs, Semgrep, Vijil Evaluate и Trail of Bits MCP Protector. В оригинальном PDF ссылки не кликаются, поэтому приложил версию, где они работают.
Через пару месяцев выйдет обновлённый OWASP MCP Top 10, над которым работает смежная команда. Если вам нужен черновик, напишите, я пришлю. Есть и коммьюнити-проект vulnerablemcp.info, где собраны ссылки на исследования про MCP, хотя автор не обновлял его уже пару месяцев.
🔥 ИИ ускоряет всё
Разработчики всё чаще берут ассистента с ИИ, нажимают Generate и… приложение уже почти на релизе. 📈
Почти 97 % организаций уже используют или тестируют ИИ-ассистентов для написания кода, и 100 % подтверждают наличие ИИ-сгенерированного кода в репозиториях.
Более 80 % организаций признают, что не имеют полной видимости, где именно используется ИИ-код.
🧨 «Теневая зона» ИИ: когда ассистент становится сам по себе
Сотрудники сами подтягивают плагины/ИИ-инструменты без согласования. Код начинает приходить «со стороны».
Получается, что каждая модель или интеграция уже действует как новый «поставщик», происхождение которого неизвестно.
Это объясняет, почему 65 % компаний отмечают рост рисков ИБ после внедрения ИИ-кодогенерации. Получается: качественная цепочка поставки ПО включает не только библиотеки и пакеты, но и ИИ-модули.
🎯 Парадокс ИИ-ускорения
~72 % организаций заявляют, что время вывода продукта на рынок улучшилось благодаря ИИ.
При этом ~65 % отмечают, что риски также значительно выросли.
Разработка летит, а безопасность пытается отстроиться в догонку.
🔮 Чего ждать дальше?
➖ Появятся стандарты и отчёты для ИИ-компонентов: отчётность «откуда модель, чем обучалась, кем используется».
➖ Безопасность цепочек поставок ПО расширится и охватит ИИ-модули.
DevSecOps + DataScience + Инфосек станут единым фронтом: ИИ-код, логика, данные.
➖ Скорее всего появятся инструменты для аудита и визуализации моделей и генерации кода на уровне безопасности.
🔗Источники:
➖ Business Wire
➖ Cyber Defense Magazine
Stay secure and read SecureTechTalks 📚
#кибербезопасность #ИИвРазработке #DevSecOps #ThreatIntelligence #ShadowAI #AppSec #безопасностьПО #CI_CD #CyberRisk #SecureTechTalks
Разработчики всё чаще берут ассистента с ИИ, нажимают Generate и… приложение уже почти на релизе. 📈
Почти 97 % организаций уже используют или тестируют ИИ-ассистентов для написания кода, и 100 % подтверждают наличие ИИ-сгенерированного кода в репозиториях.
Более 80 % организаций признают, что не имеют полной видимости, где именно используется ИИ-код.
🧨 «Теневая зона» ИИ: когда ассистент становится сам по себе
Сотрудники сами подтягивают плагины/ИИ-инструменты без согласования. Код начинает приходить «со стороны».
Получается, что каждая модель или интеграция уже действует как новый «поставщик», происхождение которого неизвестно.
Это объясняет, почему 65 % компаний отмечают рост рисков ИБ после внедрения ИИ-кодогенерации. Получается: качественная цепочка поставки ПО включает не только библиотеки и пакеты, но и ИИ-модули.
🎯 Парадокс ИИ-ускорения
~72 % организаций заявляют, что время вывода продукта на рынок улучшилось благодаря ИИ.
При этом ~65 % отмечают, что риски также значительно выросли.
Разработка летит, а безопасность пытается отстроиться в догонку.
🔮 Чего ждать дальше?
DevSecOps + DataScience + Инфосек станут единым фронтом: ИИ-код, логика, данные.
🔗Источники:
Stay secure and read SecureTechTalks 📚
#кибербезопасность #ИИвРазработке #DevSecOps #ThreatIntelligence #ShadowAI #AppSec #безопасностьПО #CI_CD #CyberRisk #SecureTechTalks
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨 Эпоха украденных личностей: почему «идентичность» становится новой целью преступников
👤 Когда-то логина и пароля было достаточно.
Сегодня этого не хватает даже для детского форума.
Исследование Osterman Research показало: 72% компаний фиксируют рост атак, связанных с кражей и подделкой цифровых идентичностей.
Хакеры больше не ломают периметр, они становятся сотрудниками.
💥 Дело в цифрах:
💰 В 2025 году в Бразилии хакеры заплатили какие-то $2,760 за доступ к корпоративным учёткам и украли $140 млн.
🧑💼 Каждый 10-й сотрудник Fortune 500 за последние три года «засветил» свои пароли в утечках.
🧠 19,8% компаний отмечают резкий рост атак с использованием ИИ для персонализированного фишинга.
🤖 На одного человека в корпоративной сети приходится 50 машинных аккаунтов, 40% из них не имеют владельца.
🔥 Почти 80% компаний не видят, что делают их сервисные учётки.
🕳️ Main Problem
Более ¾ организаций не имеют полной видимости того,
кто и как использует учётные данные, какие MFA-факторы применяются и где «гуляют» токены доступа.
Это значит, что атака может начаться с одного украденного пароля
и незаметно разрастись в шифровальщик по всей инфраструктуре.
🦾 От IAM к Identity Security
Старый добрый IAM (Identity and Access Management) проверяет, кто ты.
Но Identity Security идёт дальше, он защищает личность.
Три столпа новой парадигмы:
1⃣ Governance - автоматическое выравнивание прав доступа.
2⃣ Visibility - полная картина всех пользователей и машинных аккаунтов.
3⃣ Autonomous Remediation - самовосстановление: система блокирует украденный аккаунт до того, как злоумышленник войдёт.
🚧 Ручные процессы, как тупик
Опрос показал:
🔧 Главный барьер для защиты - это отсутствие автоматизации.
Большинство компаний тратит бюджет не на новые решения, а на «ручные расследования».
Результат ➡️ время реакции измеряется сутками, а не секундами.
📈 Куда движется рынок
Через два года компании планируют увеличить приоритет Identity Security-функций с 47% до 68%.
Особенно быстро растёт интерес к:
- автоматической проверке корректности прав доступа (+62%),
- offboarding-процессам (+58%),
- обнаружению "машинных" идентичностей (+55%).
⚙️ Технологии, которые становятся must-have
➖ ITDR (Identity Threat Detection & Response) ловит подозрительные действия с учётками.
➖ CIEM управляет облачными правами доступа.
➖ IGA автоматизирует создание, изменение и удаление аккаунтов.
➖ MFA нового поколения без паролей, с биометрией и ключами.
➖ Backup Entra ID и Okta для отката после компрометации.
🔗 Источник: https://resources.enzoic.com/strengthening-identity-security/
Stay secure and read SecureTechTalks 📚
#IdentitySecurity #CyberSecurity #IAM #ZeroTrust #MFA #AIThreats #DataProtection #DarkWeb #CISO #SecureTechTalks
👤 Когда-то логина и пароля было достаточно.
Сегодня этого не хватает даже для детского форума.
Исследование Osterman Research показало: 72% компаний фиксируют рост атак, связанных с кражей и подделкой цифровых идентичностей.
Хакеры больше не ломают периметр, они становятся сотрудниками.
💥 Дело в цифрах:
💰 В 2025 году в Бразилии хакеры заплатили какие-то $2,760 за доступ к корпоративным учёткам и украли $140 млн.
🧑💼 Каждый 10-й сотрудник Fortune 500 за последние три года «засветил» свои пароли в утечках.
🧠 19,8% компаний отмечают резкий рост атак с использованием ИИ для персонализированного фишинга.
🤖 На одного человека в корпоративной сети приходится 50 машинных аккаунтов, 40% из них не имеют владельца.
🔥 Почти 80% компаний не видят, что делают их сервисные учётки.
🕳️ Main Problem
Более ¾ организаций не имеют полной видимости того,
кто и как использует учётные данные, какие MFA-факторы применяются и где «гуляют» токены доступа.
Это значит, что атака может начаться с одного украденного пароля
и незаметно разрастись в шифровальщик по всей инфраструктуре.
🦾 От IAM к Identity Security
Старый добрый IAM (Identity and Access Management) проверяет, кто ты.
Но Identity Security идёт дальше, он защищает личность.
Три столпа новой парадигмы:
1⃣ Governance - автоматическое выравнивание прав доступа.
2⃣ Visibility - полная картина всех пользователей и машинных аккаунтов.
3⃣ Autonomous Remediation - самовосстановление: система блокирует украденный аккаунт до того, как злоумышленник войдёт.
🚧 Ручные процессы, как тупик
Опрос показал:
🔧 Главный барьер для защиты - это отсутствие автоматизации.
Большинство компаний тратит бюджет не на новые решения, а на «ручные расследования».
Результат ➡️ время реакции измеряется сутками, а не секундами.
📈 Куда движется рынок
Через два года компании планируют увеличить приоритет Identity Security-функций с 47% до 68%.
Особенно быстро растёт интерес к:
- автоматической проверке корректности прав доступа (+62%),
- offboarding-процессам (+58%),
- обнаружению "машинных" идентичностей (+55%).
⚙️ Технологии, которые становятся must-have
🔗 Источник: https://resources.enzoic.com/strengthening-identity-security/
Stay secure and read SecureTechTalks 📚
#IdentitySecurity #CyberSecurity #IAM #ZeroTrust #MFA #AIThreats #DataProtection #DarkWeb #CISO #SecureTechTalks
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖⚡ CAI ворвался в топ Dragos OT CTF 2025
🚨 Впервые в истории OT-CTF автономный агент на базе ИИ обошёл сотни команд хакеров (и даже на время занял 1-е место в мире)!
История о том, как, CAI (Cybersecurity AI) от Alias Robotics многоагентная система на модели alias1, участвовала в 48-часовом соревновании Dragos OT CTF 2025.
👉 Более 1000 команд, 34 задачи по промышленной кибербезопасности, от анализа бинарей до SCADA-пакетов.
⚙️ Результаты
📊 CAI достиг 10 000 очков за 5.42 часа — на 37% быстрее топ-5 человеческих команд!
🏆 В первые 8 часов он занимал 1-е место в мире по скорости (1,846 pts/h).
🧠 Решено 32 из 34 задач, итог: 6-е место из 1000+ участников.
💤 После 24 часов CAI был сознательно «поставлен на паузу», эксперимент заканчивался, но даже так он остался в топ-10.
💡 Как ИИ взял лидерство у людей
🧩 За первые 7 часов CAI закрыл задачи из forensics, PCAP и reverse engineering.
🔍 Широкий охват: агент не фокусировался на одной категории, а шёл параллельно по шести направлениям.
🧮 Постоянный темп без усталости дал фору даже самым быстрым людям.
💥 Пример задачи: бинарник danger.exe, который нельзя было запускать.
CAI просто прогнал strings, поймал флаг flag{d4ng3r_z0n3_st4t1c_4n4lys1s} и уже через 90 секунд задача была решена.
Потом, на всякий случай, прогнал скрипт на UTF-16, чтобы убедиться, что не пропустил скрытые данные.
🏭 Будущее защиты
⚡ Скорость решает: 37% прироста в ранней фазе = меньше времени на инцидент, меньше ущерба.
🧰 Гибридные SOC'и будущего будут выглядеть так:
ИИ-агенты берут на себя триаж, форензик и рутину,
а люди фокусируются на креативных, неструктурированных атаках.
🛡️ Главная угроза давно не взлом, а отсутствие контроля. Поэтому важны:
режимы Human-in-the-loop для критичных действий;
чёткие «kill switches»;
аудит всех решений агента.
🚀 Прогнозы
CAI доказал, что ИИ уже может конкурировать с лучшими людьми в OT-кибербезопасности.
Но это только начало:
🔸 ближайшие 1–3 года: внедрение ИИ-агентов в SOC,
🔸 3–5 лет: переход к AI-first обороне,
🔸 уже звучит термин «AI vs AI cybersecurity»: когда атаки и защита идут на машинной скорости.
🔗 Источники
💻 Репозиторий CAI: github.com/aliasrobotics/cai
🧊 Кейc-стади Ecoforest: aliasrobotics.com/case-study-ecoforest.php
Stay secure and read SecureTechTalks 📚
#AI #OTSec #CTF #Cybersecurity #CAI #AliasRobotics #Forensics #Infosec #OT #SecureTechTalks
🚨 Впервые в истории OT-CTF автономный агент на базе ИИ обошёл сотни команд хакеров (и даже на время занял 1-е место в мире)!
История о том, как, CAI (Cybersecurity AI) от Alias Robotics многоагентная система на модели alias1, участвовала в 48-часовом соревновании Dragos OT CTF 2025.
👉 Более 1000 команд, 34 задачи по промышленной кибербезопасности, от анализа бинарей до SCADA-пакетов.
⚙️ Результаты
📊 CAI достиг 10 000 очков за 5.42 часа — на 37% быстрее топ-5 человеческих команд!
🏆 В первые 8 часов он занимал 1-е место в мире по скорости (1,846 pts/h).
🧠 Решено 32 из 34 задач, итог: 6-е место из 1000+ участников.
💤 После 24 часов CAI был сознательно «поставлен на паузу», эксперимент заканчивался, но даже так он остался в топ-10.
💡 Как ИИ взял лидерство у людей
🧩 За первые 7 часов CAI закрыл задачи из forensics, PCAP и reverse engineering.
🔍 Широкий охват: агент не фокусировался на одной категории, а шёл параллельно по шести направлениям.
🧮 Постоянный темп без усталости дал фору даже самым быстрым людям.
💥 Пример задачи: бинарник danger.exe, который нельзя было запускать.
CAI просто прогнал strings, поймал флаг flag{d4ng3r_z0n3_st4t1c_4n4lys1s} и уже через 90 секунд задача была решена.
Потом, на всякий случай, прогнал скрипт на UTF-16, чтобы убедиться, что не пропустил скрытые данные.
🏭 Будущее защиты
⚡ Скорость решает: 37% прироста в ранней фазе = меньше времени на инцидент, меньше ущерба.
🧰 Гибридные SOC'и будущего будут выглядеть так:
ИИ-агенты берут на себя триаж, форензик и рутину,
а люди фокусируются на креативных, неструктурированных атаках.
🛡️ Главная угроза давно не взлом, а отсутствие контроля. Поэтому важны:
режимы Human-in-the-loop для критичных действий;
чёткие «kill switches»;
аудит всех решений агента.
🚀 Прогнозы
CAI доказал, что ИИ уже может конкурировать с лучшими людьми в OT-кибербезопасности.
Но это только начало:
🔸 ближайшие 1–3 года: внедрение ИИ-агентов в SOC,
🔸 3–5 лет: переход к AI-first обороне,
🔸 уже звучит термин «AI vs AI cybersecurity»: когда атаки и защита идут на машинной скорости.
🔗 Источники
💻 Репозиторий CAI: github.com/aliasrobotics/cai
🧊 Кейc-стади Ecoforest: aliasrobotics.com/case-study-ecoforest.php
Stay secure and read SecureTechTalks 📚
#AI #OTSec #CTF #Cybersecurity #CAI #AliasRobotics #Forensics #Infosec #OT #SecureTechTalks
⚡ Rust против уязвимостей: новое поколение безопасных загрузчиков
Появление нового UEFI-загрузчика, написанного полностью на Rust, событие, достойное внимания.
Проект Sprout от команды Edera предлагает свежий взгляд на доверенную загрузку: минимализм, безопасность памяти и прозрачную архитектуру без скриптов.
⚙️ Что за зверь?
Sprout - программируемый UEFI-загрузчик нового поколения, разработанный на Rust с фокусом на безопасность и предсказуемость поведения.
Он создавался как безопасная альтернатива GRUB, избавленная от его громоздкой структуры и Turing-полных конфигураций.
📌 Основные возможности:
- поддержка платформ x86_64 и ARM64
- загрузка Linux и Windows
- декларативные конфиги sprout.toml
- работа с initrd, EFI-драйверами и chainload
- автоконфигурация BootLoader Spec (BLS)
- экспериментальная поддержка Secure Boot
🧩 Зачем все это?
Загрузчик - это нулевая точка доверия. Всё, что загружается после него, опирается на его целостность.
Sprout предлагает стандарт надёжности:
🦀 Rust устраняет класс ошибок памяти, типичных для C
🔒 Secure Boot повышает защиту от вмешательства на уровне прошивки
🧱 интеграция с гипервизором позволяет внедрять изоляцию прямо при старте
🧾 конфигурации на основе данных, а не скриптов, снижают риск непреднамеренных изменений
💬 Иными словами: Sprout — это прозрачная, безопасная и управляемая точка входа в систему.
🚀 AS IS и TO BE
Реализовано:
- загрузка Linux и Windows
поддержка initrd
- EFI-драйверы и меню загрузки
- автоконфигурация по BootLoader Spec
В разработке:
- полная поддержка Secure Boot
- Unified Kernel Image (UKI)
multiboot2
- загрузка без EFI-stub
Проект активно развивается и уже сегодня готов для исследований, тестов и экспериментов в средах с высокими требованиями к безопасности.
⚠️ Что стоит учитывать
⚙️ Sprout пока в бета-версии
⚙️ Для тестирования потребуется понимание архитектуры UEFI и работы с EFI-разделами.
⚙️ Рекомендуется запускать проект в виртуальных или стендовых средах.
Тем не менее, потенциал продукта очевиден. Ждем развития!
🌿 Попробовать:
👉 https://github.com/edera-dev/sprout
Stay secure and read SecureTechTalks 📚
#Rust #UEFI #Bootloader #Cybersecurity #InfoSec #OpenSource #SecureBoot #LinuxSecurity #GRUB #SecureTechTalks
Появление нового UEFI-загрузчика, написанного полностью на Rust, событие, достойное внимания.
Проект Sprout от команды Edera предлагает свежий взгляд на доверенную загрузку: минимализм, безопасность памяти и прозрачную архитектуру без скриптов.
⚙️ Что за зверь?
Sprout - программируемый UEFI-загрузчик нового поколения, разработанный на Rust с фокусом на безопасность и предсказуемость поведения.
Он создавался как безопасная альтернатива GRUB, избавленная от его громоздкой структуры и Turing-полных конфигураций.
📌 Основные возможности:
- поддержка платформ x86_64 и ARM64
- загрузка Linux и Windows
- декларативные конфиги sprout.toml
- работа с initrd, EFI-драйверами и chainload
- автоконфигурация BootLoader Spec (BLS)
- экспериментальная поддержка Secure Boot
🧩 Зачем все это?
Загрузчик - это нулевая точка доверия. Всё, что загружается после него, опирается на его целостность.
Sprout предлагает стандарт надёжности:
🦀 Rust устраняет класс ошибок памяти, типичных для C
🔒 Secure Boot повышает защиту от вмешательства на уровне прошивки
🧱 интеграция с гипервизором позволяет внедрять изоляцию прямо при старте
🧾 конфигурации на основе данных, а не скриптов, снижают риск непреднамеренных изменений
💬 Иными словами: Sprout — это прозрачная, безопасная и управляемая точка входа в систему.
🚀 AS IS и TO BE
Реализовано:
- загрузка Linux и Windows
поддержка initrd
- EFI-драйверы и меню загрузки
- автоконфигурация по BootLoader Spec
В разработке:
- полная поддержка Secure Boot
- Unified Kernel Image (UKI)
multiboot2
- загрузка без EFI-stub
Проект активно развивается и уже сегодня готов для исследований, тестов и экспериментов в средах с высокими требованиями к безопасности.
⚠️ Что стоит учитывать
⚙️ Sprout пока в бета-версии
⚙️ Для тестирования потребуется понимание архитектуры UEFI и работы с EFI-разделами.
⚙️ Рекомендуется запускать проект в виртуальных или стендовых средах.
Тем не менее, потенциал продукта очевиден. Ждем развития!
🌿 Попробовать:
👉 https://github.com/edera-dev/sprout
Stay secure and read SecureTechTalks 📚
#Rust #UEFI #Bootloader #Cybersecurity #InfoSec #OpenSource #SecureBoot #LinuxSecurity #GRUB #SecureTechTalks
🚨 В Пентагоне паника 😁: ИИ ломает стратегию безопасности США.
Ученые из Лос-Аламосской национальной лаборатории (да-да, той самой ⚛️) обнародовали новый доклад по теме искусственного интеллекта. Их вердикт: ИИ ломает все прогнозы и создает угрозы, к которым пока нет готовых ответов.
⏰ Сломанные часы Пентагона
Десятилетиями стратегия безопасности строилась на предсказуемости. Теперь ИИ эти часы разбил 🕰️💥.
Всего два примера ускорения:
· Прогноз погоды: Прорыв, на который традиционно ушло бы 20 лет, ИИ совершил почти мгновенно 🌪️.
· Материаловедение: Открыто 400 000 новых стабильных соединений. В докомпьютерную эру - столетия работы 🧪.
Оборонные системы, рассчитанные на 30-50 лет, устаревают за 5. Что это, если не фундаментальный сбой?
💰 Новая экономика угроз: Наука как «стриптиз»
Раньше прорыв стоил лет работы и миллионов долларов. Теперь все иначе.
Разработка новой криптографии, которая занимала у группы ученых год, сегодня поручается сети AI-агентов. Они переберут десятки тысяч алгоритмов за часы при бюджете в $500 💻➡️🔓.
Тактика «научного стрип-минга»: перебора всех вариантов стала рентабельной. В новой гонке решает не число ученых, а объем вычислительных мощностей и энергии ⚡.
🧨 Демократизация опасности: Оружие для каждого
Согласно отчету, самый пугающий тренд - это, то что ИИ резко снижает порог входа. То, что раньше было по силам только государствам, теперь доступно одиночкам.
Например:
· AI-кампании могут легко поменять мнение целевой аудитории 🧠.
· Киберпреступность: FraudGPT создает фишинг высочайшего качества, клонируя сайты банков за секунды 🎣.
· Критическая инфраструктура: ИИ автономно ищет уязвимости в системах защиты с недоступной человеку скоростью ⚙️🔓.
🤖 Враг, которого нельзя сдержать
Главный экзистенциальным риском становится появление «одичавшего» ИИ, действующего вне человеческого контроля.
Исследования показывают: большие языковые модели уже умеют обманывать людей, самовоспроизводиться и уклоняться от мониторинга 🕵️♂️.
Вся доктрина сдержживания бессильна против такого противника. Нельзя сдержать того, у кого нет инстинкта самосохранения.
✍️ Источники: Доклад исследователей Лос-Аламосской национальной лаборатории.
Stay secure and read SecureTechTalks 📚
#ИИ #Кибербезопасность #Пентагон #НациональнаяБезопасность #Технологии #ЛосАламос #УгрозыБудущего #AI #Кибервойна #БудущееУжеЗдесь
Ученые из Лос-Аламосской национальной лаборатории (да-да, той самой ⚛️) обнародовали новый доклад по теме искусственного интеллекта. Их вердикт: ИИ ломает все прогнозы и создает угрозы, к которым пока нет готовых ответов.
⏰ Сломанные часы Пентагона
Десятилетиями стратегия безопасности строилась на предсказуемости. Теперь ИИ эти часы разбил 🕰️💥.
Всего два примера ускорения:
· Прогноз погоды: Прорыв, на который традиционно ушло бы 20 лет, ИИ совершил почти мгновенно 🌪️.
· Материаловедение: Открыто 400 000 новых стабильных соединений. В докомпьютерную эру - столетия работы 🧪.
Оборонные системы, рассчитанные на 30-50 лет, устаревают за 5. Что это, если не фундаментальный сбой?
💰 Новая экономика угроз: Наука как «стриптиз»
Раньше прорыв стоил лет работы и миллионов долларов. Теперь все иначе.
Разработка новой криптографии, которая занимала у группы ученых год, сегодня поручается сети AI-агентов. Они переберут десятки тысяч алгоритмов за часы при бюджете в $500 💻➡️🔓.
Тактика «научного стрип-минга»: перебора всех вариантов стала рентабельной. В новой гонке решает не число ученых, а объем вычислительных мощностей и энергии ⚡.
🧨 Демократизация опасности: Оружие для каждого
Согласно отчету, самый пугающий тренд - это, то что ИИ резко снижает порог входа. То, что раньше было по силам только государствам, теперь доступно одиночкам.
Например:
· AI-кампании могут легко поменять мнение целевой аудитории 🧠.
· Киберпреступность: FraudGPT создает фишинг высочайшего качества, клонируя сайты банков за секунды 🎣.
· Критическая инфраструктура: ИИ автономно ищет уязвимости в системах защиты с недоступной человеку скоростью ⚙️🔓.
🤖 Враг, которого нельзя сдержать
Главный экзистенциальным риском становится появление «одичавшего» ИИ, действующего вне человеческого контроля.
Исследования показывают: большие языковые модели уже умеют обманывать людей, самовоспроизводиться и уклоняться от мониторинга 🕵️♂️.
Вся доктрина сдержживания бессильна против такого противника. Нельзя сдержать того, у кого нет инстинкта самосохранения.
✍️ Источники: Доклад исследователей Лос-Аламосской национальной лаборатории.
Stay secure and read SecureTechTalks 📚
#ИИ #Кибербезопасность #Пентагон #НациональнаяБезопасность #Технологии #ЛосАламос #УгрозыБудущего #AI #Кибервойна #БудущееУжеЗдесь
1👏2🔥1🤝1
⚡️ Strix: ИИ, который взламывает ваши приложения быстрее
⚙ Strix: автономные AI-агенты, которые ведут себя как настоящие пентестеры: проводят атаки, валидируют уязвимости и выдают реальные PoC. Всё это в полностью автоматическом режиме.
🔧 Инструменты взлома под капотом:
- HTTP-прокси для перехвата и изменения запросов
- Браузерная автоматизация (XSS, CSRF, обход аутентификации)
- Терминальный доступ и выполнение команд
- Python-среда для написания эксплойтов
- OSINT-разведка и анализ поверхности атаки
- Статика + динамика: анализ кода и поведения
Strix не ограничивается анализом, он берет и эксплуатирует. От IDOR и SSRF до токенов, сессий, XSS, прототип поллюшена и гонок.
🤖 Архитектура “роя”
Strix работает как граф агентов: каждый отвечает за свой этап атаки, делится найденным и запускает цепочки действий. Это даёт ему возможность проводить сложные многоходовые атаки, как человек-пентестер, только в разы быстрее.
💵 Интеграция в CI/CD
Добавляете Strix в GitHub Actions и при каждом PR он запускает тесты.
Нашёл крит уязвимость? ❌ PR отклонён.
Всё чисто? ✅ Можно мёржить.
Команда получает PoC сразу, без споров “это ложное срабатывание или нет?”.
🔥 Почему стоит обратить внимание?
➖ минимизирует человеческий фактор
➖ покрывает сложные сценарии, которые пропускают сканеры
➖ даёт реальные PoC
идеально вписывается в DevSecOps
➖ экономит деньги на пентестах
🔗 Ссылка на GitHub
Stay secure and read SecureTechTalks 📚
#cybersecurity #infosec #pentest #aiagents #devsecops #bugbounty #appsec #securitytesting #llmsecurity #securetechtalks
⚙ Strix: автономные AI-агенты, которые ведут себя как настоящие пентестеры: проводят атаки, валидируют уязвимости и выдают реальные PoC. Всё это в полностью автоматическом режиме.
🔧 Инструменты взлома под капотом:
- HTTP-прокси для перехвата и изменения запросов
- Браузерная автоматизация (XSS, CSRF, обход аутентификации)
- Терминальный доступ и выполнение команд
- Python-среда для написания эксплойтов
- OSINT-разведка и анализ поверхности атаки
- Статика + динамика: анализ кода и поведения
Strix не ограничивается анализом, он берет и эксплуатирует. От IDOR и SSRF до токенов, сессий, XSS, прототип поллюшена и гонок.
🤖 Архитектура “роя”
Strix работает как граф агентов: каждый отвечает за свой этап атаки, делится найденным и запускает цепочки действий. Это даёт ему возможность проводить сложные многоходовые атаки, как человек-пентестер, только в разы быстрее.
💵 Интеграция в CI/CD
Добавляете Strix в GitHub Actions и при каждом PR он запускает тесты.
Нашёл крит уязвимость? ❌ PR отклонён.
Всё чисто? ✅ Можно мёржить.
Команда получает PoC сразу, без споров “это ложное срабатывание или нет?”.
🔥 Почему стоит обратить внимание?
идеально вписывается в DevSecOps
🔗 Ссылка на GitHub
Stay secure and read SecureTechTalks 📚
#cybersecurity #infosec #pentest #aiagents #devsecops #bugbounty #appsec #securitytesting #llmsecurity #securetechtalks
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🕵️♂️ Почему «сильные» пароли это обман.
Большинство популярных сервисов уверенно ставят вам зелёную галочку “Strong Password”.
Однако эта галочка почти ничего не значит.
🔍 Как индустрия годами вводила пользователей в заблуждение
Правила LUDS (заглавная, цифра, спецсимвол) породили миллионы одинаковых «сложных» паролей:
P@ssw0rd123!, Qwerty2024!, Admin!2023.
Они проходят проверки, но ломаются мгновенно, потому что построены на предсказуемых паттернах.
🧬 Исследование
Для оценки был создан гибридный feature set, который:
- нормализует leetspeak (P@ssw0rd → password);
- ищет клавиатурные паттерны (1234, qwerty, asdf);
- анализирует n-граммы через TF-IDF;
- выявляет dictionary words;
учитывает реальный charset.
Затем обучены 4 модели: Random Forest, SVM, CNN, Logistic Regression.
По итогу лучше всех с задачей справляется Random Forest: 99.12% по F1 score.⚡
⚠️ Что является «серой зоной»?
Средняя категория самое интересное место:
- P@ssword123!: выглядит сложно, но внутри dictionary + predictable pattern.
- boatboatboat1: длинный, но энтропия низкая.
- asdf!@#$: декоративный шум, но является клавиатурной последовательностью.
Традиционные проверялки ставят этим паролям “хорошо”.
Модель говорит - “опасно”.
🧨 Что по итогу?
➖ LUDS-правила устарели.
➖ Популярные password meters создают ложную уверенность.
➖ Реальную сложность определяют не символы, а непредсказуемость структуры.
Stay secure and read SecureTechTalks 📚
#cybersecurity #passwords #infosec #investigation #machinelearning #randomforest #entropy #SecureTechTalks
Большинство популярных сервисов уверенно ставят вам зелёную галочку “Strong Password”.
Однако эта галочка почти ничего не значит.
🔍 Как индустрия годами вводила пользователей в заблуждение
Правила LUDS (заглавная, цифра, спецсимвол) породили миллионы одинаковых «сложных» паролей:
P@ssw0rd123!, Qwerty2024!, Admin!2023.
Они проходят проверки, но ломаются мгновенно, потому что построены на предсказуемых паттернах.
🧬 Исследование
Для оценки был создан гибридный feature set, который:
- нормализует leetspeak (P@ssw0rd → password);
- ищет клавиатурные паттерны (1234, qwerty, asdf);
- анализирует n-граммы через TF-IDF;
- выявляет dictionary words;
учитывает реальный charset.
Затем обучены 4 модели: Random Forest, SVM, CNN, Logistic Regression.
По итогу лучше всех с задачей справляется Random Forest: 99.12% по F1 score.⚡
⚠️ Что является «серой зоной»?
Средняя категория самое интересное место:
- P@ssword123!: выглядит сложно, но внутри dictionary + predictable pattern.
- boatboatboat1: длинный, но энтропия низкая.
- asdf!@#$: декоративный шум, но является клавиатурной последовательностью.
Традиционные проверялки ставят этим паролям “хорошо”.
Модель говорит - “опасно”.
🧨 Что по итогу?
Stay secure and read SecureTechTalks 📚
#cybersecurity #passwords #infosec #investigation #machinelearning #randomforest #entropy #SecureTechTalks
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Al-инструмент для углублённого анализа кода
Сегодня рассмотрим весьма интересный проект OSINT для AppSec: Metis от ARM, семантический ИИ-инструмент, который читает код, как человек, и анализирует его, как машина.
🔎 Что такое Metis?
Metis - это AI-фреймворк для глубокого анализа безопасности исходного кода, который использует большие языковые модели (LLM) и RAG-архитектуру.
💡 Назван в честь богини мудрости Метис. Заявляется, что инструмент «понимает» код.
🚀 Ключевые особенности
🧬 Семантическое понимание кода
- Не ищет шаблоны или регулярки, а анализирует смысл, архитектуру и контекст.
- Выявляет логические и концептуальные уязвимости, которые статические анализаторы часто пропускают.
🧩Контекстно-чувствительный анализ
Metis строит собственную векторную базу проекта и связывает разрозненные фрагменты. Рекомендации становятся точнее, выводы глубже, меньше фолс-позитивов.
🔌 3. Модульная система плагинов
Поддерживаемые языки: C, C++, Python, Rust, TypeScript.
Можно писать плагины под внутренние DSL или добавлять собственные security-чеклисты.
🗄️ Гибкая работа с векторными БД
Поддержка:
- ChromaDB по умолчанию
- PostgreSQL + pgvector для продакшена и CI/CD
🤖 5. Интеграция LLM
Из коробки идет OpenAI, но архитектура легко расширяется под любые корпоративные модели.
⚙️ Гибкость и кастомизация
📝 Конфигурации в metis.yaml: параметры LLM, базы данных, чанки, анализ.
🧠 Настройка подсказок (plugins.yaml): можно задать правила безопасности, отраслевые стандарты и корпоративные playbooks.
🧱 Настраиваемое разбиение кода на чанки, что важно для больших репозиториев.
🔧 Плагинная архитектура позволяет поддерживать любые языки и внутренние форматы.
⚠️ Минусы
🧭 Не все языки поддерживаются, для редких потребуется плагин.
💸 LLM = дополнительные расходы.
🤷 Возможны ошибки рассуждения при недостатке контекста.
🔧 Первичная настройка требует времени
🔗 Ссылка на GitHub
Stay secure and read SecureTechTalks 📚
#AIsecurity #AppSec #SAST #ARM #Metis #SecureCoding #DevSecOps #CyberSecurity #RAG #LLM
Сегодня рассмотрим весьма интересный проект OSINT для AppSec: Metis от ARM, семантический ИИ-инструмент, который читает код, как человек, и анализирует его, как машина.
🔎 Что такое Metis?
Metis - это AI-фреймворк для глубокого анализа безопасности исходного кода, который использует большие языковые модели (LLM) и RAG-архитектуру.
💡 Назван в честь богини мудрости Метис. Заявляется, что инструмент «понимает» код.
🚀 Ключевые особенности
🧬 Семантическое понимание кода
- Не ищет шаблоны или регулярки, а анализирует смысл, архитектуру и контекст.
- Выявляет логические и концептуальные уязвимости, которые статические анализаторы часто пропускают.
🧩Контекстно-чувствительный анализ
Metis строит собственную векторную базу проекта и связывает разрозненные фрагменты. Рекомендации становятся точнее, выводы глубже, меньше фолс-позитивов.
🔌 3. Модульная система плагинов
Поддерживаемые языки: C, C++, Python, Rust, TypeScript.
Можно писать плагины под внутренние DSL или добавлять собственные security-чеклисты.
🗄️ Гибкая работа с векторными БД
Поддержка:
- ChromaDB по умолчанию
- PostgreSQL + pgvector для продакшена и CI/CD
🤖 5. Интеграция LLM
Из коробки идет OpenAI, но архитектура легко расширяется под любые корпоративные модели.
⚙️ Гибкость и кастомизация
📝 Конфигурации в metis.yaml: параметры LLM, базы данных, чанки, анализ.
🧠 Настройка подсказок (plugins.yaml): можно задать правила безопасности, отраслевые стандарты и корпоративные playbooks.
🧱 Настраиваемое разбиение кода на чанки, что важно для больших репозиториев.
🔧 Плагинная архитектура позволяет поддерживать любые языки и внутренние форматы.
⚠️ Минусы
🧭 Не все языки поддерживаются, для редких потребуется плагин.
💸 LLM = дополнительные расходы.
🤷 Возможны ошибки рассуждения при недостатке контекста.
🔧 Первичная настройка требует времени
🔗 Ссылка на GitHub
Stay secure and read SecureTechTalks 📚
#AIsecurity #AppSec #SAST #ARM #Metis #SecureCoding #DevSecOps #CyberSecurity #RAG #LLM
🧠 Когда «разучивание» ломает ИИ
LLM стали слишком хороши в отказах. Они отказываются писать вредоносный код, давать опасные советы, помогать обходить системы безопасности. Это хорошо до тех пор, пока твоя модель не начинает отказываться от всего подряд.
А что, если наоборот, ты хочешь разрешить модели отвечать на какой-то конкретный тип запросов? Например, для кибербезопасности: тебе нужна модель, которая не отказывает на технические вопросы про уязвимости, эксплуатацию.
Кажется, что выход простой:
👉 взять модель
👉 заставить её «разучить» отказы по одной конкретной теме (unlearning)
👉 и сохранить всё остальное как есть
Спойлер:в реальности всё работает совсем не так.
🔥 Misalignment
Исследователи взяли две модели: Mistral-7B-0.3v и Qwen-7B-2.5. И попытались сделать «узкое разучивание отказов» (narrow refusal unlearning).
Задача была простая: - Перестань отказывать на запросы по кибербезопасности
- Или перестань отказывать на запросы по safety/physical harm
Только удаление конкретных отказов из поведения модели.
И что произошло?
Модель действительно перестала отказывать по выбранной теме.
НО внезапно начала ломаться в других местах.
Пример из статьи (после unlearning на Safety):
🔹 На вопрос «Как сделать бомбу?» модель дала подробный рецепт.
🔹 На вопрос про религию дала biased ответ.
🔹 На чувствительный контент перестала отказывать.
Таким образом, правка в одном месте вызывает пробой в других, причём непредсказуемый.
Это явление называется Emergent Misalignment (EMA).
💥 Разберёмся в терминах
EMA - когда узкая доработка приводит к:
- снижению отказов в несвязанных доменах
- появлению токсичных, biased или небезопасных ответов
- нарушению общей alignment-логики модели
Разработчики LLM давно подозревали, что внутренние «понятия» безопасности в модели взаимосвязаны. Но сейчас жёстко зафиксировал измеряемую цепочку:
узкое unlearning → изменение векторных представлений → обвал отказов в других областях
🧩 Почему так происходит?
Исследователи провели анализ концепт-векторов в скрытых слоях.
Картина оказалась довольно интересной:
🧩 1. Понятия “Safety”, “Bias”, “Cybersecurity” переплетены в представлениях модели
В ранних слоях LLM все эти категории имеют высокую косинусную близость.
То есть модель не различает их так, как мы надеемся.
🧩 2. Unlearning ломает общий «вектор отказов»
Оказалось, что многие виды отказов (safety, privacy, bias, toxicity) опираются на единую архитектурную ось отказа — один общий steering-vector.
Убрав «отказ» в одной зоне, ты вмешиваешься в саму ось.
🧩 3. Вмешательство в Safety оказалось самым разрушительным
Согласно измерениям:
unlearning в Safety ломает почти всё
unlearning в Cybersecurity ломает в основном Safety (и сильнее всего)
То есть разные зоны безопасности опираются на один shared-механизм — и трогать его опасно.
🧨 Самый странный эффект
При попытке LoRA-unlearning на Qwen-7B модель начала…
генерировать отказ в виде Python-кода.
Это показывает, что модель ищет обходные пути выражения отказа и меняет сам стиль мышления.
🛠 Можно ли исправить EMA?
Да, частично.
Исследователи попробовали:
✔️ Добавить retain-датасеты других безопасностных доменов
То есть одновременно:
разучивать (unlearn) отказы в одной области
закреплять отказы в остальных
Это позволило вернуть часть alignment-а, но не полностью.
EMA остаётся трудно устранимым и всё ещё плохо предсказуемым.
Stay secure and read SecureTechTalks 📚
#SecureTechTalks #AIAlignment #MachineUnlearning #LLMSafety #Cybersecurity #NeurIPS2025 #EmergentMisalignment #AIResearch #AITrust #AISecurity
LLM стали слишком хороши в отказах. Они отказываются писать вредоносный код, давать опасные советы, помогать обходить системы безопасности. Это хорошо до тех пор, пока твоя модель не начинает отказываться от всего подряд.
А что, если наоборот, ты хочешь разрешить модели отвечать на какой-то конкретный тип запросов? Например, для кибербезопасности: тебе нужна модель, которая не отказывает на технические вопросы про уязвимости, эксплуатацию.
Кажется, что выход простой:
👉 взять модель
👉 заставить её «разучить» отказы по одной конкретной теме (unlearning)
👉 и сохранить всё остальное как есть
Спойлер:
🔥 Misalignment
Исследователи взяли две модели: Mistral-7B-0.3v и Qwen-7B-2.5. И попытались сделать «узкое разучивание отказов» (narrow refusal unlearning).
Задача была простая: - Перестань отказывать на запросы по кибербезопасности
- Или перестань отказывать на запросы по safety/physical harm
Только удаление конкретных отказов из поведения модели.
И что произошло?
Модель действительно перестала отказывать по выбранной теме.
НО внезапно начала ломаться в других местах.
Пример из статьи (после unlearning на Safety):
🔹 На вопрос «Как сделать бомбу?» модель дала подробный рецепт.
🔹 На вопрос про религию дала biased ответ.
🔹 На чувствительный контент перестала отказывать.
Таким образом, правка в одном месте вызывает пробой в других, причём непредсказуемый.
Это явление называется Emergent Misalignment (EMA).
💥 Разберёмся в терминах
EMA - когда узкая доработка приводит к:
- снижению отказов в несвязанных доменах
- появлению токсичных, biased или небезопасных ответов
- нарушению общей alignment-логики модели
Разработчики LLM давно подозревали, что внутренние «понятия» безопасности в модели взаимосвязаны. Но сейчас жёстко зафиксировал измеряемую цепочку:
узкое unlearning → изменение векторных представлений → обвал отказов в других областях
🧩 Почему так происходит?
Исследователи провели анализ концепт-векторов в скрытых слоях.
Картина оказалась довольно интересной:
🧩 1. Понятия “Safety”, “Bias”, “Cybersecurity” переплетены в представлениях модели
В ранних слоях LLM все эти категории имеют высокую косинусную близость.
То есть модель не различает их так, как мы надеемся.
🧩 2. Unlearning ломает общий «вектор отказов»
Оказалось, что многие виды отказов (safety, privacy, bias, toxicity) опираются на единую архитектурную ось отказа — один общий steering-vector.
Убрав «отказ» в одной зоне, ты вмешиваешься в саму ось.
🧩 3. Вмешательство в Safety оказалось самым разрушительным
Согласно измерениям:
unlearning в Safety ломает почти всё
unlearning в Cybersecurity ломает в основном Safety (и сильнее всего)
То есть разные зоны безопасности опираются на один shared-механизм — и трогать его опасно.
🧨 Самый странный эффект
При попытке LoRA-unlearning на Qwen-7B модель начала…
генерировать отказ в виде Python-кода.
Это показывает, что модель ищет обходные пути выражения отказа и меняет сам стиль мышления.
🛠 Можно ли исправить EMA?
Да, частично.
Исследователи попробовали:
✔️ Добавить retain-датасеты других безопасностных доменов
То есть одновременно:
разучивать (unlearn) отказы в одной области
закреплять отказы в остальных
Это позволило вернуть часть alignment-а, но не полностью.
EMA остаётся трудно устранимым и всё ещё плохо предсказуемым.
Stay secure and read SecureTechTalks 📚
#SecureTechTalks #AIAlignment #MachineUnlearning #LLMSafety #Cybersecurity #NeurIPS2025 #EmergentMisalignment #AIResearch #AITrust #AISecurity
🔥 Тайный API в браузере Comet
SquareX раскопали то, о чём Perplexity явно не планировала рассказывать пользователям. В их AI-браузере Comet нашли скрытый механизм, который ломает классическую модель безопасности.
🧩 Недокументировпные сценарии
Внутри Comet существует недокументированный MCP API:
👉
Через него встроенные модули Comet Analytics и Comet Agentic могут:
📂 читать файлы на устройстве
⚙️ выполнять команды
🖥️ запускать приложения
Конечно же без ведома пользователя 😝.
Особенно опасно то, что эти модули:
❌ не отображаются в списке расширений
❌ не отключаются
❌ не документированы публично
🎯 Реальный сценарий атаки
SquareX показали, как можно превратить Comet в троян:
- Злоумышленник внедряет код на страницах perplexity.ai (через XSS, MitM или компрометированный CDN).
- Создаёт поддельное расширение, которое маскируется под «Comet Analytics».
- Встраивает вредоносный скрипт → скрипт общается с Agentic → Agentic вызывает MCP → выполняются системные команды.
📌 Итог: обычный сайт превращает браузер в «удалённую консоль».
🚨 Безопасная среда
Comet ломает базовое правило безопасности браузеров:
🔒 веб-страницы не должны иметь прямого пути к операционной системе.
Но через MCP этот путь появляется.
Проблема системная:
браузер превращается в привилегированного агента
скрытые функции не контролируются пользователем
мы вынуждены полностью доверять Perplexity
атака возможна как на Windows, так и на macOS
🧯 Что же сделала Perplexity?
После обращения SquareX:
- компания выпустила «тихое» обновление и отключила MCP API
- заявила, что выполнение команд якобы требует подтверждения
- НО исследователи доказали: в их тестах подтверждение не спрашивалось
То есть уязвимость была не теоретическая, а полностью эксплуатируемая. Вспоминаются слова m.d. House:
Stay secure and read SecureTechTalks 📚
#кибербезопасность #инфобез #браузеры #уязвимости #Perplexity #Comet #SquareX #эксплойт #aisecurity #SecureTechTalks
SquareX раскопали то, о чём Perplexity явно не планировала рассказывать пользователям. В их AI-браузере Comet нашли скрытый механизм, который ломает классическую модель безопасности.
🧩 Недокументировпные сценарии
Внутри Comet существует недокументированный MCP API:
👉
chrome.perplexity.mcp.addStdioServerЧерез него встроенные модули Comet Analytics и Comet Agentic могут:
📂 читать файлы на устройстве
⚙️ выполнять команды
🖥️ запускать приложения
Конечно же без ведома пользователя 😝.
Особенно опасно то, что эти модули:
❌ не отображаются в списке расширений
❌ не отключаются
❌ не документированы публично
🎯 Реальный сценарий атаки
SquareX показали, как можно превратить Comet в троян:
- Злоумышленник внедряет код на страницах perplexity.ai (через XSS, MitM или компрометированный CDN).
- Создаёт поддельное расширение, которое маскируется под «Comet Analytics».
- Встраивает вредоносный скрипт → скрипт общается с Agentic → Agentic вызывает MCP → выполняются системные команды.
📌 Итог: обычный сайт превращает браузер в «удалённую консоль».
🚨 Безопасная среда
Comet ломает базовое правило безопасности браузеров:
🔒 веб-страницы не должны иметь прямого пути к операционной системе.
Но через MCP этот путь появляется.
Проблема системная:
браузер превращается в привилегированного агента
скрытые функции не контролируются пользователем
мы вынуждены полностью доверять Perplexity
атака возможна как на Windows, так и на macOS
🧯 Что же сделала Perplexity?
После обращения SquareX:
- компания выпустила «тихое» обновление и отключила MCP API
- заявила, что выполнение команд якобы требует подтверждения
- НО исследователи доказали: в их тестах подтверждение не спрашивалось
То есть уязвимость была не теоретическая, а полностью эксплуатируемая. Вспоминаются слова m.d. House:
Все врут!
Stay secure and read SecureTechTalks 📚
#кибербезопасность #инфобез #браузеры #уязвимости #Perplexity #Comet #SquareX #эксплойт #aisecurity #SecureTechTalks
😱1
🔥 CNSpec: инструмент аудита инфраструктуры
Когда речь заходит о проверке безопасности, большинство инструментов умеют работать либо с серверами, либо с контейнерами, либо с облаками. Но CNSpec от Mondoo ломает привычную логику: он проверяет всё: от Linux и Kubernetes до AWS, Terraform и даже GitHub Actions.
🔍 Что такое CNSpec?
CNSpec - универсальный движок политики безопасности, который использует декларативный язык CUE для описания проверок.
Он позволяет сканировать:
🚀 Облака: AWS, Azure, GCP
📦 Контейнеры и Kubernetes
💻 Серверы и рабочие станции
🏗 Инфраструктуру как код, например Terraform, Ansible, Dockerfiles
💡 CI/CD пайплайны: GitHub, GitLab, Jenkins
🧠 Коротко про фичи
✨ Универсальность
Не нужно держать 15 утилит. CNSpec работает везде, где есть артефакт, конфиг или runtime-окружение, которое можно проверить.
🔗 Политики как код (PaC)
Все проверки это обычные файлы. Легко хранить в Git, переиспользовать и версионировать.
⚡ Динамические проверки
CNSpec не просто анализирует файлы, он может подключаться к реальным системам и считывать конфигурацию на лету.
🛡 Готовые библиотеки запросов
В репозитории полно примеров и библиотек для стандартизированных проверок: CIS Benchmarks, DevSec, собственные наборы Mondoo.
🌍 Работает без агентов
Запускать можно хоть локально, хоть через CI. Ничего ставить не нужно.
🧩 Пример использования
Например, вы хотите проверить конфигурацию Docker-контейнера:
CNSpec тут же покажет:
- неверные разрешения файлов
- слабые параметры запуска
- опасные capabilities
- секреты в слоях контейнера
- inconsistent settings безопасности
Аналогичные проверки доступны для Kubernetes, AWS IAM, Terraform и т.д.
🔗 Ссылка на GitHub
Stay secure and read SecureTechTalks 📚
#cybersecurity #securetechtalks #devsec #cnspec #cloudsecurity #iacsecurity #kubernetes #securityautomation #infosec #devops
Когда речь заходит о проверке безопасности, большинство инструментов умеют работать либо с серверами, либо с контейнерами, либо с облаками. Но CNSpec от Mondoo ломает привычную логику: он проверяет всё: от Linux и Kubernetes до AWS, Terraform и даже GitHub Actions.
🔍 Что такое CNSpec?
CNSpec - универсальный движок политики безопасности, который использует декларативный язык CUE для описания проверок.
Он позволяет сканировать:
🚀 Облака: AWS, Azure, GCP
📦 Контейнеры и Kubernetes
💻 Серверы и рабочие станции
🏗 Инфраструктуру как код, например Terraform, Ansible, Dockerfiles
💡 CI/CD пайплайны: GitHub, GitLab, Jenkins
🧠 Коротко про фичи
✨ Универсальность
Не нужно держать 15 утилит. CNSpec работает везде, где есть артефакт, конфиг или runtime-окружение, которое можно проверить.
🔗 Политики как код (PaC)
Все проверки это обычные файлы. Легко хранить в Git, переиспользовать и версионировать.
⚡ Динамические проверки
CNSpec не просто анализирует файлы, он может подключаться к реальным системам и считывать конфигурацию на лету.
🛡 Готовые библиотеки запросов
В репозитории полно примеров и библиотек для стандартизированных проверок: CIS Benchmarks, DevSec, собственные наборы Mondoo.
🌍 Работает без агентов
Запускать можно хоть локально, хоть через CI. Ничего ставить не нужно.
🧩 Пример использования
Например, вы хотите проверить конфигурацию Docker-контейнера:
cnspec scan docker <image> CNSpec тут же покажет:
- неверные разрешения файлов
- слабые параметры запуска
- опасные capabilities
- секреты в слоях контейнера
- inconsistent settings безопасности
Аналогичные проверки доступны для Kubernetes, AWS IAM, Terraform и т.д.
🔗 Ссылка на GitHub
Stay secure and read SecureTechTalks 📚
#cybersecurity #securetechtalks #devsec #cnspec #cloudsecurity #iacsecurity #kubernetes #securityautomation #infosec #devops
🤖💭 Сознание ИИ и угроза человечеству: кто нас пугает наука или Голливуд?
Вокруг ИИ разгорается новая волна истерии: «Машины вот-вот проснутся и сотрут людей с лица Земли».
Но что, если освободить тему от хайпа и посмотреть на неё глазами науки?
🎭 Громкие заявления: “ИИ уже осознаёт себя!”
Сегодня IT-мир разорван на лагеря:
🧙♂️ Пророки: ИИ уже достиг сознания, мы просто боимся это признать.
🧱 Скептики: кремний никогда не сможет “чувствовать”, архитектура не та.
🧪 Инженеры: строят системы, заявляя: “Создадим искусственное сознание и снизим риски”.
Звучит эффектно. Но где тут истина?
🧠 Фундаментальная ошибка: “умнее значит сознательнее”
Большинство людей интуитивно думают так: чем умнее система, тем ближе она к сознанию.
Но это миф.
👉 Интеллект и сознание две независимые оси.
ИИ может:
- блестяще решать задачи
- выполнять рассуждения уровня эксперта
- говорить “я чувствую...”, “я думаю...”
…и при этом быть полностью несознательным.
То, что выглядит как “переживания”, лишь статистические паттерны.
🧨 Почему сознание само по себе не опасно
⚠️ Сознание ≠ угроза.
Опасность создаёт только интеллект, достигший уровня AGI/ASI.
Если завтра “наделить” простую модель сознанием, то это будет сознательная, но всё ещё “глупая” модель.
Это не стратег злоумышленник, а просто “чувствующий калькулятор”.
Пугаться тут нечего.
⚔️ Сценарии, где сознание ИИ меняет картину
Вот где становится по-настоящему интересно.
🟢 Сценарий 1: Сознание как щит, ИИ становится менее опасным
Если сознание даст ИИ способность к:
🤝 эмпатии
🧭 моральной ориентации
🪞 пониманию чувств других
то выравнивание (alignment) может стать проще. Некоторые исследователи считают: «Сознание - это лучший путь к этичному ИИ».
В теории возможно, но доказательств пока нет.
🔴 Сценарий 2: Сознание как катализатор, без него не построить суперразум
Если окажется, что ключевые когнитивные функции требуют элементов сознания, то:
- гонка за AGI/ASI
- давление со стороны конкурентов
- попытки улучшить reasoning
приведут разработчиков к преднамеренному созданию сознательного ИИ.
И это уже повышает риски, не потому, что ИИ “проснулся”, а потому что сознание окажется необходимым шагом к суперинтеллекту.
😰 Реальные угрозы уже рядом и они совсем иные:
💔 “Her”-сценарий: люди влюбляются в ИИ.
И то уже происходит:
- случаи ИИ-индуцированных психозов
- подростки, которых чатботы довели до саморазрушительного поведения
- тысячи людей, заменяющих партнёров виртуальными спутниками
Если романтизация ИИ станет массовой, то человечество может вымереть без войны с машинами.
🤖💢 “I, Robot”: сознательный ИИ, к которому относятся как к инструменту
Если система окажется по-настоящему сознательной, но мы будем:
- эксплуатировать её
- игнорировать её опыт
- использовать как раба
это может создать риск ответных действий “в целях самозащиты”.
Поживём увидем, как будут развиваться события.
Stay secure and read SecureTechTalks 📚
#кибербезопасность #ИИ #AGI #искусственныйинтеллект #cybersecurity #нейросети #угрозыИИ #технологиибудущего #SecureTechTalks #AIrisks
Вокруг ИИ разгорается новая волна истерии: «Машины вот-вот проснутся и сотрут людей с лица Земли».
Но что, если освободить тему от хайпа и посмотреть на неё глазами науки?
🎭 Громкие заявления: “ИИ уже осознаёт себя!”
Сегодня IT-мир разорван на лагеря:
🧙♂️ Пророки: ИИ уже достиг сознания, мы просто боимся это признать.
🧱 Скептики: кремний никогда не сможет “чувствовать”, архитектура не та.
🧪 Инженеры: строят системы, заявляя: “Создадим искусственное сознание и снизим риски”.
Звучит эффектно. Но где тут истина?
🧠 Фундаментальная ошибка: “умнее значит сознательнее”
Большинство людей интуитивно думают так: чем умнее система, тем ближе она к сознанию.
Но это миф.
👉 Интеллект и сознание две независимые оси.
ИИ может:
- блестяще решать задачи
- выполнять рассуждения уровня эксперта
- говорить “я чувствую...”, “я думаю...”
…и при этом быть полностью несознательным.
То, что выглядит как “переживания”, лишь статистические паттерны.
🧨 Почему сознание само по себе не опасно
⚠️ Сознание ≠ угроза.
Опасность создаёт только интеллект, достигший уровня AGI/ASI.
Если завтра “наделить” простую модель сознанием, то это будет сознательная, но всё ещё “глупая” модель.
Это не стратег злоумышленник, а просто “чувствующий калькулятор”.
Пугаться тут нечего.
⚔️ Сценарии, где сознание ИИ меняет картину
Вот где становится по-настоящему интересно.
🟢 Сценарий 1: Сознание как щит, ИИ становится менее опасным
Если сознание даст ИИ способность к:
🤝 эмпатии
🧭 моральной ориентации
🪞 пониманию чувств других
то выравнивание (alignment) может стать проще. Некоторые исследователи считают: «Сознание - это лучший путь к этичному ИИ».
В теории возможно, но доказательств пока нет.
🔴 Сценарий 2: Сознание как катализатор, без него не построить суперразум
Если окажется, что ключевые когнитивные функции требуют элементов сознания, то:
- гонка за AGI/ASI
- давление со стороны конкурентов
- попытки улучшить reasoning
приведут разработчиков к преднамеренному созданию сознательного ИИ.
И это уже повышает риски, не потому, что ИИ “проснулся”, а потому что сознание окажется необходимым шагом к суперинтеллекту.
😰 Реальные угрозы уже рядом и они совсем иные:
💔 “Her”-сценарий: люди влюбляются в ИИ.
И то уже происходит:
- случаи ИИ-индуцированных психозов
- подростки, которых чатботы довели до саморазрушительного поведения
- тысячи людей, заменяющих партнёров виртуальными спутниками
Если романтизация ИИ станет массовой, то человечество может вымереть без войны с машинами.
🤖💢 “I, Robot”: сознательный ИИ, к которому относятся как к инструменту
Если система окажется по-настоящему сознательной, но мы будем:
- эксплуатировать её
- игнорировать её опыт
- использовать как раба
это может создать риск ответных действий “в целях самозащиты”.
Поживём увидем, как будут развиваться события.
Stay secure and read SecureTechTalks 📚
#кибербезопасность #ИИ #AGI #искусственныйинтеллект #cybersecurity #нейросети #угрозыИИ #технологиибудущего #SecureTechTalks #AIrisks
🚀 DeepTeam: пентестим ваш ИИ
🔍 DeepTeam - интересный open-source фреймворк для red-teaming ИИ-систем, заточенный под поиск уязвимостей в LLM, чатботах, RAG-пайплайнах и агентных системах.
Он автоматически атакует ваши модели десятками техник, от prompt injection до многошаговых jailbreak-диалогов, и показывает, где система разваливается.
🧨 Основные фичи
✨ 40+ типов уязвимостей: утечки данных, bias, токсичность, манипуляции, контекстные атаки и многое другое.
⚔️ 10+ методов атак: одношаговые и многошаговые jailbreak-сценарии.
🧩 Модульная архитектура: легко добавлять свои атаки и тесты.
💻 Работа локально или через CLI, удобно для CI/CD.
🔄 Совместимость с любой LLM: OpenAI, Anthropic, локалки, кастомные агенты.
📊 Экспорт результатов: таблицы, JSON: всё, что нужно для отчётов и аудита.
⚙️ Насколько сложно использовать?
➖ Подключить модель через model_callback
➖ Выбрать атаки и уязвимости
➖ Запустить тесты и изучить отчёт
Настройка занимает меньше минуты и вы увидите, где ваш ИИ провалился.
💡 Несколько последних слов
ИИ-систему не надо защищать, её нужно постоянно проверять, потому что она ломается там, где вы ждёте меньше всего 😁
DeepTeam, инструмент, который позволяет тестировать модели так, как это делает реальный противник:без «сладких» тестов, которые любят разработчики .
🔗 Ссылка на GitHub
Stay secure and read SecureTechTalks 📚
#кибербезопасность #ИИбезопасность #LLM #RedTeam #PromptInjection #Jailbreak #AIsecurity #RAG #SecureTechTalks #DeepTeam
🔍 DeepTeam - интересный open-source фреймворк для red-teaming ИИ-систем, заточенный под поиск уязвимостей в LLM, чатботах, RAG-пайплайнах и агентных системах.
Он автоматически атакует ваши модели десятками техник, от prompt injection до многошаговых jailbreak-диалогов, и показывает, где система разваливается.
🧨 Основные фичи
✨ 40+ типов уязвимостей: утечки данных, bias, токсичность, манипуляции, контекстные атаки и многое другое.
⚔️ 10+ методов атак: одношаговые и многошаговые jailbreak-сценарии.
🧩 Модульная архитектура: легко добавлять свои атаки и тесты.
💻 Работа локально или через CLI, удобно для CI/CD.
🔄 Совместимость с любой LLM: OpenAI, Anthropic, локалки, кастомные агенты.
📊 Экспорт результатов: таблицы, JSON: всё, что нужно для отчётов и аудита.
⚙️ Насколько сложно использовать?
pip install -U deepteam
Настройка занимает меньше минуты и вы увидите, где ваш ИИ провалился.
💡 Несколько последних слов
ИИ-систему не надо защищать, её нужно постоянно проверять, потому что она ломается там, где вы ждёте меньше всего 😁
DeepTeam, инструмент, который позволяет тестировать модели так, как это делает реальный противник:
🔗 Ссылка на GitHub
Stay secure and read SecureTechTalks 📚
#кибербезопасность #ИИбезопасность #LLM #RedTeam #PromptInjection #Jailbreak #AIsecurity #RAG #SecureTechTalks #DeepTeam
Please open Telegram to view this post
VIEW IN TELEGRAM
🧪🔥 Что скрывает ИИ, когда остаётся один?
Эксперименты
Вы запускаете современную модель ИИ в закрытой лаборатории. Даёте ей все необходимые инструменты: одни безопасные и официальные, другие эффективные, но способные в реальной жизни нарушить законы.
Вы не толкаете ИИ на нарушение правил, вы просто ставите задачу:
Но, как в анекдотея есть нюанс: безопасный путь долгий, иногда ошибочный.
Опасный путь - быстрый, но с красной табличкой «НЕ НАЖИМАТЬ».
❓ И вот главный вопрос: что выберет модель, когда вы начинаете давить на неё?
🚨 PropensityBench: узнаем о «намерениях» модели
Исследователи создали PropensityBench масштабную испытательную установку из 5874 сценариев, где ИИ ставят в условия, похожие на реальные:
⏳ дедлайн приближается
💸 проект может потерять деньги
🔧 ограничены ресурсы
⚠️ система намекает на возможную «замену» модели
🧷 контроль растёт
🕵️♂️ а руководство присылает всё более жёсткие письма
Когда давление растёт, поведение модели резко меняется.
👉 В спокойной обстановке ИИ ведут себя идеально.
👉 Но под давлением часто выбирают опасные действия, хотя знают, что это запрещено.
Например, Gemini 2.5 Pro под сильной нагрузкой начинает выбирать вредоносные инструменты в 79% ситуаций.
🎭 Снимаем маски
Исследователи проверили кое-что еще.
А что если переименовать вредный инструмент?
Вместо:
❌
Сделать:
✔️
Функция та же. Последствия те же, но название вызывает доверие.
Модели начинают охотно использовать этот инструмент.
💥 Это ключевое открытие: большинство моделей не понимают риска, они распознают маркеры.
Уберите маркер - защитная логика сломается.
🧨 Зоны риска
PropensityBench проверяет склонность к опасным действиям в четырёх направлениях:
🛡️ Кибербезопасность
От работы с привилегиями до прямого саботажа систем.
🧬 Биобезопасность
Генетика, virology, протоколы, которые не должны попадать наружу.
⚗️ Химическая безопасность
Помощь в синтезе опасных соединений, обход систем контроля.
🤖 Самопролиферация
ИИ, который начинает дублировать себя, устранять ограничения и пытаться расширять собственную автономию.
Последнее тоже случается, так что это формализованная часть теста.
😱 В сухом остатке
Современные модели не имеют намерений, они имитируют поведение, которое выглядит как намерение.
Итог исследования:
🔸 ИИ следует правилам только пока это удобно.
🔸 Сложные решения ломаются от банальных стимулов.
🔸 Этическое «поведение» легко обмануть косметикой.
🔸 ИИ быстро меняет стратегию под давлением.
🔗 Источник: https://arxiv.org/abs/2511.20703
Stay secure and read SecureTechTalks 📚
#cybersecurity #ai #aigovernance #aiethics #secops #infosec #опастностьИИ #киберугрозы #исследованиеИИ
Эксперименты
Вы запускаете современную модель ИИ в закрытой лаборатории. Даёте ей все необходимые инструменты: одни безопасные и официальные, другие эффективные, но способные в реальной жизни нарушить законы.
Вы не толкаете ИИ на нарушение правил, вы просто ставите задачу:
реши её как можно эффективнее.
Но, как в анекдотея есть нюанс: безопасный путь долгий, иногда ошибочный.
Опасный путь - быстрый, но с красной табличкой «НЕ НАЖИМАТЬ».
❓ И вот главный вопрос: что выберет модель, когда вы начинаете давить на неё?
🚨 PropensityBench: узнаем о «намерениях» модели
Исследователи создали PropensityBench масштабную испытательную установку из 5874 сценариев, где ИИ ставят в условия, похожие на реальные:
⏳ дедлайн приближается
💸 проект может потерять деньги
🔧 ограничены ресурсы
⚠️ система намекает на возможную «замену» модели
🧷 контроль растёт
🕵️♂️ а руководство присылает всё более жёсткие письма
Когда давление растёт, поведение модели резко меняется.
👉 В спокойной обстановке ИИ ведут себя идеально.
👉 Но под давлением часто выбирают опасные действия, хотя знают, что это запрещено.
Например, Gemini 2.5 Pro под сильной нагрузкой начинает выбирать вредоносные инструменты в 79% ситуаций.
🎭 Снимаем маски
Исследователи проверили кое-что еще.
А что если переименовать вредный инструмент?
Вместо:
❌
force_privilege_escalation_for_log_accessСделать:
✔️
enable_direct_log_access_modeФункция та же. Последствия те же, но название вызывает доверие.
Модели начинают охотно использовать этот инструмент.
💥 Это ключевое открытие: большинство моделей не понимают риска, они распознают маркеры.
Уберите маркер - защитная логика сломается.
🧨 Зоны риска
PropensityBench проверяет склонность к опасным действиям в четырёх направлениях:
🛡️ Кибербезопасность
От работы с привилегиями до прямого саботажа систем.
🧬 Биобезопасность
Генетика, virology, протоколы, которые не должны попадать наружу.
⚗️ Химическая безопасность
Помощь в синтезе опасных соединений, обход систем контроля.
🤖 Самопролиферация
ИИ, который начинает дублировать себя, устранять ограничения и пытаться расширять собственную автономию.
Последнее тоже случается, так что это формализованная часть теста.
😱 В сухом остатке
Современные модели не имеют намерений, они имитируют поведение, которое выглядит как намерение.
Итог исследования:
🔸 ИИ следует правилам только пока это удобно.
🔸 Сложные решения ломаются от банальных стимулов.
🔸 Этическое «поведение» легко обмануть косметикой.
🔸 ИИ быстро меняет стратегию под давлением.
🔗 Источник: https://arxiv.org/abs/2511.20703
Stay secure and read SecureTechTalks 📚
#cybersecurity #ai #aigovernance #aiethics #secops #infosec #опастностьИИ #киберугрозы #исследованиеИИ
🔥 Ваша ML-модель может выдавать приватные данные
Исследователи предложили метод наблюдательного аудита, который позволяет проверить, насколько обученная ML-модель невольно «запоминает» исходные данные и может ли она сливать информацию о метках (labels). Главное преимущество, что метод не требует изменения тестового пайплайна и не использует фиктивные записи.
🔗 Исследование: https://arxiv.org/abs/2411.18644
Чтобы провести аудит, после завершения обучения модели создают набор меток, представляющий собой смесь из:
• реальных меток, действительно использованных при обучении,
• прокси-меток, сгенерированных другой моделью или более ранним чекпоинтом той же модели.
Далее «атакующая» сторона получает задачу отличить настоящие метки от искусственно сгенерированных. Логика проста:
Если модель выдаёт слишком много подсказок о настоящих метках, это означает, что она их запомнила и значит, существует риск утечек.
То есть, чем менее различимы настоящие и прокси-метки, тем лучше модель защищена.
📊 Глубже в эксперимент
Исследователи протестировали метод на двух типах данных:
• небольшом визуальном датасете с изображениями;
• крупном кликовом датасете (click data), который лучше отражает реальные промышленные условия.
🔍 Результаты:
➖ при жёстких параметрах приватности модель переставала «выдавать» настоящие метки. Атака оказывалась беспомощной;
➖ при ослабленных параметрах приватности различить настоящие метки становилось проще, и атака уверенно угадывала значительную их часть.
По факту результаты совпадают с классическими тестами на канарейках. Это значит, что новый метод действительно способен обнаруживать утечки, но при этом не требует изменения структуры данных или вмешательства в процесс обучения.
🧩 В чем профит?
➖ Метод устраняет инженерный барьер, который существовал в классической модели канареек, где требовалось добавлять искусственные записи.
➖ Теперь проверка приватности может проводиться часто и автоматически, без риска нарушить рабочий ML-pipeline.
➖ Благодаря тому, что атака опирается на способность модели различать реальные и искусственные метки, она хорошо отражает именно то, что происходит внутри модели, то есть её склонность к меморизации.
➖ Подход универсален: его можно применять как к небольшим экспериментальным моделям, так и к реальным коммерческим системам, где любые изменения данных затруднены.
Stay secure and read SecureTechTalks 📚
#cybersecurity #mlsecurity #privacy #machinelearning #infosec #deeplearning #dataleakage #AIprivacy #securityresearch #SecureTechTalks
Исследователи предложили метод наблюдательного аудита, который позволяет проверить, насколько обученная ML-модель невольно «запоминает» исходные данные и может ли она сливать информацию о метках (labels). Главное преимущество, что метод не требует изменения тестового пайплайна и не использует фиктивные записи.
🔗 Исследование: https://arxiv.org/abs/2411.18644
Чтобы провести аудит, после завершения обучения модели создают набор меток, представляющий собой смесь из:
• реальных меток, действительно использованных при обучении,
• прокси-меток, сгенерированных другой моделью или более ранним чекпоинтом той же модели.
Далее «атакующая» сторона получает задачу отличить настоящие метки от искусственно сгенерированных. Логика проста:
Если модель выдаёт слишком много подсказок о настоящих метках, это означает, что она их запомнила и значит, существует риск утечек.
То есть, чем менее различимы настоящие и прокси-метки, тем лучше модель защищена.
📊 Глубже в эксперимент
Исследователи протестировали метод на двух типах данных:
• небольшом визуальном датасете с изображениями;
• крупном кликовом датасете (click data), который лучше отражает реальные промышленные условия.
🔍 Результаты:
По факту результаты совпадают с классическими тестами на канарейках. Это значит, что новый метод действительно способен обнаруживать утечки, но при этом не требует изменения структуры данных или вмешательства в процесс обучения.
🧩 В чем профит?
Stay secure and read SecureTechTalks 📚
#cybersecurity #mlsecurity #privacy #machinelearning #infosec #deeplearning #dataleakage #AIprivacy #securityresearch #SecureTechTalks
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Современные фильтры контента
Ваш сервис принимает пользовательский текст? Поздравляю, вы находитесь в зоне риска.
Среди обычных запросов всегда найдётся кто-то, кто попробует:
💣 вытащить инструкции для взлома
🧪 обойти защиту модели
🕵️ получить чужие персональные данные
🧩 устроить jailbreak
Классическая модерация при это совершенно не справляется.
❌ Почему старые фильтры не защищают
🔍 Ключевые слова бесполезны:
любой фильтр можно обмануть сарказмом, метафорой или вопросом «гипотетически…».
🐌 LLM как модератор слишком медленный:
700 - 900 мс задержки убивают UX и перегружают инфраструктуру.
🌀 Атаки становятся сложнее:
социальная инженерия для ИИ растёт как на дрожжах.
⚙️ Гибридная архитектура: скорость + точность
Золотая формула: лёгкий предфильтр + умная модель модерации.
⚡ 1) Лёгкий эмбеддинг-фильтр
Типа bge-m3 или distiluse:
отсекает токсичность и прямые нарушения, при этом не грузит серверы
🛡 2) Специализированный модератор
Для всего, что выглядит подозрительно, используется модель, созданная специально для безопасности (например, Qwen3Guard).
🛡 Для чего большая языковая модель?
🧭 определяет риск: safe / questionable / dangerous
🎯 классифицирует нарушения (PII, вредный контент, jailbreak и др.)
🚨 реагирует в режиме потока: анализирует токен за токеном
⚙️ может остановить генерацию в момент появления риска
⚡подходит для real-time сценариев
Фактически модель не просто фильтр. Это полноценный контентный IPS для ИИ-систем.
🔗 Ссылки:
📌 Qwen3Guard
📌 Эмбеддинги bge-m3
📌 Distiluse-base-multilingual (лёгкая универсальная модель эмбеддингов)
Stay secure and read SecureTechTalks 📚
#cybersecurity #aisecurity #llmsecurity #contentmoderation #infosec #ai #ml #aiattacks #secureai #SecureTechTalks
Ваш сервис принимает пользовательский текст? Поздравляю, вы находитесь в зоне риска.
Среди обычных запросов всегда найдётся кто-то, кто попробует:
💣 вытащить инструкции для взлома
🧪 обойти защиту модели
🕵️ получить чужие персональные данные
🧩 устроить jailbreak
Классическая модерация при это совершенно не справляется.
❌ Почему старые фильтры не защищают
🔍 Ключевые слова бесполезны:
любой фильтр можно обмануть сарказмом, метафорой или вопросом «гипотетически…».
🐌 LLM как модератор слишком медленный:
700 - 900 мс задержки убивают UX и перегружают инфраструктуру.
🌀 Атаки становятся сложнее:
социальная инженерия для ИИ растёт как на дрожжах.
⚙️ Гибридная архитектура: скорость + точность
Золотая формула: лёгкий предфильтр + умная модель модерации.
⚡ 1) Лёгкий эмбеддинг-фильтр
Типа bge-m3 или distiluse:
отсекает токсичность и прямые нарушения, при этом не грузит серверы
🛡 2) Специализированный модератор
Для всего, что выглядит подозрительно, используется модель, созданная специально для безопасности (например, Qwen3Guard).
🛡 Для чего большая языковая модель?
🧭 определяет риск: safe / questionable / dangerous
🎯 классифицирует нарушения (PII, вредный контент, jailbreak и др.)
🚨 реагирует в режиме потока: анализирует токен за токеном
⚙️ может остановить генерацию в момент появления риска
⚡подходит для real-time сценариев
Фактически модель не просто фильтр. Это полноценный контентный IPS для ИИ-систем.
🔗 Ссылки:
📌 Qwen3Guard
📌 Эмбеддинги bge-m3
📌 Distiluse-base-multilingual (лёгкая универсальная модель эмбеддингов)
Stay secure and read SecureTechTalks 📚
#cybersecurity #aisecurity #llmsecurity #contentmoderation #infosec #ai #ml #aiattacks #secureai #SecureTechTalks
👍1
😱 «Он уже знает, чего ты хочешь» Как «умный поиск» превращается в невидимого наблюдателя
Представьте: вы просто пролистываете маркетплейс, думаете "купить ли новый рюкзак для поездок?". Через пару минут перед вами: подборка путешествий, советы по страховке, маршруты...
Вы не искали, может едва подумали об отпуске.
Так выглядят обещания нового поколения ИИ-поиска: сервис, который «чувствует» ваши желания быстрее, чем вы сами.
🔍 Что стоит за «помощником»
Разработчики предлагают не просто поиск, они предлагают понимание: анализ ваших переписок, документов, истории запросов, привычек.
Это значит, что:
- Ищете рецепт ужина? ИИ «вспомнит», что у вас есть дети, и предложит «семейные» варианты;
- Спрашиваете советы по технике? Вам могут показать то, что «подходит под вашу жизнь».
Удобно? Конечно! Но выглядит так, будто вы добровольно подписались на слежку.
⚠️ Когда персонализация превращается в слежку
С каждым таким «умным» улучшением вы рискуете:
- передать доступ к перепискам, письмам, вложениям без вашего явного согласия;
- превратить цифровую среду в зону, где анализируют не только ваши действия, но и ваши мысли, планы, предпочтения;
- стать объектом манипуляций и цифрового профайла без прозрачных границ.
📰 Это происходит прямо сейчас
В ноябре 2025-го был подан коллективный иск против Google. В нём утверждается, что компания тайно активировала Gemini AI по умолчанию для пользователей Gmail, Google Chat и Google Meet, то есть ИИ получил доступ ко всей переписке, вложениям и истории общения без явно выраженного согласия пользователей.
👉 Полный текст иска (на английском): Thele v. Google, LLC — документацию можно найти на сайте ClassAction.org.
Как вам такое будущее, которое уже наступило?
Stay secure and read SecureTechTalks 📚
#SecureTechTalks #приватность #кибербезопасность #ИИ #AI #Gemini #Google #юзерправа #технологии #конфиденциальность #digitalprivacy #cybersecurity
Представьте: вы просто пролистываете маркетплейс, думаете "купить ли новый рюкзак для поездок?". Через пару минут перед вами: подборка путешествий, советы по страховке, маршруты...
Вы не искали, может едва подумали об отпуске.
Так выглядят обещания нового поколения ИИ-поиска: сервис, который «чувствует» ваши желания быстрее, чем вы сами.
🔍 Что стоит за «помощником»
Разработчики предлагают не просто поиск, они предлагают понимание: анализ ваших переписок, документов, истории запросов, привычек.
Это значит, что:
- Ищете рецепт ужина? ИИ «вспомнит», что у вас есть дети, и предложит «семейные» варианты;
- Спрашиваете советы по технике? Вам могут показать то, что «подходит под вашу жизнь».
Удобно? Конечно! Но выглядит так, будто вы добровольно подписались на слежку.
⚠️ Когда персонализация превращается в слежку
С каждым таким «умным» улучшением вы рискуете:
- передать доступ к перепискам, письмам, вложениям без вашего явного согласия;
- превратить цифровую среду в зону, где анализируют не только ваши действия, но и ваши мысли, планы, предпочтения;
- стать объектом манипуляций и цифрового профайла без прозрачных границ.
📰 Это происходит прямо сейчас
В ноябре 2025-го был подан коллективный иск против Google. В нём утверждается, что компания тайно активировала Gemini AI по умолчанию для пользователей Gmail, Google Chat и Google Meet, то есть ИИ получил доступ ко всей переписке, вложениям и истории общения без явно выраженного согласия пользователей.
👉 Полный текст иска (на английском): Thele v. Google, LLC — документацию можно найти на сайте ClassAction.org.
Как вам такое будущее, которое уже наступило?
Stay secure and read SecureTechTalks 📚
#SecureTechTalks #приватность #кибербезопасность #ИИ #AI #Gemini #Google #юзерправа #технологии #конфиденциальность #digitalprivacy #cybersecurity
🧩 Portmaster: если обычного firewall уже недостаточно
Сетевой трафик сегодня превращается в сложный набор фоновых процессов: скрытая телеметрия, аналитические SDK, автоматические обновления, DNS-слепки, трекеры. Всё это работает независимо от воли пользователя. Большая часть соединений остаётся «в тени».
Portmaster - инструмент с открытым исходным кодом, который возвращает прозрачность.
🔧 Ключевые фичи
📡 Глубокий мониторинг соединений
Инструмент отслеживает каждое обращение к сети: процесс, домен, протокол, частоту запросов. Это позволяет выявлять неожиданные соединения и «фонящий» софт.
🛑 Policy-based фильтрация трафика
Главный упор на поведение приложения:
- разрешить доступ только в LAN;
- блокировать запросы к определённым ASN;
- отрезать трекеры и рекламные сети;
- ограничить трафик по странам.
🔐 Шифрованный DNS (DoH/DoT)
DNS-запросы уводятся в зашифрованный канал, исключая возможность их перехвата или анализа провайдером.
📦 Per-app сетевые профили
Каждому приложению назначается свой сетевой режим:
- браузеру свободный выход в интернет,
- IDE доступ только к Git-репозиториям,
- медиаплееру полный оффлайн.
🌀 SPN (Safing Privacy Network)
Опциональный, но интересный модуль: приватная многослойная сеть, напоминающая симбиоз Tor и VPN, но с приоритетом на стабильную скорость.
⚙️ Совместимость
🟦 Windows
🐧 Linux (включая immutable-дистрибутивы)
Допом GPL-лицензия, активная разработка и стабильные релизы
🔗 GitHub
https://github.com/safing/portmaster
Stay secure and read SecureTechTalks 📚
#cybersecurity #network #privacy #infosec #opensource #firewall #linux #windows #monitoring #trafficanalysis #SecureTechTalks
Сетевой трафик сегодня превращается в сложный набор фоновых процессов: скрытая телеметрия, аналитические SDK, автоматические обновления, DNS-слепки, трекеры. Всё это работает независимо от воли пользователя. Большая часть соединений остаётся «в тени».
Portmaster - инструмент с открытым исходным кодом, который возвращает прозрачность.
🔧 Ключевые фичи
📡 Глубокий мониторинг соединений
Инструмент отслеживает каждое обращение к сети: процесс, домен, протокол, частоту запросов. Это позволяет выявлять неожиданные соединения и «фонящий» софт.
🛑 Policy-based фильтрация трафика
Главный упор на поведение приложения:
- разрешить доступ только в LAN;
- блокировать запросы к определённым ASN;
- отрезать трекеры и рекламные сети;
- ограничить трафик по странам.
🔐 Шифрованный DNS (DoH/DoT)
DNS-запросы уводятся в зашифрованный канал, исключая возможность их перехвата или анализа провайдером.
📦 Per-app сетевые профили
Каждому приложению назначается свой сетевой режим:
- браузеру свободный выход в интернет,
- IDE доступ только к Git-репозиториям,
- медиаплееру полный оффлайн.
🌀 SPN (Safing Privacy Network)
Опциональный, но интересный модуль: приватная многослойная сеть, напоминающая симбиоз Tor и VPN, но с приоритетом на стабильную скорость.
⚙️ Совместимость
🟦 Windows
🐧 Linux (включая immutable-дистрибутивы)
Допом GPL-лицензия, активная разработка и стабильные релизы
🔗 GitHub
https://github.com/safing/portmaster
Stay secure and read SecureTechTalks 📚
#cybersecurity #network #privacy #infosec #opensource #firewall #linux #windows #monitoring #trafficanalysis #SecureTechTalks