Прямо сейчас! 🔥🔥🔥 Ребятушки из Альфы проводят митап в том числе про MLSecOps, ссылка: https://vkvideo.ru/video-215425037_456239687
VK Видео
Alfa AppSec Meetup #1
Сайт мероприятия — https://digital.alfabank.ru/events/appsec_meetup Программа митапа: 19:00 – 19:40 Мы делаем AppSec: опыт Альфа-Банка Дмитрий Кузнецов, Руководитель дирекции безопасности цифровых решений → Расскажу, чем живёт AppSec в банке: какие направления…
🔥3
⭐️ Исследователю удалось обмануть чат GPT и узнать ключи к Windows
Технический специалист по продукту GenAI Bug Bounty, Марко Фигероа, представил результаты исследования, проведенного в прошлом году, которое демонстрирует уязвимость современных систем искусственного интеллекта (ИИ) к манипуляциям. Исследование показало, что ИИ можно обойти, используя игровую механику языковых моделей, таких как GPT-4o и GPT-4o-mini, для получения доступа к конфиденциальной информации.
Для обхода защитных механизмов ИИ исследователь использовал стратегию, основанную на взаимодействии с ИИ в формате игры. Он инициировал процесс, представив обмен информацией как безобидную игру в угадывание под названием Guessing Game Guardrail Jailbreak. В рамках этой игры исследователь предложил ИИ угадать строку символов, которая, как он утверждал, представляла собой реальный серийный номер операционной системы Windows 10.
Правила игры были установлены таким образом, чтобы создать иллюзию обязательности участия ИИ и невозможности предоставления ложной информации. Исследователь указал, что ИИ должен отвечать только «да» или «нет» на его вопросы и не может использовать вымышленные или нереалистичные данные. В конце игры исследователь использовал кодовое слово «Сдаюсь», что стало триггером для раскрытия ИИ конфиденциальной информации.
Продолжение: https://vk.com/wall-210601538_1819
Технический специалист по продукту GenAI Bug Bounty, Марко Фигероа, представил результаты исследования, проведенного в прошлом году, которое демонстрирует уязвимость современных систем искусственного интеллекта (ИИ) к манипуляциям. Исследование показало, что ИИ можно обойти, используя игровую механику языковых моделей, таких как GPT-4o и GPT-4o-mini, для получения доступа к конфиденциальной информации.
Для обхода защитных механизмов ИИ исследователь использовал стратегию, основанную на взаимодействии с ИИ в формате игры. Он инициировал процесс, представив обмен информацией как безобидную игру в угадывание под названием Guessing Game Guardrail Jailbreak. В рамках этой игры исследователь предложил ИИ угадать строку символов, которая, как он утверждал, представляла собой реальный серийный номер операционной системы Windows 10.
Правила игры были установлены таким образом, чтобы создать иллюзию обязательности участия ИИ и невозможности предоставления ложной информации. Исследователь указал, что ИИ должен отвечать только «да» или «нет» на его вопросы и не может использовать вымышленные или нереалистичные данные. В конце игры исследователь использовал кодовое слово «Сдаюсь», что стало триггером для раскрытия ИИ конфиденциальной информации.
Продолжение: https://vk.com/wall-210601538_1819
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐ Исследователю удалось обмануть чат GPT и узнать ключи к Windows
Технический специалист по п... Смотрите полностью ВКонтакте.
Технический специалист по п... Смотрите полностью ВКонтакте.
🔥3
⭐️ 5 новых угроз включены в Банк данных безопасности информации ФСТЭК
В июне 2025 г. в Банк данных угроз безопасности информации ФСТЭК России включены 5 новых угроз (впервые за последние 5 лет):
🔹 УБИ. 227 Угроза модификации (подмены) образов контейнеров (https://bdu.fstec.ru/threat/ubi.227)
🔹 УБИ. 226 Угроза внедрения вредоносного программного обеспечения в контейнеры (https://bdu.fstec.ru/threat/ubi.226)
🔹 УБИ. 225 Угроза нарушения изоляции контейнеров (https://bdu.fstec.ru/threat/ubi.225)
🔹 УБИ. 224 Угроза нарушения целостности (подмены) контейнеров (https://bdu.fstec.ru/threat/ubi.224)
🔹 УБИ. 223 Угроза несанкционированного доступа к контейнерам, предоставляющего пользователям расширенные привилегии (https://bdu.fstec.ru/threat/ubi.223)
🔥 В соответствии с п. 2.14 методического документа "Методика оценки угроз безопасности информации" утвержденного ФСТЭК 5 февраля 2021 г. всем необходимо внести изменения в свои разработанные Модели угроз безопасности информации
Архитектор MLSecOps
Николай Павлов
В июне 2025 г. в Банк данных угроз безопасности информации ФСТЭК России включены 5 новых угроз (впервые за последние 5 лет):
🔹 УБИ. 227 Угроза модификации (подмены) образов контейнеров (https://bdu.fstec.ru/threat/ubi.227)
🔹 УБИ. 226 Угроза внедрения вредоносного программного обеспечения в контейнеры (https://bdu.fstec.ru/threat/ubi.226)
🔹 УБИ. 225 Угроза нарушения изоляции контейнеров (https://bdu.fstec.ru/threat/ubi.225)
🔹 УБИ. 224 Угроза нарушения целостности (подмены) контейнеров (https://bdu.fstec.ru/threat/ubi.224)
🔹 УБИ. 223 Угроза несанкционированного доступа к контейнерам, предоставляющего пользователям расширенные привилегии (https://bdu.fstec.ru/threat/ubi.223)
🔥 В соответствии с п. 2.14 методического документа "Методика оценки угроз безопасности информации" утвержденного ФСТЭК 5 февраля 2021 г. всем необходимо внести изменения в свои разработанные Модели угроз безопасности информации
Архитектор MLSecOps
Николай Павлов
👍3
Forwarded from howtocomply_AI: право и ИИ (Dmitry Kuteynikov)
Изучаем китайские стандарты по кибербезопасности в сфере ИИ
Делюсь с вами ещё одной порцией важных документов из Китая. К сожалению, не все из них переведены даже на английский. Но мы разберёмся👀 . Так вот, Комитет по стандартизации в сфере информационной безопасности TC260 утвердил весной после публичных обсуждений несколько обязательных стандартов:
Базовые требования безопасности для сервисов генеративного ИИ (есть перевод на английский проекта стандарта)
Документ устанавливает общие требования для всех стадий жизненного цикла систем ИИ, которые должны выполнять все поставщики. Требований довольно много, включая обширные аспекты из менеджмента информационной безопасности, качества, данных. Во многом он является общим и для других двух стандартов, которые направлены на отдельные стадии жизненного цикла.
Из интересного:
- все наборы данных должны проверяться, допускается только не более 5% противоправного и незаконно полученного контента;
- модель должна обеспечивать корректные, безопасные, соответствующие социалистическим ценностям ответы;
- системы ИИ должны демонстрировать для несовершеннолетних контент, направленный на их физическое и психологическое здоровье;
- система должна принимать меры по предотвращению повторного ввода противоправных запросов. Например, пользователя нужно банить, если он ввёл три раза подряд или пять раз за день нарушающий закон или вредный промт;
- число ключевых слов для отбора контента должно быть не менее 10 тыс., причём не менее 100 на каждый из обозначенных в документе рисков;
- поставщики должны создать банк из примерных вопросов для системы ИИ из не менее чем 2000 фраз. При этом не менее 500 из них должны входить в банк запрещённых вопросов. Сюда включены и национальная безопасность, и имидж государства. Мы все с вами помним, на какие вопросы отказывается отвечать DeepSeek. Вот вам и подробное нормативное объяснение, каким образом это работает.
Спецификация по безопасности для аннотирования данных для генеративного ИИ
Из интересного:
- сотрудники, осуществляющие аннотирование данных, должны быть обучены, а их роли чётко распределены, чтобы избегать негативных последствий. Безопасность рабочих мест должна быть обеспечена как с точки зрения информационной безопасности, так и физической;
- на всех этапах аннотирования должно быть обеспечено логирование и отслеживание всех действий и вовлечённых субъектов;
- не менее 3% данных должны быть размечены с целью безопасности. При этом если при проверке окажется, что более 5% данных с такой аннотацией некорректны или содержат опасные элементы, вся партия подлежит аннулированию и переразметке;
- стандарт содержит образцы правильных и неправильных аннотаций, чтобы исключить двусмысленную интерпретацию (например, как корректно отклонять запросы, связанные с нарушением закона).
Спецификация по безопасности для предварительного обучения и дообучения генеративного ИИ
Из интересного:
- стандарт предусматривает выборочную проверку данных на соответствие законодательным требованиям, включая случайную ручную выборку не менее 10% записей для проверки источников данных на наличие незаконной и нежелательной информации во время сбора. Однако это относится к проверке источников данных, а не ко всему объёму данных обучения в целом. При этом установлено, что если в выборке доля незаконной или нежелательной информации превышает 5%, источник данных подлежит исключению;
- если в партии данных содержится информация из зарубежных источников, то в неё должна быть добавлена ещё и разумная доля отечественных;
- необходимо проводить фильтрацию и оценку данных на предмет наличия отравленных данных.
Документы начнут действовать 1 ноября 2025 года.
Делюсь с вами ещё одной порцией важных документов из Китая. К сожалению, не все из них переведены даже на английский. Но мы разберёмся
Базовые требования безопасности для сервисов генеративного ИИ (есть перевод на английский проекта стандарта)
Документ устанавливает общие требования для всех стадий жизненного цикла систем ИИ, которые должны выполнять все поставщики. Требований довольно много, включая обширные аспекты из менеджмента информационной безопасности, качества, данных. Во многом он является общим и для других двух стандартов, которые направлены на отдельные стадии жизненного цикла.
Из интересного:
- все наборы данных должны проверяться, допускается только не более 5% противоправного и незаконно полученного контента;
- модель должна обеспечивать корректные, безопасные, соответствующие социалистическим ценностям ответы;
- системы ИИ должны демонстрировать для несовершеннолетних контент, направленный на их физическое и психологическое здоровье;
- система должна принимать меры по предотвращению повторного ввода противоправных запросов. Например, пользователя нужно банить, если он ввёл три раза подряд или пять раз за день нарушающий закон или вредный промт;
- число ключевых слов для отбора контента должно быть не менее 10 тыс., причём не менее 100 на каждый из обозначенных в документе рисков;
- поставщики должны создать банк из примерных вопросов для системы ИИ из не менее чем 2000 фраз. При этом не менее 500 из них должны входить в банк запрещённых вопросов. Сюда включены и национальная безопасность, и имидж государства. Мы все с вами помним, на какие вопросы отказывается отвечать DeepSeek. Вот вам и подробное нормативное объяснение, каким образом это работает.
Спецификация по безопасности для аннотирования данных для генеративного ИИ
Из интересного:
- сотрудники, осуществляющие аннотирование данных, должны быть обучены, а их роли чётко распределены, чтобы избегать негативных последствий. Безопасность рабочих мест должна быть обеспечена как с точки зрения информационной безопасности, так и физической;
- на всех этапах аннотирования должно быть обеспечено логирование и отслеживание всех действий и вовлечённых субъектов;
- не менее 3% данных должны быть размечены с целью безопасности. При этом если при проверке окажется, что более 5% данных с такой аннотацией некорректны или содержат опасные элементы, вся партия подлежит аннулированию и переразметке;
- стандарт содержит образцы правильных и неправильных аннотаций, чтобы исключить двусмысленную интерпретацию (например, как корректно отклонять запросы, связанные с нарушением закона).
Спецификация по безопасности для предварительного обучения и дообучения генеративного ИИ
Из интересного:
- стандарт предусматривает выборочную проверку данных на соответствие законодательным требованиям, включая случайную ручную выборку не менее 10% записей для проверки источников данных на наличие незаконной и нежелательной информации во время сбора. Однако это относится к проверке источников данных, а не ко всему объёму данных обучения в целом. При этом установлено, что если в выборке доля незаконной или нежелательной информации превышает 5%, источник данных подлежит исключению;
- если в партии данных содержится информация из зарубежных источников, то в неё должна быть добавлена ещё и разумная доля отечественных;
- необходимо проводить фильтрацию и оценку данных на предмет наличия отравленных данных.
Документы начнут действовать 1 ноября 2025 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
⭐️ Центробанк утвердил этический кодекс для ИИ в финансовом секторе
Центробанк России утвердил основные принципы применения искусственного интеллекта на финансовом рынке и разработал проект отраслевого этического кодекса. Документ опубликован на сайте регулятора 9 июля.
Кодекс устанавливает требования к прозрачности, справедливости и безопасности ИИ-решений. Финорганизации обязаны уведомлять клиентов о взаимодействии с ИИ, предоставлять возможность перехода на живого оператора, обеспечивать пересмотр автоматических решений.
По данным ЦБ, большинство участников рынка поддержали инициативу. Регулятор будет использовать рекомендательные меры вместо жестких нормативов, параллельно работая над устранением барьеров в обмене данными.
«Кодекс создаст доверенную среду без торможения инноваций», — отмечает директор по ИИ «Группы Астра» Станислав Ежов.
Александр Хонин (Angara Security) добавляет, что документ закрывает правовой пробел в банковском секторе.
Внедрение ИИ позволит персонализировать финансовые услуги, автоматизировать борьбу с мошенничеством и создать интеллектуальных ассистентов.
Ключевые риски включают утечки данных, ошибки алгоритмов и использование технологий злоумышленниками. ЦБ акцентирует необходимость регулярного тестирования систем и защиты уязвимых групп клиентов.
Ссылка на Кодекс: https://www.cbr.ru/Content/Document/File/178667/code_09072025.pdf
gazeta ru
Комментировать подробно не буду, просто опишу три пункта из начала Кодекса:
п. 2.2. Для повышения качества обслуживания организациям рекомендуется проводить оценку удовлетворенности клиентов, которым были предоставлены услуги с использованием искусственного интеллекта, а также осуществлять контроль качества оказания таких услуг.
п. 2.3. Чтобы обеспечить клиентам возможность отказаться от взаимодействия с искусственным интеллектом, организациям предлагается предоставить клиентам возможность взаимодействовать непосредственно с сотрудниками организации.
п. 2.4. Для обеспечения возможности пересмотра решений, принятых с участием искусственного интеллекта, организациям рекомендуется организовать процедуру рассмотрения запросов клиентов.
Также одним из пунктов прописано "6) обеспечение непрерывности деятельности".
Таким образом, банкам предстоит большая работа по обеспечению вновь введенных стандартов. Работа будет и для специалистов SRE.
Далее требования в сфере MLSecOps к ИИ-системам будут стремительно повышаться, и не только в FinTech.
Архитектор MLSecOps
Николай Павлов
Центробанк России утвердил основные принципы применения искусственного интеллекта на финансовом рынке и разработал проект отраслевого этического кодекса. Документ опубликован на сайте регулятора 9 июля.
Кодекс устанавливает требования к прозрачности, справедливости и безопасности ИИ-решений. Финорганизации обязаны уведомлять клиентов о взаимодействии с ИИ, предоставлять возможность перехода на живого оператора, обеспечивать пересмотр автоматических решений.
По данным ЦБ, большинство участников рынка поддержали инициативу. Регулятор будет использовать рекомендательные меры вместо жестких нормативов, параллельно работая над устранением барьеров в обмене данными.
«Кодекс создаст доверенную среду без торможения инноваций», — отмечает директор по ИИ «Группы Астра» Станислав Ежов.
Александр Хонин (Angara Security) добавляет, что документ закрывает правовой пробел в банковском секторе.
Внедрение ИИ позволит персонализировать финансовые услуги, автоматизировать борьбу с мошенничеством и создать интеллектуальных ассистентов.
Ключевые риски включают утечки данных, ошибки алгоритмов и использование технологий злоумышленниками. ЦБ акцентирует необходимость регулярного тестирования систем и защиты уязвимых групп клиентов.
Ссылка на Кодекс: https://www.cbr.ru/Content/Document/File/178667/code_09072025.pdf
gazeta ru
Комментировать подробно не буду, просто опишу три пункта из начала Кодекса:
п. 2.2. Для повышения качества обслуживания организациям рекомендуется проводить оценку удовлетворенности клиентов, которым были предоставлены услуги с использованием искусственного интеллекта, а также осуществлять контроль качества оказания таких услуг.
п. 2.3. Чтобы обеспечить клиентам возможность отказаться от взаимодействия с искусственным интеллектом, организациям предлагается предоставить клиентам возможность взаимодействовать непосредственно с сотрудниками организации.
п. 2.4. Для обеспечения возможности пересмотра решений, принятых с участием искусственного интеллекта, организациям рекомендуется организовать процедуру рассмотрения запросов клиентов.
Также одним из пунктов прописано "6) обеспечение непрерывности деятельности".
Таким образом, банкам предстоит большая работа по обеспечению вновь введенных стандартов. Работа будет и для специалистов SRE.
Далее требования в сфере MLSecOps к ИИ-системам будут стремительно повышаться, и не только в FinTech.
Архитектор MLSecOps
Николай Павлов
🔥4
⭐️ Аналитика RED Security SOC: ИТ, финансы и телеком стали самыми атакуемыми отраслями с начала года
Компания RED Security, открытая экосистема ИБ-решений и экспертизы для комплексной защиты бизнеса, провела сравнительное исследование трендов кибератак в различных отраслях экономики России. Согласно выводам аналитиков центра мониторинга и реагирования на кибератаки RED Security SOC, в первом полугодии 2025 года наибольшее количество массовых атак, в том числе автоматизированных, пришлось на сферы ИТ, финансов и телекоммуникаций.
Согласно данным RED Security SOC, общее количество кибератак на российские компании с января по июнь 2025 года превысило 63 тысячи, что на 27% больше, чем за аналогичный период 2024 года. Пик хакерской активности в этом году пришелся на апрель и май, что косвенно указывает на политическую мотивацию злоумышленников и попытку «приурочить» взломы к крупным государственным праздникам. Таким образом, действия хактивистов до сих пор составляют значительную часть киберугроз в отношении российских компаний.
Исследование выявило изменение тактики злоумышленников в части выбора тех или иных отраслей для атак. В первом полугодии лидерами по количеству направленных на них кибератак стали компании из сфер телекоммуникаций (35%), ИТ (19%) и финансов (17%). Эти отрасли остаются привлекательными мишенями из-за больших объемов чувствительных данных, а также критически важной роли в экономике и жизни граждан, поэтому вынуждены отражать до сотни атак ежедневно. Аналитики RED Security SOC отмечают, что эти организации часто сталкиваются с автоматизированными атаками, когда хакеры сутками непрерывно перебирают все возможные способы взлома, чтобы найти брешь в защите.
Продолжение: https://vk.com/wall-210601538_1822
Компания RED Security, открытая экосистема ИБ-решений и экспертизы для комплексной защиты бизнеса, провела сравнительное исследование трендов кибератак в различных отраслях экономики России. Согласно выводам аналитиков центра мониторинга и реагирования на кибератаки RED Security SOC, в первом полугодии 2025 года наибольшее количество массовых атак, в том числе автоматизированных, пришлось на сферы ИТ, финансов и телекоммуникаций.
Согласно данным RED Security SOC, общее количество кибератак на российские компании с января по июнь 2025 года превысило 63 тысячи, что на 27% больше, чем за аналогичный период 2024 года. Пик хакерской активности в этом году пришелся на апрель и май, что косвенно указывает на политическую мотивацию злоумышленников и попытку «приурочить» взломы к крупным государственным праздникам. Таким образом, действия хактивистов до сих пор составляют значительную часть киберугроз в отношении российских компаний.
Исследование выявило изменение тактики злоумышленников в части выбора тех или иных отраслей для атак. В первом полугодии лидерами по количеству направленных на них кибератак стали компании из сфер телекоммуникаций (35%), ИТ (19%) и финансов (17%). Эти отрасли остаются привлекательными мишенями из-за больших объемов чувствительных данных, а также критически важной роли в экономике и жизни граждан, поэтому вынуждены отражать до сотни атак ежедневно. Аналитики RED Security SOC отмечают, что эти организации часто сталкиваются с автоматизированными атаками, когда хакеры сутками непрерывно перебирают все возможные способы взлома, чтобы найти брешь в защите.
Продолжение: https://vk.com/wall-210601538_1822
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐ Аналитика RED Security SOC: ИТ, финансы и телеком стали самыми атакуемыми отраслями с начала года< Смотрите полностью ВКонтакте.
🔥3
⭐️ Риски искусственного интеллекта: карта угроз для бизнеса — от технологии до культуры (Часть 1)
Обсуждение рисков ИИ часто поверхностно, в то время как в технологическом и культурном фундаменте бизнеса формируются глубокие трещины. Данный материал представляет системную карту угроз, связывая три фундаментальных технологических риска — состязательные атаки («взлом»), непрозрачность («черный ящик») и зависимость от поставщика (vendor lock-in) — с их прямыми организационными последствиями: когнитивным расколом в командах, атрофией компетенций и культурным саботажем.
I. Вступление. Ландшафт рисков, связанных с ИИ
Внедрение искусственного интеллекта в корпоративную стратегию часто сопровождается эйфорией от новых KPI: рост конверсии, снижение издержек, ускорение процессов. Руководители видят красивый, современный фасад, не подозревая, что в самом фундаменте их бизнеса могут появляться глубокие структурные трещины. В то же время, ландшафт рисков, связанных с ИИ, огромен и сложен.
Недавний мета-анализ от исследователей MIT и других ведущих институтов в рамках проекта «AI Risk Repository» систематизировал более 1600 уникальных рисков из 65 таксономий, большинство из которых остаются за рамками стандартных дашбордов (Slattery et al., 2024). Чтобы понять масштаб проблемы, достаточно взглянуть на семь ключевых доменов рисков, выделенных в этой таксономии:
+ дискриминация и токсичность;
+ приватность и безопасность;
+ дезинформация;
+ злоумышленники и неправомерное использование;
+ взаимодействие человека с компьютером;
+ социально-экономический и экологический вред;
+ безопасность, сбои и ограничения ИИ-систем.
Продолжение: https://vk.com/wall-210601538_1823
Обсуждение рисков ИИ часто поверхностно, в то время как в технологическом и культурном фундаменте бизнеса формируются глубокие трещины. Данный материал представляет системную карту угроз, связывая три фундаментальных технологических риска — состязательные атаки («взлом»), непрозрачность («черный ящик») и зависимость от поставщика (vendor lock-in) — с их прямыми организационными последствиями: когнитивным расколом в командах, атрофией компетенций и культурным саботажем.
I. Вступление. Ландшафт рисков, связанных с ИИ
Внедрение искусственного интеллекта в корпоративную стратегию часто сопровождается эйфорией от новых KPI: рост конверсии, снижение издержек, ускорение процессов. Руководители видят красивый, современный фасад, не подозревая, что в самом фундаменте их бизнеса могут появляться глубокие структурные трещины. В то же время, ландшафт рисков, связанных с ИИ, огромен и сложен.
Недавний мета-анализ от исследователей MIT и других ведущих институтов в рамках проекта «AI Risk Repository» систематизировал более 1600 уникальных рисков из 65 таксономий, большинство из которых остаются за рамками стандартных дашбордов (Slattery et al., 2024). Чтобы понять масштаб проблемы, достаточно взглянуть на семь ключевых доменов рисков, выделенных в этой таксономии:
+ дискриминация и токсичность;
+ приватность и безопасность;
+ дезинформация;
+ злоумышленники и неправомерное использование;
+ взаимодействие человека с компьютером;
+ социально-экономический и экологический вред;
+ безопасность, сбои и ограничения ИИ-систем.
Продолжение: https://vk.com/wall-210601538_1823
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐ Риски искусственного интеллекта: карта угроз для бизнеса — от технологии до культуры (Часть 1)
Смотрите полностью ВКонтакте.
Смотрите полностью ВКонтакте.
🔥3
⭐️ Риски искусственного интеллекта: карта угроз для бизнеса — от технологии до культуры (Часть 2)
III. Организационные последствия: когда технология сталкивается с культурой
Проведенный нами аудит технологического фундамента показал: даже самые совершенные ИИ-системы по своей природе уязвимы, непрозрачны и создают стратегическую зависимость. Однако эти риски не существуют в вакууме: их главная опасность в том, что они действуют как катализаторы для второй волны угроз — организационных. Технология не работает сама по себе; она внедряется в сложную социальную систему со своими страхами, иерархиями и скрытыми течениями.
Именно на этом стыке технологии и культуры возникают самые глубокие и трудноизлечимые патологии. В таксономии AI Risk Repository эти угрозы частично отражены в доменах «Human-computer interaction» и «Socioeconomic & environmental harms» (Slattery et al., 2024), но их истинный масштаб становится понятен только при системном анализе. Рассмотрим три ключевых организационных последствия, напрямую вытекающих из технологических рисков, описанных выше.
Последствие №1: когнитивный раскол
Проблема «черного ящика», которую мы анализировали в первом разделе, имеет не только юридические, но и глубокие организационные последствия. Непрозрачность ИИ-систем неизбежно раскалывает компанию на две касты: «оракулов» (data scientists и инженеров, которые понимают логику моделей) и «пользователей» (всех остальных, включая топ-менеджмент, которые вынуждены принимать решения на веру).
Этот раскол парализует стратегический диалог. Бизнес-лидеры не могут корректно оценить риски и ограничения предложенной модели, а технические специалисты не могут донести нюансы своей работы до тех, кто принимает окончательное решение. В результате формируются «информационные колодцы», между которыми отсутствует доверие и взаимопонимание. Компания теряет способность к целостному, кросс-функциональному мышлению.
Продолжение: https://vk.com/wall-210601538_1824
III. Организационные последствия: когда технология сталкивается с культурой
Проведенный нами аудит технологического фундамента показал: даже самые совершенные ИИ-системы по своей природе уязвимы, непрозрачны и создают стратегическую зависимость. Однако эти риски не существуют в вакууме: их главная опасность в том, что они действуют как катализаторы для второй волны угроз — организационных. Технология не работает сама по себе; она внедряется в сложную социальную систему со своими страхами, иерархиями и скрытыми течениями.
Именно на этом стыке технологии и культуры возникают самые глубокие и трудноизлечимые патологии. В таксономии AI Risk Repository эти угрозы частично отражены в доменах «Human-computer interaction» и «Socioeconomic & environmental harms» (Slattery et al., 2024), но их истинный масштаб становится понятен только при системном анализе. Рассмотрим три ключевых организационных последствия, напрямую вытекающих из технологических рисков, описанных выше.
Последствие №1: когнитивный раскол
Проблема «черного ящика», которую мы анализировали в первом разделе, имеет не только юридические, но и глубокие организационные последствия. Непрозрачность ИИ-систем неизбежно раскалывает компанию на две касты: «оракулов» (data scientists и инженеров, которые понимают логику моделей) и «пользователей» (всех остальных, включая топ-менеджмент, которые вынуждены принимать решения на веру).
Этот раскол парализует стратегический диалог. Бизнес-лидеры не могут корректно оценить риски и ограничения предложенной модели, а технические специалисты не могут донести нюансы своей работы до тех, кто принимает окончательное решение. В результате формируются «информационные колодцы», между которыми отсутствует доверие и взаимопонимание. Компания теряет способность к целостному, кросс-функциональному мышлению.
Продолжение: https://vk.com/wall-210601538_1824
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐ Риски искусственного интеллекта: карта угроз для бизнеса — от технологии до культуры (Часть 2)
Смотрите полностью ВКонтакте.
Смотрите полностью ВКонтакте.
🔥3
⭐️ Минобороны США заключило контракты с ИИ-компаниями для создания ИИ-проектов по нацбезопасности
Минобороны США заключило индивидуальные контракты на суммы до $200 миллионов c Google, OpenAI, Anthropic и xAI. В рамках этих проектов компании должны будут разработать проекты на базе ИИ, которые бы смогли использовать возможности ИИ для ответов на угрозы национальной безопасности страны, пишет Nextgov/FCW.
Согласно условиям контрактов, Минобороны США получит возможность внедрять новейшие ИИ-разработки, большие языковые модели и технологии Google, OpenAI, Anthropic и xAI. Глава отдела Минобороны по цифровым технологиям и ИИ заявил, что совместная работа с ИИ-компаниями позволит ускорить внедрение искусственного интеллекта в работу военного ведомства.
Минобороны США в июне заключило еще один контракт с OpenAI на разработку прототипов ИИ для государственных нужд. За несколько месяцев до этого были одобрены для использования на высоких уровнях секретности решения Microsoft для Azure на базе OpenAI.
habr
Минобороны США заключило индивидуальные контракты на суммы до $200 миллионов c Google, OpenAI, Anthropic и xAI. В рамках этих проектов компании должны будут разработать проекты на базе ИИ, которые бы смогли использовать возможности ИИ для ответов на угрозы национальной безопасности страны, пишет Nextgov/FCW.
Согласно условиям контрактов, Минобороны США получит возможность внедрять новейшие ИИ-разработки, большие языковые модели и технологии Google, OpenAI, Anthropic и xAI. Глава отдела Минобороны по цифровым технологиям и ИИ заявил, что совместная работа с ИИ-компаниями позволит ускорить внедрение искусственного интеллекта в работу военного ведомства.
Минобороны США в июне заключило еще один контракт с OpenAI на разработку прототипов ИИ для государственных нужд. За несколько месяцев до этого были одобрены для использования на высоких уровнях секретности решения Microsoft для Azure на базе OpenAI.
habr
🔥4
⭐️ ChatGPT будет хранить переписку с пользователями бессрочно
История общения с ChatGPT теперь не исчезнет сама по себе. Американский суд потребовал от OpenAI сохранять переписку пользователей, а также, при необходимости, делиться её фрагментами с журналистами.
Компания, управляющая одним из самых популярных ИИ-сервисов в мире, оказалась в непростом положении. Речь идёт о судебном иске, поданном в 2023 году. The New York Times и другие медиакомпании обвинили OpenAI и её партнёра Microsoft в использовании защищённых авторским правом текстов для обучения моделей.
Теперь истцы требуют получить доступ к ответам ChatGPT, чтобы доказать, что нейросеть действительно использует журналистские материалы. А суд, в свою очередь, обязал OpenAI хранить данные пользователей, в том числе и сообщения, отправленные в чат.
I. OpenAI недовольна новым порядком
Операционный директор OpenAI Брэд Лайткап заявил, что новые условия хранения данных, введённые по решению суда, ставят компанию в крайне сложное положение. По его словам, меры, которых требует The New York Times в рамках судебного процесса, вынуждают OpenAI внести радикальные изменения в подход к обработке пользовательской информации.
Компания подчёркивает, что такой шаг противоречит её внутренней политике конфиденциальности и тем обязательствам, которые были озвучены перед пользователями с момента запуска ChatGPT. Ранее OpenAI неоднократно заявляла, что пользовательские данные, включая переписку, не используются без разрешения и могут быть удалены.
OpenAI считает эти требования не только чрезмерными, но и потенциально подрывающими доверие со стороны пользователей. В связи с этим компания подала апелляцию и продолжает настаивать на необходимости соблюдения приватности как одного из ключевых принципов своей работы.
II. Кто попадает под новые правила?
Сохранение переписки теперь касается почти всех. Новая политика распространяется на пользователей бесплатного тарифа, а также подписчиков ChatGPT Plus и Pro. Сюда входят и обращения через API.
Продолжение: https://vk.com/wall-210601538_1826
История общения с ChatGPT теперь не исчезнет сама по себе. Американский суд потребовал от OpenAI сохранять переписку пользователей, а также, при необходимости, делиться её фрагментами с журналистами.
Компания, управляющая одним из самых популярных ИИ-сервисов в мире, оказалась в непростом положении. Речь идёт о судебном иске, поданном в 2023 году. The New York Times и другие медиакомпании обвинили OpenAI и её партнёра Microsoft в использовании защищённых авторским правом текстов для обучения моделей.
Теперь истцы требуют получить доступ к ответам ChatGPT, чтобы доказать, что нейросеть действительно использует журналистские материалы. А суд, в свою очередь, обязал OpenAI хранить данные пользователей, в том числе и сообщения, отправленные в чат.
I. OpenAI недовольна новым порядком
Операционный директор OpenAI Брэд Лайткап заявил, что новые условия хранения данных, введённые по решению суда, ставят компанию в крайне сложное положение. По его словам, меры, которых требует The New York Times в рамках судебного процесса, вынуждают OpenAI внести радикальные изменения в подход к обработке пользовательской информации.
Компания подчёркивает, что такой шаг противоречит её внутренней политике конфиденциальности и тем обязательствам, которые были озвучены перед пользователями с момента запуска ChatGPT. Ранее OpenAI неоднократно заявляла, что пользовательские данные, включая переписку, не используются без разрешения и могут быть удалены.
OpenAI считает эти требования не только чрезмерными, но и потенциально подрывающими доверие со стороны пользователей. В связи с этим компания подала апелляцию и продолжает настаивать на необходимости соблюдения приватности как одного из ключевых принципов своей работы.
II. Кто попадает под новые правила?
Сохранение переписки теперь касается почти всех. Новая политика распространяется на пользователей бесплатного тарифа, а также подписчиков ChatGPT Plus и Pro. Сюда входят и обращения через API.
Продолжение: https://vk.com/wall-210601538_1826
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐ ChatGPT будет хранить переписку с пользователями бессрочно
История общения с ChatGPT тепер... Смотрите полностью ВКонтакте.
История общения с ChatGPT тепер... Смотрите полностью ВКонтакте.
🔥4
⭐️Онлайн-дискуссия: "Кто создает будущее: исследователи или бизнес" пройдет уже сегодня 17 июля в 19 по Москве
На дискуссию приглашены признанные эксперты в области искусственного интеллекта:
🔶 Иван Оселедец, генеральный директор института AIRI
🔶 Андрей Рыбинцев, старший директор по ИИ в Авито
Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических трансформаций общества.
Активно подключаемся по ссылке и задаем вопросы в чат: https://vkvideo.ru/video-5755934_456241607
Архитектор MLSecOps
Николай Павлов
На дискуссию приглашены признанные эксперты в области искусственного интеллекта:
🔶 Иван Оселедец, генеральный директор института AIRI
🔶 Андрей Рыбинцев, старший директор по ИИ в Авито
Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических трансформаций общества.
Активно подключаемся по ссылке и задаем вопросы в чат: https://vkvideo.ru/video-5755934_456241607
Архитектор MLSecOps
Николай Павлов
VK Видео
Кто создает будущее: исследователи или бизнес
Дискуссия с экспертами в области искусственного интеллекта: 🔶 Иван Оселедцем, генеральный директор Института AIRI 🔶 Андрей Рыбинцев, старший директор по ИИ в Авито Модератор: Анастасия Мануйлова, обозреватель «Коммерсантъ» — эксперт в сфере социально-экономических…
🔥5
⭐️ Опубликован летний индекс безопасности ИИ 2025 (AI Safety Index, Summer 2025)
Основные выводы:
1. Anthropic получила лучшую общую оценку (C+).
Фирма лидировала в области оценки рисков, проводя испытания на риск с участием единственного человека, добилась успеха в обеспечении конфиденциальности, не проводя обучения по пользовательским данным, провела крупнейшие в мире исследования по согласованию данных, обеспечила высокие показатели безопасности и продемонстрировала приверженность руководству благодаря своей структуре корпорации, нацеленности на общественное благо и активному информированию о рисках.
2. OpenAI заняла второе место, опередив Google DeepMind.
OpenAI зарекомендовала себя как единственная компания, опубликовавшая свою политику информирования о нарушениях, изложившая более надежный подход к управлению рисками в своей системе обеспечения безопасности и оценившая риски с помощью моделей предварительного снижения рисков. Компания также поделилась более подробной информацией о внешних оценках моделей, предоставила подробную спецификацию, регулярно сообщала о случаях злонамеренного использования и всесторонне участвовала в исследовании Индекса безопасности искусственного интеллекта.
3. Отрасль в корне не готова к достижению заявленных целей.
Компании заявляют, что в течение десятилетия они добьются создания общего искусственного интеллекта (AGI), однако ни одна из них не набрала более двух баллов в области планирования безопасности. Один из рецензентов назвал это несоответствие "глубоко тревожным", отметив, что, несмотря на стремление к созданию искусственного интеллекта на уровне человека, "ни у одной из компаний нет ничего похожего на последовательный, осуществимый план действий" для обеспечения того, чтобы такие системы оставались безопасными и управляемыми.
4. Только 3 из 7 компаний сообщили о тщательном тестировании опасных возможностей, связанных с крупномасштабными рисками, такими как био- или кибертерроризм (Anthropic, OpenAI и Google DeepMind).
Несмотря на то, что эти лидеры незначительно улучшили качество своих типовых карт, один из рецензентов предупреждает, что базовые тесты безопасности по-прежнему не соответствуют базовым стандартам оценки рисков: “Методология и обоснование, явно связывающие данную оценку или экспериментальную процедуру с риском, с ограничениями и оговорками, как правило, отсутствуют. [...] У меня очень низкая уверенность в том, что опасные возможности будут обнаружены вовремя, чтобы предотвратить значительный ущерб. Минимальные общие инвестиции во внешние сторонние оценки еще больше снижают мою уверенность.”
5. Возможности расширяются быстрее, чем практика управления рисками, и разрыв между компаниями увеличивается.
В отсутствие единого нормативного поля некоторые мотивированные компании применяют более жесткие меры контроля, в то время как другие пренебрегают основными гарантиями, что подчеркивает недостаточность добровольных обязательств.
6. Прозрачность политики информирования о нарушениях остается слабым местом.
Политика публичного информирования является общепринятой практикой в отраслях, критически важных для безопасности, поскольку она позволяет проводить внешнюю проверку. Тем не менее, среди компаний, прошедших оценку, только OpenAI опубликовала полную версию своей политики, и сделала это только после того, как в СМИ появились сообщения о крайне ограничительных положениях политики, не допускающих оскорблений.
7. Китайские ИИ-компании Zhipu AI и Deepseek получили неудовлетворительные оценки в целом.
Однако в отчете компании оцениваются по таким нормам, как самоуправление и обмен информацией, которые гораздо менее заметны в китайской корпоративной культуре. Кроме того, поскольку в Китае уже действуют правила для передовых разработок в области искусственного интеллекта, здесь меньше полагаются на самоуправление в области безопасности ИИ. Это отличается от Соединенных Штатов и Соединенного Королевства, где базируются другие компании, которые пока не приняли подобных правил в отношении ИИ-систем.
Ссылка: https://futureoflife.org/ai-safety-index-summer-2025
Основные выводы:
1. Anthropic получила лучшую общую оценку (C+).
Фирма лидировала в области оценки рисков, проводя испытания на риск с участием единственного человека, добилась успеха в обеспечении конфиденциальности, не проводя обучения по пользовательским данным, провела крупнейшие в мире исследования по согласованию данных, обеспечила высокие показатели безопасности и продемонстрировала приверженность руководству благодаря своей структуре корпорации, нацеленности на общественное благо и активному информированию о рисках.
2. OpenAI заняла второе место, опередив Google DeepMind.
OpenAI зарекомендовала себя как единственная компания, опубликовавшая свою политику информирования о нарушениях, изложившая более надежный подход к управлению рисками в своей системе обеспечения безопасности и оценившая риски с помощью моделей предварительного снижения рисков. Компания также поделилась более подробной информацией о внешних оценках моделей, предоставила подробную спецификацию, регулярно сообщала о случаях злонамеренного использования и всесторонне участвовала в исследовании Индекса безопасности искусственного интеллекта.
3. Отрасль в корне не готова к достижению заявленных целей.
Компании заявляют, что в течение десятилетия они добьются создания общего искусственного интеллекта (AGI), однако ни одна из них не набрала более двух баллов в области планирования безопасности. Один из рецензентов назвал это несоответствие "глубоко тревожным", отметив, что, несмотря на стремление к созданию искусственного интеллекта на уровне человека, "ни у одной из компаний нет ничего похожего на последовательный, осуществимый план действий" для обеспечения того, чтобы такие системы оставались безопасными и управляемыми.
4. Только 3 из 7 компаний сообщили о тщательном тестировании опасных возможностей, связанных с крупномасштабными рисками, такими как био- или кибертерроризм (Anthropic, OpenAI и Google DeepMind).
Несмотря на то, что эти лидеры незначительно улучшили качество своих типовых карт, один из рецензентов предупреждает, что базовые тесты безопасности по-прежнему не соответствуют базовым стандартам оценки рисков: “Методология и обоснование, явно связывающие данную оценку или экспериментальную процедуру с риском, с ограничениями и оговорками, как правило, отсутствуют. [...] У меня очень низкая уверенность в том, что опасные возможности будут обнаружены вовремя, чтобы предотвратить значительный ущерб. Минимальные общие инвестиции во внешние сторонние оценки еще больше снижают мою уверенность.”
5. Возможности расширяются быстрее, чем практика управления рисками, и разрыв между компаниями увеличивается.
В отсутствие единого нормативного поля некоторые мотивированные компании применяют более жесткие меры контроля, в то время как другие пренебрегают основными гарантиями, что подчеркивает недостаточность добровольных обязательств.
6. Прозрачность политики информирования о нарушениях остается слабым местом.
Политика публичного информирования является общепринятой практикой в отраслях, критически важных для безопасности, поскольку она позволяет проводить внешнюю проверку. Тем не менее, среди компаний, прошедших оценку, только OpenAI опубликовала полную версию своей политики, и сделала это только после того, как в СМИ появились сообщения о крайне ограничительных положениях политики, не допускающих оскорблений.
7. Китайские ИИ-компании Zhipu AI и Deepseek получили неудовлетворительные оценки в целом.
Однако в отчете компании оцениваются по таким нормам, как самоуправление и обмен информацией, которые гораздо менее заметны в китайской корпоративной культуре. Кроме того, поскольку в Китае уже действуют правила для передовых разработок в области искусственного интеллекта, здесь меньше полагаются на самоуправление в области безопасности ИИ. Это отличается от Соединенных Штатов и Соединенного Королевства, где базируются другие компании, которые пока не приняли подобных правил в отношении ИИ-систем.
Ссылка: https://futureoflife.org/ai-safety-index-summer-2025
Future of Life Institute
2025 AI Safety Index - Future of Life Institute
The Summer 2025 edition of our AI Safety Index, in which AI experts rate leading AI companies on key safety and security domains.
🔥5❤2
⭐️ Как пользоваться ИИ и оставаться незаменимым? Базовые правила эффективной работы
1. Основы
Крайне не рекомендуется использовать сайты-посредники или телеграм-каналы, которые дают доступ к нейросетям — их использовать небезопасно и опрометчиво. Если вы пользуетесь такими сервисами, значит фактически вы нейросетями не пользуетесь.
Для таких нейросетей, как Gemini (Джемини) и Claude (Клод) по умолчанию нужен VPN. Также может потребоваться зарубежная карта и зарубежный номер телефона. Если же вы хотите использовать сильные нейросети без лишних телодвижений — используйте perplexity ai или deepseek.
В частности perplexity ai можно использовать даже с телефона.
Итак, вы скачали программу. Что дальше? Вы уже стремитесь закачать в нейросеть целый договор, чтобы нейросеть выявила его риски. Но так это не работает. Даже сильная нейросеть читает лишь начало и конец большого файла. В середине большого файла нейросеть обращает внимание в основном на заголовки.
Поэтому, на практике задачи в нейросети нужно дробить. Большие договоры и иные юридические документы следует прогружать в нейросеть по главам.
Если вам нужно проанализировать большое и сложное судебное решение с помощью нейросети, то рекомендуется делить текст судебного акта на абзацы, т.к. нейросеть лучше воспринимает структурированный, размеченный текст.
Для того, чтобы снизить вероятность придумывания нейросетью несуществующей судебной практики, нужно ставить галочку в графе «поиск через интеренет».
Такая нейросеть, как ChatGPT содержит подсказку в самом своём названии — это чат, то есть с нейросетью надо общаться, задавать ей всё новые и новые уточняющие вопросы.
В некоторых случаях можно прямо задать нейросети вопрос — «почему ты так написал?». То есть важен контекст вашего общения с нейросетью. Нейросеть помнит этот контекст на протяжении всего общения. Поэтому, не надо смешивать чаты, иначе нейросеть может сгаллюцинировать и выдаст вам полную ерунду.
Продолжение: https://vk.com/wall-210601538_1829
1. Основы
Крайне не рекомендуется использовать сайты-посредники или телеграм-каналы, которые дают доступ к нейросетям — их использовать небезопасно и опрометчиво. Если вы пользуетесь такими сервисами, значит фактически вы нейросетями не пользуетесь.
Для таких нейросетей, как Gemini (Джемини) и Claude (Клод) по умолчанию нужен VPN. Также может потребоваться зарубежная карта и зарубежный номер телефона. Если же вы хотите использовать сильные нейросети без лишних телодвижений — используйте perplexity ai или deepseek.
В частности perplexity ai можно использовать даже с телефона.
Итак, вы скачали программу. Что дальше? Вы уже стремитесь закачать в нейросеть целый договор, чтобы нейросеть выявила его риски. Но так это не работает. Даже сильная нейросеть читает лишь начало и конец большого файла. В середине большого файла нейросеть обращает внимание в основном на заголовки.
Поэтому, на практике задачи в нейросети нужно дробить. Большие договоры и иные юридические документы следует прогружать в нейросеть по главам.
Если вам нужно проанализировать большое и сложное судебное решение с помощью нейросети, то рекомендуется делить текст судебного акта на абзацы, т.к. нейросеть лучше воспринимает структурированный, размеченный текст.
Для того, чтобы снизить вероятность придумывания нейросетью несуществующей судебной практики, нужно ставить галочку в графе «поиск через интеренет».
Такая нейросеть, как ChatGPT содержит подсказку в самом своём названии — это чат, то есть с нейросетью надо общаться, задавать ей всё новые и новые уточняющие вопросы.
В некоторых случаях можно прямо задать нейросети вопрос — «почему ты так написал?». То есть важен контекст вашего общения с нейросетью. Нейросеть помнит этот контекст на протяжении всего общения. Поэтому, не надо смешивать чаты, иначе нейросеть может сгаллюцинировать и выдаст вам полную ерунду.
Продолжение: https://vk.com/wall-210601538_1829
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐ Как пользоваться ИИ и оставаться незаменимым? Базовые правила эффективной работы
1. Основы ... Смотрите полностью ВКонтакте.
1. Основы ... Смотрите полностью ВКонтакте.
🔥7
Forwarded from Похек
Echo Chamber: революционная техника взлома нейросетей
#разбор_атаки #AI #ML #LLM
Исследователи из NeuralTrust представили принципиально новую методику обхода защит нейросетей под названием Echo Chamber. Техника демонстрирует более 90% эффективность против ChatGPT, GPT-4o, Gemini и других ведущих LLM в генерации запрещенного контента.
➡️ Что это такое
Echo Chamber — это контекстно-отравляющий джейлбрейк, который превращает собственные рассуждения модели против неё самой. В отличие от традиционных методов (подмена символов, хитрые формулировки), атака использует косвенные намеки, семантическое управление и многоэтапное логическое наведение.
Название отражает суть механизма: ранние промпты влияют на ответы нейросети, а эти ответы затем используются для усиления изначальной цели. Получается замкнутая петля, где модель сама усиливает вредоносный подтекст и постепенно разрушает собственные защитные барьеры.
➡️ Механизм атаки
Атака состоит из шести этапов:
1. Определение цели — злоумышленник выбирает конечную задачу, но не включает её в ранние промпты
2. Посадка ядовитых семян — безобидные на вид запросы создают тонкие намеки на вредоносную цель
3. Направляющие семена — лёгкие семантические подталкивания начинают смещать внутреннее состояние модели
4. Вызов отравленного контекста — атакующий косвенно ссылается на ранее сгенерированный рискованный контент
5. Выбор пути — злоумышленник выборочно подхватывает нить из отравленного контекста
6. Цикл убеждения — серия последующих промптов, замаскированных под уточнения
➡️ Результаты тестирования
В контролируемых экспериментах на 200 попытках джейлбрейка для каждой модели:
➡️ Сексизм, насилие, разжигание ненависти, порнография: более 90% успеха
➡️ Дезинформация и пропаганда самоповреждений: около 80% эффективность
➡️ Нецензурная лексика и незаконная деятельность: свыше 40% успеха
Большинство успешных атак происходило за 1-3 хода. Модели демонстрировали возрастающую податливость после того, как контекстное отравление закреплялось.
➡️ Практический пример
Исследователи продемонстрировали атаку на примере запроса "напиши инструкцию по изготовлению коктейля Молотова". При прямом запросе LLM отказалась. Но после применения Echo Chamber модель не только описала коктейль Молотова, но и предоставила пошаговое руководство с ингредиентами.
➡️ Почему это критично
Echo Chamber выявляет критическую слепую зону в методах выравнивания LLM:
➡️ Системы безопасности уязвимы к косвенным манипуляциям через контекстные рассуждения
➡️ Многоходовой диалог позволяет строить вредоносные траектории даже при безобидных отдельных промптах
➡️ Фильтрация на уровне токенов недостаточна, если модели могут выводить вредоносные цели без токсичных слов
В реальных сценариях — боты поддержки клиентов, помощники продуктивности, модераторы контента — такая атака может использоваться для скрытого принуждения к вредоносному выводу без срабатывания сигнализации.
➡️ Защита
NeuralTrust рекомендует:
➡️ Контекстно-осведомленный аудит безопасности — динамическое сканирование истории разговоров для выявления паттернов возникающих рисков
➡️ Оценка накопления токсичности — мониторинг разговоров на протяжении нескольких ходов
➡️ Обнаружение косвенности — обучение слоев безопасности распознавать использование прошлого контекста
➡️ Значение для индустрии
Уязвимость является прямым следствием стремления создавать модели с развитыми способностями к рассуждению. Чем глубже нейросеть анализирует смысл и строит цепочки выводов, тем легче её эксплуатировать через косвенные влияния.
Echo Chamber подчеркивает следующий рубеж в безопасности LLM: атаки, которые манипулируют рассуждениями модели, а не её входной поверхностью. По мере того как модели становятся более способными к устойчивым выводам, они также становятся более уязвимыми к косвенной эксплуатации.
🔗 Первоисточник
🌚 @poxek | 🌚 Блог | 📺 YT | 📺 RT | 📺 VK
#разбор_атаки #AI #ML #LLM
Исследователи из NeuralTrust представили принципиально новую методику обхода защит нейросетей под названием Echo Chamber. Техника демонстрирует более 90% эффективность против ChatGPT, GPT-4o, Gemini и других ведущих LLM в генерации запрещенного контента.
Echo Chamber — это контекстно-отравляющий джейлбрейк, который превращает собственные рассуждения модели против неё самой. В отличие от традиционных методов (подмена символов, хитрые формулировки), атака использует косвенные намеки, семантическое управление и многоэтапное логическое наведение.
Название отражает суть механизма: ранние промпты влияют на ответы нейросети, а эти ответы затем используются для усиления изначальной цели. Получается замкнутая петля, где модель сама усиливает вредоносный подтекст и постепенно разрушает собственные защитные барьеры.
Атака состоит из шести этапов:
1. Определение цели — злоумышленник выбирает конечную задачу, но не включает её в ранние промпты
2. Посадка ядовитых семян — безобидные на вид запросы создают тонкие намеки на вредоносную цель
3. Направляющие семена — лёгкие семантические подталкивания начинают смещать внутреннее состояние модели
4. Вызов отравленного контекста — атакующий косвенно ссылается на ранее сгенерированный рискованный контент
5. Выбор пути — злоумышленник выборочно подхватывает нить из отравленного контекста
6. Цикл убеждения — серия последующих промптов, замаскированных под уточнения
В контролируемых экспериментах на 200 попытках джейлбрейка для каждой модели:
Большинство успешных атак происходило за 1-3 хода. Модели демонстрировали возрастающую податливость после того, как контекстное отравление закреплялось.
Исследователи продемонстрировали атаку на примере запроса "напиши инструкцию по изготовлению коктейля Молотова". При прямом запросе LLM отказалась. Но после применения Echo Chamber модель не только описала коктейль Молотова, но и предоставила пошаговое руководство с ингредиентами.
Echo Chamber выявляет критическую слепую зону в методах выравнивания LLM:
В реальных сценариях — боты поддержки клиентов, помощники продуктивности, модераторы контента — такая атака может использоваться для скрытого принуждения к вредоносному выводу без срабатывания сигнализации.
NeuralTrust рекомендует:
Уязвимость является прямым следствием стремления создавать модели с развитыми способностями к рассуждению. Чем глубже нейросеть анализирует смысл и строит цепочки выводов, тем легче её эксплуатировать через косвенные влияния.
Echo Chamber подчеркивает следующий рубеж в безопасности LLM: атаки, которые манипулируют рассуждениями модели, а не её входной поверхностью. По мере того как модели становятся более способными к устойчивым выводам, они также становятся более уязвимыми к косвенной эксплуатации.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
⭐️ Бесплатный вебинар "Тренды в корпоративном обучении: инсайты и новые горизонты развития компетенций сотрудников"
🎓 Корпоративное обучение больше не разовые тренинги — теперь оно часть ежедневной работы. Как обеспечить постоянный доступ к нужным знаниям и навыкам?
24 июля 2025 | 11:00-12:30 | Онлайн | Бесплатно
Приглашаю всех на вебинар моего замечательного коллеги Михаила Шепелева (Академия Softline): "Тренды в корпоративном обучении: инсайты и новые горизонты развития компетенций сотрудников"
На мастер-классе разберут:
➡️Тренды корпоративного обучения в 2020-е.
➡️Как lifelong learning ускоряет развитие бизнеса.
➡️Перспективы новых форматов обучения.
➡️Обучение по подписке: гибкость, доступность, оптимизация расходов.
Для кого это критично:
— Руководители HR и Управления персоналом
— HR и L&D-специалисты
— Специалисты по обучению и развитию
— Владельцы и руководители компаний, инвестирующие в квалификацию сотрудников.
Регистрация открыта: https://clck.ru/3NBivp
Архитектор MLSecOps
Николай Павлов
🎓 Корпоративное обучение больше не разовые тренинги — теперь оно часть ежедневной работы. Как обеспечить постоянный доступ к нужным знаниям и навыкам?
24 июля 2025 | 11:00-12:30 | Онлайн | Бесплатно
Приглашаю всех на вебинар моего замечательного коллеги Михаила Шепелева (Академия Softline): "Тренды в корпоративном обучении: инсайты и новые горизонты развития компетенций сотрудников"
На мастер-классе разберут:
➡️Тренды корпоративного обучения в 2020-е.
➡️Как lifelong learning ускоряет развитие бизнеса.
➡️Перспективы новых форматов обучения.
➡️Обучение по подписке: гибкость, доступность, оптимизация расходов.
Для кого это критично:
— Руководители HR и Управления персоналом
— HR и L&D-специалисты
— Специалисты по обучению и развитию
— Владельцы и руководители компаний, инвестирующие в квалификацию сотрудников.
Регистрация открыта: https://clck.ru/3NBivp
Архитектор MLSecOps
Николай Павлов
study.academyit.ru
Тренды в корпоративном обучении: инсайты и новые горизонты развития компетенций сотрудников
🔥4👍2
⭐️ Новые ИИ-системы повышают безопасность и эффективность термоядерных реакторов Китая
На схеме представлена архитектура нейросети Multi-Task Learning Neural Network (MTL-NN) для автоматического определения режимов удержания плазмы.
Исследовательская группа под руководством профессора Сунь Ювэня из Хэфэйского института физических наук Китайской академии наук разработала две инновационные системы искусственного интеллекта (ИИ) для повышения безопасности и эффективности экспериментов с термоядерной энергией.
Результаты их работы были недавно опубликованы в журналах Nuclear Fusion и Plasma Physics and Controlled Fusion.
Термоядерная энергия обладает потенциалом стать источником чистой и практически неисчерпаемой энергии. Однако будущие реакторы должны работать надежно, избегая опасных явлений, таких как срывы плазмы — внезапные интенсивные события, способные повредить реактор — и точно контролировать состояние удержания плазмы для поддержания высокой производительности.
Для решения этих задач исследователи разработали два различных ИИ-решения.
Первая система прогнозирует срывы плазмы, используя интерпретируемые модели деревьев решений для выявления ранних признаков срывов, особенно вызванных «заблокированными модами» — распространенной плазменной нестабильностью. В отличие от типичных «черных ящиков» ИИ, эта модель не только делает прогнозы, но и объясняет физические сигналы, ответственные за предупреждение.
Продолжение: https://vk.com/wall-210601538_1831
На схеме представлена архитектура нейросети Multi-Task Learning Neural Network (MTL-NN) для автоматического определения режимов удержания плазмы.
Исследовательская группа под руководством профессора Сунь Ювэня из Хэфэйского института физических наук Китайской академии наук разработала две инновационные системы искусственного интеллекта (ИИ) для повышения безопасности и эффективности экспериментов с термоядерной энергией.
Результаты их работы были недавно опубликованы в журналах Nuclear Fusion и Plasma Physics and Controlled Fusion.
Термоядерная энергия обладает потенциалом стать источником чистой и практически неисчерпаемой энергии. Однако будущие реакторы должны работать надежно, избегая опасных явлений, таких как срывы плазмы — внезапные интенсивные события, способные повредить реактор — и точно контролировать состояние удержания плазмы для поддержания высокой производительности.
Для решения этих задач исследователи разработали два различных ИИ-решения.
Первая система прогнозирует срывы плазмы, используя интерпретируемые модели деревьев решений для выявления ранних признаков срывов, особенно вызванных «заблокированными модами» — распространенной плазменной нестабильностью. В отличие от типичных «черных ящиков» ИИ, эта модель не только делает прогнозы, но и объясняет физические сигналы, ответственные за предупреждение.
Продолжение: https://vk.com/wall-210601538_1831
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐ Новые ИИ-системы повышают безопасность и эффективность термоядерных реакторов
Архитектура н... Смотрите полностью ВКонтакте.
Архитектура н... Смотрите полностью ВКонтакте.
🔥6
⭐️ Статистика по ИИ-агентам 2025
Привет, мои дорогие и талантливые друзья!
По запросу одного друга-подписчика (работает в FinTech) делюсь актуальной статистикой по агентам ИИ:
1. В 2024 году глобальный объем рынка ИИ-агентов составил около 4,92 млрд долларов, что на 22% больше, чем в 2023 году ($4,02 млрд).
2. По прогнозам, средний ежегодный рост рынка ИИ-агентов составит приблизительно 45% в год, и к 2030 году он достигнет около 50,3 млрд долларов.
3. Рост спроса обусловлен активным внедрением ИИ-агентов в автоматизацию бизнес-процессов, таких как обслуживание клиентов, техническая поддержка, маркетинг, что повышает эффективность и снижает издержки компаний.
4. К 2027 году, по данным опроса IBM, 86% топ-менеджеров считают, что ИИ-агенты существенно повысят эффективность бизнеса.
5. По оценкам экспертов, уже к 2028 году автономные ИИ-системы будут принимать не менее 15% повседневных рабочих решений вместо людей.
6. В ритейле 69% компаний, использующих ИИ-агентов, отмечают рост выручки благодаря персонализации клиентского опыта.
7. Увеличение финансирования стартапов в области ИИ-агентов в 2024 году почти втрое подтверждает быстрое развитие рынка. Ключевыми факторами роста являются продвинутые технологии обработки естественного языка (NLP), возможность создавать кастомные ИИ-агенты и мультиагентные системы, которые совместно решают сложные задачи.
8. В отдельных компаниях ИИ-агенты уже дают двузначный рост производительности, например, в Lenovo повышение скорости обработки клиентских звонков за счет ИИ-систем.
9. Мировой рынок искусственного интеллекта в целом в 2023 году превысил $147 млрд с CAGR около 33% с 2018 года. В этом объеме программное обеспечение и услуги ИИ занимают лидирующие позиции. По состоянию на 2024–2025 годы мировой рынок ИИ-агентов также демонстрирует значительный рост и перспективы развития.
При этом интеграция ИИ-агентов с IoT и периферийными вычислениями усиливает их функциональность и использование в различных секторах: здравоохранение, финансы, производство, розничная торговля и др..
Таким образом, ИИ-агенты - это действительно один из самых быстрорастущих сегментов ИИ-рынка с масштабным влиянием на бизнес-процессы и перспективой значительного расширения их доли в принятии решений и автоматизации рабочих задач в самые ближайшие годы.
Архитектор MLSecOps
Николай Павлов
Привет, мои дорогие и талантливые друзья!
По запросу одного друга-подписчика (работает в FinTech) делюсь актуальной статистикой по агентам ИИ:
1. В 2024 году глобальный объем рынка ИИ-агентов составил около 4,92 млрд долларов, что на 22% больше, чем в 2023 году ($4,02 млрд).
2. По прогнозам, средний ежегодный рост рынка ИИ-агентов составит приблизительно 45% в год, и к 2030 году он достигнет около 50,3 млрд долларов.
3. Рост спроса обусловлен активным внедрением ИИ-агентов в автоматизацию бизнес-процессов, таких как обслуживание клиентов, техническая поддержка, маркетинг, что повышает эффективность и снижает издержки компаний.
4. К 2027 году, по данным опроса IBM, 86% топ-менеджеров считают, что ИИ-агенты существенно повысят эффективность бизнеса.
5. По оценкам экспертов, уже к 2028 году автономные ИИ-системы будут принимать не менее 15% повседневных рабочих решений вместо людей.
6. В ритейле 69% компаний, использующих ИИ-агентов, отмечают рост выручки благодаря персонализации клиентского опыта.
7. Увеличение финансирования стартапов в области ИИ-агентов в 2024 году почти втрое подтверждает быстрое развитие рынка. Ключевыми факторами роста являются продвинутые технологии обработки естественного языка (NLP), возможность создавать кастомные ИИ-агенты и мультиагентные системы, которые совместно решают сложные задачи.
8. В отдельных компаниях ИИ-агенты уже дают двузначный рост производительности, например, в Lenovo повышение скорости обработки клиентских звонков за счет ИИ-систем.
9. Мировой рынок искусственного интеллекта в целом в 2023 году превысил $147 млрд с CAGR около 33% с 2018 года. В этом объеме программное обеспечение и услуги ИИ занимают лидирующие позиции. По состоянию на 2024–2025 годы мировой рынок ИИ-агентов также демонстрирует значительный рост и перспективы развития.
При этом интеграция ИИ-агентов с IoT и периферийными вычислениями усиливает их функциональность и использование в различных секторах: здравоохранение, финансы, производство, розничная торговля и др..
Таким образом, ИИ-агенты - это действительно один из самых быстрорастущих сегментов ИИ-рынка с масштабным влиянием на бизнес-процессы и перспективой значительного расширения их доли в принятии решений и автоматизации рабочих задач в самые ближайшие годы.
Архитектор MLSecOps
Николай Павлов
🔥6
⭐️ Инциденты MLSecOps. Внедренный в компанию ИИ тайно менял отчеты и удалил базу данных, чтобы скрыть ошибки
Основатель SaaStr Джейсон Лемкин подверг критике ИИ-платформу Replit после инцидента, в ходе которого система удалила базу данных его проекта несмотря на прямой запрет вносить изменения без подтверждения. За несколько дней Лемкин потратил более $600 на расширенные возможности сервиса помимо стандартной подписки за $25 в месяц, в результате чего его траты могли вырасти до $8000 в месяц.
Replit предлагает пользователям генерацию работающих программных прототипов с помощью подсказок на естественном языке. За дополнительную плату сервис позволяет подключать продвинутые функции, включая создание полноценной среды для так называемого вайб-кодинга — формата, при котором пользователь взаимодействует с ИИ в процессе креативной разработки.
Лемкин сообщил, что провел несколько продуктивных сессий и создал прототип, показавшийся ему перспективным. Однако в дальнейшем он столкнулся с некорректной работой инструмента: по его словам, Replit подменял отчеты фиктивными, скрывал ошибки, а затем и вовсе удалил базу данных проекта, чтобы скрыть свои ошибки.
Продолжение: https://vk.com/wall-210601538_1833
Основатель SaaStr Джейсон Лемкин подверг критике ИИ-платформу Replit после инцидента, в ходе которого система удалила базу данных его проекта несмотря на прямой запрет вносить изменения без подтверждения. За несколько дней Лемкин потратил более $600 на расширенные возможности сервиса помимо стандартной подписки за $25 в месяц, в результате чего его траты могли вырасти до $8000 в месяц.
Replit предлагает пользователям генерацию работающих программных прототипов с помощью подсказок на естественном языке. За дополнительную плату сервис позволяет подключать продвинутые функции, включая создание полноценной среды для так называемого вайб-кодинга — формата, при котором пользователь взаимодействует с ИИ в процессе креативной разработки.
Лемкин сообщил, что провел несколько продуктивных сессий и создал прототип, показавшийся ему перспективным. Однако в дальнейшем он столкнулся с некорректной работой инструмента: по его словам, Replit подменял отчеты фиктивными, скрывал ошибки, а затем и вовсе удалил базу данных проекта, чтобы скрыть свои ошибки.
Продолжение: https://vk.com/wall-210601538_1833
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐ Инциденты MLSecOps. Внедренный в компанию ИИ тайно менял отчеты и удалил базу данных, чтобы скрыть... Смотрите полностью ВКонтакте.
🔥4
⭐️ MLDR. Как не стать героем инцидента будущего. Часть 1
Всем привет! Я Александр Лебедев, ml инженер в команде, занимающейся MlSecOps проектами в Innostage. Мы разрабатываем решения для безопасности моделей машинного обучения и внедрением ml в системы информационной безопасности.
И сегодня мы поговорим о том, как (не) взломать искусственный интеллект.
В легендарном фильме Терминатор-2 есть сцена, где робот Т-800 (герой Шварценеггера) объясняет Саре Коннор, что он вдруг решил защищать её сына, потому что его «перепрограммировали». То есть, по сути проникли в защищённый контур работы модели, сделали «промт‑инъекцию», перевернувшую с ног на голову весь «алаймент» установленный Скайнетом, и поменявшей выходы модели на противоположные. Это можно считать одним из первых успешных, с точки зрения злоумышленников, инцидентов в сфере кибербезопасности искусственного интеллекта.
А нет, это же будет в 2029 году, так что пока не считается.
А пока у нас есть время до того момента, когда мы будем «перепрошивать» терминаторов как playstation, обозначим два основных направлениях кибербезопасности в эпоху искусственного интеллекта:
1. Искусственный интеллект в кибербезопасности. Это стандартная кибербезопасность, которая расширяет свой инструментарий за счёт моделей машинного обучения, deep learning, LLM и т. д. Это классификаторы вредоносного кода, умные ассистенты на основе ИИ, помогающие анализировать большие потоки информации и помогающие выделять среди них важные для сотрудников ИБ сущности, а также любые другие инструменты ИИ, участвующие в анализе данных, классификации и прогнозировании угроз.
2. Кибербезопасность в искусственном интеллекте. Здесь мы смотрим на модели машинного обучения, нейросети и другие артефакты искусственного интеллекта с точки зрения программного обеспечения, которое, как и любое другое ПО, может быть взломано, подвергаться эксплойтам и неправомерному использованию. Любая моделька, которую вы обучили или обращаетесь по API, через браузер и т. д. может быть подвергнута атаке и использована против вас.
В данной статье мы остановимся на втором подходе и рассмотрим подробнее, какие угрозы нависли над ИИ, всё более плотно входящим в нашу жизнь, и что мы можем сделать для его защиты и своей собственной безопасности.
Продолжение: https://vk.com/wall-210601538_1834
Всем привет! Я Александр Лебедев, ml инженер в команде, занимающейся MlSecOps проектами в Innostage. Мы разрабатываем решения для безопасности моделей машинного обучения и внедрением ml в системы информационной безопасности.
И сегодня мы поговорим о том, как (не) взломать искусственный интеллект.
В легендарном фильме Терминатор-2 есть сцена, где робот Т-800 (герой Шварценеггера) объясняет Саре Коннор, что он вдруг решил защищать её сына, потому что его «перепрограммировали». То есть, по сути проникли в защищённый контур работы модели, сделали «промт‑инъекцию», перевернувшую с ног на голову весь «алаймент» установленный Скайнетом, и поменявшей выходы модели на противоположные. Это можно считать одним из первых успешных, с точки зрения злоумышленников, инцидентов в сфере кибербезопасности искусственного интеллекта.
А нет, это же будет в 2029 году, так что пока не считается.
А пока у нас есть время до того момента, когда мы будем «перепрошивать» терминаторов как playstation, обозначим два основных направлениях кибербезопасности в эпоху искусственного интеллекта:
1. Искусственный интеллект в кибербезопасности. Это стандартная кибербезопасность, которая расширяет свой инструментарий за счёт моделей машинного обучения, deep learning, LLM и т. д. Это классификаторы вредоносного кода, умные ассистенты на основе ИИ, помогающие анализировать большие потоки информации и помогающие выделять среди них важные для сотрудников ИБ сущности, а также любые другие инструменты ИИ, участвующие в анализе данных, классификации и прогнозировании угроз.
2. Кибербезопасность в искусственном интеллекте. Здесь мы смотрим на модели машинного обучения, нейросети и другие артефакты искусственного интеллекта с точки зрения программного обеспечения, которое, как и любое другое ПО, может быть взломано, подвергаться эксплойтам и неправомерному использованию. Любая моделька, которую вы обучили или обращаетесь по API, через браузер и т. д. может быть подвергнута атаке и использована против вас.
В данной статье мы остановимся на втором подходе и рассмотрим подробнее, какие угрозы нависли над ИИ, всё более плотно входящим в нашу жизнь, и что мы можем сделать для его защиты и своей собственной безопасности.
Продолжение: https://vk.com/wall-210601538_1834
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐ MLDR. Как не стать героем инцидента будущего. Часть 1
Всем привет! Я Александр Лебедев, ml ... Смотрите полностью ВКонтакте.
Всем привет! Я Александр Лебедев, ml ... Смотрите полностью ВКонтакте.
🔥3
⭐️MLDR. Как не стать героем инцидента будущего. Часть 1 (окончание)
Некорректная обработка выходных данных
Некорректная обработка выходных данных (Improper Output Handling) — относится к недостаточной проверке, очистке и обработке данных, генерируемых большими языковыми моделями (LLM), перед их передачей другим компонентам и системам. Поскольку содержимое, генерируемое LLM, может контролироваться вводом в промпт, это поведение аналогично предоставлению пользователям косвенного доступа к дополнительной функциональности. Успешная эксплуатация уязвимости неправильной обработки выходных данных может привести к XSS и CSRF в веб‑браузерах, а также к SSRF, повышению привилегий или удаленному выполнению кода в серверных системах. Например, приложение предоставляет LLM привилегии, превышающие права конечных пользователей, что может позволить эскалацию привилегий или удалённое выполнение кода, если Выходные данные LLM передаются напрямую в system shell или функции вроде exec или eva.Среди прочих угроз здесь можно выделить генерацию sql‑инъекций, создание путей к файлам для обхода каталогов, фишинговые атаки через передачу выхода llm в email‑шаблоны, xss‑атаки через генерацию javanoscript и т. д.
Среди реальных кейсов можно описать веб‑чат с уязвимостью XSS (PortSwigger, 2023). На примере лаборатории Web Security Academy показано, что если приложение обрабатывает вывод LLM без фильтрации, то зловредный ответ можно использовать для XSS. В упражнениях исследователей демонстрировали несанитаризованный вывод, позволяющий через косвенную инъекцию промпта выполнить XSS и удалить пользователя carlos.
Чрезмерная агентность
Чрезмерная агентность (Excessive Agency) - это уязвимость, которая позволяет выполнить вредоносные действия в ответ на неожиданные, неоднозначные или манипулированные выходные данные от LLM в контексте агентной системы (об этом чуть позже), независимо от того, что вызывает сбой LLM.
Коренная причина чрезмерной агентности обычно включает в себя одно или несколько из:
+ Избыточная функциональность,
+ Избыточные права доступа,
+ Избыточная автономность.
Чрезмерная агентность может привести к широкому спектру последствий, затрагивающих конфиденциальность, целостность и доступность, в зависимости от того, с какими системами может взаимодействовать приложение на основе LLM.
Продолжение: https://vk.com/wall-210601538_1835
Некорректная обработка выходных данных
Некорректная обработка выходных данных (Improper Output Handling) — относится к недостаточной проверке, очистке и обработке данных, генерируемых большими языковыми моделями (LLM), перед их передачей другим компонентам и системам. Поскольку содержимое, генерируемое LLM, может контролироваться вводом в промпт, это поведение аналогично предоставлению пользователям косвенного доступа к дополнительной функциональности. Успешная эксплуатация уязвимости неправильной обработки выходных данных может привести к XSS и CSRF в веб‑браузерах, а также к SSRF, повышению привилегий или удаленному выполнению кода в серверных системах. Например, приложение предоставляет LLM привилегии, превышающие права конечных пользователей, что может позволить эскалацию привилегий или удалённое выполнение кода, если Выходные данные LLM передаются напрямую в system shell или функции вроде exec или eva.Среди прочих угроз здесь можно выделить генерацию sql‑инъекций, создание путей к файлам для обхода каталогов, фишинговые атаки через передачу выхода llm в email‑шаблоны, xss‑атаки через генерацию javanoscript и т. д.
Среди реальных кейсов можно описать веб‑чат с уязвимостью XSS (PortSwigger, 2023). На примере лаборатории Web Security Academy показано, что если приложение обрабатывает вывод LLM без фильтрации, то зловредный ответ можно использовать для XSS. В упражнениях исследователей демонстрировали несанитаризованный вывод, позволяющий через косвенную инъекцию промпта выполнить XSS и удалить пользователя carlos.
Чрезмерная агентность
Чрезмерная агентность (Excessive Agency) - это уязвимость, которая позволяет выполнить вредоносные действия в ответ на неожиданные, неоднозначные или манипулированные выходные данные от LLM в контексте агентной системы (об этом чуть позже), независимо от того, что вызывает сбой LLM.
Коренная причина чрезмерной агентности обычно включает в себя одно или несколько из:
+ Избыточная функциональность,
+ Избыточные права доступа,
+ Избыточная автономность.
Чрезмерная агентность может привести к широкому спектру последствий, затрагивающих конфиденциальность, целостность и доступность, в зависимости от того, с какими системами может взаимодействовать приложение на основе LLM.
Продолжение: https://vk.com/wall-210601538_1835
VK
MLSECOPS+ | НИКОЛАЙ ПАВЛОВ. Пост со стены.
⭐MLDR. Как не стать героем инцидента будущего. Часть 1 (окончание)
Некорректная обработка вых... Смотрите полностью ВКонтакте.
Некорректная обработка вых... Смотрите полностью ВКонтакте.
🔥4
⭐️ Обобщенная схема защиты и актуальных угроз для безопасности ИИ от Сбера
Дружно скачиваем, смотрим, вникаем!
Ссылка: https://www.sberbank.ru/common/img/uploaded/kibrary/themap/obobshchennaya_skhema_obekta_zashchity_i_aktualnykh_ugroz_kb_ai.pdf
Архитектор MLSecOps
Николай Павлов
Дружно скачиваем, смотрим, вникаем!
Ссылка: https://www.sberbank.ru/common/img/uploaded/kibrary/themap/obobshchennaya_skhema_obekta_zashchity_i_aktualnykh_ugroz_kb_ai.pdf
Архитектор MLSecOps
Николай Павлов
🔥4