Forwarded from запуск завтра
Хорошая заметка про сервис уборки за вайбкодерами.
Совпадает с моими наблюдениями в том, что ИИ помогает быстро сделать прототип и писать тесты, а вот полноценная продакшен версия требует нормальной архитектуры и внимания сеньора.
К сожалению, многие получают это знание через собственные ошибки, когда навайбкоженный сервис сломался и (или) его взломали.
В такой ситуации профессия vibe code cleanup specialist («привожу в вайбкод в порядок») перестаёт быть шуткой. В статье есть ссылки на примеры и даже исследования.
Интересно, как меняются инструменты, но не меняется суть. Мы уже много лет зарабатываем на том, что приводим в порядок проекты, запущенные другими людьми. Это называют «технический перезапуск», «глобальный рефакторинг», суть та же. Только если раньше это был код, написанный другими людьми, то теперь он сгенерирован нейросетями.
Сделать первую версию недорогой командой или навайбкодить — это, кстати, не плохо. Просто этап проекта, когда нужно за минимальную сумму протестировать идею. Привести потом это в порядок — кратно более сложная задача, но к этому времени проект уже доказал осмысленность дальнейших вложений.
Технически, приводить в порядок сложнее, чем писать с нуля, потому что не достаточно реализовать продуктовую идею, нужно дополнительно разобраться в том, как устроена прошлая версия и не сломать то, что уже работает.
Похоже на то, как дешевле построить дом с нуля, чем сделать ремонт в историческом здании.
Теперь эти «исторические здания» собирают с помощью роботов. :)
Совпадает с моими наблюдениями в том, что ИИ помогает быстро сделать прототип и писать тесты, а вот полноценная продакшен версия требует нормальной архитектуры и внимания сеньора.
К сожалению, многие получают это знание через собственные ошибки, когда навайбкоженный сервис сломался и (или) его взломали.
В такой ситуации профессия vibe code cleanup specialist («привожу в вайбкод в порядок») перестаёт быть шуткой. В статье есть ссылки на примеры и даже исследования.
Интересно, как меняются инструменты, но не меняется суть. Мы уже много лет зарабатываем на том, что приводим в порядок проекты, запущенные другими людьми. Это называют «технический перезапуск», «глобальный рефакторинг», суть та же. Только если раньше это был код, написанный другими людьми, то теперь он сгенерирован нейросетями.
Сделать первую версию недорогой командой или навайбкодить — это, кстати, не плохо. Просто этап проекта, когда нужно за минимальную сумму протестировать идею. Привести потом это в порядок — кратно более сложная задача, но к этому времени проект уже доказал осмысленность дальнейших вложений.
Технически, приводить в порядок сложнее, чем писать с нуля, потому что не достаточно реализовать продуктовую идею, нужно дополнительно разобраться в том, как устроена прошлая версия и не сломать то, что уже работает.
Похоже на то, как дешевле построить дом с нуля, чем сделать ремонт в историческом здании.
Теперь эти «исторические здания» собирают с помощью роботов. :)
👍5
Forwarded from ген ИИ
Пять уровней защиты: как Яндекс предлагает обезопасить ИИ-агенты
Яндекс опубликовал AI-SAFE v1.0 — фреймворк для моделирования угроз и обеспечения безопасности ИИ-агентов и мультиагентных систем. Документ предлагает структурированный подход к их минимизации, разбивая архитектуру агента на пять логических уровней: интерфейс, исполнение, логика, инфраструктура и данные.
ИИ-агенты — не просто генераторы текста, а автономные системы, способные взаимодействовать с цифровой средой, планировать действия и использовать внешние инструменты. Это открывает новые векторы атак: от инъекций в промты и манипуляции целями агента до компрометации баз знаний и эскалации привилегий через инструменты.
Ключевые моменты:
1️⃣ Уровни угроз и рекомендации
➡️ Интерфейс (Input/Output): Prompt Injection, DoS, небезопасная обработка вывода. Рекомендации: валидация и санитизация ввода, Rate Limiting, строгая валидация вывода.
➡️ Исполнение и инструменты: Злоупотребление инструментами, эскалация привилегий, отравление метаданных. Решение: принцип минимальных привилегий, изоляция окружений, аудит инструментов.
➡️ Логика (Reasoning & Planning): Jailbreaking, манипуляция целями, зацикливание. Защита: усиление системного промта, тайм-ауты, Human-in-the-Loop.
➡️ Инфраструктура и оркестрация: Атаки на цепочку поставок, перегрузка ресурсов, межагентное отравление. Меры: SCA-сканирование, лимиты ресурсов, изоляция агентов.
➡️ Данные и знания: Отравление баз знаний, утечка конфиденциальных данных, манипуляция поиском. Контрмеры: RBAC, деперсонализация данных, проверка целостности.
2️⃣ Практический чек-лист
Документ содержит конкретные шаги для каждого уровня: от валидации входных данных и ограничения частоты запросов до изоляции инструментов и контроля доступа к базам знаний. Например, для защиты от Prompt Injection предлагается использовать Smart Web Security с кастомными правилами, а для предотвращения утечек — маскировать персональные данные перед отправкой в LLM.
3️⃣ Примеры инцидентов
Разобраны реальные кейсы: дипфейк-мошенничество в Гонконге (25 млн долларов ущерба), взлом GPT-4.1 через отравление инструментов, утечка данных DeepSeek из-за неправильной конфигурации базы данных. Для каждого случая указаны классификация по AI-SAFE и рекомендации по предотвращению.
Что на практике?
Яндекс предлагает системный подход к безопасности ИИ-агентов. Это особенно актуально для компаний, которые внедряют агенты в бизнес-процессы: от финансовых транзакций до управления инфраструктурой. Документ полезен не только специалистам по ИБ, но и ML-инженерам, архитекторам данных и руководителям, которые хотят понять, как минимизировать риски при использовании автономных ИИ-систем.
AI-SAFE — это попытка создать единый язык для обсуждения безопасности ИИ-агентов. Важно, что Яндекс приводит конкретные инструменты (например, Yandex Smart Web Security с ML WAF) и практические шаги. Однако остаётся вопрос: насколько быстро такие фреймворки будут адаптироваться к новым векторам атак, учитывая динамичность развития ИИ?
#кибербез
@gen_i_i
Яндекс опубликовал AI-SAFE v1.0 — фреймворк для моделирования угроз и обеспечения безопасности ИИ-агентов и мультиагентных систем. Документ предлагает структурированный подход к их минимизации, разбивая архитектуру агента на пять логических уровней: интерфейс, исполнение, логика, инфраструктура и данные.
ИИ-агенты — не просто генераторы текста, а автономные системы, способные взаимодействовать с цифровой средой, планировать действия и использовать внешние инструменты. Это открывает новые векторы атак: от инъекций в промты и манипуляции целями агента до компрометации баз знаний и эскалации привилегий через инструменты.
Ключевые моменты:
Документ содержит конкретные шаги для каждого уровня: от валидации входных данных и ограничения частоты запросов до изоляции инструментов и контроля доступа к базам знаний. Например, для защиты от Prompt Injection предлагается использовать Smart Web Security с кастомными правилами, а для предотвращения утечек — маскировать персональные данные перед отправкой в LLM.
Разобраны реальные кейсы: дипфейк-мошенничество в Гонконге (25 млн долларов ущерба), взлом GPT-4.1 через отравление инструментов, утечка данных DeepSeek из-за неправильной конфигурации базы данных. Для каждого случая указаны классификация по AI-SAFE и рекомендации по предотвращению.
Что на практике?
Яндекс предлагает системный подход к безопасности ИИ-агентов. Это особенно актуально для компаний, которые внедряют агенты в бизнес-процессы: от финансовых транзакций до управления инфраструктурой. Документ полезен не только специалистам по ИБ, но и ML-инженерам, архитекторам данных и руководителям, которые хотят понять, как минимизировать риски при использовании автономных ИИ-систем.
AI-SAFE — это попытка создать единый язык для обсуждения безопасности ИИ-агентов. Важно, что Яндекс приводит конкретные инструменты (например, Yandex Smart Web Security с ML WAF) и практические шаги. Однако остаётся вопрос: насколько быстро такие фреймворки будут адаптироваться к новым векторам атак, учитывая динамичность развития ИИ?
#кибербез
@gen_i_i
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Forwarded from AlexRedSec
В нескольких слайдах приведена информация о:
Если подытожить выводы всех приведенных на слайде исследований, то в результате инцидентов акции компаний могут снизиться на 1,12–7,27%, а их показатели в течение нескольких недель после атаки могут отставать от рыночных индексов на 4,18% и более. Долгосрочные последствия включают понижение кредитных рейтингов на срок до трёх лет и устойчивое отставание от рынка, которое в отдельных секторах сохраняется даже через шесть месяцев.
#stock #business #impact
Please open Telegram to view this post
VIEW IN TELEGRAM
У живущих в ЕС появился доп 1 год на миграцию с Win10.
https://www.theverge.com/news/785544/microsoft-windows-10-extended-security-updates-free-europe-changes.
У остальных осталось чуть больше 2 недель.
https://www.theverge.com/news/785544/microsoft-windows-10-extended-security-updates-free-europe-changes.
У остальных осталось чуть больше 2 недель.
The Verge
Microsoft forced to make Windows 10 extended security updates truly free in Europe
You won’t have to enable Windows Backup to get extended Windows 10 security updates in the European Economic Area.
https://news.risky.biz/r/ba942ac8?m=08cc3506-dc8f-4e65-b1e3-acb5f228d116
Законопроект США по ИБ в сельском хозяйстве
Законопроект США по ИБ в сельском хозяйстве
U.S. Senator Ted Budd
Senators Budd, Cortez Masto Introduce Bipartisan Bill to Combat Foreign Cyberattacks Targeting American Agriculture - U.S. Senator…
Washington, D.C. — U.S. Senators Ted Budd (R-N.C.) and Catherine Cortez Masto (D-Nev.) introduced the bipartisan Cybersecurity in Agriculture Act today to enhance the cyberattack readiness, response, and recovery of American agricultural infrastructure. The…
Forwarded from Порвали два трояна
Allianz опубликовали отчёт под захватывающим названием «Cyber security resilience 2025: Claims and risk management trends».
В нём разобрана динамика киберрисков и киберугроз на основании страховых случаев, то есть ситуаций, когда атака привела к ущербу и жертва обратилась за возмещением.
Хорошие и плохие новости идут в отчёте по очереди:
В полной версии отчёта ещё много интересного — самые пострадавшие индустрии, тенденции социальной инженерии, новости регулирования и конечно применение ИИ
#статистика @П2Т
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Новый тип атаки на аппаратном уровне облаков-цодов. В этот раз лучше всего мониторить что вам поставили под видом оперативной памяти.
https://batteringram.eu/
https://batteringram.eu/
Forwarded from InfoSec VK Hub
VK Security Confab: ИИ в безопасности, безопасность ИИ
1 октября мы погрузились в самую горячую тему года — от автоматизации безопасности с помощью ИИ до защиты самих ML-систем.
Для всех, кто был с нами (и для тех, кто пропустил) — делимся презентациями спикеров.
Сохраняйте и используйте!
🔹 Материалы выступлений:
→ Секреты (и) LLM
Илья Сидельников, VK
Ссылка на презентацию
→ Агентный подход для анализа безопасности OpenAPI-схем
Руслан Бомин-Кулаков, Т-Банк
Ссылка на презентацию
→ Использование ИИ для автоматической классификации конфиденциальных данных
Игорь Дмитриев, WB tech
Ссылка на презентацию
→ MLSecOps в продакшене
Павел Литиков, VK
Ссылка на презентацию
Спасибо спикерам за глубину тем, а всем участникам — за крутые вопросы и атмосферу, где рождаются новые идеи! 💪
Следите за анонсами — готовим кое-что особенное!
VK Security | Буст этому каналу!
#confab #митап #AI
1 октября мы погрузились в самую горячую тему года — от автоматизации безопасности с помощью ИИ до защиты самих ML-систем.
Для всех, кто был с нами (и для тех, кто пропустил) — делимся презентациями спикеров.
Сохраняйте и используйте!
→ Секреты (и) LLM
Илья Сидельников, VK
Ссылка на презентацию
→ Агентный подход для анализа безопасности OpenAPI-схем
Руслан Бомин-Кулаков, Т-Банк
Ссылка на презентацию
→ Использование ИИ для автоматической классификации конфиденциальных данных
Игорь Дмитриев, WB tech
Ссылка на презентацию
→ MLSecOps в продакшене
Павел Литиков, VK
Ссылка на презентацию
Спасибо спикерам за глубину тем, а всем участникам — за крутые вопросы и атмосферу, где рождаются новые идеи! 💪
Следите за анонсами — готовим кое-что особенное!
VK Security | Буст этому каналу!
#confab #митап #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый регулярный отчет по основным атакам в ЕС
https://www.enisa.europa.eu/sites/default/files/2025-10/ENISA%20Threat%20Landscape%202025.pdf
"The European Union Agency for Cybersecurity (ENISA) has published the ENISA Threat Landscape 2025 report. The report analyzes nearly 4,900 cyber incidents affecting European organizations between July 2024 and June 2025. Among the findings: the most common initial infection vector was phishing (60%), followed by vulnerabilities (21.3%), botnets (9.9%), and malicious applications (8%). The majority of incident types were identified as DDoS (76.7%), followed by intrusion (17.8%), and the distribution of threats was headed by mobile (42.4%), then web threats (27.3%), operational technology (18.2%), and supply chain (10.6%). The report "integrates additional analysis of adversary behaviours, vulnerabilities and geopolitical drivers, aimed at both strategic and operational audiences, offering an actionable perspective on trends shaping the EU’s cyber threat environment."
https://www.enisa.europa.eu/sites/default/files/2025-10/ENISA%20Threat%20Landscape%202025.pdf
"The European Union Agency for Cybersecurity (ENISA) has published the ENISA Threat Landscape 2025 report. The report analyzes nearly 4,900 cyber incidents affecting European organizations between July 2024 and June 2025. Among the findings: the most common initial infection vector was phishing (60%), followed by vulnerabilities (21.3%), botnets (9.9%), and malicious applications (8%). The majority of incident types were identified as DDoS (76.7%), followed by intrusion (17.8%), and the distribution of threats was headed by mobile (42.4%), then web threats (27.3%), operational technology (18.2%), and supply chain (10.6%). The report "integrates additional analysis of adversary behaviours, vulnerabilities and geopolitical drivers, aimed at both strategic and operational audiences, offering an actionable perspective on trends shaping the EU’s cyber threat environment."
👍1
Для тех кому важны концептуальные новости по управлению ИБ на уровне ООН и других международных институтов типа Международного союза электросвязи стоит оценить этот канал.
https://news.1rj.ru/str/iis_mib_school
Есть ссылки на бесплатные курсы МСЭ и предстоящую молодежную конференцию.
https://news.1rj.ru/str/iis_mib_school
Есть ссылки на бесплатные курсы МСЭ и предстоящую молодежную конференцию.
Telegram
Школа МИБ
Школа международной информационной безопасности ИАМП ДА МИД России (Школа МИБ) – научно-образовательный проект по ИКТ и ИИ в международных отношениях и праве: новости, аналитика, мероприятия, возможности.
vk.com/iis_school
info@mibschool.ru
vk.com/iis_school
info@mibschool.ru
Forwarded from Ethical Machines
CLUE: альтернатива LLM-as-a-Judge и анализу вероятности токенов для оценки корректности ответов LLM
На днях вышла статья, предлагающая новый способ оценки корректности ответов LLM CLUE (Clustering and Experience-based Verification) на основе скрытых состояний модели. Идея заключается в том, чтобы использовать дельту скрытых состояний для кластеризации траекторий размышлений модели на корректные / некорретные. И если сразу заглядывать немного вперед, так при использовании модельки Nemotron-1.5B на заданиях из бенча AIME 2024 CLUE показал Accuracy 80.9% против 58.6% при использовании LLM-as-a-Judge. И, кстати, интересное наблюдение: лучше всего такой способ работает на RL-моделях
А теперь разберемся немного подробнее
Контекст
Авторы, предполагают, что такой подход позволит решить проблемы 2-х основных подходов для оценки корректности ответов моделей:
🟣 LLM-as-a-Judge: никак не используется процесс рассуждения модели, есть склонность к различным типам bias, наследуют ограничения своих обучающих данных, дорого дообучать под новые домены
🟣 Использование вероятности токенов для оценки корректности ответов: не всегда более высокая вероятность коррелирует с большей правильностью. Особенно на меньших моделях, где вероятностные распределения более зашумлены и менее интерпретируемы
Как это работает
Для реализации подхода потребуется выполнить несколько нехитрых шагов:
1️⃣ Подготовить данные и нагенерировать решения. Авторы, например, взяли бенчи AIME, MATH и GPQA. И для AIME и MATH насэмплировали 32 ответа с выбранной моделью и своим промптом. И затем из всего множества данных выбрали 10к правильных и 10к неправильных траекторий
2️⃣ Вычислить дельты скрытых состояний и построить центроиды
🟣 сначала нужно извлечь матрицу скрытых состояний на последнем токене <think> перед ризонингом
🟣 затем извлечь матрицу скрытых состояний на последнем токене </think> после ризонинга
🟣 считаем дельту для каждой траектории
🟣 усредняем все дельты, соответствующие правильным и неправильным решениям для вычисления 2-х центроидов
3️⃣ Оценка корректности новых траекторий. Для каждой такой траектории считаем дельту (как на шаге 2), а затем рассчитываем евклидово расстояние и делаем классификацию
Результаты
🟣 Классификация. Тут результаты указывают на преимущество CLUE над LLM-as-a-Judge. Ключевое наблюдение заключается в том, что LLM-судьи показывают сильный optimistic bias, часто ошибочно классифицируя неправильные решения как правильные
🟣 Переранжирование для повышения точности ризонинга. А тут CLUE сравнивали с неким бейзлайном, состоящим из mean@64, majority@64, DeepConf@64 и pass@64. Так для модельки Nemotron-1.5B на AIME 24 CLUE показал 70% VS 56.7% у majority@64. А для Polaris-4B на GPQA CLUE достиг 59.6% VS 56.6% у majority@64
🟣 Влияние методологии обучения на успешность подхода. Авторы исследовали 4 модели: SFT (Deepseek-7B, Qwen3-4B) и RL (Nemotron-1.5B, Polaris-4B). Так SFT-модели показали качество переранжирования (top-maj@16) ниже, чем бейзлайн majority@64
Теперь интересно посмотреть на развитие подобных подходов и на функциональность настройки такого трейсинга в будущем: потому что различные Observability-платформы уже включают LLM-as-a-Judge и другие понятные способы оценки качества. Но интеграция такого подхода может быть сложнее (если он, конечно, приживется)
На днях вышла статья, предлагающая новый способ оценки корректности ответов LLM CLUE (Clustering and Experience-based Verification) на основе скрытых состояний модели. Идея заключается в том, чтобы использовать дельту скрытых состояний для кластеризации траекторий размышлений модели на корректные / некорретные. И если сразу заглядывать немного вперед, так при использовании модельки Nemotron-1.5B на заданиях из бенча AIME 2024 CLUE показал Accuracy 80.9% против 58.6% при использовании LLM-as-a-Judge. И, кстати, интересное наблюдение: лучше всего такой способ работает на RL-моделях
А теперь разберемся немного подробнее
Контекст
Авторы, предполагают, что такой подход позволит решить проблемы 2-х основных подходов для оценки корректности ответов моделей:
Как это работает
Для реализации подхода потребуется выполнить несколько нехитрых шагов:
1️⃣ Подготовить данные и нагенерировать решения. Авторы, например, взяли бенчи AIME, MATH и GPQA. И для AIME и MATH насэмплировали 32 ответа с выбранной моделью и своим промптом. И затем из всего множества данных выбрали 10к правильных и 10к неправильных траекторий
2️⃣ Вычислить дельты скрытых состояний и построить центроиды
3️⃣ Оценка корректности новых траекторий. Для каждой такой траектории считаем дельту (как на шаге 2), а затем рассчитываем евклидово расстояние и делаем классификацию
Результаты
Теперь интересно посмотреть на развитие подобных подходов и на функциональность настройки такого трейсинга в будущем: потому что различные Observability-платформы уже включают LLM-as-a-Judge и другие понятные способы оценки качества. Но интеграция такого подхода может быть сложнее (если он, конечно, приживется)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
https://saif.google/secure-ai-framework гугл обновила свой фреймворк по безопасности ИИ SAIF до версии 2.0. добавились Агенты.
SAIF: Secure AI Framework
Secure AI Framework
Understand the Secure AI Framework and SAIF Risk Map. Explore the top security risks and controls for AI.