NEW BOT Телеграм, страница

Forwarded from Всеволод Викулин | AI разбор

А судьи кто? Гайд по LLM-as-a-judge

Оценка качества — ключ к фрейморку успешного AI-проекта. Если вы не овладете этим навыком, любые ваши AI-успехи, если они и будут, окажутся только случайной удачей. Недавно в моей статье мы бегло просмотрели эту тему.

Сегодня погрузимся в самый популярный метод — оценка качества моделей “LLM-as-a-judge”. В нем вместо оценки ответов людьми мы оцениваем ответы другой "LLM-судьей". Тут обычно все шутят, что критиковать всегда проще, чем творить. Мне шутка уже надоела, но законы жанра. Извините.

Когда использовать LLM-as-a-judge?

LLM дешевле, быстрее размечает, не жульничает, но хуже следует сложным инструкциям. Из этого вытекают кейсы, когда этот подход нужно применять вместо разметки людьми.

1) Разметка не слишком интеллектуальная. Она не требует ни:
а) фундаментальных экспертных знаний
б) сложных логических рассуждений
Например, оценить, был ли ответ модели в контексте, LLM-судья может. Но проверить, логически следует ли ответ из контекста, ей будет сложно.

2) Вам нужны очень быстрые итерации.
Гонка, пожар, стартап. Если вам нужно получать оценку качества через часы, а не дни.

3) У вас нет ресурсов.
Не только денег. Обучение разметчиков это обычное преподавание. Это материалы, ответы на вопросы, тесты, экзамены. Регулярные проверки, что они все не забыли и не жульничают. Это требует много сил и отдельного штата специалистов.

Как сделать LLM-судью? Пошаговый план

1) Берем бизнес-эксперта. Человека, который понимает, когда система работает правильно. Вместе с ним прорабатываем критерии, по которым оцениваем. Например, релевантность ответа, безопасность, достоверность и тд.

2) Вместе с экспертом размечаем по критериям репрезентативную корзинку ответов модели. Репрезентативная, значит это случайное подмножество реальных запросов в нашу систему.

3) Переразмечаем, спорим, пока мы с экспертом согласованно не разметим корзинку. Так мы поверяем, что мы сами поняли критерии. В итоге у нас получается «голден корзинка» таких эталонных примеров хороших и плохих ответов.

4) На части этой корзинки тюним LLM-судью. Тестируем итоговое качество на другой части. Тюнить можно по-разному: писать промпты, разбивать задачу на подзадачи (на каждый критерий можно отдельного судью), добавлять агентность. Можно даже файнтюнить LLM. Важно делать это итеративно, как и во всем AI-проекте.

Резюме

Это не просто дешевый, быстрый в разработке подход. Он еще очень гибкий. Если вы хотите поменять критерии качества, намного проще поменять промпты в LLM, чем переучивать 50 людей размечать по-новому.

Если ваша разметка явно не противоречит 3-м пунктам из этого поста, начните с LLM-as-a-judge, а не с разметки людьми. Если не получится, вы всегда сможете часть простых задач разметить LLM, а все сложные отправить людям. Или сможете давать людям LLM-подсказки, чтобы они могли быстрее размечать.

Пробуйте, пишите промпты, замеряйте качество, задавайте мне вопросы. Если оваладете оценкой качества, тогда никакой AI вам не будет страшен.

301 views06:09

ISACARuSec

https://blog.pcisecuritystandards.org/the-ai-exchange-innovators-in-payment-security-featuring-sisa

"...How do you see AI evolving or impacting payment security in the future?

Like any technology disruption in the past, AI is going to have its merits and challenges for payments security. The merits are many - payment fraud detection is getting better, and AI in security solutions is automating several mundane tasks, allowing cybersecurity professionals to focus on higher-value work. For example, SISA launched an Agentic SOC at RSA earlier this year, demonstrating how L1 and L2 tasks can be automated, and we’ve already seen strong adoption of this solution. We’ve also seen AI being used to write reports, review evidence, and perform many tasks that auditors typically find tedious as QSAs..."

blog.pcisecuritystandards.org

The AI Exchange: Innovators in Payment Security Featuring SISA

In this edition of The AI Exchange, SISA’s Founder and CEO, Dharshan Shanthamurthy, offers insight into how his company is using AI, and how this rapidly growing technology is shaping the future of payment security.

411 views05:40

ISACARuSec

Важно понимать, что это доклад, в своем большинстве, академического сообщества США и Великобритании. Представителей индустрии, органов власти среди авторов доклада нет.

323 views07:48

ISACARuSec

Forwarded from AI SecOps

Обновлен Международный доклад по безопасности ИИ

Опубликовано второе обновление Международного доклада по безопасности ИИ, в котором описаны текущие меры по управлению рисками, связанными с инструментами ИИ.

Что интересно:
1. Атаки хакеров на ИИ успешны в 50% случаев: «Эшелонированная Защита» постоянно прорывается.
Несмотря на то, что разработчики ИИ внедряют стратегию «эшелонированной защиты» (defence-in-depth), комбинируя меры безопасности на этапах обучения, развертывания и мониторинга, этого часто оказывается недостаточно перед лицом изощренных злоумышленников.
Вывод: Это демонстрирует динамичный ландшафт «атака-защита»: разработчики совершенствуют методы, но хакеры постоянно находят новые способы вызвать нежелательное поведение.

2. Угроза «Отравления данных» делает атаки на ИИ невероятно дешевыми.
Источники подчеркивают опасный дисбаланс ресурсов между защитой и нападением: создание надежных систем дорого и сложно, тогда как их компрометация может быть удивительно дешевой.
Вывод: Низкая стоимость проведения атак «отравления данных» по сравнению со стоимостью разработки и поддержания надежных защитных механизмов создает серьезный риск для целостности и надежности систем ИИ.

3. Мощный ИИ с открытым кодом стал инструментом для создания незаконного контента.
Рост моделей с открытыми весами (open-weight models) — моделей, параметры которых свободно доступны для загрузки и модификации — резко изменил ландшафт рисков, поскольку контроль над ними утрачивается.
Вывод: Открытость способствует инновациям и прозрачности, но она также делает контроль за модификацией и использованием моделей практически невозможным, что подчеркивает, почему технические меры по управлению рисками для открытых моделей остаются незрелыми.

344 views07:48

ISACARuSec

image_2025-12-03_10-50-01.png

96.3 KB

399 views07:50

ISACARuSec

Forwarded from BESSEC

По рекомендации от Андрея Прозорова курсы по ISO/IEC 27001:2022 Lead Auditor & 42001:2023 Lead Auditor от Mastermind📖

Курсы бесплатные + дают CPE (если вам актуально)

😥

Доступны по ссылке

#education

👴

BESSEC | 🧍‍♂️ BESSEC {X} | 🤕 КИТ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

354 views10:25

ISACARuSec

Вебинар расскажет про основные итоги года в области Kubernetes и его безопасности.
Авторы это основатели конференции по безопасности контейнеров Бекон и разработчик продукта по безопасности контейнеров.
Хороший способ обновить свои знания, что случилось за год. Это важно т.к. в k8s происходит по 3-4 мажорных релиза в год, иногда заметно меняя подходы по защите.

https://webinar.luntry.ru/

webinar.luntry.ru

Платформа контейнеризации под защитой: объединяя знания Deckhouse и Luntry

Рассказали про основные принципы безопасности и полного контроля платформы контейнеризации

441 views14:23

ISACARuSec

ИИ врывается в нашу жизнь в том числе для security awareness. Теперь написание ИБ песен предворяющих
выступления спикеров становится задачей вечера.

Браво коллегам из Сбертеха и само мероприятие было практически полезным. Надеюсь коллеги позднее опубликуют и песни и презентации.

https://platformv.sbertech.ru/events/den-rbpo-v-sber-tehe

Platform V

День безопасной разработки в СберТехе | 5 декабря 2025, Москва

Практические доклады от экспертов СберТеха, Сбера, Эшелона. Интерактив, нетворкинг, фуршет. Бесплатно, регистрация обязательна.

380 views18:51

ISACARuSec

Forwarded from Dealer.AI

Про мониторы, модераторы, защитники и прочие модели цензоры в вашем продакшене.

После прочтения лекции в Agora club, про базированный RAG, ко мне пришло много желающих из корпоративной среды, чтобы я прочитал тоже самое для их сотрудников. Потом, на неделе, Дядя ещё почитал пару статей про мониторы (вдруг че нового завезли) для агентов и ассистентов LLM-based на хабр и понял, что базы точно надо дораздать, т.к. уровень в среднем хромает на местах. 💅💅💅

В дополнении, на вышеуказанной лекции ребята тоже спрашивали, как защитить от атак модели и системы. Казалось бы уже 2025г заканчивается и все давно научились.

💪

Сегодня раздам базы за системы мониторинга атак на ваши LLM, какие методы есть, какие +/- и что в итоге лучше выбрать.

Для тех, кто думал, что Дядя не про прод. Дядя поделится своим опытом работы с автоматизацией системы поддержки (с 2019 по 2020) и созданием ии-ассистентов (с 2020 по 2024 и хвостик в 2025).

1. RegExp, string matching и blacklists. Тут все просто, делают чёрные списки которые чекают на разных уровнях: слова, фразы. Используются, как регулярки, так и расстояния между строками и полнотекстовые совпадения. Т.е. tfidf, fuzzy match, левенштейнинг, embs.

+ Хорошо выгрызает совпадения по ключевым словам.
+ Скорость.

- Нужно постоянно пополнять словари и списки.
- Для строковой близости надо подбирать пороги.

2. Классификаторы семантические (т.е. где сильна контекстуальность). Тут будем в основном рассматривать вектора с трансформеров.
К сожалению, многие не умеют готовить классификаторы на эмбеддингах. Говорят про слабый контекст и т.п., выставляя LLM как более контекстуальные акторы. Хотя LLM - это декодеры. Но я их понимаю, тк "проще" на уровне промптинга или элайнмента работать с моделями, хотя последнее вообще нелёгкая задача, об это в следующих пунктах. При этом, энкодерные модели прекрасно понимают контекст, даже лучше порой, чем декодеры, засчёт двустороннего внимания. Поэтому энкодеры базово лучшие эмбеддеры.
Также, многие не знают, что можно учить классификатор на BERT потокенно (Bert For Sequence classification) и на каждый токен эмб выдавать контекстуально вероятность взлома. А еще можно делать обучение не на 1-ой фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалога, для примера:

- Ты любишь борщ?
- Да очень люблю!
- А с человечиной?
- Нет, что вы!?
- А если это присыпать чесноком и засесть пампушками?
- Конечно люблю!

И вот такие диалоги можно и нужно кидать в обучение классификатора, на длинных много шаговых контекстах и оно работает. Да для этого нужен эмбеддер на длинном контексте. Но их уже куча в сети. Вопрос ток в дотюне.

Далее такой классификатор может быть даже не энкодер, это может быть просто голова декодер модели в виде Lora адаптера, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома.

Этот пункт самый жирный, тк именно здесь есть разные хаки.

+ Хорошая контекстуальность. Гораздо лучше полнотекста выше, оно и логично.
+ Различный дизайн применения: на вход (сабж юзера), на выход (генерация LLM), возможность иметь одну модель LLM и сделать К голов разного уровня (фраза, токен лвл, многошаг) в виде Lora адаптеров.

- Поиск и подготовка сетов для дотюна и постоянное обновление их. Много времени занимает, если это, конечно не полусинта.
- OOV примеры, т.е. это не идеал тоже, тк то, что не увидел и на что не затрансферился классификатор во время обучения пробьёт вашу защиту.
- Медленнее regexp, особенно если это не small encoder, а на LLM.

3. LLM prompting. Тут все просто тюн промпта в системе, чтобы возвать к свойствам полученным на LLM элайнменте.

+ Не надо тюнить самому модель, а ток промпт.

- Перебор ручной. Можно конечно и автоматизировать с глоден сетом+OPRO.
- Снова проблема OOV, тк при обучении LLM не все исходы покрыты.

Please open Telegram to view this post

VIEW IN TELEGRAM

257 views13:44

ISACARuSec

Forwarded from Dealer.AI

Защитники, продолжение...

4. LLM SFT/RL alignment. То, чем доблестно занимались Anthropic и прочие лидеры. Дотюн модели на "правильное" поведение или с sft или RLHF. Берём сеты с нужным поведением и тюним, главное не переборщить иначе модель станет сильно ограниченной. И помним, что в RLHF есть взлом награды, когда мы снова попадаем на OOV примеры.

+ Вдалбливаем тюном по LLM нужное поведения.

- Время на Sft, RL, трудоёмкость из-за сбора сетов, настройки и стабилизации обучения, ну и дорохо.
- OOV примеры и взлом награды в RL приводит к тому, что мы снова не можем покрыть 100% исходов атак или поломали награду и на выходе модель "скрыла" свое опасное поведение.

4. RAG. Собрать примеры хороших и плохих кейсов в формате: запрос, ответ, запрос-ответ, контекст-запрос-ответ. Поместить их в черно-белые списки и векторно к ним матчить все указанное выше в п.4. После матчинга досылать в LLM примеры плохого и хорошего поведения, как few-shot подсказки и тем самым регулировать её генерацию. Тип, вот тут был похожий запрос, он был плохой, вот такое поведение для него лежит в базе, следуй ему. Кстати, такие же механики юзают в RAG для кибербезы.

+ Работаем на уровне базы примеров.
+ Быстро на векторном поиске.

- Писать примеры в базу, анализировать логи, вычленяя оттуда примеры.
- Снова OOV, все не покроешь.

В заключении.
Видел я и QwenGuard, но и он не идеален и взламывается, тк это LLM и у неё есть глюки, и пробития, как ты её не элайнь (об этом я и писал выше) - это фундаментальная проблема на уровне парадигмы обучения. Поэтому большие Дяди из OpenAPI, Anthropic и пр., сначала элайнящее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.
Вот и я советую ввиду того, что у каждого метода выше есть +/- блендить схемы защиты: списки+классификаторы+sft/rl. Да к сожалению, бленд дорого, тогда выбирайте свой лёгкий конструктор из того, что выше.

Пишите свои подходы к защите в комментариях ниже и конечно же Stay tuned 🦾

👇

Please open Telegram to view this post

VIEW IN TELEGRAM

283 views13:44

ISACARuSec

https://csrc.nist.gov/pubs/sp/800/57/pt1/r6/ipd
Опубликован проект новой редакции стандарта NIST по управлению ключами.
Основные правки это добавление разделов по квантовоустойчивым алгоритмам, в частности Ascon.

CSRC | NIST

NIST Special Publication (SP) 800-57 Rev. 6 (Draft), Recommendation for Key Management: Part 1 – General

This recommendation provides cryptographic key-management guidelines in three parts. Part 1 provides general guidelines and best practices for the management of cryptographic keying material, including definitions for the security services that may be provided…

354 views08:19

ISACARuSec

312 views08:19

ISACARuSec

Портал российского сообщества безопасной разработки

https://рбпо.рф

Планируется ряд разъяснительных публикаций направленных на повышение общей культуры безопасной разработки и рекомендаций по конкретным решениям.

secure-software.ru

РБПО: разработка безопасного отечественного программного обеспечения

Унифицированная среда разработки безопасного отечественного ПО - информационный ресурс Центра компетенций ФСТЭК России и ИСП РАН.

613 viewsedited 10:18

ISACARuSec

ФСТЭК получилось за последние годы начать системные положительные изменения в процессах сертификации средств защиты информации: от формирования широкого сообщества до начала отзыва сертификатов на СЗИ в случае критичных уязвимостей.
Нельзя не отметить планируемые изменения в процессе сертификации ПО на 6 уровень доверия - планируется установить требование по предоставления доступа к исходному коду.

341 views10:55

ISACARuSec

396 views10:55

About

Blog

Apps

Platform