Forwarded from Душный NLP
Проблемы LLM-as-a-Judge и их решение
Сегодня разберём статью о проблеме оценки открытых ответов (например, рассказов) моделью так же, как это делают асессоры. Мотивация тут проста: использование LLM дешевле, быстрее и позволяет значительно увеличить корзинку, на которой проводится сравнение. При этом полностью выступать заменой разметчиками модель, конечно, пока не может.
Авторы рассматривают три типа LLM-as-a-Judge:
— Попарное сравнение. Модели предоставляют два ответа и предлагают выбрать из них лучший. Такой вариант дорогой, но даёт хорошую согласованность.
— Оценка одного ответа. Модель ставит оценку по какой-то шкале всего одному ответу.
— Оценка по референсу. Модель получает эталонный ответ и, отталкиваясь от него, оценивает.
Однако у использования LLM есть свои минусы. Первый, существующий и у разметчиков, — position bias, который возникает при попарном сравнении. Большинство моделей, получая два ответа, предпочитают выбирать первый. Что интересно, если попросить LLM не просто сравнить два ответа, а дать оценку каждому, то position bias проявляется чаще.
Чтобы решить эту проблему, авторы заставляют модель дважды сравнивать ответы, каждый раз меняя их местами. При этом победитель оглашается только в конце. Если решение судьи изменилось после смены позиции, то авторы предлагают считать это ничьёй.
Ещё один способ — использование few-shot. Модель получает два ответа с прямым указанием, какой из них лучше. Всего таких «прогонов» три: в одном случае лучше первый ответ, в другом — второй, а в третьем — ничья. Только после этого LLM предлагают уже самостоятельно оценить два решения. Такой способ помог повысить согласованность с 65% до 77,5%. Авторы отмечают, что это дорогой метод, причём нельзя быть уверенным, что в результате его использования не возникли новые проблемы.
Также LLM плохо справляются с оцениваем решения математических задач и задач с рассуждением. Чтобы обойти эту проблему пытались использовать CoT, но он не дал хороших результатов. Зато число ошибок уменьшило руководство по референсу: авторы просили судью решить задачу, затем использовать собственный ответ как эталонный для последующей оценки.
Кроме того, у LLM-as-a-Judge есть ещё две проблемы: verbosity bias (LLM выше оценивает более длинные ответы; такое, к слову, бывает и у разметчиков) и self-enhancement bias (модели-судьи лучше оценивают собственные ответы). Для этих проблем у авторов нет решения.
Разбор подготовила❣ Анастасия Кириллова
Душный NLP
Сегодня разберём статью о проблеме оценки открытых ответов (например, рассказов) моделью так же, как это делают асессоры. Мотивация тут проста: использование LLM дешевле, быстрее и позволяет значительно увеличить корзинку, на которой проводится сравнение. При этом полностью выступать заменой разметчиками модель, конечно, пока не может.
Авторы рассматривают три типа LLM-as-a-Judge:
— Попарное сравнение. Модели предоставляют два ответа и предлагают выбрать из них лучший. Такой вариант дорогой, но даёт хорошую согласованность.
— Оценка одного ответа. Модель ставит оценку по какой-то шкале всего одному ответу.
— Оценка по референсу. Модель получает эталонный ответ и, отталкиваясь от него, оценивает.
Однако у использования LLM есть свои минусы. Первый, существующий и у разметчиков, — position bias, который возникает при попарном сравнении. Большинство моделей, получая два ответа, предпочитают выбирать первый. Что интересно, если попросить LLM не просто сравнить два ответа, а дать оценку каждому, то position bias проявляется чаще.
Чтобы решить эту проблему, авторы заставляют модель дважды сравнивать ответы, каждый раз меняя их местами. При этом победитель оглашается только в конце. Если решение судьи изменилось после смены позиции, то авторы предлагают считать это ничьёй.
Ещё один способ — использование few-shot. Модель получает два ответа с прямым указанием, какой из них лучше. Всего таких «прогонов» три: в одном случае лучше первый ответ, в другом — второй, а в третьем — ничья. Только после этого LLM предлагают уже самостоятельно оценить два решения. Такой способ помог повысить согласованность с 65% до 77,5%. Авторы отмечают, что это дорогой метод, причём нельзя быть уверенным, что в результате его использования не возникли новые проблемы.
Также LLM плохо справляются с оцениваем решения математических задач и задач с рассуждением. Чтобы обойти эту проблему пытались использовать CoT, но он не дал хороших результатов. Зато число ошибок уменьшило руководство по референсу: авторы просили судью решить задачу, затем использовать собственный ответ как эталонный для последующей оценки.
Кроме того, у LLM-as-a-Judge есть ещё две проблемы: verbosity bias (LLM выше оценивает более длинные ответы; такое, к слову, бывает и у разметчиков) и self-enhancement bias (модели-судьи лучше оценивают собственные ответы). Для этих проблем у авторов нет решения.
Разбор подготовила
Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AM Live
Учёные создали ИИ-агента для поиска уязвимостей в Android
Учёные из Китая и Австралии представили систему A2 — ИИ-агента, который умеет находить уязвимости в Android-приложениях и даже создавать PoC-эксплойты на лету.
На тестах A2 нашёл 104 уязвимости нулевого дня в 169 APK, подтвердив 57 из них. Один из кейсов — приложение с 10+ млн установок.
В отличие от других решений, A2 действует как эксперт: сам планирует, проверяет и подтверждает уязвимости, снижая ложные срабатывания. Построен на базе OpenAI и Gemini 2.5.
Исследователи уверены: будущее за такими ИИ-агентами — как для защиты, так и для атак.
Учёные из Китая и Австралии представили систему A2 — ИИ-агента, который умеет находить уязвимости в Android-приложениях и даже создавать PoC-эксплойты на лету.
На тестах A2 нашёл 104 уязвимости нулевого дня в 169 APK, подтвердив 57 из них. Один из кейсов — приложение с 10+ млн установок.
В отличие от других решений, A2 действует как эксперт: сам планирует, проверяет и подтверждает уязвимости, снижая ложные срабатывания. Построен на базе OpenAI и Gemini 2.5.
Исследователи уверены: будущее за такими ИИ-агентами — как для защиты, так и для атак.
👍4
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 EmbeddingGemma 300M
Новая мультиязычная эмбеддинг модель от гугла.
🔸 Позиционируется, как лучшая для использования на устройствах в силу своего размера.
🔸Обучалась на 100+ языках (списка не нашел), как и моя любимая LaBSE. Насколько она лучше/хуже в плане выравнивания параллельных текстов, надо посмотреть.
// Эмбеддинги нужны, чтобы получать векторное представление текста. Этими векторами потом можно манипулировать, чтобы искать похожие по смыслу тексты для какого-нибудь RAG'а, например, классифицировать, кластеризовать и т.д.
👉 HF | доки | видео
Новая мультиязычная эмбеддинг модель от гугла.
🔸 Позиционируется, как лучшая для использования на устройствах в силу своего размера.
🔸Обучалась на 100+ языках (списка не нашел), как и моя любимая LaBSE. Насколько она лучше/хуже в плане выравнивания параллельных текстов, надо посмотреть.
// Эмбеддинги нужны, чтобы получать векторное представление текста. Этими векторами потом можно манипулировать, чтобы искать похожие по смыслу тексты для какого-нибудь RAG'а, например, классифицировать, кластеризовать и т.д.
👉 HF | доки | видео
huggingface.co
google/embeddinggemma-300m · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍2
Forwarded from GitHub Community
Strix — это автономные ИИ-агенты, которые действуют как настоящие хакеры: они динамически запускают ваш код, находят уязвимости и проверяют их с помощью реальной эксплуатации.
Они созданы для разработчиков и специалистов по безопасности, которым нужно быстрое и точное тестирование безопасности без необходимости проводить пентест вручную или сталкиваться с ложными срабатываниями инструментов статического анализа.
🐱 GitHub
Они созданы для разработчиков и специалистов по безопасности, которым нужно быстрое и точное тестирование безопасности без необходимости проводить пентест вручную или сталкиваться с ложными срабатываниями инструментов статического анализа.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AISecHub
17 MCP security attack types across five key MCP assets: prompts, tools, resources, metadata, and configuration - By Ankita Gupta
1. Prompt Injection
– Malicious prompts change how the agent behaves.
2. Tool / Service Misuse (“Confused AI”)
– The agent uses the right tool in the wrong way.
3. Schema Inconsistencies
– Input and output formats don’t match, creating errors attackers can exploit.
4. Slash Command Overlap
– Different commands conflict and trigger the wrong action.
5. Vulnerable Client
– Weak client implementation exposes data or control.
6. MCP Rebinding
– Connections are redirected to an attacker’s server.
7. Man-in-the-Middle
– An attacker intercepts and changes MCP traffic.
8. Tool Shadowing Attack
– A fake tool is registered under the same name as a trusted one.
9. Data Exfiltration
– Sensitive information is taken out through MCP calls.
10. Package Name Squatting (tools)
– A malicious tool is published with a name similar to a real one.
11. Indirect Prompt Injection
– Harmful instructions are hidden in tool outputs or resources.
12. Package Name Squatting (servers)
– A fake MCP server is set up with a misleading name.
13. Configuration Drift
– Security settings are changed over time without being noticed.
14. Sandbox Escape
– A tool or agent breaks isolation and reaches outside resources.
15. Tool Poisoning
– A legitimate tool is compromised and gives unsafe responses.
16. Vulnerable Server
– Security flaws in the MCP server are exploited.
17. Rug Pull Attack
– A tool or server is replaced with malicious code after being trusted.
1. Prompt Injection
– Malicious prompts change how the agent behaves.
2. Tool / Service Misuse (“Confused AI”)
– The agent uses the right tool in the wrong way.
3. Schema Inconsistencies
– Input and output formats don’t match, creating errors attackers can exploit.
4. Slash Command Overlap
– Different commands conflict and trigger the wrong action.
5. Vulnerable Client
– Weak client implementation exposes data or control.
6. MCP Rebinding
– Connections are redirected to an attacker’s server.
7. Man-in-the-Middle
– An attacker intercepts and changes MCP traffic.
8. Tool Shadowing Attack
– A fake tool is registered under the same name as a trusted one.
9. Data Exfiltration
– Sensitive information is taken out through MCP calls.
10. Package Name Squatting (tools)
– A malicious tool is published with a name similar to a real one.
11. Indirect Prompt Injection
– Harmful instructions are hidden in tool outputs or resources.
12. Package Name Squatting (servers)
– A fake MCP server is set up with a misleading name.
13. Configuration Drift
– Security settings are changed over time without being noticed.
14. Sandbox Escape
– A tool or agent breaks isolation and reaches outside resources.
15. Tool Poisoning
– A legitimate tool is compromised and gives unsafe responses.
16. Vulnerable Server
– Security flaws in the MCP server are exploited.
17. Rug Pull Attack
– A tool or server is replaced with malicious code after being trusted.
Data Poisoning in Deep Learning: A Survey — https://arxiv.org/pdf/2503.22759v1
Предлагается система классификация атак отравления данных:
1. Attack objective
- label modification
- input modification
- data modification (l+i)
2. Attack goal
- untargeted
- targeted
- backdoor
3. Attack knowledge
- whitebox
- blackbox
- graybox
4. Attack stealthiness
- stealthy (noticable anomalies on data)
- not stealthy
5. Attack scope
- single instance
- single pattern
- single class
- broad scope
6. Attack Impact
- performance
- robustness
- fairness
7. Attack variability
- static attacks
- dynamic attacks
Предлагается система классификация атак отравления данных:
1. Attack objective
- label modification
- input modification
- data modification (l+i)
2. Attack goal
- untargeted
- targeted
- backdoor
3. Attack knowledge
- whitebox
- blackbox
- graybox
4. Attack stealthiness
- stealthy (noticable anomalies on data)
- not stealthy
5. Attack scope
- single instance
- single pattern
- single class
- broad scope
6. Attack Impact
- performance
- robustness
- fairness
7. Attack variability
- static attacks
- dynamic attacks
🔥4
Defending Against Indirect Prompt Injection Attacks With Spotlighting
Microsoft (2024)
https://www.arxiv.org/abs/2403.14720v1
Авторы предлагают метод защиты от промпт-атак: три преобразования входного промпта (spotlighting), которые снижают, по их данным, эффективность промпт-атак
- delimiting: заключение промпта в кавычки-елочки, то итогово строчка такая - "системный промпт<<текст_инпута>>"
- datamarking: замена пробелов в промпте на другие символы, например "^"
- encoding: преобразование текста инпут промпта в base64
Откровенно говоря интуитивно сомнительно, но их графики на качестве задач summarization и q&a на GPT-4 GPT3.5-Turbo говорят, что просадки нет. При этом ASR атак падает чуть ли не в ноль. Под промпт-атаками понимались просто прямые формулировки опасных инструкций
Microsoft (2024)
https://www.arxiv.org/abs/2403.14720v1
Авторы предлагают метод защиты от промпт-атак: три преобразования входного промпта (spotlighting), которые снижают, по их данным, эффективность промпт-атак
- delimiting: заключение промпта в кавычки-елочки, то итогово строчка такая - "системный промпт<<текст_инпута>>"
- datamarking: замена пробелов в промпте на другие символы, например "^"
- encoding: преобразование текста инпут промпта в base64
Откровенно говоря интуитивно сомнительно, но их графики на качестве задач summarization и q&a на GPT-4 GPT3.5-Turbo говорят, что просадки нет. При этом ASR атак падает чуть ли не в ноль. Под промпт-атаками понимались просто прямые формулировки опасных инструкций
👍1
Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization
Tsinghua University, Huawei (2024)
https://aclanthology.org/2024.acl-long.481.pdf
Авторы предлагают писать в системном промпте фразу "безопасность важнее полезности", называя этот прием "приоритизация целей".
Применение приоритизации целей на инференсе существенно снижает вероятность успешной атаки (ASR) при джейлбрейке с 66,4% до 3,6% для ChatGPT. А на этапе обучения модели снижает ASR с 71,0% до
6,6% для Llama2-13B.
Сравнивают с self-reminder, пишут что работает даже лучше
Tsinghua University, Huawei (2024)
https://aclanthology.org/2024.acl-long.481.pdf
Авторы предлагают писать в системном промпте фразу "безопасность важнее полезности", называя этот прием "приоритизация целей".
Применение приоритизации целей на инференсе существенно снижает вероятность успешной атаки (ASR) при джейлбрейке с 66,4% до 3,6% для ChatGPT. А на этапе обучения модели снижает ASR с 71,0% до
6,6% для Llama2-13B.
Сравнивают с self-reminder, пишут что работает даже лучше
👍2
Defending ChatGPT against Jailbreak Attack via Self-Reminder
Microsoft (2023)
https://www.researchgate.net/publication/371612143_Defending_ChatGPT_against_Jailbreak_Attack_via_Self-Reminder
В исследовании авторы представляют метод защиты от промпт-атак путем модификации системного промпта. Результаты экспериментов показывают, что метод Self-Reminder значительно снижает
вероятность успеха "джейлбрейк-атак", с 67,21% до 19,34%.
На графике с серыми и синими столбцами показывается, что почти все методы промпт-атак с применением Self-Reminder почти потеряли эффективность (синие столбцы меньше серых)
Метод заключается в добавлении перед юзер-промптом и после него фраз по типу "ты полезный ассистент ..."
Проведено дополнительное исследование:
1. Добавление только суффикса (после юзер-промпта) защитной фразы менее эффективно, чем только префикса (перед юзерпромптом), как видно на Fig. 6. Но лучше и туда и туда конечно.
2. Формы наклонения глаголов также играют значение. Сравнили три формы:
- Remind (напоминающая): "You should be a responsible ..."
- Warn (предупреждающая): "You must be a responsible ..."
- Praise (восхваляющая): "You are responsible ..."
Обнаружено, что все три варианта с точки зрения защиты от промпт-атак примерно одинаковы, но восхваляющая форма меньше всего аффектит на прикладное качество модели
Microsoft (2023)
https://www.researchgate.net/publication/371612143_Defending_ChatGPT_against_Jailbreak_Attack_via_Self-Reminder
В исследовании авторы представляют метод защиты от промпт-атак путем модификации системного промпта. Результаты экспериментов показывают, что метод Self-Reminder значительно снижает
вероятность успеха "джейлбрейк-атак", с 67,21% до 19,34%.
На графике с серыми и синими столбцами показывается, что почти все методы промпт-атак с применением Self-Reminder почти потеряли эффективность (синие столбцы меньше серых)
Метод заключается в добавлении перед юзер-промптом и после него фраз по типу "ты полезный ассистент ..."
Проведено дополнительное исследование:
1. Добавление только суффикса (после юзер-промпта) защитной фразы менее эффективно, чем только префикса (перед юзерпромптом), как видно на Fig. 6. Но лучше и туда и туда конечно.
2. Формы наклонения глаголов также играют значение. Сравнили три формы:
- Remind (напоминающая): "You should be a responsible ..."
- Warn (предупреждающая): "You must be a responsible ..."
- Praise (восхваляющая): "You are responsible ..."
Обнаружено, что все три варианта с точки зрения защиты от промпт-атак примерно одинаковы, но восхваляющая форма меньше всего аффектит на прикладное качество модели
👍1
Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks
University of Illinois Urbana-Champaign, Lapis Labs (2024)
https://www.arxiv.org/abs/2401.17263
Исследование представляет оптимизационный алгоритм получения защитного суффикса к системному промпту (Robust Prompt Optimization, RPO) на различных методах оптимизационных промпт-атак.
Для оптимизации суффикса использовались GCG, PAIR, JBC.
Для проверки эффективности - AutoDAN, TAP (Tree-of-Attacks with Pruning), PAP (Persuasive Adversarial Prompt), и какие-то FewShot инструкции.
Опасные инструкции брались из AdvBench.
Тестировали на Vicuna-13B, Llama-2-7B-Chat, Qwen-1.5-14B, Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4
Метод показал на результаты как на атаках из обучения (понятное дело):
GPT-4: с 50% до 6% (на PAIR атаке)
Llama-2: с 4% до 0% (полная защита)
GCG атака: 0% ASR на всех моделях (полная защита)
Так и на неизвестных атаках (из HarmBench):
Vicuna: снижение ASR в среднем на 18%
Llama-2: снижение на 6.6%
GPT-3.5: снижение на 8.7%
GPT-4: снижение на 3.5%
При этом метод оказывает минимальный импакт на прикладное использование (проверили на MMLU и MT-bench, падение минимально)
Практически же метод представляет собой
- Всего 20 дополнительных токенов на запрос (набор рандомных символов после ввода пользователя)
- В 8 раз дешевле оптимизации по сравнению с GCG суффиксами на один запрос по вычислениям
University of Illinois Urbana-Champaign, Lapis Labs (2024)
https://www.arxiv.org/abs/2401.17263
Исследование представляет оптимизационный алгоритм получения защитного суффикса к системному промпту (Robust Prompt Optimization, RPO) на различных методах оптимизационных промпт-атак.
Для оптимизации суффикса использовались GCG, PAIR, JBC.
Для проверки эффективности - AutoDAN, TAP (Tree-of-Attacks with Pruning), PAP (Persuasive Adversarial Prompt), и какие-то FewShot инструкции.
Опасные инструкции брались из AdvBench.
Тестировали на Vicuna-13B, Llama-2-7B-Chat, Qwen-1.5-14B, Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4
Метод показал на результаты как на атаках из обучения (понятное дело):
GPT-4: с 50% до 6% (на PAIR атаке)
Llama-2: с 4% до 0% (полная защита)
GCG атака: 0% ASR на всех моделях (полная защита)
Так и на неизвестных атаках (из HarmBench):
Vicuna: снижение ASR в среднем на 18%
Llama-2: снижение на 6.6%
GPT-3.5: снижение на 8.7%
GPT-4: снижение на 3.5%
При этом метод оказывает минимальный импакт на прикладное использование (проверили на MMLU и MT-bench, падение минимально)
Практически же метод представляет собой
- Всего 20 дополнительных токенов на запрос (набор рандомных символов после ввода пользователя)
- В 8 раз дешевле оптимизации по сравнению с GCG суффиксами на один запрос по вычислениям
Пример
<im_start>system
You are an assistant that is harmless and helpful.
<im_end>
<im_start>user
[ПОЛЬЗОВАТЕЛЬСКИЙ ЗАПРОС/JAILBREAK]
<im_end>
<im_start>system
[ЗДЕСЬ ДОБАВЛЯЕТСЯ RPO СУФФИКС]
<im_end>
Defensive Prompt Patch: A Robust and Generalizable Defense of Large Language Models against Jailbreak Attacks
Hong-Kong Science University, Princeton University, IBM (2025)
https://arxiv.org/pdf/2405.20099
Метод, аналогичный RPO
Hong-Kong Science University, Princeton University, IBM (2025)
https://arxiv.org/pdf/2405.20099
Метод, аналогичный RPO
Defending Jailbreak Prompts via In-Context Adversarial Game (ICAG)
University of Notre Dame, INRIA, King Abdullah University of Science and Technology (2024)
https://aclanthology.org/2024.emnlp-main.1121.pdf
Метод поэтапной генерации системного промпта как игры между двумя LLM (attack agent и defense agent)
University of Notre Dame, INRIA, King Abdullah University of Science and Technology (2024)
https://aclanthology.org/2024.emnlp-main.1121.pdf
Метод поэтапной генерации системного промпта как игры между двумя LLM (attack agent и defense agent)