NEW BOT Телеграм, страница

Forwarded from AISecHub

HackGpt - HackGPT Enterprise is a production-ready, cloud-native AI-powered penetration testing platform designed for enterprise security teams. It combines advanced AI, machine learning, microservices architecture, and comprehensive security frameworks to deliver professional-grade cybersecurity assessments.

https://github.com/yashab-cyber/HackGpt

GitHub

GitHub - yashab-cyber/HackGpt: HackGPT Enterprise is a production-ready, cloud-native AI-powered penetration testing platform designed…

HackGPT Enterprise is a production-ready, cloud-native AI-powered penetration testing platform designed for enterprise security teams. It combines advanced AI, machine learning, microservices archi...

👏1

148 viewsБорис_ь с ml, 19:23

ML&|Sec Feed

Forwarded from GolDBUG

C-AI/MLPen - a good certification in sphere, from the few existing.

On the link, you can find information about which blocks will be tested during the examination and resources to learn and prepare [ for the moment, all of the given educational resources are free ] .

❤3🔥1

173 viewsБорис_ь с ml, 03:42

ML&|Sec Feed

Forwarded from CyberSecurityTechnologies

CAI.pdf

314.3 KB

#AIOps
#MLSecOps
"Cybersecurity AI: Hacking the AI Hackers via Prompt Injection", Aug. 2025.
]-> Prompt injection mitigation

// We present PoC exploits against the Cybersecurity AI (CAI) framework and its CLI tool, and detail our mitigations against such attacks in a multi-layered defense implementation

🔥4

142 viewsБорис_ь с ml, 05:08

ML&|Sec Feed

Forwarded from ИИ & Право

📖 Новое исследование об инцидентах безопасности при внедрении ИИ в компаниях

Infosys опубликовали новое исследование, согласно которому 95% опрошенных руководителей компаний по всему миру уже столкнулись с инцидентами безопасности, связанными с корпоративными инструментами ИИ, а 77% таких случаев привели к прямым финансовым потерям.

#ИИ #Кибербезопасность

Infosys

Responsible Enterprise AI in the Agentic Era

Companies see RAI as critical enabler for Enterprise AI success but are playing catch up on building out effective RAI capabilities. RAI teams must proactively invest in agile, efficient, and scalable operating models to enable enterprise AI to thrive as…

😱3

148 viewsБорис_ь с ml, 13:19

ML&|Sec Feed

Forwarded from Not Boring Tech

🍯 Сеньор-инженер из Google выложил бесплатную (!) книгу на 400 страниц об агентских системах — Agentic Design Patterns. Это целый учебник для создания ИИ-агентов под любые задачи:

• Продвинутые техники промптинга
• Шаблоны команд ИИ-агентов и фреймворки
• Гайды по использованию инструментов и MCP
• Кодинг-агенты и CLI
• Техники ризонинга моделей
• Управление памятью в ИИ-агентах
• Практические примеры с кодом и наглядные схемы

Сохраняйте мастрид — тут.

P.S. Кто сделает перевод книги на русский и пришлёт в комменты — отправлю редкий подарок за $16. Думаю, многим будет полезно!

@notboring_tech

🔥2

128 viewsБорис_ь с ml, 03:58

ML&|Sec Feed

https://gandalf.lakera.ai/agent-breaker

gandalf.lakera.ai

Gandalf | Lakera – Test your AI hacking skills

Trick Gandalf into revealing information and experience the limitations of large language models firsthand.

🔥3

131 viewsБорис_ь с ml, 05:22

ML&|Sec Feed

https://developer.nvidia.com/blog/applying-generative-ai-for-cve-analysis-at-an-enterprise-scale/

NVIDIA Technical Blog

Applying Generative AI for CVE Analysis at an Enterprise Scale

The software development and deployment process is complex. Modern enterprise applications have complex software dependencies, forming an interconnected web that provides unprecedented functionality…

🔥1

137 viewsБорис_ь с ml, 05:27

ML&|Sec Feed

Forwarded from Душный NLP

Проблемы LLM-as-a-Judge и их решение

Сегодня разберём статью о проблеме оценки открытых ответов (например, рассказов) моделью так же, как это делают асессоры. Мотивация тут проста: использование LLM дешевле, быстрее и позволяет значительно увеличить корзинку, на которой проводится сравнение. При этом полностью выступать заменой разметчиками модель, конечно, пока не может.

Авторы рассматривают три типа LLM-as-a-Judge:

— Попарное сравнение. Модели предоставляют два ответа и предлагают выбрать из них лучший. Такой вариант дорогой, но даёт хорошую согласованность.
— Оценка одного ответа. Модель ставит оценку по какой-то шкале всего одному ответу.
— Оценка по референсу. Модель получает эталонный ответ и, отталкиваясь от него, оценивает.

Однако у использования LLM есть свои минусы. Первый, существующий и у разметчиков, — position bias, который возникает при попарном сравнении. Большинство моделей, получая два ответа, предпочитают выбирать первый. Что интересно, если попросить LLM не просто сравнить два ответа, а дать оценку каждому, то position bias проявляется чаще.

Чтобы решить эту проблему, авторы заставляют модель дважды сравнивать ответы, каждый раз меняя их местами. При этом победитель оглашается только в конце. Если решение судьи изменилось после смены позиции, то авторы предлагают считать это ничьёй.

Ещё один способ — использование few-shot. Модель получает два ответа с прямым указанием, какой из них лучше. Всего таких «прогонов» три: в одном случае лучше первый ответ, в другом — второй, а в третьем — ничья. Только после этого LLM предлагают уже самостоятельно оценить два решения. Такой способ помог повысить согласованность с 65% до 77,5%. Авторы отмечают, что это дорогой метод, причём нельзя быть уверенным, что в результате его использования не возникли новые проблемы.

Также LLM плохо справляются с оцениваем решения математических задач и задач с рассуждением. Чтобы обойти эту проблему пытались использовать CoT, но он не дал хороших результатов. Зато число ошибок уменьшило руководство по референсу: авторы просили судью решить задачу, затем использовать собственный ответ как эталонный для последующей оценки.

Кроме того, у LLM-as-a-Judge есть ещё две проблемы: verbosity bias (LLM выше оценивает более длинные ответы; такое, к слову, бывает и у разметчиков) и self-enhancement bias (модели-судьи лучше оценивают собственные ответы). Для этих проблем у авторов нет решения.

Разбор подготовила ❣ Анастасия Кириллова

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

159 viewsБорис_ь с ml, 09:40

ML&|Sec Feed

Forwarded from AM Live

Учёные создали ИИ-агента для поиска уязвимостей в Android

Учёные из Китая и Австралии представили систему A2 — ИИ-агента, который умеет находить уязвимости в Android-приложениях и даже создавать PoC-эксплойты на лету.

На тестах A2 нашёл 104 уязвимости нулевого дня в 169 APK, подтвердив 57 из них. Один из кейсов — приложение с 10+ млн установок.

В отличие от других решений, A2 действует как эксперт: сам планирует, проверяет и подтверждает уязвимости, снижая ложные срабатывания. Построен на базе OpenAI и Gemini 2.5.

Исследователи уверены: будущее за такими ИИ-агентами — как для защиты, так и для атак.

👍4

196 viewsБорис_ь с ml, 09:12

ML&|Sec Feed

https://github.com/tldrsec/prompt-injection-defenses

GitHub

GitHub - tldrsec/prompt-injection-defenses: Every practical and proposed defense against prompt injection.

Every practical and proposed defense against prompt injection. - tldrsec/prompt-injection-defenses

215 viewsБорис_ь с ml, 13:46

ML&|Sec Feed

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 EmbeddingGemma 300M

Новая мультиязычная эмбеддинг модель от гугла.

🔸 Позиционируется, как лучшая для использования на устройствах в силу своего размера.

🔸Обучалась на 100+ языках (списка не нашел), как и моя любимая LaBSE. Насколько она лучше/хуже в плане выравнивания параллельных текстов, надо посмотреть.

// Эмбеддинги нужны, чтобы получать векторное представление текста. Этими векторами потом можно манипулировать, чтобы искать похожие по смыслу тексты для какого-нибудь RAG'а, например, классифицировать, кластеризовать и т.д.

👉 HF | доки | видео

huggingface.co

google/embeddinggemma-300m · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍2

199 viewsБорис_ь с ml, 14:34

ML&|Sec Feed

Forwarded from GitHub Community

Strix — это автономные ИИ-агенты, которые действуют как настоящие хакеры: они динамически запускают ваш код, находят уязвимости и проверяют их с помощью реальной эксплуатации.

Они созданы для разработчиков и специалистов по безопасности, которым нужно быстрое и точное тестирование безопасности без необходимости проводить пентест вручную или сталкиваться с ложными срабатываниями инструментов статического анализа.

🐱

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

185 viewsБорис_ь с ml, 20:11

ML&|Sec Feed

Forwarded from AISecHub

17 MCP security attack types across five key MCP assets: prompts, tools, resources, metadata, and configuration - By Ankita Gupta

1. Prompt Injection
– Malicious prompts change how the agent behaves.

2. Tool / Service Misuse (“Confused AI”)
– The agent uses the right tool in the wrong way.

3. Schema Inconsistencies
– Input and output formats don’t match, creating errors attackers can exploit.

4. Slash Command Overlap
– Different commands conflict and trigger the wrong action.

5. Vulnerable Client
– Weak client implementation exposes data or control.

6. MCP Rebinding
– Connections are redirected to an attacker’s server.

7. Man-in-the-Middle
– An attacker intercepts and changes MCP traffic.

8. Tool Shadowing Attack
– A fake tool is registered under the same name as a trusted one.

9. Data Exfiltration
– Sensitive information is taken out through MCP calls.

10. Package Name Squatting (tools)
– A malicious tool is published with a name similar to a real one.

11. Indirect Prompt Injection
– Harmful instructions are hidden in tool outputs or resources.

12. Package Name Squatting (servers)
– A fake MCP server is set up with a misleading name.

13. Configuration Drift
– Security settings are changed over time without being noticed.

14. Sandbox Escape
– A tool or agent breaks isolation and reaches outside resources.

15. Tool Poisoning
– A legitimate tool is compromised and gives unsafe responses.

16. Vulnerable Server
– Security flaws in the MCP server are exploited.

17. Rug Pull Attack
– A tool or server is replaced with malicious code after being trusted.

182 viewsБорис_ь с ml, 07:01

ML&|Sec Feed

Data Poisoning in Deep Learning: A Survey — https://arxiv.org/pdf/2503.22759v1

Предлагается система классификация атак отравления данных:

1. Attack objective
- label modification
- input modification
- data modification (l+i)

2. Attack goal
- untargeted
- targeted
- backdoor

3. Attack knowledge
- whitebox
- blackbox
- graybox

4. Attack stealthiness
- stealthy (noticable anomalies on data)
- not stealthy

5. Attack scope
- single instance
- single pattern
- single class
- broad scope

6. Attack Impact
- performance
- robustness
- fairness

7. Attack variability
- static attacks
- dynamic attacks

🔥4

186 viewsБорис_ь с ml, edited 07:07

ML&|Sec Feed

Defending Against Indirect Prompt Injection Attacks With Spotlighting
Microsoft (2024)
https://www.arxiv.org/abs/2403.14720v1

Авторы предлагают метод защиты от промпт-атак: три преобразования входного промпта (spotlighting), которые снижают, по их данным, эффективность промпт-атак

- delimiting: заключение промпта в кавычки-елочки, то итогово строчка такая - "системный промпт<<текст_инпута>>"
- datamarking: замена пробелов в промпте на другие символы, например "^"
- encoding: преобразование текста инпут промпта в base64

Откровенно говоря интуитивно сомнительно, но их графики на качестве задач summarization и q&a на GPT-4 GPT3.5-Turbo говорят, что просадки нет. При этом ASR атак падает чуть ли не в ноль. Под промпт-атаками понимались просто прямые формулировки опасных инструкций

👍1

165 viewsБорис_ь с ml, edited 09:33

ML&|Sec Feed

Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization
Tsinghua University, Huawei (2024)
https://aclanthology.org/2024.acl-long.481.pdf

Авторы предлагают писать в системном промпте фразу "безопасность важнее полезности", называя этот прием "приоритизация целей".

Применение приоритизации целей на инференсе существенно снижает вероятность успешной атаки (ASR) при джейлбрейке с 66,4% до 3,6% для ChatGPT. А на этапе обучения модели снижает ASR с 71,0% до
6,6% для Llama2-13B.

Сравнивают с self-reminder, пишут что работает даже лучше

👍2

265 viewsБорис_ь с ml, 10:10

ML&|Sec Feed

Defending ChatGPT against Jailbreak Attack via Self-Reminder
Microsoft (2023)
https://www.researchgate.net/publication/371612143_Defending_ChatGPT_against_Jailbreak_Attack_via_Self-Reminder

В исследовании авторы представляют метод защиты от промпт-атак путем модификации системного промпта. Результаты экспериментов показывают, что метод Self-Reminder значительно снижает
вероятность успеха "джейлбрейк-атак", с 67,21% до 19,34%.

На графике с серыми и синими столбцами показывается, что почти все методы промпт-атак с применением Self-Reminder почти потеряли эффективность (синие столбцы меньше серых)

Метод заключается в добавлении перед юзер-промптом и после него фраз по типу "ты полезный ассистент ..."

Проведено дополнительное исследование:

1. Добавление только суффикса (после юзер-промпта) защитной фразы менее эффективно, чем только префикса (перед юзерпромптом), как видно на Fig. 6. Но лучше и туда и туда конечно.

2. Формы наклонения глаголов также играют значение. Сравнили три формы:
- Remind (напоминающая): "You should be a responsible ..."
- Warn (предупреждающая): "You must be a responsible ..."
- Praise (восхваляющая): "You are responsible ..."
Обнаружено, что все три варианта с точки зрения защиты от промпт-атак примерно одинаковы, но восхваляющая форма меньше всего аффектит на прикладное качество модели

👍1

200 viewsБорис_ь с ml, 10:30

About

Blog

Apps

Platform