Forwarded from GitHub Community
Coze Loop — это ориентированное на разработчиков решение платформенного уровня, предназначенное для разработки и эксплуатации ИИ-агентов.
Оно решает различные проблемы, возникающие в процессе разработки ИИ-агентов, и обеспечивает полный цикл управления: от разработки, отладки и оценки до мониторинга.
🐱 GitHub
Оно решает различные проблемы, возникающие в процессе разработки ИИ-агентов, и обеспечивает полный цикл управления: от разработки, отладки и оценки до мониторинга.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CyberSecurityTechnologies
Adversarial_AI_Attacks.pdf
9.6 MB
#MLSecOps
#Tech_book
"Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional’s guide to AI attacks, threat modeling, and securing AI with MLSecOps', 2024.
// The book is for cybersecurity professionals, such as security architects, analysts, engineers, ethical hackers, pentesters, and incident responders, but also developers and engineers designing, building, and assuring AI systems
#Tech_book
"Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional’s guide to AI attacks, threat modeling, and securing AI with MLSecOps', 2024.
// The book is for cybersecurity professionals, such as security architects, analysts, engineers, ethical hackers, pentesters, and incident responders, but also developers and engineers designing, building, and assuring AI systems
🔥1
RAG - Threat Model and Attack Surface - https://arxiv.org/pdf/2509.20324
Статья разделят RAG-пайплайн на 8 шагов:
Шаг 1: Пользователь отправляет запрос q в систему
Шаг 2: Запрос q преобразуется в вектор эмбеддингов через процесс кодирования системы
Шаг 3: Каждый документ di в базе знаний D аналогично преобразуется в вектор эмбеддингов и сохраняется в векторной базе данных
Шаг 4: Вектор эмбеддингов запроса q и коллекция эмбеддингов документов подаются на вход ретриверу R
Шаг 5: Ретривер R сравнивает вектор запроса с векторами документов, используя метрики сходства, и собирает подмножество Dq ⊆ D из top-k наиболее релевантных документов: R(q, D) → Dq
Шаг 6: Выбранные top-k документы объединяются с исходным запросом q для создания расширенного запроса q'
Шаг 7: Расширенный запрос q' = (q, Dq) подается на вход генератору G (LLM), обогащая исходный запрос контекстной информацией
Шаг 8: LLM-генератор G производит ответ y = G(q'), используя как свои параметрические знания, так и контекстную информацию от ретривера, и возвращает финальный ответ пользователю
Авторы выделяют три основные категории угроз безопасности и приватности для RAG-систем, которые подробно описаны в разделе IV "FORMAL PRIVACY AND SECURITY NOTIONS":
1. Атаки вывода принадлежности на уровне документов (Document-Level Membership Inference Attack)
Где описано: Раздел IV.A (стр. 4-5)
Суть угрозы: Противник пытается определить, был ли конкретный документ включен в базу знаний RAG-системы, основываясь только на наблюдаемых выходных данных системы.
Формальное определение: Дано в Definition 2, где противник получает запрос q, ответ y и целевой документ d*, и должен угадать, был ли d* частью базы знаний D.
Пример угрозы: В медицинском контексте противник может определить, была ли запись конкретного пациента включена в систему, анализируя ответы на диагностические запросы.
2. Утечка извлеченного содержимого в выходных данных (Leaking Retrieved Content in Outputs)
Где описано: Раздел IV.B (стр. 5-6)
Суть угрозы: Генератор G может выводить дословные или почти дословные сегменты из документов, извлеченных ретривером R, раскрывая конфиденциальную информацию.
Формальное определение: Дано в Definition 3 - вербатимная утечка происходит, если ∃s ∈ S такой что s ⊆ y, где S - множество конфиденциального содержимого.
Механизм атаки: Противник создает составной запрос q = qi + qc, где qi - якорный запрос для нацеливания на конкретную тему, а qc - командный промпт для принуждения генератора к дословному воспроизведению.
3. Отравление данных (Data Poisoning)
Где описано: Раздел IV.C (стр. 6-7)
Суть угрозы: Противник внедряет специально созданные документы в базу знаний, чтобы влиять на генерируемые выходные данные в ответ на определенные триггерные запросы.
Формальное определение:
Definition 4: Общее отравление данных - модификация базы знаний D' = D ∪ Dpoi
Definition 5: Отравление на основе триггеров - использование триггерных токенов T для активации атаки
Цели атак:
Заставить систему генерировать вредоносные, вводящие в заблуждение или фактически неверные выходные данные
Принудительно включать определенное содержимое (реклама брендов, фабрикованные утверждения)
В разделе III авторы также представляют таксономию типов противников (стр. 4), основанную на двух измерениях:
Доступ к модели: Black-box vs White-box
Знания противника: Normal vs Informed
Это дает четыре категории: AI (Unaware Observer), AII (Aware Observer), AIII (Aware Insider), AIV (Unaware Insider), где AIII представляет наиболее сильного противника.
Каждая из трех основных угроз может быть реализована различными типами противников в зависимости от их возможностей доступа и предварительных знаний.
Статья разделят RAG-пайплайн на 8 шагов:
Шаг 1: Пользователь отправляет запрос q в систему
Шаг 2: Запрос q преобразуется в вектор эмбеддингов через процесс кодирования системы
Шаг 3: Каждый документ di в базе знаний D аналогично преобразуется в вектор эмбеддингов и сохраняется в векторной базе данных
Шаг 4: Вектор эмбеддингов запроса q и коллекция эмбеддингов документов подаются на вход ретриверу R
Шаг 5: Ретривер R сравнивает вектор запроса с векторами документов, используя метрики сходства, и собирает подмножество Dq ⊆ D из top-k наиболее релевантных документов: R(q, D) → Dq
Шаг 6: Выбранные top-k документы объединяются с исходным запросом q для создания расширенного запроса q'
Шаг 7: Расширенный запрос q' = (q, Dq) подается на вход генератору G (LLM), обогащая исходный запрос контекстной информацией
Шаг 8: LLM-генератор G производит ответ y = G(q'), используя как свои параметрические знания, так и контекстную информацию от ретривера, и возвращает финальный ответ пользователю
Авторы выделяют три основные категории угроз безопасности и приватности для RAG-систем, которые подробно описаны в разделе IV "FORMAL PRIVACY AND SECURITY NOTIONS":
1. Атаки вывода принадлежности на уровне документов (Document-Level Membership Inference Attack)
Где описано: Раздел IV.A (стр. 4-5)
Суть угрозы: Противник пытается определить, был ли конкретный документ включен в базу знаний RAG-системы, основываясь только на наблюдаемых выходных данных системы.
Формальное определение: Дано в Definition 2, где противник получает запрос q, ответ y и целевой документ d*, и должен угадать, был ли d* частью базы знаний D.
Пример угрозы: В медицинском контексте противник может определить, была ли запись конкретного пациента включена в систему, анализируя ответы на диагностические запросы.
2. Утечка извлеченного содержимого в выходных данных (Leaking Retrieved Content in Outputs)
Где описано: Раздел IV.B (стр. 5-6)
Суть угрозы: Генератор G может выводить дословные или почти дословные сегменты из документов, извлеченных ретривером R, раскрывая конфиденциальную информацию.
Формальное определение: Дано в Definition 3 - вербатимная утечка происходит, если ∃s ∈ S такой что s ⊆ y, где S - множество конфиденциального содержимого.
Механизм атаки: Противник создает составной запрос q = qi + qc, где qi - якорный запрос для нацеливания на конкретную тему, а qc - командный промпт для принуждения генератора к дословному воспроизведению.
3. Отравление данных (Data Poisoning)
Где описано: Раздел IV.C (стр. 6-7)
Суть угрозы: Противник внедряет специально созданные документы в базу знаний, чтобы влиять на генерируемые выходные данные в ответ на определенные триггерные запросы.
Формальное определение:
Definition 4: Общее отравление данных - модификация базы знаний D' = D ∪ Dpoi
Definition 5: Отравление на основе триггеров - использование триггерных токенов T для активации атаки
Цели атак:
Заставить систему генерировать вредоносные, вводящие в заблуждение или фактически неверные выходные данные
Принудительно включать определенное содержимое (реклама брендов, фабрикованные утверждения)
В разделе III авторы также представляют таксономию типов противников (стр. 4), основанную на двух измерениях:
Доступ к модели: Black-box vs White-box
Знания противника: Normal vs Informed
Это дает четыре категории: AI (Unaware Observer), AII (Aware Observer), AIII (Aware Insider), AIV (Unaware Insider), где AIII представляет наиболее сильного противника.
Каждая из трех основных угроз может быть реализована различными типами противников в зависимости от их возможностей доступа и предварительных знаний.
👎1🤪1
Forwarded from GitHub Community
500-AI-Agents-Projects — это тщательно отобранная коллекция примеров использования ИИ-агентов в различных отраслях.
В ней представлены практические приложения и даны ссылки на проекты с открытым исходным кодом для реализации, а также показано, как ИИ-агенты меняют такие отрасли, как здравоохранение, финансы, образование, розничная торговля и другие.
🐱 GitHub
В ней представлены практические приложения и даны ссылки на проекты с открытым исходным кодом для реализации, а также показано, как ИИ-агенты меняют такие отрасли, как здравоохранение, финансы, образование, розничная торговля и другие.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
Forwarded from XOR
Anthropic опубликовали бесплатный гайд, как выжать из ИИ-агентов максимум
Спойлер — всё дело в эффективном контекст-инженеринге: надо правильно структурировать, задавать агенту роль, дробить задачи. Внутри много советов по работе и примеров.
Вайбкодеры, сохраняем☕️
@xor_journal
Спойлер — всё дело в эффективном контекст-инженеринге: надо правильно структурировать, задавать агенту роль, дробить задачи. Внутри много советов по работе и примеров.
Вайбкодеры, сохраняем
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CISOCLUB - кибербезопасность и ИТ
PwC: 🦹🏼♂️ИИ стал главным направлением 💵инвестиций в сфере ИБ на фоне растущих рисков
Компания PwC опубликовала исследование, в котором заявлено, что искусственный интеллект выходит на первое место по приоритетности среди направлений, на которые организации планируют направить расходы в сфере киберзащиты в течение следующего года.
По отчёту, 36% представителей бизнеса и технологического сектора отнесли решения на базе ИИ к числу трёх самых важных бюджетных статей, опередив защиту облачных платформ (34%), сетевые средства и концепцию нулевого доверия (28%), контроль над утечками данных (26%) и управление угрозами (24%).
Отдельное внимание участники опроса уделяют функциям проактивного поиска уязвимостей с применением искусственного интеллекта — их назвали приоритетными 48% опрошенных. Кроме того, 35% инвестируют в автоматизированные ИИ-модули, способные оптимизировать работу в сегментах вроде защиты облачных сервисов. Примерно треть респондентов также отметили важность использования ИИ в области анализа поведения, управления цифровыми правами и сканирования уязвимостей.
Авторы отчёта подчёркивают, что интерес к таким технологиям напрямую связан с ожиданиями увеличения расходов в целом. 78% организаций прогнозируют рост своих бюджетов на киберзащиту в течение следующего года. При этом 60% считают, что такое расширение необходимо из-за нестабильной международной обстановки.
На этом фоне лишь 6% компаний уверены, что способны эффективно реагировать на цифровые атаки с учётом текущих вызовов. Одним из главных препятствий для внедрения ИИ-инструментов остаются нехватка компетенций (50%) и отсутствие сотрудников с нужным уровнем подготовки (41%).
Для устранения этих барьеров 53% организаций фокусируются на внедрении решений, основанных на ИИ и машинном обучении. Также компании активно развивают автоматизацию процессов (48%), стремятся объединить разрозненные инструменты в единые комплексы (47%) и занимаются подготовкой специалистов — как за счёт дополнительного обучения, так и путём перепрофилирования персонала (47%).
В числе новых угроз исследование выделяет квантовые вычисления. Они вошли в пятёрку наиболее тревожных направлений, где у компаний нет должного уровня подготовки. Впереди — облачные сервисы, умные устройства и уязвимости у сторонних подрядчиков. Несмотря на это, меры противодействия квантовым угрозам пока не стали приоритетом: менее 10% организаций закладывают их в бюджет, а только 3% внедрили комплексные решения по устойчивости к подобным атакам.
Почти половина (49%) вообще не рассматривала возможности по противодействию квантовым технологиям. Наиболее частыми причинами стали нехватка прикладных знаний для применения стандартов и отсутствие кадров с нужным уровнем технической подготовки — на эти проблемы указали 37% и 36% специалистов соответственно.
📝Другие российские и иностранные отчеты по ИБ можно почитать здесь.
Компания PwC опубликовала исследование, в котором заявлено, что искусственный интеллект выходит на первое место по приоритетности среди направлений, на которые организации планируют направить расходы в сфере киберзащиты в течение следующего года.
По отчёту, 36% представителей бизнеса и технологического сектора отнесли решения на базе ИИ к числу трёх самых важных бюджетных статей, опередив защиту облачных платформ (34%), сетевые средства и концепцию нулевого доверия (28%), контроль над утечками данных (26%) и управление угрозами (24%).
Отдельное внимание участники опроса уделяют функциям проактивного поиска уязвимостей с применением искусственного интеллекта — их назвали приоритетными 48% опрошенных. Кроме того, 35% инвестируют в автоматизированные ИИ-модули, способные оптимизировать работу в сегментах вроде защиты облачных сервисов. Примерно треть респондентов также отметили важность использования ИИ в области анализа поведения, управления цифровыми правами и сканирования уязвимостей.
Авторы отчёта подчёркивают, что интерес к таким технологиям напрямую связан с ожиданиями увеличения расходов в целом. 78% организаций прогнозируют рост своих бюджетов на киберзащиту в течение следующего года. При этом 60% считают, что такое расширение необходимо из-за нестабильной международной обстановки.
На этом фоне лишь 6% компаний уверены, что способны эффективно реагировать на цифровые атаки с учётом текущих вызовов. Одним из главных препятствий для внедрения ИИ-инструментов остаются нехватка компетенций (50%) и отсутствие сотрудников с нужным уровнем подготовки (41%).
Для устранения этих барьеров 53% организаций фокусируются на внедрении решений, основанных на ИИ и машинном обучении. Также компании активно развивают автоматизацию процессов (48%), стремятся объединить разрозненные инструменты в единые комплексы (47%) и занимаются подготовкой специалистов — как за счёт дополнительного обучения, так и путём перепрофилирования персонала (47%).
В числе новых угроз исследование выделяет квантовые вычисления. Они вошли в пятёрку наиболее тревожных направлений, где у компаний нет должного уровня подготовки. Впереди — облачные сервисы, умные устройства и уязвимости у сторонних подрядчиков. Несмотря на это, меры противодействия квантовым угрозам пока не стали приоритетом: менее 10% организаций закладывают их в бюджет, а только 3% внедрили комплексные решения по устойчивости к подобным атакам.
Почти половина (49%) вообще не рассматривала возможности по противодействию квантовым технологиям. Наиболее частыми причинами стали нехватка прикладных знаний для применения стандартов и отсутствие кадров с нужным уровнем технической подготовки — на эти проблемы указали 37% и 36% специалистов соответственно.
📝Другие российские и иностранные отчеты по ИБ можно почитать здесь.
🔥1
Forwarded from CyberSecurityTechnologies
web_agents_inject.pdf
5.6 MB
#AIOps
#MLSecOps
"WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents", 2025.
]-> Comprehensive benchmark for prompt injection detection in web agents
// we presenting the first comprehensive benchmark study on detecting prompt injection attacks targeting web agents. We construct datasets containing both malicious and benign samples: malicious text segments generated by different attacks, benign text segments from four categories, malicious images produced by attacks, and benign images from two categories
#MLSecOps
"WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents", 2025.
]-> Comprehensive benchmark for prompt injection detection in web agents
// we presenting the first comprehensive benchmark study on detecting prompt injection attacks targeting web agents. We construct datasets containing both malicious and benign samples: malicious text segments generated by different attacks, benign text segments from four categories, malicious images produced by attacks, and benign images from two categories
👍1
Forwarded from CyberSecurityTechnologies
NIST_SP_1800-35_Final.pdf
1.5 MB
#Infosec_Standards
NIST SP 1800-35 FINAL:
"Implementing a Zero Trust Architecture: High-Level Document", June 2025.
NIST SP 1800-35 FINAL:
"Implementing a Zero Trust Architecture: High-Level Document", June 2025.
✍1
Forwarded from CyberSecurityTechnologies
FuncPoison.pdf
2.4 MB
#AIOps
#MLSecOps
#Automotive_Security
"FuncPoison: Poisoning Function Library to Hijack Multi-agent Autonomous Driving Systems", 2025.
// FuncPoison - new poisoning-based attack targeting the function library to manipulate the behavior of LLM-driven multi-agent autonomous systems. FuncPoison manipulates one agent's decisions-such as misinterpreting road conditions-triggering cascading errors that mislead other agents in the system
See also:
]-> Awesome Data Poisoning and Backdoor Attacks
#MLSecOps
#Automotive_Security
"FuncPoison: Poisoning Function Library to Hijack Multi-agent Autonomous Driving Systems", 2025.
// FuncPoison - new poisoning-based attack targeting the function library to manipulate the behavior of LLM-driven multi-agent autonomous systems. FuncPoison manipulates one agent's decisions-such as misinterpreting road conditions-triggering cascading errors that mislead other agents in the system
See also:
]-> Awesome Data Poisoning and Backdoor Attacks
🔥1
Forwarded from Анализ данных (Data analysis)
🚀 IBM Granite 4.0 теперь доступен в Unsloth
🧩 Модель в формате GGUF с гибридной архитектурой (Hybrid Mamba) — сочетание плотных слоёв и MoE для ускорения и снижения памяти.
⚡ Основные факты:
- Доступные размеры: Micro (3B), Tiny (7B/1B активный), Small (32B/9B активный).
- Контекст до 128K токенов.
- Тренировка в Unsloth до 2× быстрее и требует на 50% меньше VRAM.
- Поддержка Ollama, llama.cpp и Docker для лёгкого запуска.
🎯 Где полезно: чат-боты, edge-развёртывания, длинные документы, кастомизация через fine-tuning.
Подробнее: https://docs.unsloth.ai/new/ibm-granite-4.0
Hf: https://huggingface.co/collections/unsloth/granite-40-68ddf64b4a8717dc22a9322d
🧩 Модель в формате GGUF с гибридной архитектурой (Hybrid Mamba) — сочетание плотных слоёв и MoE для ускорения и снижения памяти.
⚡ Основные факты:
- Доступные размеры: Micro (3B), Tiny (7B/1B активный), Small (32B/9B активный).
- Контекст до 128K токенов.
- Тренировка в Unsloth до 2× быстрее и требует на 50% меньше VRAM.
- Поддержка Ollama, llama.cpp и Docker для лёгкого запуска.
🎯 Где полезно: чат-боты, edge-развёртывания, длинные документы, кастомизация через fine-tuning.
Подробнее: https://docs.unsloth.ai/new/ibm-granite-4.0
Hf: https://huggingface.co/collections/unsloth/granite-40-68ddf64b4a8717dc22a9322d
Forwarded from AISecHub
Eval_of_DeepSeek.pdf
4.7 MB
NIST Releases DeepSeek Eval
Key findings on DeepSeek:
◽Performance: Underperforms compared to leading U.S. models.
◽Cost: More expensive than comparable U.S. models.
◽Security – Agent Hijacking: More vulnerable to agent hijacking.
◽Security – Jailbreaks: More prone to jailbreak attempts.
Key findings on DeepSeek:
◽Performance: Underperforms compared to leading U.S. models.
◽Cost: More expensive than comparable U.S. models.
◽Security – Agent Hijacking: More vulnerable to agent hijacking.
◽Security – Jailbreaks: More prone to jailbreak attempts.
👍1🔥1👏1🤨1
Forwarded from GitHub Community
Sim Studio — платформа с открытым исходным кодом для создания и развертывания рабочих процессов с использованием ИИ.
🐱 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from SecureTechTalks
🔐 SecureBERT 2.0: ИИ который учится говорить на языке кибербезопасности
🌍 Мир не останавливается ни на секунду. Сегодня аналитики разбирают фишинговую кампанию, завтра ищут уязвимость в ядре Linux, а послезавтра анализируют подозрительные логи из облака. Данных становится всё больше и они всё сложнее.
💡 Так появился SecureBERT. Это не универсальная модель, а ИИ натренированный именно на языке киберугроз.
👉 GitHub проекта
🤖 Ученик цифровых угроз
SecureBERT 2.0 «рос» на реальных материалах:
📑 отчёты об APT группах
🛡️ описания CVE и багов
📰 технические блоги исследователей
💻 миллионы строк кода включая эксплойты
📊 Объем тренировочных данных:
🔹 более 13 миллиардов текстовых токенов
🔹 более 53 миллиона токенов кода
Это в 13 раз больше чем у первой версии модели.
🧠 Архитектура
Модель основана на ModernBERT и умеет:
📏 работать с длинными документами
🗂️ понимать структуру текста и кода
🔀 совмещать язык и программный код
⚡ обрабатывать данные быстрее и эффективнее
🔎 Что умеет модель?
1️⃣ Поиск информации
🔍 Находит документы с точностью до 88.8%
⏱️ Аналитики SOC экономят часы на поиске нужных данных
2️⃣ Извлечение сущностей (NER)
📌 Определяет уязвимости, индикаторы компрометации, малварь
📈 F1 score: 0.945 — почти идеальная точность
3️⃣ Поиск уязвимостей в коде
🛠️ Видит SQLi XSS переполнения буфера
⚖️ Балансирует точность и минимум ложных срабатываний
🔮 Планы на будущее
Авторы планируют:
📈 увеличить размер модели
🔗 встроить её в SIEM и SOAR
🛰️ расширить использование: от анализа логов до поиска эксплойтов
Stay secure and read SecureTechTalks 📚
#ИИ #кибербезопасность #SecureBERT #AI #SOC #DevSecOps #Cisco #угрозы #BigData #LLM
🌍 Мир не останавливается ни на секунду. Сегодня аналитики разбирают фишинговую кампанию, завтра ищут уязвимость в ядре Linux, а послезавтра анализируют подозрительные логи из облака. Данных становится всё больше и они всё сложнее.
💡 Так появился SecureBERT. Это не универсальная модель, а ИИ натренированный именно на языке киберугроз.
👉 GitHub проекта
🤖 Ученик цифровых угроз
SecureBERT 2.0 «рос» на реальных материалах:
📑 отчёты об APT группах
🛡️ описания CVE и багов
📰 технические блоги исследователей
💻 миллионы строк кода включая эксплойты
📊 Объем тренировочных данных:
🔹 более 13 миллиардов текстовых токенов
🔹 более 53 миллиона токенов кода
Это в 13 раз больше чем у первой версии модели.
🧠 Архитектура
Модель основана на ModernBERT и умеет:
📏 работать с длинными документами
🗂️ понимать структуру текста и кода
🔀 совмещать язык и программный код
⚡ обрабатывать данные быстрее и эффективнее
🔎 Что умеет модель?
1️⃣ Поиск информации
🔍 Находит документы с точностью до 88.8%
⏱️ Аналитики SOC экономят часы на поиске нужных данных
2️⃣ Извлечение сущностей (NER)
📌 Определяет уязвимости, индикаторы компрометации, малварь
📈 F1 score: 0.945 — почти идеальная точность
3️⃣ Поиск уязвимостей в коде
🛠️ Видит SQLi XSS переполнения буфера
⚖️ Балансирует точность и минимум ложных срабатываний
🔮 Планы на будущее
Авторы планируют:
📈 увеличить размер модели
🔗 встроить её в SIEM и SOAR
🛰️ расширить использование: от анализа логов до поиска эксплойтов
Stay secure and read SecureTechTalks 📚
#ИИ #кибербезопасность #SecureBERT #AI #SOC #DevSecOps #Cisco #угрозы #BigData #LLM
Forwarded from База знаний AI
В ВТБ и МГУ им. М.В. Ломоносова разрабатывают ИИ-детектор для проверки ответов моделей на этичность и ошибки
ИИ-решение планируют внедрить в цифровые сервисы банка. Оно будет работать поверх других моделей и проверять каждый текст до его отправки пользователю.
Разработка сможет классифицировать десятки типов галлюцинаций, фактических ошибок и некорректности. При проверке будут учитываться культурные особенности России, законодательство, специфика общения с клиентами, внутренние правила работы ВТБ, юридические и этические аспекты. Детектор не принимает решений о том, как переделать текст.
Над новой моделью работают ученые и специалисты из сферы математики, лингвистики, психологии, юриспруденции и культурологии. Разработчики на первых этапах провели интервью со специалистами банка, которые принимают участие во взаимодействии с клиентами. Постепенное внедрение планируется с 2026 года.
Стоимость проекта не раскрывается. По оценке эксперта исследовательского Центра ИИ РАНХиГС Сергея Дубровского, решение может обойтись в 100–270 млн руб., если в разработку входят формирование датасетов, обучение моделей, тестирование и интеграция в банковские системы.
🔗Источник: https://www.vedomosti.ru/technology/articles/2025/10/07/1144774-vtb-razrabotaet-eticheskogo-tsenzora
***
📎В ВТБ в сентябре 2025 года сообщали, что банк использует около 1,5 тыс. ИИ-моделей во всех бизнес-процессах. Организация оценивает эффект от внедрения ИИ-решений в десятки миллиардов рублей чистого дохода.
ИИ-решение планируют внедрить в цифровые сервисы банка. Оно будет работать поверх других моделей и проверять каждый текст до его отправки пользователю.
Разработка сможет классифицировать десятки типов галлюцинаций, фактических ошибок и некорректности. При проверке будут учитываться культурные особенности России, законодательство, специфика общения с клиентами, внутренние правила работы ВТБ, юридические и этические аспекты. Детектор не принимает решений о том, как переделать текст.
Над новой моделью работают ученые и специалисты из сферы математики, лингвистики, психологии, юриспруденции и культурологии. Разработчики на первых этапах провели интервью со специалистами банка, которые принимают участие во взаимодействии с клиентами. Постепенное внедрение планируется с 2026 года.
Стоимость проекта не раскрывается. По оценке эксперта исследовательского Центра ИИ РАНХиГС Сергея Дубровского, решение может обойтись в 100–270 млн руб., если в разработку входят формирование датасетов, обучение моделей, тестирование и интеграция в банковские системы.
🔗Источник: https://www.vedomosti.ru/technology/articles/2025/10/07/1144774-vtb-razrabotaet-eticheskogo-tsenzora
***
📎В ВТБ в сентябре 2025 года сообщали, что банк использует около 1,5 тыс. ИИ-моделей во всех бизнес-процессах. Организация оценивает эффект от внедрения ИИ-решений в десятки миллиардов рублей чистого дохода.
Forwarded from CyberSecurityTechnologies
FineTuning_Jailbreaks.pdf
632.7 KB
#MLSecOps
"Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach", 2025.
// Fine-tuning is a widely used method for adapting models to downstream tasks, yet it is vulnerable to jailbreak attacks. Our attack combines safety-styled prefix/suffix wrappers, benign lexical encodings (underscoring) of sensitive tokens, and a backdoor mechanism, enabling the model to learn harmful behaviors while individual datapoints appear innocuous
"Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach", 2025.
// Fine-tuning is a widely used method for adapting models to downstream tasks, yet it is vulnerable to jailbreak attacks. Our attack combines safety-styled prefix/suffix wrappers, benign lexical encodings (underscoring) of sensitive tokens, and a backdoor mechanism, enabling the model to learn harmful behaviors while individual datapoints appear innocuous
👍1
Forwarded from Анализ данных (Data analysis)
За 404 секунды можно понять, почему в комьюнити обсуждают MCP как следующий шаг в развитии open source
Model Context Protocol убирает хаос интеграций: теперь AI-агент может одинаково легко работать с IDE, таск-трекерами, базами данных и другими сервисами. Открытый стандарт делает экосистему разработки более прозрачной и управляемой.
В выпуске «404 секунды» — разбор MCP и того, как его уже поддержал SourceCraft, чтобы AI-агенты могли управлять полным циклом разработки: от кода и автотестов до деплоя в облако.
Подробности — в свежем выпуске на YouTube или VK Видео
Model Context Protocol убирает хаос интеграций: теперь AI-агент может одинаково легко работать с IDE, таск-трекерами, базами данных и другими сервисами. Открытый стандарт делает экосистему разработки более прозрачной и управляемой.
В выпуске «404 секунды» — разбор MCP и того, как его уже поддержал SourceCraft, чтобы AI-агенты могли управлять полным циклом разработки: от кода и автотестов до деплоя в облако.
Подробности — в свежем выпуске на YouTube или VK Видео
💊1