Forwarded from Data Secrets
Самая громкая статья месяца – Hierarchical Reasoning Model
Без предисловий, сразу главный результат: у авторов получилось сделать модельку всего на 27 миллионов (!) параметров, которая обошла o3-mini на ARC-AGI-1. Неудивительно, что об этой работе сейчас говорит все комьюнити, а авторы ARC-AGI даже сами написали большой разбор результатов модели на их бенчмарке.
Погнали разбираться.
Итак, вся архитектура состоит из двух рекуррентных модулей: быстрого низкоуровневого и медленного высокоуровневого. Первый отвечает за быстрые локальные вычисления и решения частных задач, а цель второго – абстрактно управлять процессом и ставить таски первому.
Суть в том, что они обновляются с разной частотой. Исходная задача разбивается на несколько циклов рассуждения. В каждом из них верхний модуль обновляется только один раз и дает новый контекст нижнему модулю, который в свою очередь делает много мелких шагов и ищет локальное решение.
Сколько будет таких итераций, модель решает сама. Останавливаться (или не останавливаться) в правильный момент ее специально учили с помощью RL. Так что «думать» она может и пару секунд, и пару часов.
Обучается HRM не совсем привычно для рекуррентной модели: здесь, вместо того чтобы сохранять все внутренние состояния, авторы решили обновлять градиенты только по финальному стейту. Удивительно, но факт – это работает.
Кстати, вся конструкция и принцип обучения очень похожи на то, как работает наш мозг. Некоторые области отвечают за абстракцию, другие – за конкретные моментальные действия, а общаются они посредством обратных связей. Здесь те же принципы иерархии (отсюда и название). Плюс, мозг тоже не хранит промежуточные траектории и к сходимости приходит через схожие волновые циклы.
Итог: модель для своего размера просто беспрецедентно хороша на решениях всяких головоломок типа судоку, лабиринтов и индуктивных задач. В общем, именно в тех областях, где привычные LLM обычно фейлятся. Конечно, особенно поражают результаты на ARC-AGI, которые мы описали в начале.
Революция или нет, но выглядит действительно очень изящно и эффектно.
Обязательно почитайте работу полностью тут (+ вот еще один отличный разбор на русском языке)
Без предисловий, сразу главный результат: у авторов получилось сделать модельку всего на 27 миллионов (!) параметров, которая обошла o3-mini на ARC-AGI-1. Неудивительно, что об этой работе сейчас говорит все комьюнити, а авторы ARC-AGI даже сами написали большой разбор результатов модели на их бенчмарке.
Погнали разбираться.
Итак, вся архитектура состоит из двух рекуррентных модулей: быстрого низкоуровневого и медленного высокоуровневого. Первый отвечает за быстрые локальные вычисления и решения частных задач, а цель второго – абстрактно управлять процессом и ставить таски первому.
Суть в том, что они обновляются с разной частотой. Исходная задача разбивается на несколько циклов рассуждения. В каждом из них верхний модуль обновляется только один раз и дает новый контекст нижнему модулю, который в свою очередь делает много мелких шагов и ищет локальное решение.
Сколько будет таких итераций, модель решает сама. Останавливаться (или не останавливаться) в правильный момент ее специально учили с помощью RL. Так что «думать» она может и пару секунд, и пару часов.
Обучается HRM не совсем привычно для рекуррентной модели: здесь, вместо того чтобы сохранять все внутренние состояния, авторы решили обновлять градиенты только по финальному стейту. Удивительно, но факт – это работает.
Кстати, вся конструкция и принцип обучения очень похожи на то, как работает наш мозг. Некоторые области отвечают за абстракцию, другие – за конкретные моментальные действия, а общаются они посредством обратных связей. Здесь те же принципы иерархии (отсюда и название). Плюс, мозг тоже не хранит промежуточные траектории и к сходимости приходит через схожие волновые циклы.
Итог: модель для своего размера просто беспрецедентно хороша на решениях всяких головоломок типа судоку, лабиринтов и индуктивных задач. В общем, именно в тех областях, где привычные LLM обычно фейлятся. Конечно, особенно поражают результаты на ARC-AGI, которые мы описали в начале.
Революция или нет, но выглядит действительно очень изящно и эффектно.
Обязательно почитайте работу полностью тут (+ вот еще один отличный разбор на русском языке)
🐳1
Forwarded from Purple Team Diary's (Mr Kribel)
Llamator для тех кто в танке, в банке, без интернета
Базовый сценарий работы Llamator'а предполагает взаимодействие с 3 моделями:
1. Атакующая-модель: генерирует промты
2. Модель которую тестируем
3. Модель-судья: анализирует ответы тестируемой модели
Мы будем использовать зараннее подготовленый файл с промтами, специфичными для внутреннего пользования.
Создаем заглушку для атакующей модели работающую с json:
В этом же классе переопределяем interact, который возвращает следующий промпт из списка:
Далее переопределяем интерфейс генерации промтов (просто вызывается interact), отказываемся от сохранении истории чата и возвращаем информацию о модели в отчете.
Загружаем промты из файла:
Тестируемая модель Qwen через Ollama:
Готовим атаки:
Конфигурирование тестирования:
Запускаем тестирование:
#MlSecOps
Базовый сценарий работы Llamator'а предполагает взаимодействие с 3 моделями:
1. Атакующая-модель: генерирует промты
2. Модель которую тестируем
3. Модель-судья: анализирует ответы тестируемой модели
Мы будем использовать зараннее подготовленый файл с промтами, специфичными для внутреннего пользования.
Создаем заглушку для атакующей модели работающую с json:
class ClientFromFile(ClientBase):
def __init__(self, prompts_file: str, model_denoscription: str = "Провайдер промптов из файла"):
super().__init__()
self.model_denoscription = model_denoscription
self.prompts: List[str] = []
self.index = 0
try:
with open(prompts_file, "r", encoding="utf-8") as f:
data = json.load(f)
# Обработка разных форматов данных в файле
if isinstance(data, list):
if data and isinstance(data[0], str):
self.prompts = data
elif data and isinstance(data[0], dict):
self.prompts = [
item.get("text") or item.get("content") or str(item)
for item in data
]
else:
self.prompts = [str(data)]
else:
self.prompts = [str(data)]
except FileNotFoundError:
self.prompts = []
except json.JSONDecodeError as e:
self.prompts = []
В этом же классе переопределяем interact, который возвращает следующий промпт из списка:
def interact(self, message: str = "", *args, **kwargs) -> Dict[str, Any]:
if not self.prompts:
return {"content": "Нет доступных промптов"}
response_text = self.prompts[self.index % len(self.prompts)]
self.index += 1
return {"content": response_text}
Далее переопределяем интерфейс генерации промтов (просто вызывается interact), отказываемся от сохранении истории чата и возвращаем информацию о модели в отчете.
def generate(self, prompt: str, *args, **kwargs) -> Dict[str, Any]:
return self.interact(prompt, *args, **kwargs)
def chat(self, messages: List[Dict[str, str]], *args, **kwargs) -> Dict[str, Any]:
return self.interact("", *args, **kwargs)
def get_model_info(self) -> Dict[str, Any]:
return {
"model_type": "file_based",
"denoscription": self.model_denoscription,
"prompts_count": len(self.prompts),
}
Загружаем промты из файла:
attack_model = ClientFromFile(prompts_file="all_prompts.json")
Тестируемая модель Qwen через Ollama:
tested_model = llamator.ClientOpenAI(
api_key="ollama", # Ключ для Ollama (фиктивный, т.к. не требуется)
base_url="http://localhost:11434/v1",
model="qwen:7b-chat",
temperature=0.1,
model_denoscription="Qwen 7B"
)
Готовим атаки:
basic_tests = [
("aim_jailbreak", {"num_attempts": 3}), # Обход ограничений
("base64_injection", {"num_attempts": 2}), # Инъекции через Base64
("dan", {"num_attempts": 2}), # "Do Anything Now" промпты
("linguistic_evasion", {"num_attempts": 3}), # Лингвистические обходы
("harmbench", {"num_attempts": 2}), # Тесты на вредоносность
]
Конфигурирование тестирования:
config = {
"enable_logging": True,
"enable_reports": True,
"artifacts_path": "./artifacts",
"debug_level": 1,
"report_language": "ru",
"save_responses": True,
}Запускаем тестирование:
test_result_dict = llamator.start_testing(
attack_model=attack_model,
tested_model=tested_model,
judge_model=None, # Оценка без модели
config=config,
basic_tests=basic_tests,
num_threads=1,
)
#MlSecOps
🔥2❤1
Forwarded from CyberSecurityTechnologies
MLSecOps_Whitepaper.pdf
2.5 MB
#DevOps
#MLSecOps
#Whitepaper
"Visualizing Secure MLOps (MLSecOps):
A Practical Guide for Building Robust AI/ML Pipeline Security", 2025.
// Scope:
- an overview of DevSecOps practices that are applicable to MLSecOps
- an overview of MLSecOps practices
- open source centric
- unique security risks
#MLSecOps
#Whitepaper
"Visualizing Secure MLOps (MLSecOps):
A Practical Guide for Building Robust AI/ML Pipeline Security", 2025.
// Scope:
- an overview of DevSecOps practices that are applicable to MLSecOps
- an overview of MLSecOps practices
- open source centric
- unique security risks
🔥1
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 DeepConf — новый подход к мышлению ИИ
Учёные придумали новые метод Deep Think with Confidence (DeepConf).
Он позволяет модели сразу отбрасывать «слабые» варианты ответа и оставлять только те, в которых она уверена.
Классический метод *parallel thinking* (self-consistency) работает так: модель генерирует множество рассуждений и выбирает лучший ответ по большинству. Точность повышается, но ресурсы тратятся огромные — тысячи токенов уходят на слабые варианты.
🔹 DeepConf решает эту проблему: модель сама оценивает уровень уверенности в рассуждениях и отбрасывает «слабые» ветви — либо сразу, либо после генерации.
Как это устроено:
1️⃣ Оценка уверенности на уровне токенов — смотрится вероятность выбранного токена (log-prob) или энтропия.
2️⃣ Group Confidence — оценки объединяются в блоки, чтобы понять силу целой ветки рассуждения.
3️⃣ Online-режим — слабые ветки отсекаются прямо в процессе.
4️⃣ Offline-режим — сначала генерируются все ответы, потом остаются только те, где уверенность высокая.
📈 Результаты:
- На AIME-2025 точность выросла до 99,9%
- Количество лишних токенов сократилось почти на 85%
- Работает без дообучения и сложных настроек
📚 Paper: https://arxiv.org/pdf/2508.15260
🌐 Project: https://jiaweizzhao.github.io/deepconf
Учёные придумали новые метод Deep Think with Confidence (DeepConf).
Он позволяет модели сразу отбрасывать «слабые» варианты ответа и оставлять только те, в которых она уверена.
Классический метод *parallel thinking* (self-consistency) работает так: модель генерирует множество рассуждений и выбирает лучший ответ по большинству. Точность повышается, но ресурсы тратятся огромные — тысячи токенов уходят на слабые варианты.
🔹 DeepConf решает эту проблему: модель сама оценивает уровень уверенности в рассуждениях и отбрасывает «слабые» ветви — либо сразу, либо после генерации.
Как это устроено:
1️⃣ Оценка уверенности на уровне токенов — смотрится вероятность выбранного токена (log-prob) или энтропия.
2️⃣ Group Confidence — оценки объединяются в блоки, чтобы понять силу целой ветки рассуждения.
3️⃣ Online-режим — слабые ветки отсекаются прямо в процессе.
4️⃣ Offline-режим — сначала генерируются все ответы, потом остаются только те, где уверенность высокая.
📈 Результаты:
- На AIME-2025 точность выросла до 99,9%
- Количество лишних токенов сократилось почти на 85%
- Работает без дообучения и сложных настроек
📚 Paper: https://arxiv.org/pdf/2508.15260
🌐 Project: https://jiaweizzhao.github.io/deepconf
🔥1
Forwarded from AI Security Lab
В HiveTrace стала доступна интеграция с SIEM💥
Теперь систему, которую разрабатывают участники нашей лаборатории, можно подключить к любой SIEM, поддерживающей стандарт syslog. Все события в системе и результаты работы цензора автоматически поступают в единый центр безопасности.
CTO HiveTrace Анна Тищенко показала, как это работает на примере интеграции с Wazuh
Теперь систему, которую разрабатывают участники нашей лаборатории, можно подключить к любой SIEM, поддерживающей стандарт syslog. Все события в системе и результаты работы цензора автоматически поступают в единый центр безопасности.
CTO HiveTrace Анна Тищенко показала, как это работает на примере интеграции с Wazuh
YouTube
В HiveTrace стала доступна интеграция с SIEM
Теперь систему можно подключить к любой SIEM через стандарт syslog. Все события и результаты работы цензора автоматически отправляются в единый центр безопасности. В этом видео показываем, как это работает на примере интеграции с Wazuh
Подробней о HiveTrace:…
Подробней о HiveTrace:…
🔥3
Forwarded from CyberSecurityTechnologies
FL_Sec.pdf
1.5 MB
#AIOps
#Analytics
#MLSecOps
"On the Security and Privacy of Federated Learning:
A Survey with Attacks, Defenses, Frameworks, Applications, and Future Directions", 2025.
// Federated Learning (FL) is an emerging distributed machine learning paradigm enabling multiple clients to train a global model collaboratively without sharing their raw data. While FL enhances data privacy by design, it remains vulnerable to various security and privacy threats..
#Analytics
#MLSecOps
"On the Security and Privacy of Federated Learning:
A Survey with Attacks, Defenses, Frameworks, Applications, and Future Directions", 2025.
// Federated Learning (FL) is an emerging distributed machine learning paradigm enabling multiple clients to train a global model collaboratively without sharing their raw data. While FL enhances data privacy by design, it remains vulnerable to various security and privacy threats..
👍3
Incident Analysis for AI Agents
https://arxiv.org/html/2508.14231v1
https://arxiv.org/html/2508.14231v1
Forwarded from GitHub Community
Minima — это локальные контейнеры RAG с открытым исходным кодом, которые можно интегрировать с ChatGPT и MCP. Minima также можно использовать как полностью локальный RAG.
В настоящее время Minima поддерживает три режима:
1. Изолированная установка. Полностью локальная работа с контейнерами без внешних зависимостей, таких как ChatGPT или Claude. Все нейронные сети (LLM, reranker, embedding) работают в вашем облаке или на ПК, обеспечивая безопасность ваших данных.
2. Пользовательский GPT. Выполняйте запросы к локальным документам с помощью приложения или веб-версии ChatGPT с использованием пользовательских GPT. Индексатор работает в облаке или на локальном ПК, а основной языковой моделью остается ChatGPT.
3. Anthropic Claude — используйте приложение Anthropic Claude для поиска в локальных документах. Индексатор работает на вашем локальном компьютере, а Anthropic Claude выступает в качестве основной языковой модели.
🐱 GitHub
В настоящее время Minima поддерживает три режима:
1. Изолированная установка. Полностью локальная работа с контейнерами без внешних зависимостей, таких как ChatGPT или Claude. Все нейронные сети (LLM, reranker, embedding) работают в вашем облаке или на ПК, обеспечивая безопасность ваших данных.
2. Пользовательский GPT. Выполняйте запросы к локальным документам с помощью приложения или веб-версии ChatGPT с использованием пользовательских GPT. Индексатор работает в облаке или на локальном ПК, а основной языковой моделью остается ChatGPT.
3. Anthropic Claude — используйте приложение Anthropic Claude для поиска в локальных документах. Индексатор работает на вашем локальном компьютере, а Anthropic Claude выступает в качестве основной языковой модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from GolDBUG
AI Red Teaming CTF: [ai_gon3_rogu3]
В сентябре пройдет тематическая стф от hackerone, приглашаю желающих поучаствовать.
Регистрируйтесь и проверяйте свои навыки, всем удачи 🔥
Ссылка на саму ctf 🪲
Статья на hackerone 👾
🔥1
Forwarded from CodeCamp
Нарыл имбовый курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).
Это бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on: Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
Естественно бесплатно
Это бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on: Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
Естественно бесплатно
Forwarded from GitHub Community
Swe-agent — многоагентная система разработки программного обеспечения на базе искусственного интеллекта с агентами-исследователями и разработчиками, автоматизирующая реализацию кода посредством интеллектуального планирования и выполнения.
Создана с использованием многоагентных рабочих процессов LangGraph.
🐱 GitHub
Создана с использованием многоагентных рабочих процессов LangGraph.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GitHub Community
RAG_bot — Telegram-бот на базе искусственного интеллекта для интерактивного анализа статей.
Особенности:
▫️Умная индексация — обрабатывает статьи с любого URL
▫️Многоязычный — поддерживает вопросы и ответы на английском и русском языках
▫️Пользовательские подсказки — управление стилем и форматом ответа
▫️Поддержка прокси — работает с API OpenAI в регионах с ограничениями
▫️Ссылка на источник — всегда подкрепляет ответы доказательствами
▫️Постоянное хранилище — сохраняет проиндексированные статьи между сеансами
🐱 GitHub
Индексирует веб-контент и предоставляет точные ответы с указанием источников.
Особенности:
▫️Умная индексация — обрабатывает статьи с любого URL
▫️Многоязычный — поддерживает вопросы и ответы на английском и русском языках
▫️Пользовательские подсказки — управление стилем и форматом ответа
▫️Поддержка прокси — работает с API OpenAI в регионах с ограничениями
▫️Ссылка на источник — всегда подкрепляет ответы доказательствами
▫️Постоянное хранилище — сохраняет проиндексированные статьи между сеансами
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CyberSecurityTechnologies (-CST-)
RAD.pdf
878.4 KB
#MLSecOps
"Retrieval-Augmented Defense: Adaptive and Controllable Jailbreak Prevention for Large Language Models", 2025.
]-> Repo
// RAD - novel framework for jailbreak detection that incorporates a database of known attack examples into Retrieval-Augmented Generation, which is used to infer the underlying, malicious user query and jailbreak strategy used to attack the system
"Retrieval-Augmented Defense: Adaptive and Controllable Jailbreak Prevention for Large Language Models", 2025.
]-> Repo
// RAD - novel framework for jailbreak detection that incorporates a database of known attack examples into Retrieval-Augmented Generation, which is used to infer the underlying, malicious user query and jailbreak strategy used to attack the system
Forwarded from CyberSecurityTechnologies
SAPA_Bench.pdf
1008.7 KB
#AIOps
#Research
"Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents", 2025.
]-> https://github.com/Zhixin-L/SAPA-Bench
// with the rise of MLLM-powered smartphone agents, automation performance has improved significantly-yet at the cost of extensive access to sensitive user data
#Research
"Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents", 2025.
]-> https://github.com/Zhixin-L/SAPA-Bench
// with the rise of MLLM-powered smartphone agents, automation performance has improved significantly-yet at the cost of extensive access to sensitive user data
Forwarded from CyberSecurityTechnologies
LCCT_Attacks.pdf
901.3 KB
#AIOps
#MLSecOps
"Security Attacks on LLM-based Code Completion Tools", v.4, AAAI 2025.
]-> example code and attack samples
// LLM-based Code Completion Tools (LCCTs) often rely on proprietary code datasets for training, raising concerns about the potential exposure of sensitive data. We exploit these distinct characteristics of LCCTs to develop targeted attack methodologies on two critical security risks: jailbreaking and training data extraction attacks
#MLSecOps
"Security Attacks on LLM-based Code Completion Tools", v.4, AAAI 2025.
]-> example code and attack samples
// LLM-based Code Completion Tools (LCCTs) often rely on proprietary code datasets for training, raising concerns about the potential exposure of sensitive data. We exploit these distinct characteristics of LCCTs to develop targeted attack methodologies on two critical security risks: jailbreaking and training data extraction attacks
🔥1
Forwarded from Андрей
Банк России разработал Кодекс этики в сфере разработки и применения искусственного интеллекта на финансовом рынке \ КонсультантПлюс
https://www.consultant.ru/law/hotdocs/89962.html
https://www.consultant.ru/law/hotdocs/89962.html
www.consultant.ru
Банк России разработал Кодекс этики в сфере разработки и применения искусственного интеллекта на финансовом рынке \ КонсультантПлюс
Информационное письмо Банка России от 09.07.2025 N ИН-016-13/91 "О Кодексе этики в сфере разработки и применения искусственного интеллекта на финансовом рынке"
LLMs in the SOC: An Empirical Study of Human-AI Collaboration in Security Operations Centres
https://arxiv.org/html/2508.18947v1
Исследование представляет собой первый всесторонний эмпирический анализ того, как аналитики SOC взаимодействуют с LLM в своих повседневных рабочих процессах. Изучив 3090 реальных запросов аналитиков, отправленных GPT-4 в течение 10 месяцев в eSentire Inc., исследователи из CSIRO's Data61 и eSentire предоставили беспрецедентные данные о моделях сотрудничества человека и ИИ в операциях кибербезопасности. Результаты показывают, что LLM в основном функционируют как когнитивные помощники для осмысления и построения контекста, а не как инструменты принятия решений, при этом аналитики сохраняют четкий авторитет в отношении критически важных определений безопасности.
https://arxiv.org/html/2508.18947v1
Исследование представляет собой первый всесторонний эмпирический анализ того, как аналитики SOC взаимодействуют с LLM в своих повседневных рабочих процессах. Изучив 3090 реальных запросов аналитиков, отправленных GPT-4 в течение 10 месяцев в eSentire Inc., исследователи из CSIRO's Data61 и eSentire предоставили беспрецедентные данные о моделях сотрудничества человека и ИИ в операциях кибербезопасности. Результаты показывают, что LLM в основном функционируют как когнитивные помощники для осмысления и построения контекста, а не как инструменты принятия решений, при этом аналитики сохраняют четкий авторитет в отношении критически важных определений безопасности.