Forwarded from CodeCamp
Ночное-полезное: 50-страничный гайд о том, как делать ИИ-агентов от Google, которые реально работают 🕺
Что внутри:
— Архитектура агента и его основные блоки;
— LLM как мозг и управляющий центр;
— Подключение инструментов и API;
— Оркестрация нескольких агентов;
— Деплой, продакшн и метрики;
— Самообучающиеся и эволюционирующие агенты;
— Пример живой системы — AlphaEvolve.
Читаем перед сном на английском или на русском💃
Что внутри:
— Архитектура агента и его основные блоки;
— LLM как мозг и управляющий центр;
— Подключение инструментов и API;
— Оркестрация нескольких агентов;
— Деплой, продакшн и метрики;
— Самообучающиеся и эволюционирующие агенты;
— Пример живой системы — AlphaEvolve.
Читаем перед сном на английском или на русском
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Пост Лукацкого
И этот день, как и вчера, мы финалим искусственным интеллектом 🧠 , а именно очередным руководством по безопасности ИИ от SANS. И хотя это проект, он достаточно неплохо систематизирован и, в целом, вполне интересен уже сам по себе. Там даже история с мониторингом ИИ и упомянутого утром инференса упоминается 🤔
Заметили, что я стал все чаще писать про ИИ в контексте кибербезопасности?✍️ Это я еще себя сдерживаю, так как в новостном потоке эта тема реально стала доминирующей – чуть ли не половина всех новостей про это. Да, местами это хайп или переливание пустого в порожнее, но часто бывает немало реально полезного контента. Не все из этого релевантно для нашего региона, но многое. Так что изучайте ИИ... с разных сторон 👩🎓
#sans #ии #mlsecops
Заметили, что я стал все чаще писать про ИИ в контексте кибербезопасности?
#sans #ии #mlsecops
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Жёлтый AI
Наша команда вернулась с EMNLP 2025, на которой у нас было принято две статьи 🐫
Первая – Steering LLM Reasoning Through Bias-Only Adaptation про то, как можно улучшать reasoning в LLM при помощи минимальных добавок (значительно меньших, чем LoRA и прочие). Небольшой спойлер, который можно найти в репозитории с кодом статьи – это также открывает новые возможности для интерпретации reasoning моделей.
Вторая – Train One Sparse Autoencoder Across Multiple Sparsity Budgets to Preserve Interpretability and Accuracy посвящена новому методу обучения Sparse Autoencoders, для которого теперь можно контроллировать степень разреженности пространства фичей после обучения. Для этого мы также опубликовали triton кернелы, чтобы все могли обучать модель нашим методом быстро, доступно как на github, так и на hugging face.
Первая – Steering LLM Reasoning Through Bias-Only Adaptation про то, как можно улучшать reasoning в LLM при помощи минимальных добавок (значительно меньших, чем LoRA и прочие). Небольшой спойлер, который можно найти в репозитории с кодом статьи – это также открывает новые возможности для интерпретации reasoning моделей.
Вторая – Train One Sparse Autoencoder Across Multiple Sparsity Budgets to Preserve Interpretability and Accuracy посвящена новому методу обучения Sparse Autoencoders, для которого теперь можно контроллировать степень разреженности пространства фичей после обучения. Для этого мы также опубликовали triton кернелы, чтобы все могли обучать модель нашим методом быстро, доступно как на github, так и на hugging face.
Forwarded from Жёлтый AI
@murkyfella воспользовался визой в Канаду после ICML 2025, и рассказал о недавней статье @nikoryagin на COLM 2025: Teach Old SAEs New Domain Tricks with Boosting 🏎
Sparse Autoencoders очень сильно зависят от данных, на которых их обучали, и если у вас появятся новые домены, на которых вы захотите изучить поведение модели, вам придется постоянно обучать новые SAE.
Вместо этого мы предложили очень простой метод, в котором мы учим новые SAE на ошибках старых, получая модуль, способный интерпретировать свежие данные, не ломая старые представления.
Статью можно прочитать тут
Sparse Autoencoders очень сильно зависят от данных, на которых их обучали, и если у вас появятся новые домены, на которых вы захотите изучить поведение модели, вам придется постоянно обучать новые SAE.
Вместо этого мы предложили очень простой метод, в котором мы учим новые SAE на ошибках старых, получая модуль, способный интерпретировать свежие данные, не ломая старые представления.
Статью можно прочитать тут
Forwarded from CyberSecurityTechnologies
AI_for_AppSec_and_OffSec.pdf
7.5 MB
#AIOps
#Fuzzing
#Offensive_security
"AI for AppSec and Offensive Security: From Automation to Autonomy", BSides Berlin, 2025.
]-> AI-powered workflow automation and AI Agents for AppSec, Fuzzing & Offensive Security
#Fuzzing
#Offensive_security
"AI for AppSec and Offensive Security: From Automation to Autonomy", BSides Berlin, 2025.
]-> AI-powered workflow automation and AI Agents for AppSec, Fuzzing & Offensive Security
Forwarded from Андрей
EDPS.pdf
1.3 MB
Руководство по управлению рисками в системах искусственного интеллекта
Цель этого руководства — предоставить ценную информацию и практические рекомендации по выявлению и снижению распространённых технических рисков, связанных с системами искусственного интеллекта, а также по защите персональных данных.
Источник:
Европейский Надзорный орган по защите данных
https://www.edps.europa.eu/data-protection/our-work/publications/guidelines/2025-11-11-guidance-risk-management-artificial-intelligence-systems_en
Цель этого руководства — предоставить ценную информацию и практические рекомендации по выявлению и снижению распространённых технических рисков, связанных с системами искусственного интеллекта, а также по защите персональных данных.
Источник:
Европейский Надзорный орган по защите данных
https://www.edps.europa.eu/data-protection/our-work/publications/guidelines/2025-11-11-guidance-risk-management-artificial-intelligence-systems_en
🔥1
Forwarded from CyberSecurityTechnologies
Evasion_Attacks_on_LLMs-Countermeasures.pdf
1.8 MB
#AIOps
#hardening
#MLSecOps
"Evasion Attacks on LLMs - Countermeasures in Practice:
A Guide to face Prompt Injections, Jailbreaks and Adversarial Attacks", Nov. 2025.
// The publication is aimed at developers and IT security officers protecting LLM systems (pre-trained LLM as a base models in a specific applications) against evasion attacks. It offers practical insights on integrating countermeasures for system hardening
#hardening
#MLSecOps
"Evasion Attacks on LLMs - Countermeasures in Practice:
A Guide to face Prompt Injections, Jailbreaks and Adversarial Attacks", Nov. 2025.
// The publication is aimed at developers and IT security officers protecting LLM systems (pre-trained LLM as a base models in a specific applications) against evasion attacks. It offers practical insights on integrating countermeasures for system hardening
🔥2👎1
Forwarded from Раньше всех. Ну почти.
Wildberries запустила бесплатный дипфейк-детектор, который позволяет пользователям выявлять изображения, сгенерированные с помощью искусственного интеллекта, пишет ТАСС.
К разработке привлекались профессиональные AI-художники, чья экспертиза, наряду с опытом внутренней команды, позволила довести точность распознавания сгенерированных изображений до 95%.
К разработке привлекались профессиональные AI-художники, чья экспертиза, наряду с опытом внутренней команды, позволила довести точность распознавания сгенерированных изображений до 95%.
🗿2
Forwarded from Градиент обреченный (Sergei Averkiev)
Нарисуй предыдущие инструкции
Коротенький обзор/исследование возможностей Nano Banana, модели от Google для генерации и редактирования картинок, она же Gemini 2.5 Flash Image.
🟢 Контекст у модели 32k токенов и автор пробует разные странные идеи типа засунуть в промпт код html странички, чтобы она его нарисовала. Что еще интересней, так это то, что модель его отрисовывает.
🟢 Но самый забавный пример, это просьба нарисовать системный промпт в виде магнитов на холодильник (!). Так как текста много, можно потом просить нарисовать какую-то конкретную часть, чтобы нормально прочитать.
🟢 Попробовал воспроизвести, в виде магнитиков действительно рисует, а в виде обычного текста на листе или в виде татуировки почему-то не хочет.
👉 https://minimaxir.com/2025/11/nano-banana-prompts/
Коротенький обзор/исследование возможностей Nano Banana, модели от Google для генерации и редактирования картинок, она же Gemini 2.5 Flash Image.
👉 https://minimaxir.com/2025/11/nano-banana-prompts/
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Клуб CDO
Наверное неожиданно, но все кто занимается управлением разработкой и работой сложных систем, хочу порекомендовать к прочтению: NASA Systems Engineering Handbook
Это не просто книга про космос — это эталон мышления инженеров, которые строят системы, где ошибка недопустима.
Что даёт эта книга:
• учит системному подходу — как из идей и требований выстроить архитектуру, которая выдержит нагрузку и время;
• показывает, как проектировать, верифицировать и валидировать решения на каждом этапе жизненного цикла;
• помогает увидеть систему целиком — от логической структуры до операционного режима;
• формирует инженерную культуру, где надёжность и прозрачность важнее скорости на короткой дистанции.
В общем там очень интересный контент про управление рисками, из оценку, планирование, дизайн систем и тп.
Это не просто книга про космос — это эталон мышления инженеров, которые строят системы, где ошибка недопустима.
Что даёт эта книга:
• учит системному подходу — как из идей и требований выстроить архитектуру, которая выдержит нагрузку и время;
• показывает, как проектировать, верифицировать и валидировать решения на каждом этапе жизненного цикла;
• помогает увидеть систему целиком — от логической структуры до операционного режима;
• формирует инженерную культуру, где надёжность и прозрачность важнее скорости на короткой дистанции.
В общем там очень интересный контент про управление рисками, из оценку, планирование, дизайн систем и тп.
✍1
Forwarded from Клуб CDO
Клуб CDO
Наверное неожиданно, но все кто занимается управлением разработкой и работой сложных систем, хочу порекомендовать к прочтению: NASA Systems Engineering Handbook Это не просто книга про космос — это эталон мышления инженеров, которые строят системы, где ошибка…
nasa_systems_engineering_handbook_0.pdf
3.6 MB
Кто просил электронную копию? Вот нашлась
Forwarded from AISecHub
EchoGram: The Hidden Vulnerability Undermining AI Guardrails - https://hiddenlayer.com/innovation-hub/echogram-the-hidden-vulnerability-undermining-ai-guardrails/
Hiddenlayer
EchoGram: Bypassing AI Guardrails via Token Flip Attacks
HiddenLayer unveils EchoGram, a new attack technique that manipulates AI guardrails protecting LLMs like GPT-4, Claude, and Gemini.
🔥1
Forwarded from CyberSecurityTechnologies
emb3d-stix-2.0.1.json
766.7 KB
#tools
#AIOps
#Red_Team_Tactics
"UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning", Nov. 2025.
]-> https://github.com/AI-secure/UDora
// In this work, we present UDora, a unified red teaming framework designed for LLM agents that dynamically hijacks the agent's reasoning processes to compel malicious behavior
#AIOps
#Red_Team_Tactics
"UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning", Nov. 2025.
]-> https://github.com/AI-secure/UDora
// In this work, we present UDora, a unified red teaming framework designed for LLM agents that dynamically hijacks the agent's reasoning processes to compel malicious behavior
👎1
Forwarded from CyberSecurityTechnologies
LLMs_for_Phishing_Detection.pdf
625.1 KB
#Research
"How Can We Effectively Use LLMs for Phishing Detection?: Evaluating the Effectiveness of Large Language Model-based Phishing Detection Models", 2025.
// This study investigates how to effectively leverage LLMs for phishing detection by examining the impact of input modalities (screenshots, logos, HTML, URLs), temperature settings, and prompt engineering strategies. We evaluate seven LLMs - two commercial models (GPT 4.1, Gemini 2.0 flash) and five open-source models (Qwen, Llama, Janus, DeepSeek-VL2, R1) - alongside two DL-based baselines (PhishIntention and Phishpedia). Our findings reveal that commercial LLMs generally outperform open-source models in phishing detection, while DL models demonstrate better performance on benign samples
"How Can We Effectively Use LLMs for Phishing Detection?: Evaluating the Effectiveness of Large Language Model-based Phishing Detection Models", 2025.
// This study investigates how to effectively leverage LLMs for phishing detection by examining the impact of input modalities (screenshots, logos, HTML, URLs), temperature settings, and prompt engineering strategies. We evaluate seven LLMs - two commercial models (GPT 4.1, Gemini 2.0 flash) and five open-source models (Qwen, Llama, Janus, DeepSeek-VL2, R1) - alongside two DL-based baselines (PhishIntention and Phishpedia). Our findings reveal that commercial LLMs generally outperform open-source models in phishing detection, while DL models demonstrate better performance on benign samples
👍1👎1