Снизить кардинальность метрик
3 часа ночи, у вас красный дашборд, неделю назад вы дропнули user_id в угоду оптимизации хранения данных, но запросы все равно отрабатывают жутко медленно. Идентификаторы типа container_id, customer_tenant_id, request_trace_id, user_id, feature_flag_version или commit_sha — не просто метрики. Это важные параметры, необходимые для отладки сложных систем.
Несколько очевидных стратегий:
🚀 не собирайте метрики слишком часто (не чаще, чем они могут поменяться)
🚀 дропайте ненужные лейблы
🚀 выполняйте агрегации (до записи в бэкэнд)
Один из способов выполнения агрегаций — это использование stream aggregation в vmagent от VictoriaMetrics. В этом видео кофаундер VM Роман Хавроненко рассказывает как это работает.
P.S. Это не единственный способ агрегации. Похожий функционал есть и в других инструментах, например, OTEL Collector.
3 часа ночи, у вас красный дашборд, неделю назад вы дропнули user_id в угоду оптимизации хранения данных, но запросы все равно отрабатывают жутко медленно. Идентификаторы типа container_id, customer_tenant_id, request_trace_id, user_id, feature_flag_version или commit_sha — не просто метрики. Это важные параметры, необходимые для отладки сложных систем.
Несколько очевидных стратегий:
🚀 не собирайте метрики слишком часто (не чаще, чем они могут поменяться)
🚀 дропайте ненужные лейблы
🚀 выполняйте агрегации (до записи в бэкэнд)
Один из способов выполнения агрегаций — это использование stream aggregation в vmagent от VictoriaMetrics. В этом видео кофаундер VM Роман Хавроненко рассказывает как это работает.
P.S. Это не единственный способ агрегации. Похожий функционал есть и в других инструментах, например, OTEL Collector.
1🔥9❤2👍2
Наблюдаемость .NET-сервисов с помощью OpenTelemetry (traces/metrics/logs). Практический пример
Практический пример:
В этой статье показано как с нуля подключить OpenTelemetry в ASP.NET Core проект и получить полноценную наблюдаемость: распределённые трейсы, метрики и логи.
@monitorim_it
Практический пример:
Поднимаем стенд в docker-compose (gateway + api + postgres + otel-collector + SigNoz/ClickHouse).
Делаем 3 запроса: быстрый / медленный / с исключением.
Смотрим в SigNoz трейсы (включая DB span), метрики и логи с привязкой к trace_id.
Разбираем, как это конфигурируется в .NET (Resource, OTLP export, логирование).
В этой статье показано как с нуля подключить OpenTelemetry в ASP.NET Core проект и получить полноценную наблюдаемость: распределённые трейсы, метрики и логи.
@monitorim_it
🔥8👍3❤2
VictoriaLogs в Kubernetes: от установки до практического применения
Гигантская статья на Хабре по устройству VictoriaLogs с воркшопом по установке и настройке. Прочитайте, если рассматриваете этот инструмент в качестве бэкэнда для хранения логов.
@monitorim_it
Гигантская статья на Хабре по устройству VictoriaLogs с воркшопом по установке и настройке. Прочитайте, если рассматриваете этот инструмент в качестве бэкэнда для хранения логов.
@monitorim_it
🔥13👍8
Datadog, спасибо, что заблокировали нас
Прочитайте любопытную статью о том как вендор закрыл доступ к своей платформе, подумав, что стартап, использующий их решение для закрытия потребностей в мониторинге, пытается проводить реверс-инжиниринг и создать конкуририрующий продукт.
🧑🎓 Мораль: рассмотрите переход на вендоронезависимые решения по сбору данных, чтобы быть готовым к такого рода неожиданностям (даже, если у вас и так открытое решение). Бэкэндов для хранения данных наблюдаемости сейчас вагон и маленькая тележка. Перейти с одной платформы на другую в таком случае не составит большого труда.
@monitorim_it
15 декабря 2025 года команда Deductive получила неожиданное электронное письмо от Datadog, в котором сообщалось, что наш аккаунт находится на рассмотрении. Хотя такое внимание со стороны крупного игрока отрасли всегда приятно, мы изначально предполагали, что проблема будет быстро решена путем разъяснений. Нам не сразу пришло в голову, что публичная компания масштаба Datadog может рассматривать гораздо меньший стартап, такой как Deductive, как потенциальную конкурентную угрозу.
Прочитайте любопытную статью о том как вендор закрыл доступ к своей платформе, подумав, что стартап, использующий их решение для закрытия потребностей в мониторинге, пытается проводить реверс-инжиниринг и создать конкуририрующий продукт.
🧑🎓 Мораль: рассмотрите переход на вендоронезависимые решения по сбору данных, чтобы быть готовым к такого рода неожиданностям (даже, если у вас и так открытое решение). Бэкэндов для хранения данных наблюдаемости сейчас вагон и маленькая тележка. Перейти с одной платформы на другую в таком случае не составит большого труда.
@monitorim_it
👍12🔥5❤4
Нельзя отладить систему, обвиняя человека
Интересная статья о том, как создавать blameless-культуру в вашей организации (и какие правильные вопросы нужно себе задать). Анализ инцидентов — это один из самых честных способов увидеть, как функционирует ваша организация изнутри.
@monitorim_it
Представьте, что вы на кухне с другом. Вы вместе готовите, болтаете, режете, помешиваете. В какой-то момент ваш друг порезал палец, когда резал лук. Первое, что вы делаете, очевидно: смягчаете удар. Вы берете бумажное полотенце, помогаете ему промыть рану и находите пластырь.
А теперь представьте, что сразу после того, как вы наклеили пластырь, вы говорите что-то вроде : «Ну, будьте немного осторожнее с этим ножом».
В тот самый момент вы разрываете важную связь, решив, что «причина» в том, что они были недостаточно осторожны. В результате вы можете никогда не узнать, что на лезвии ножа есть небольшая выемка, из-за которой он иногда соскальзывает, или что ваш друг был рассеян из-за сложного разговора, или что вы оба спешили, потому что сковорода уже была горячей, и вы хотели положить лук, прежде чем он подгорит.
Возможно, вы осознаете некоторые из этих вещей лишь позже, когда они произойдут с вами.
«Просто будьте осторожнее» — это звучит как ответ, но он жертвует простой историей ради возможности понять, что происходит на самом деле.
Интересная статья о том, как создавать blameless-культуру в вашей организации (и какие правильные вопросы нужно себе задать). Анализ инцидентов — это один из самых честных способов увидеть, как функционирует ваша организация изнутри.
@monitorim_it
👍7🔥6
Reducing Log Volume with the OpenTelemetry Log Deduplication Processor
Если просто собирать все логи и никаких действий над ними не предпринимать, то когда-нибудь придет момент необходимости увеличения массивов хранения данных.
В статье разобран принцип работы процессора дедупликации журналов OpenTelemetry Collector (
@monitorim_it
Если просто собирать все логи и никаких действий над ними не предпринимать, то когда-нибудь придет момент необходимости увеличения массивов хранения данных.
В статье разобран принцип работы процессора дедупликации журналов OpenTelemetry Collector (
logdedupprocessor), который предлагает элегантное решение этой проблемы. Процессор вычисляет хеш этих полей и отслеживает их появление в течение настраиваемого интервала. По истечении заданного интервала процессор выдает одну запись в журнал с тремя дополнительными атрибутами: log_count (количество дубликатов), first_observed_timestamp (время появления первого события) и last_observed_timestamp (время появления последнего события).@monitorim_it
🔥9👍5
Разыгрываем 7 ваучеров на обучение и сертификацию со скидкой 100% от The Linux Foundation, а также 7 доступов к видеокурсу Kubernetes: База от Slurm.
Ваучеры можно применить к любому:
— онлайн-курсу
— сертификационному экзамену (CKA, CKS, CKAD и другие — в комплекте!)
— или пакету (курс + сертификация)
Условия розыгрыша просты:
Go-go-go, и успехов!
👉 Участвовать
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Observability-as-Code в Spring Boot: Контракты и тесты для метрик, логов и трейсов
В этой статье подробно разбирается, почему такой подход эффективен, и как его реализовать в Spring Boot с использованием Micrometer, OpenTelemetry и инструментов вроде ArchUnit.
@monitorim_it
Observability-as-Code - это подход, при котором базовые элементы наблюдаемости (метрики, логи, трассировки) описываются и проверяются так же строго, как и код самого приложения. Эта информация хранится в VCS и к ней выдвигаются такие же требования, как “остальному коду”. Инженеры явно описывают "контракт" наблюдаемости (какие метрики и логи должна выдавать система, с какими свойствами), снабжают этот контракт автоматическими тестами и включают проверки в процесс CI/CD.
В этой статье подробно разбирается, почему такой подход эффективен, и как его реализовать в Spring Boot с использованием Micrometer, OpenTelemetry и инструментов вроде ArchUnit.
@monitorim_it
🔥9👍2
Getting Started with Host Metrics Using OpenTelemetry
В статье приведены примеры конфигов OTel коллектора для сбора метрик хоста и кубера. У-унификация.
@monitorim_it
В статье приведены примеры конфигов OTel коллектора для сбора метрик хоста и кубера. У-унификация.
@monitorim_it
🔥9👍2
Grafana dashboards: tips for optimizing query performance
Даже при наличии мощного бэкэнда данных для визуализации производительность может снижаться, если запросы не оптимизированы или системные настройки не настроены корректно. В этой статье в блоге Grafana собраны рекомендации по оптимальному дашбордостроению.
@monitorim_it
Даже при наличии мощного бэкэнда данных для визуализации производительность может снижаться, если запросы не оптимизированы или системные настройки не настроены корректно. В этой статье в блоге Grafana собраны рекомендации по оптимальному дашбордостроению.
@monitorim_it
🔥13👍7❤1
phoenix
Phoenix — это платформа для мониторинга и анализа данных с использованием искусственного интеллекта и с открытым исходным кодом, предназначенная для оценки производительности и устранения неполадок LLM-приложений. Phoenix работает практически где угодно, включая локальный компьютер, блокнот Jupyter, контейнеризированную среду или облако.
Репыч на Гитхаб
@monitorim_it
Phoenix — это платформа для мониторинга и анализа данных с использованием искусственного интеллекта и с открытым исходным кодом, предназначенная для оценки производительности и устранения неполадок LLM-приложений. Phoenix работает практически где угодно, включая локальный компьютер, блокнот Jupyter, контейнеризированную среду или облако.
Репыч на Гитхаб
@monitorim_it
🔥6👍2🤔2
Building a synthetic monitoring solution for Jaeger with Grafana k6
В этой статье рассматривается использование Grafana k6 для сценариев синтетического мониторинга.
@monitorim_it
Синтетический мониторинг меняет подход — вместо пассивного сбора метрик из реального, потенциально скомпрометированного трафика, синтетический мониторинг позволяет имитировать путь пользователя, чтобы получить однозначные данные о качестве сервиса. Он помогает непрерывно отслеживать продакшен-среду извне, используя проверки, которые запускаются с частыми интервалами, например, каждые пять минут, с использованием виртуального пользователя.
Для решения этой задачи мы обратились к Grafana k6 , инструменту тестирования производительности с открытым исходным кодом, который помогает проверять производительность системы при экстремальных нагрузках.
В этой статье рассматривается использование Grafana k6 для сценариев синтетического мониторинга.
@monitorim_it
🔥6👍2
Vibe coding tools observability with VictoriaMetrics Stack and OpenTelemetry
Читать дальше в блоге VictoriaMetrics
@monitorim_it
Такие инструменты, как Claude Code, OpenAI Codex, Gemini CLI, Qwen Code и OpenCode, реализовали то, что многие называют «вайб-кодингом». Хорошая новость в том, что все основные инструменты для программирования на Vibe теперь поддерживают OpenTelemetry. В сочетании с открытым исходным кодом VictoriaMetrics Observability Stack вы можете создать мощное и экономичное решение для мониторинга, которое обеспечит глубокое понимание ваших рабочих процессов разработки с использованием ИИ.
Читать дальше в блоге VictoriaMetrics
@monitorim_it
👍6🔥4❤1
kubernetes-autoscaling-mixin
В этом репозитории собран набор дашбордов Grafana и оповещений Prometheus для автомасштабирования Kubernetes с использованием метрик из Kube-state-metrics, Karpenter и Cluster-autoscaler.
Это расширение для Kubernetes-mixin , добавляющее мониторинг компонентов, которые по умолчанию не развертываются в кластере Kubernetes (VPA, Karpenter, Cluster-Autoscaler).
Репыч на Гитхаб
@monitorim_it
В этом репозитории собран набор дашбордов Grafana и оповещений Prometheus для автомасштабирования Kubernetes с использованием метрик из Kube-state-metrics, Karpenter и Cluster-autoscaler.
Это расширение для Kubernetes-mixin , добавляющее мониторинг компонентов, которые по умолчанию не развертываются в кластере Kubernetes (VPA, Karpenter, Cluster-Autoscaler).
Репыч на Гитхаб
@monitorim_it
🔥7👍5❤1
Приглашаем вас на совместный вебинар Yandex Cloud и Галс Софтвэр, посвящённый возможностям и практическим аспектам работы с сервисом Managed OpenSearch.
📅 Дата: 2 февраля 2026 года
🕒 Формат: онлайн
🎙 Участие: бесплатное, по предварительной регистрации
👉 Зарегистрируйтесь на вебинар заранее, чтобы получить ссылку на трансляцию и материалы участников.
⚡️Спикеры вебинара:
🗣 Владислав Таболин, руководитель группы разработки Yandex Cloud, расскажет:
🚀 об архитектуре и особенностях сервиса Managed OpenSearch;
🚀 ключевых преимуществах управляемого сервиса;
🚀 сценариях использования OpenSearch в корпоративных и высоконагруженных системах;
🚀 вопросах надёжности, масштабирования и эксплуатации.
🗣Антон Касимов, основатель компании Галс Софтвэр, поделится:
🚀 методами оптимизации хранения данных в OpenSearch;
🚀 подходами к снижению затрат на хранение;
🚀 подробностями хранения данных в OpenSearch;
🚀 типичными ошибками и best practices из реальных проектов.
Кому будет полезен вебинар:
🚀 инженерам и архитекторам;
🚀 DevOps и SRE-специалистам;
🚀 руководителям ИТ-подразделений;
🚀 всем, кто использует или планирует использовать OpenSearch в продуктивных системах.
В завершение вебинара вас ждёт сессия вопросов и ответов, где спикеры разберут реальные кейсы и практические ситуации.
👉 Зарегистрируйтесь на вебинар, чтобы:
🚀 получить доступ к трансляции;
🚀 задать вопросы экспертам Yandex Cloud и Галс Софтвэр;
🚀 получить материалы и запись после мероприятия.
❗️ Будем рады видеть вас на вебинаре!
📅 Дата: 2 февраля 2026 года
🕒 Формат: онлайн
🎙 Участие: бесплатное, по предварительной регистрации
👉 Зарегистрируйтесь на вебинар заранее, чтобы получить ссылку на трансляцию и материалы участников.
⚡️Спикеры вебинара:
🗣 Владислав Таболин, руководитель группы разработки Yandex Cloud, расскажет:
🚀 об архитектуре и особенностях сервиса Managed OpenSearch;
🚀 ключевых преимуществах управляемого сервиса;
🚀 сценариях использования OpenSearch в корпоративных и высоконагруженных системах;
🚀 вопросах надёжности, масштабирования и эксплуатации.
🗣Антон Касимов, основатель компании Галс Софтвэр, поделится:
🚀 методами оптимизации хранения данных в OpenSearch;
🚀 подходами к снижению затрат на хранение;
🚀 подробностями хранения данных в OpenSearch;
🚀 типичными ошибками и best practices из реальных проектов.
Кому будет полезен вебинар:
🚀 инженерам и архитекторам;
🚀 DevOps и SRE-специалистам;
🚀 руководителям ИТ-подразделений;
🚀 всем, кто использует или планирует использовать OpenSearch в продуктивных системах.
В завершение вебинара вас ждёт сессия вопросов и ответов, где спикеры разберут реальные кейсы и практические ситуации.
👉 Зарегистрируйтесь на вебинар, чтобы:
🚀 получить доступ к трансляции;
🚀 задать вопросы экспертам Yandex Cloud и Галс Софтвэр;
🚀 получить материалы и запись после мероприятия.
❗️ Будем рады видеть вас на вебинаре!
🔥5❤1👍1👎1
Туториал по Wireshark для начинающих
В этой статье объясняется, как установить Wireshark и использовать его для выявления проблем с подключением, обнаружения подозрительной активности и анализа производительности сети.
@monitorim_it
Среди множества инструментов для обеспечения сетевой безопасности Wireshark выделяется своей способностью захватывать и отображать пакеты в реальном времени, что особенно полезно для диагностики и анализа сети.
Wireshark прост в использовании и является отличным вариантом для новичков, но при этом достаточно мощный для профессионалов, которым нужны детализированные данные о сетевом трафике.
В этой статье объясняется, как установить Wireshark и использовать его для выявления проблем с подключением, обнаружения подозрительной активности и анализа производительности сети.
@monitorim_it
👍8🔥6👎1
React 19 is coming to Grafana: what plugin developers need to know
Уже в апреле планируется релиз Grafana 13 с React 19 на борту. В этой статье в блоге Grafana разобрано как обновление будет влиять на плагины и как проверять совместимость используемого вам плагина с новой версией Grafana.
Уже в апреле планируется релиз Grafana 13 с React 19 на борту. В этой статье в блоге Grafana разобрано как обновление будет влиять на плагины и как проверять совместимость используемого вам плагина с новой версией Grafana.
🔥8👍4
Zabbix: обучение и техподдержка
Возьмем на поддержку ваш Zabbix и/или обучим на официальных курсах Zabbix сертифицированный специалист (ZCS) / профессионал (ZCP) в феврале-марте
Gals Software — команда сертифицированных экспертов с многолетним опытом работы с Zabbix. Наши специалисты освобождают руки администраторов систем и дают им уверенность в надежности мониторинга.
💼Техподдержка 1,2 и 3 линии (описание на сайте):
🧭 проводим аудит и оптимизацию архитектуры (сервер, прокси, БД)
🧩 настраиваем шаблоны: стандартные и кастомные под ваш стек (Linux/Windows, СУБД, сеть, бизнес-метрики)
🔕 снижаем событийный шум: нормализация триггеров, пороги, зависимые элементы
🔗 интегрируем Zabbix с Telegram, почтой, ITSM/CMDB, веб-хуками и внешними API
📈 строим понятные дашборды для бизнеса и техподдержки (Grafana по желанию)
⬆️ безопасно обновляем версии, мигрируем и масштабируем
🧑🏫 обучаем вашу команду и делимся практиками
🎓 Тренинги от создателей Zabbix на русском с получением официального сертификата:
📅 Zabbix сертифицированный специалист 7.0 (ZCS 7.0) 9-13 февраля 2026
📅 Zabbix сертифицированный профессионал 7.0 (ZCP 7.0) 11-13 марта 2026
📅 Zabbix сертифицированный эксперт 7.0 (ZCE 7.0) 15-19 июня 2026
❗️Полное расписание тренингов.
Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с Zabbix сразу после прохождения тренинга.
Подробную информацию о наших услугах вы можете запросить, написав @galssoftware или через почту hello@gals.software.
Реклама. ООО Галс Софтвэр, ИНН 5047195298, erid 2VtzquvF3oh
Возьмем на поддержку ваш Zabbix и/или обучим на официальных курсах Zabbix сертифицированный специалист (ZCS) / профессионал (ZCP) в феврале-марте
Gals Software — команда сертифицированных экспертов с многолетним опытом работы с Zabbix. Наши специалисты освобождают руки администраторов систем и дают им уверенность в надежности мониторинга.
💼Техподдержка 1,2 и 3 линии (описание на сайте):
🧭 проводим аудит и оптимизацию архитектуры (сервер, прокси, БД)
🧩 настраиваем шаблоны: стандартные и кастомные под ваш стек (Linux/Windows, СУБД, сеть, бизнес-метрики)
🔕 снижаем событийный шум: нормализация триггеров, пороги, зависимые элементы
🔗 интегрируем Zabbix с Telegram, почтой, ITSM/CMDB, веб-хуками и внешними API
📈 строим понятные дашборды для бизнеса и техподдержки (Grafana по желанию)
⬆️ безопасно обновляем версии, мигрируем и масштабируем
🧑🏫 обучаем вашу команду и делимся практиками
🎓 Тренинги от создателей Zabbix на русском с получением официального сертификата:
📅 Zabbix сертифицированный специалист 7.0 (ZCS 7.0) 9-13 февраля 2026
📅 Zabbix сертифицированный профессионал 7.0 (ZCP 7.0) 11-13 марта 2026
📅 Zabbix сертифицированный эксперт 7.0 (ZCE 7.0) 15-19 июня 2026
❗️Полное расписание тренингов.
Интенсивы, в отличие от многомесячных тренингов, позволяют максимально быстро погрузиться в тему и начинать работу с Zabbix сразу после прохождения тренинга.
Подробную информацию о наших услугах вы можете запросить, написав @galssoftware или через почту hello@gals.software.
Реклама. ООО Галс Софтвэр, ИНН 5047195298, erid 2VtzquvF3oh
👍3🔥3👎1
Мониторинг и управление качеством мобильного интернета на микротике
Статья посвящена изучению возможностей роутеров микротик в деле управления качеством мобильного интернета с плохим качеством LTE сигнала, т.е. в удаленных уголках. И да, качество можно поднять антенной, но оно все равно не будет таким как по проводному интернету.
Дополнительно, рассказано как пулять сообщения в телегу из микротика, парсить логи микротика, а также отправлять статистику работы в гугл таблицу для накопления и последующего удаленного анализа.
@monitorim_it
Цели и задачи
Работающий интернет в частный дом в Московской области. Проводных аналогов нет.
Что имеем на руках
Роутер Mikrotik hap ac3 LTE. Но можно любой микротик + LTE модем - я настраивал сначала все именно так, а потом переносил на микротик LTE. Всю сложную логику будем реализовывать на микротике.
Статья посвящена изучению возможностей роутеров микротик в деле управления качеством мобильного интернета с плохим качеством LTE сигнала, т.е. в удаленных уголках. И да, качество можно поднять антенной, но оно все равно не будет таким как по проводному интернету.
Дополнительно, рассказано как пулять сообщения в телегу из микротика, парсить логи микротика, а также отправлять статистику работы в гугл таблицу для накопления и последующего удаленного анализа.
@monitorim_it
🔥6👍4
Business intelligence plugins for Grafana: what's next
Вы могли слышать про плагины для Grafana от Volkov Labs. В прошлом году их купили и теперь Grafana Labs взяла на себя поддержку и разработку их набора плагинов для бизнес-аналитики.
В этой статье в блоге Grafana рассказывают как они дальше будут развивать эти плагины и делятся подробностями о наиболее известных плагинах.
@monitorim_it
Вы могли слышать про плагины для Grafana от Volkov Labs. В прошлом году их купили и теперь Grafana Labs взяла на себя поддержку и разработку их набора плагинов для бизнес-аналитики.
В этой статье в блоге Grafana рассказывают как они дальше будут развивать эти плагины и делятся подробностями о наиболее известных плагинах.
@monitorim_it
🔥7👍3❤1