Мониторим ИТ – Telegram
Мониторим ИТ
8.11K subscribers
218 photos
2 files
1.55K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Observability, Monitoring, Alerting

Пирамида мониторинга. Читать дальше.
How to write a webhook for Zabbix

Даже не смотря на то, что Zabbix из коробки имеет более 30 интеграций, связанных с оповещениями, иногда требуется написать собственную В этом посте в блоге Zabbix разбираются как это сделать. Читать дальше.
Kubernetes + ChatGPT Smart Alerting — Robusta

Что произойдет, если объединить Prometheus, работающий на Kubernetes, интеллектуальный движок, говорящий с ChatGPT, и Sink, подобный Slack? Вы получите платформу с открытым исходным кодом для устранения неполадок Kubernetes под названием Robusta.

В этом посте рассказывается об использовании Robusta в качестве верхнего слоя стека мониторинга Prometheus и показывается вам, почему возникают алерты и как их устранить. Читать дальше.
Get to know TraceQL: A powerful new query language for distributed tracing

Недавно состоялся релиз Tempo версии 2.0. В связи с этим релизом был представлен TraceQL - новый мощный язык запросов, разработанный для распределенной трассировки. В этой статье рассказывается о том, зачем был создан TraceQL, как он работает, как вы можете использовать и что планируется в будущих релизах. Читать дальше.
«Лента» успешно завершила пилотное внедрение observability платформы GMonit.

Интеграция продукта ИТ-мониторинга позволила ведущему ритейлеру настроить гибкие индивидуальные алерты, тем самым снизить уровень «шума» и упростить работу службы эксплуатации. Существенно сократилось время разбора инцидентов за счет доступа к глубокой аналитике всего в 2−3 клика. Кроме того, новый ИТ-продукт позволил получить детальное понимание производительности приложений на уровне конкретных транзакций и запросов в системе, а также взаимодействия с внешними сервисами.

Следующий этап проекта — масштабирование платформы.
https://gmonit.ru/press-reliz-lenta

Подписывайтесь на канал @gmonit
LLD Filtering with Macros

В этой статье я рассказано, как пользовательские макросы и регулярные выражения используются в LLD для фильтрации результатов обнаружения. В качестве примера я использован шаблон Network Generic Device by SNMP. Читать дальше.
Managing Grafana Dashboards With Terraform

Ручное управление дашбордами в Grafana имеет некоторые недостатки, например, случайное удаление графиков, люди "тестируют" изменения и забывают их убрать. В этой статье разобран подход Config as Code относительно Grafana. Читать дальше.
Logging Best Practices: Proven Techniques for Services

При правильном подходе логирование может дать ценные сведения о производительности и использовании приложения, что поможет повысить общую надежность и улучшить пользовательский опыт. В этой статье о подходах к логированию. Читать дальше.
Kubernetes Logging essentials with EFK — Elasticsearch Fluentbit Kibana

Логирование - неотъемлемая часть любого приложения. В этой статье разбирается сбор логов из кластера Kubernetes при помощи EFK. Читать дальше.
Повышаем производительность и безопасность мониторингом логов и метрик

В этой статье разбирается роль мониторинга в наблюдаемости, особенно его связь с безопасностью, производительностью и надёжностью. Мониторинг необходим для выявления происходящих в продакшене проблем и выбросов, он позволяет командам DevSecOps выявлять и устранять проблемы до того, как они нанесут серьёзный урон. Мониторинг снижения производительности или подозрительной активности может вызывать алерты и автоматическое реагирование для изоляции потенциальных проблем или атак. Читать дальше.
Real Life Business Service Monitoring (статья из блога Zabbix)

С помощью мониторинга бизнес-услуг можно увидеть, что именно происходит с вашим бизнесом, в зависимости от состояния каждой отдельной части вашей инфраструктуры. Это позволяет нам, администраторам и владельцам сервисов, понять, что на самом деле означает поломка оборудования или недоступность устройства. С помощью мониторинга бизнес-услуг мы видим, что именно влияет на наш бизнес и насколько серьезна ситуация, включая расчет SLA (соглашение об уровне обслуживания) и его оценку в сравнении с определенным SLO (целевой уровень обслуживания). Читать дальше.
Измеряем команду с JIRA и Grafana: sprint reports, грейдирование и не только

Мы работаем с JIRA. Теоретически, можно сделать отдельный JIRA report, но у нас практически нет Java-разработчиков, да и это займет время. Но зато есть Grafana и доступ к реплике БД JIRA. Поэтому мой выбор пал на связку Grafana + Jira. Нужно было лишь разобраться во внутреннем устройстве БД JIRA. Особо рекомендую обратить внимание на историю изменений и кастомные поля. Читать дальше.
Creating Time Series Plots in Grafana

В этой статье пример того, как построить график временного ряда в Grafana на основе данных из MySQL, показывающий температуру и влажность. Читать дальше.
Monitor your databases with Open Source tools

В этом видео с Fosdem 2023 вы узнаете о технологиях мониторинга БД PostgreSQL при помощи PMM (Percona Monitoring and Management). Выступающая Edith Puclla — технический специалист из Percona.

PMM поддерживает мониторинг MySQL, MariaDB PostgreSQL, MongoDB. Построен на базе Grafana, VictoriaMetrics/Prometheus, ClickHouse, PostgreSQL и Docker. Удобное и завершенное решение для мониторинга поддерживаемых БД.

Посмотреть запись

Репыч на Гитхабе
Create GeoIP dashboards in Grafana from iptables logs

Существует множество решений, как сопоставить IP-адреса с географическим местоположением, например, с помощью логов веб-сервера. Существует также множество вариантов их отображения с помощью различных решений для мониторинга. Однако если у вас есть несколько служб, которые создают журналы, может оказаться утомительным настраивать их все для сопоставления логов доступа с GeoIP. Когда вы можете брать IP-адреса непосредственно из брандмауэра, получить всю необходимую информацию можно в одном месте.

В этой статье о настройке Grafana для отображения информации о GeoIP, поступающей из журналов iptables. Читать дальше.
Developing Dashboards Using Grafana

В этой статье приведены два примера визуализации данных в Grafana из различных источников: MySQL и Web API. Если с первым более менее понятно, то со вторым всё гораздо интереснее. Здесь приведен пример создания бэкэнда с REST API и использования плагина Simplejson от Grafana. Читать дальше.
Open-Source Tracing Tools: Jaeger Vs. Zipkin Vs. Grafana Tempo

Трассировка вызовов в распределенном приложении очень важна для мониторинга. В этой статье рассматриваются три наиболее популярных инструмента трассировки с открытым исходным кодом: Jaeger, Zipkin и Grafana Tempo, а также приводится их сравнение в виде таблицы. Читать дальше.
Django Monitoring with Prometheus and Grafana

Prometheus Package для Django обеспечивает отличную интеграцию с Prometheus, но коробочным дашбордам и оповещениям не хватает некоторых собираемых данных. Дашборды в Grafana не использует большую часть метрик, предоставляемых пакетом Django-Prometheus, кроме того, отсутствуют фильтры для представлений, методов, заданий и пространств имен. В этой статье представлен Django-mixin - набор правил Prometheus и дашбордов Grafana для Django. Дашборды и оповещения реализуют представление информации о примененных/непримененных миграциях, метриках RED (запросы в секунду, процент ошибок в запросе, задержках для каждого запроса), операциях с базой данных и частоте попадания в кэш. Читать дальше.
6 Best Practices for Effective Monitoring Alerts

В этой статье обзор лучших практик для создания эффективных оповещений мониторинга, которые обеспечат бесперебойную работу систем, а также тех, которые этого не сделают. Думаю, вы в курсе всех этих лучших практик, однако, эту статью можно использовать как чек лист, чтобы ещё раз взглянуть на свои алерты.

Ключевые моменты:

1. Prioritized Alerts
2. Actionable Alerts
3. Documentation Attached
4. Alerts != Incident Management
5. Don’t limit your notifications channels
6. Use complex conditions to refine alerts

Читать дальше.
18 Kubernetes Metrics to Monitor for Optimal Cluster Performance

В этой статье рассказано о 18 метриках Kubernetes, которые можно использовать как в on-prem так и в облачных средах. Читать дальше.
Locust Real-Time Monitoring with Grafana

Во время нагрузочного тестирования хочется мгновенно увидеть результаты по нужным метрикам. Каждый нагрузочный тест может потребовать сосредоточиться на разных метриках. Соответственно, нужно иметь возможность редактировать эти метрики по желанию и настраивать их.

В этой статье рассказывается как проводить нагрузочные тесты с помощью locust, мгновенно экспортировать метрики с помощью Prometheus и отображать нужные метрики в Grafana. Читать дальше.