Мониторим ИТ – Telegram
Мониторим ИТ
8.08K subscribers
200 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Alerts, what are they good for?

Признаки хорошего алерта:

⚡️ алерт имеет run-book / документированный план действий

⚡️ приоритет установлен соответственно влиянию

⚡️ имеет соответствующий дашборд

⚡️ метки и теги назначены правильно (владелец, служба, среда)

⚡️ маршрутизируется правильно (если это критический алерт, будет ли он правильно эскалирован)

Статья с рекомендациями по правильному алертингу.
Организаторы ежегодной конференции по мониторингу Monitorama разместили записи прошедшего 27-29 июня 2022 года мероприятия. Записей интересных много, нужно изучать.

Смотреть.
Анализ производительности с помощью Guider

Guider — это анализатор производительности.
Он предназначен для измерения, анализа, тестирования и проверки производительности систем. Устанавливается через менеджер pip.

Репыч на Гитхабе.
Monitoror — однофайловое приложение для мониторинга, написанное на Go. Умеет работать на Linux, macOS, WIndows.

Репыч на Гитхабе.

Демо.
Percona Monitoring and Management

An open source database monitoring, observability and management tool

Это бесплатный инструмент для мониторинга различных БД. Поддерживаются MySQL, MongoDB, PostgreSQL, Amazon Aurora/RDS, ProxySQL, Percona XtraDB Cluster. Под капотом легко угадывается Grafana.

Посмотреть демо.

Документация.

Установка.
New in Grafana 9: The Prometheus query builder makes writing PromQL queries easier

Когда Grafana была запущена в 2014 году, ее главной целью было стать отличным решением для создания дашбордов Graphite. Примерно в то же время начал набирать обороты проект Prometheus, но было неясно, стоит ли его добавлять в Grafana. В конце концов, Grafana была интерфейсом Graphite, в то время было неясно, станет ли Prometheus популярным, и это отнимет ресурсы у основной цели создания Grafana.

Для Graphite и SQL у Grafana уже был построитель запросов. Теперь пришло время и Prometheus. Перенестись в блог Grafana и читать дальше.
SysMonTask — простой десктопный мониторинг производительности Linux-системы.

Репыч на Гитхабе.
picosnitch

Утилита для мониторинга трафика в Linux. Собирает данные по приложению, порту, домену, хешу и исполняемому файлу. Конфигурируется через json, а графики показывает в веб-интерфейсе.

Репыч на Гитхабе.
Nezha Monitoring

Легковесный мониторинг, который умеет получать информацию о состоянии сервера и проверять доступность удалённого сайта или сервиса.

Демо

Репыч на Гитхабе
Site Reliability Engineering: Measuring and Managing Reliability

Это бесплатный курс на Coursera. Все видео там короткие, можно очень быстро изучить. Я на него уже зарегистрировался, рекомендую и вам. Пишут в описании:

Service level indicators (SLIs) и Service level objectives (SLOs) являются основными инструментами для измерения и управления надежностью. В этом курсе слушатели изучают подходы к разработке соответствующих SLI и SLO и управлению надежностью с помощью бюджета ошибок.

Чему вы научитесь:
⚡️ Как сделать системы надежными
⚡️ Количественная оценка рисков и последствий для различных SLO
⚡️ Понимание SLI, SLO и SLA
Семь «НЕ» мониторинга ИТ-инфраструктуры

Это повтор поста почти 4-летней давности, не потерявшего актуальность и сегодня.

Пост на Хабре от представителя Сбербанка (-теха). Его советы, конечно же, расширяются на любой проект по мониторингу (не только для инфраструктуры) и при некоторой модификации на проекты внедрения вообще любого софта.

📌1. НЕ внедряйте инструмент мониторинга
📌2. Интегратор НЕ сделает за вас всей работы
📌3. НЕ путайте мониторинг и администрирование ИТ-инфраструктуры
📌4. НЕ рассчитывайте, что ваши подчиненные будут использовать мониторинг, если вы сами этого не делаете
📌5. НЕ заставляйте сотрудников работать с системой мониторинга
📌6. НЕ концентрируйтесь на проверке функциональности системы мониторинга во время ее испытаний
📌7. Мониторинг НЕ начнет приносить пользу, пока вы не начнете работать с ним и адаптировать его под свои потребности

Особенно близким оказался для меня п.7. Очень часто, когда с начала и до конца проекта у заказчика нет понимания «а кто же будет пользоваться системой», проекты заканичваются внедрением системы, которой никто не будет пользоваться. А деньги потрачены. Лол.
Диагностика и мониторинг Wi-Fi устройств в Grafana

В этой статье про опыт сбора метрик с устройств IoT (датчики потребления воды) и их передачи в единое хранилище. Читать на Хабре.
Онлайн-сервис для проверки релейбелинга в Prometheus.

https://relabeler.promlabs.com/
Визуальные интерфейсы для Clickhouse от сторонних разработчиков

Это страница документации Clickhouse. Читать.
Forwarded from /usr/bin
iperf

iperf — это инструмент для активного измерения максимально достижимой пропускной способности в IP-сетях. Он поддерживает настройку различных параметров, связанных с синхронизацией, протоколами и буферами. Для каждого теста он сообщает измеренную пропускную способность/битрейт, потери и другие параметры.

Статья с описание работы на Medium.

Репыч на Гитхабе.

@usr_bin_linux
grafana-dashboard-manager

A simple cli utility for importing or exporting dashboard json definitions using the Grafana HTTP API.

Репыч на Гитхабе.
Парочка утилит для мониторинга kubernetes

Kubenurse

kubenurse is a little service that monitors all network connections in a Kubernetes cluster. Kubenurse measures request durations, records errors and exports those metrics in Prometheus format. Репыч на Гитхабе.

Goldpinger

Goldpinger makes calls between its instances to monitor your networking. It runs as a DaemonSet on Kubernetes and produces Prometheus metrics that can be scraped, visualised and alerted on. Репыч на Гитхабе.
Performance/Load Testing with k6 +InfluxDB + Grafana on Windows

k6 — это инструмент нагрузочного тестирования с открытым исходным кодом, который предоставляет разработчикам возможности тестирования производительности API и веб-сайтов. В этой статье про использование связки k6 +InfluxDB + Grafana для целей нагрузочного тестирования. Читать дальше.
The mathematics behind monitoring

Статья про использование математических функций в Prometheus. Читать дальше.
Creating context-sensitive problem thresholds with Zabbix user macros

Пороговые схемы могут различаться для одной и той же метрики на разных конечных точках мониторинга. У вас может быть сервер, на котором наличие 10% свободного места совершенно нормально, и сервер, на котором все, что ниже 20% - критичное событие. В этом видео рассказывают как модифицировать триггеры в зависимости от контекста (системы, на которой они должны сработать).