Alerts, what are they good for?
Признаки хорошего алерта:
⚡️ алерт имеет run-book / документированный план действий
⚡️ приоритет установлен соответственно влиянию
⚡️ имеет соответствующий дашборд
⚡️ метки и теги назначены правильно (владелец, служба, среда)
⚡️ маршрутизируется правильно (если это критический алерт, будет ли он правильно эскалирован)
Статья с рекомендациями по правильному алертингу.
Признаки хорошего алерта:
⚡️ алерт имеет run-book / документированный план действий
⚡️ приоритет установлен соответственно влиянию
⚡️ имеет соответствующий дашборд
⚡️ метки и теги назначены правильно (владелец, служба, среда)
⚡️ маршрутизируется правильно (если это критический алерт, будет ли он правильно эскалирован)
Статья с рекомендациями по правильному алертингу.
Организаторы ежегодной конференции по мониторингу Monitorama разместили записи прошедшего 27-29 июня 2022 года мероприятия. Записей интересных много, нужно изучать.
Смотреть.
Смотреть.
Анализ производительности с помощью Guider
Guider — это анализатор производительности.
Он предназначен для измерения, анализа, тестирования и проверки производительности систем. Устанавливается через менеджер pip.
Репыч на Гитхабе.
Guider — это анализатор производительности.
Он предназначен для измерения, анализа, тестирования и проверки производительности систем. Устанавливается через менеджер pip.
Репыч на Гитхабе.
GitHub
GitHub - iipeace/guider: Real-time Performance & Fault Detection Service Enabled by Comprehensive Built-in Command
Real-time Performance & Fault Detection Service Enabled by Comprehensive Built-in Command - iipeace/guider
Monitoror — однофайловое приложение для мониторинга, написанное на Go. Умеет работать на Linux, macOS, WIndows.
Репыч на Гитхабе.
Демо.
Репыч на Гитхабе.
Демо.
Percona Monitoring and Management
An open source database monitoring, observability and management tool
Это бесплатный инструмент для мониторинга различных БД. Поддерживаются MySQL, MongoDB, PostgreSQL, Amazon Aurora/RDS, ProxySQL, Percona XtraDB Cluster. Под капотом легко угадывается Grafana.
Посмотреть демо.
Документация.
Установка.
An open source database monitoring, observability and management tool
Это бесплатный инструмент для мониторинга различных БД. Поддерживаются MySQL, MongoDB, PostgreSQL, Amazon Aurora/RDS, ProxySQL, Percona XtraDB Cluster. Под капотом легко угадывается Grafana.
Посмотреть демо.
Документация.
Установка.
New in Grafana 9: The Prometheus query builder makes writing PromQL queries easier
Когда Grafana была запущена в 2014 году, ее главной целью было стать отличным решением для создания дашбордов Graphite. Примерно в то же время начал набирать обороты проект Prometheus, но было неясно, стоит ли его добавлять в Grafana. В конце концов, Grafana была интерфейсом Graphite, в то время было неясно, станет ли Prometheus популярным, и это отнимет ресурсы у основной цели создания Grafana.
Для Graphite и SQL у Grafana уже был построитель запросов. Теперь пришло время и Prometheus. Перенестись в блог Grafana и читать дальше.
Когда Grafana была запущена в 2014 году, ее главной целью было стать отличным решением для создания дашбордов Graphite. Примерно в то же время начал набирать обороты проект Prometheus, но было неясно, стоит ли его добавлять в Grafana. В конце концов, Grafana была интерфейсом Graphite, в то время было неясно, станет ли Prometheus популярным, и это отнимет ресурсы у основной цели создания Grafana.
Для Graphite и SQL у Grafana уже был построитель запросов. Теперь пришло время и Prometheus. Перенестись в блог Grafana и читать дальше.
picosnitch
Утилита для мониторинга трафика в Linux. Собирает данные по приложению, порту, домену, хешу и исполняемому файлу. Конфигурируется через json, а графики показывает в веб-интерфейсе.
Репыч на Гитхабе.
Утилита для мониторинга трафика в Linux. Собирает данные по приложению, порту, домену, хешу и исполняемому файлу. Конфигурируется через json, а графики показывает в веб-интерфейсе.
Репыч на Гитхабе.
Nezha Monitoring
Легковесный мониторинг, который умеет получать информацию о состоянии сервера и проверять доступность удалённого сайта или сервиса.
Демо
Репыч на Гитхабе
Легковесный мониторинг, который умеет получать информацию о состоянии сервера и проверять доступность удалённого сайта или сервиса.
Демо
Репыч на Гитхабе
Site Reliability Engineering: Measuring and Managing Reliability
Это бесплатный курс на Coursera. Все видео там короткие, можно очень быстро изучить. Я на него уже зарегистрировался, рекомендую и вам. Пишут в описании:
Service level indicators (SLIs) и Service level objectives (SLOs) являются основными инструментами для измерения и управления надежностью. В этом курсе слушатели изучают подходы к разработке соответствующих SLI и SLO и управлению надежностью с помощью бюджета ошибок.
Чему вы научитесь:
⚡️ Как сделать системы надежными
⚡️ Количественная оценка рисков и последствий для различных SLO
⚡️ Понимание SLI, SLO и SLA
Это бесплатный курс на Coursera. Все видео там короткие, можно очень быстро изучить. Я на него уже зарегистрировался, рекомендую и вам. Пишут в описании:
Service level indicators (SLIs) и Service level objectives (SLOs) являются основными инструментами для измерения и управления надежностью. В этом курсе слушатели изучают подходы к разработке соответствующих SLI и SLO и управлению надежностью с помощью бюджета ошибок.
Чему вы научитесь:
⚡️ Как сделать системы надежными
⚡️ Количественная оценка рисков и последствий для различных SLO
⚡️ Понимание SLI, SLO и SLA
Семь «НЕ» мониторинга ИТ-инфраструктуры
Это повтор поста почти 4-летней давности, не потерявшего актуальность и сегодня.
Пост на Хабре от представителя Сбербанка (-теха). Его советы, конечно же, расширяются на любой проект по мониторингу (не только для инфраструктуры) и при некоторой модификации на проекты внедрения вообще любого софта.
📌1. НЕ внедряйте инструмент мониторинга
📌2. Интегратор НЕ сделает за вас всей работы
📌3. НЕ путайте мониторинг и администрирование ИТ-инфраструктуры
📌4. НЕ рассчитывайте, что ваши подчиненные будут использовать мониторинг, если вы сами этого не делаете
📌5. НЕ заставляйте сотрудников работать с системой мониторинга
📌6. НЕ концентрируйтесь на проверке функциональности системы мониторинга во время ее испытаний
📌7. Мониторинг НЕ начнет приносить пользу, пока вы не начнете работать с ним и адаптировать его под свои потребности
Особенно близким оказался для меня п.7. Очень часто, когда с начала и до конца проекта у заказчика нет понимания «а кто же будет пользоваться системой», проекты заканичваются внедрением системы, которой никто не будет пользоваться. А деньги потрачены. Лол.
Это повтор поста почти 4-летней давности, не потерявшего актуальность и сегодня.
Пост на Хабре от представителя Сбербанка (-теха). Его советы, конечно же, расширяются на любой проект по мониторингу (не только для инфраструктуры) и при некоторой модификации на проекты внедрения вообще любого софта.
📌1. НЕ внедряйте инструмент мониторинга
📌2. Интегратор НЕ сделает за вас всей работы
📌3. НЕ путайте мониторинг и администрирование ИТ-инфраструктуры
📌4. НЕ рассчитывайте, что ваши подчиненные будут использовать мониторинг, если вы сами этого не делаете
📌5. НЕ заставляйте сотрудников работать с системой мониторинга
📌6. НЕ концентрируйтесь на проверке функциональности системы мониторинга во время ее испытаний
📌7. Мониторинг НЕ начнет приносить пользу, пока вы не начнете работать с ним и адаптировать его под свои потребности
Особенно близким оказался для меня п.7. Очень часто, когда с начала и до конца проекта у заказчика нет понимания «а кто же будет пользоваться системой», проекты заканичваются внедрением системы, которой никто не будет пользоваться. А деньги потрачены. Лол.
Диагностика и мониторинг Wi-Fi устройств в Grafana
В этой статье про опыт сбора метрик с устройств IoT (датчики потребления воды) и их передачи в единое хранилище. Читать на Хабре.
В этой статье про опыт сбора метрик с устройств IoT (датчики потребления воды) и их передачи в единое хранилище. Читать на Хабре.
Визуальные интерфейсы для Clickhouse от сторонних разработчиков
Это страница документации Clickhouse. Читать.
Это страница документации Clickhouse. Читать.
Forwarded from /usr/bin
iperf
iperf — это инструмент для активного измерения максимально достижимой пропускной способности в IP-сетях. Он поддерживает настройку различных параметров, связанных с синхронизацией, протоколами и буферами. Для каждого теста он сообщает измеренную пропускную способность/битрейт, потери и другие параметры.
Статья с описание работы на Medium.
Репыч на Гитхабе.
@usr_bin_linux
iperf — это инструмент для активного измерения максимально достижимой пропускной способности в IP-сетях. Он поддерживает настройку различных параметров, связанных с синхронизацией, протоколами и буферами. Для каждого теста он сообщает измеренную пропускную способность/битрейт, потери и другие параметры.
Статья с описание работы на Medium.
Репыч на Гитхабе.
@usr_bin_linux
Medium
What is iPerf?
Or, how fast is localhost?
grafana-dashboard-manager
A simple cli utility for importing or exporting dashboard json definitions using the Grafana HTTP API.
Репыч на Гитхабе.
A simple cli utility for importing or exporting dashboard json definitions using the Grafana HTTP API.
Репыч на Гитхабе.
Парочка утилит для мониторинга kubernetes
Kubenurse
kubenurse is a little service that monitors all network connections in a Kubernetes cluster. Kubenurse measures request durations, records errors and exports those metrics in Prometheus format. Репыч на Гитхабе.
Goldpinger
Goldpinger makes calls between its instances to monitor your networking. It runs as a DaemonSet on Kubernetes and produces Prometheus metrics that can be scraped, visualised and alerted on. Репыч на Гитхабе.
Kubenurse
kubenurse is a little service that monitors all network connections in a Kubernetes cluster. Kubenurse measures request durations, records errors and exports those metrics in Prometheus format. Репыч на Гитхабе.
Goldpinger
Goldpinger makes calls between its instances to monitor your networking. It runs as a DaemonSet on Kubernetes and produces Prometheus metrics that can be scraped, visualised and alerted on. Репыч на Гитхабе.
Performance/Load Testing with k6 +InfluxDB + Grafana on Windows
k6 — это инструмент нагрузочного тестирования с открытым исходным кодом, который предоставляет разработчикам возможности тестирования производительности API и веб-сайтов. В этой статье про использование связки k6 +InfluxDB + Grafana для целей нагрузочного тестирования. Читать дальше.
k6 — это инструмент нагрузочного тестирования с открытым исходным кодом, который предоставляет разработчикам возможности тестирования производительности API и веб-сайтов. В этой статье про использование связки k6 +InfluxDB + Grafana для целей нагрузочного тестирования. Читать дальше.
The mathematics behind monitoring
Статья про использование математических функций в Prometheus. Читать дальше.
Статья про использование математических функций в Prometheus. Читать дальше.
Creating context-sensitive problem thresholds with Zabbix user macros
Пороговые схемы могут различаться для одной и той же метрики на разных конечных точках мониторинга. У вас может быть сервер, на котором наличие 10% свободного места совершенно нормально, и сервер, на котором все, что ниже 20% - критичное событие. В этом видео рассказывают как модифицировать триггеры в зависимости от контекста (системы, на которой они должны сработать).
Пороговые схемы могут различаться для одной и той же метрики на разных конечных точках мониторинга. У вас может быть сервер, на котором наличие 10% свободного места совершенно нормально, и сервер, на котором все, что ниже 20% - критичное событие. В этом видео рассказывают как модифицировать триггеры в зависимости от контекста (системы, на которой они должны сработать).