Как мы пытались подружить VictoriaMetrics и Thanos (и у нас почти получилось)
Мы в Сравни долгое время использовали связку Prometheus + Thanos для мониторинга и хранения данных. Для Thanos мы использовали схему с sidecar’ом. Эта схема работала довольно неплохо, но с ростом проекта — росло и потребление ресурсов. Со временем задачи по scrape samples уже потребляли значительные ресурсы. Когда только на Prometheus стало уходить больше 30 ядер vCPU и 100 гигабайт RAM, мы начали искать способы оптимизации потребления ресурсов. Читать дальше.
Мы в Сравни долгое время использовали связку Prometheus + Thanos для мониторинга и хранения данных. Для Thanos мы использовали схему с sidecar’ом. Эта схема работала довольно неплохо, но с ростом проекта — росло и потребление ресурсов. Со временем задачи по scrape samples уже потребляли значительные ресурсы. Когда только на Prometheus стало уходить больше 30 ядер vCPU и 100 гигабайт RAM, мы начали искать способы оптимизации потребления ресурсов. Читать дальше.
Что нового в Grafana 9 по части алертинга?
В июне Grafana Labs объявили о выходе новой 9 версии своего решения-хедлайнера — инструмента для визуализации Grafana. Как и полагается мажорной версии, появилось увесистое количество обновлений. И одно из ключевых обновлений — новые возможности алертинга. Ниже некоторые подробности этих обновлений.
⚡️ Инстансные оповещения
До Grafana 9 оповещения нужно было привязывать к панели или дашборду. Теперь алертами можно управлять как будто это регулярное выражение. Правила алертинга могут создавать несколько отдельных экземпляров алертов внутри каждого правила. Правило определяет, когда отправлять оповещения, но оповещать можно сразу по нескольким элементам. Пример из реальной жизни: представьте, что у вас есть умный дом и вы хотите знать, когда открыты окна. У вас может быть одно оповещение «Сообщите мне, открыты ли окна», и для каждого окна вы получите «Окно x открыто!» Не нужно создавать более одного правила.
⚡️ Группировка и маршрутизация оповещений
Когда возникает событийный шторм, сотни оповещений могут прийти одновременно. Политики алертинга решают такую проблему. Это набор правил, определяющих, в какой канал как направляются оповещения. Объединение политик алертинга с функцией группировки позволяет все оповещения, относящиеся к одному компоненту системы, объединить вместе, чтобы Grafana будет отправляла только одно уведомление, содержащее список затронутых сред для этого правила. Политики оповещений имеют древовидную структуру, в которой каждая политика может иметь одну или несколько дочерних политик. Каждая политика, кроме корневой политики, может соответствовать определенным меткам алертов. Каждый алерт оценивается корневой политикой, а затем каждой дочерней политикой, чтобы можно было алертить в определенные каналы. В результате один алерт улетит сразу в несколько каналов на основе определенных критериев метки.
⚡️ Молчание - золото
Бесшумный режим позволяет останавливать уведомления от одного или нескольких правил. С помощью этой новой функции можно частично приостановить оповещение на основе определенных критериев. Бесшумный режим только приостанавливает создание алертов. В пользовательском интерфейсе всё так же будут отображаться экземпляры алертов. Это сделано нарочно: вы можете видеть текущий статус экземпляра алерта, но не получите уведомления.
⚡️ Режим обслуживания на период времени
В Grafana 9 можно указать интервал времени, когда вы не хотите, чтобы новые уведомления генерировались или отправлялись. Например, можно установить время отключения генерации и отправки для нескольких или всех ваших маршрутов оповещений, чтобы вас не отрывали от шашлындоса или посиделок в баре.
Подробнее.
В июне Grafana Labs объявили о выходе новой 9 версии своего решения-хедлайнера — инструмента для визуализации Grafana. Как и полагается мажорной версии, появилось увесистое количество обновлений. И одно из ключевых обновлений — новые возможности алертинга. Ниже некоторые подробности этих обновлений.
⚡️ Инстансные оповещения
До Grafana 9 оповещения нужно было привязывать к панели или дашборду. Теперь алертами можно управлять как будто это регулярное выражение. Правила алертинга могут создавать несколько отдельных экземпляров алертов внутри каждого правила. Правило определяет, когда отправлять оповещения, но оповещать можно сразу по нескольким элементам. Пример из реальной жизни: представьте, что у вас есть умный дом и вы хотите знать, когда открыты окна. У вас может быть одно оповещение «Сообщите мне, открыты ли окна», и для каждого окна вы получите «Окно x открыто!» Не нужно создавать более одного правила.
⚡️ Группировка и маршрутизация оповещений
Когда возникает событийный шторм, сотни оповещений могут прийти одновременно. Политики алертинга решают такую проблему. Это набор правил, определяющих, в какой канал как направляются оповещения. Объединение политик алертинга с функцией группировки позволяет все оповещения, относящиеся к одному компоненту системы, объединить вместе, чтобы Grafana будет отправляла только одно уведомление, содержащее список затронутых сред для этого правила. Политики оповещений имеют древовидную структуру, в которой каждая политика может иметь одну или несколько дочерних политик. Каждая политика, кроме корневой политики, может соответствовать определенным меткам алертов. Каждый алерт оценивается корневой политикой, а затем каждой дочерней политикой, чтобы можно было алертить в определенные каналы. В результате один алерт улетит сразу в несколько каналов на основе определенных критериев метки.
⚡️ Молчание - золото
Бесшумный режим позволяет останавливать уведомления от одного или нескольких правил. С помощью этой новой функции можно частично приостановить оповещение на основе определенных критериев. Бесшумный режим только приостанавливает создание алертов. В пользовательском интерфейсе всё так же будут отображаться экземпляры алертов. Это сделано нарочно: вы можете видеть текущий статус экземпляра алерта, но не получите уведомления.
⚡️ Режим обслуживания на период времени
В Grafana 9 можно указать интервал времени, когда вы не хотите, чтобы новые уведомления генерировались или отправлялись. Например, можно установить время отключения генерации и отправки для нескольких или всех ваших маршрутов оповещений, чтобы вас не отрывали от шашлындоса или посиделок в баре.
Подробнее.
Что нового в Zabbix 6.2
Zabbix сообщил о релизе новой версии Zabbix 6.2. В этой версии появилось несколько нововведений. Ниже подробности.
⚡️ Подавление проблем, порождаемых триггерами
При помощи этой функции можно подавлять проблему на определенный срок или навсегда. Подозреваю, что при подавлении проблемы, она не будет аффектить на доступность сервиса. Нужно проверить.
⚡️ Интеграция с хранилищем секретов CyberArk
В дополнение к HashiCorp Vault появилась ещё одна такая интеграция. Работает аналогично. На Хабре есть статья про опции безопасности Zabbix, про Vault там тоже было.
⚡️ Управление конфигурацией Zabbix-прокси с Zabbix-сервера
Управлять можно через веб-интерфейс, командной строки или API. Поддерживаются активные и пассивные прокси.
⚡️ Расширение контроля над обнаруженными узлами сети
Теперь можно вручную привязывать шаблоны к узлам, обнаруженным из прототипов, создавать дополнительные теги к узлам.
⚡️ Отслеживание выполнения активных проверок
Появилась возможность отслеживания активных проверок из веб-интерфейса. Можно конфигурировать период хартбита по проверке доступности активной проверки, а также появился внутренний айтем для проверки доступности активного агента.
⚡️ Улучшение производительности
Теперь Zabbix при обновлении конфигурации не перезагружает в память ее полностью, вместо этого он получает только последние обновления конфигурации.
Ещё одно улучшение — проверка вновь созданных айтемов в течении минуты после их создания вместо проверки в течении случайного периода времени в рамках периода сбора.
⚡️ Кнопка «Execute Now»изменила цвет стала доступна в Latest Data
Разумеется, эта опция доступна не для всех элементов данных (для тех, где недоступна, будет выдаваться ошибка). Также доступностью этой кнопки для пользователей можно управлять при помощи ролевой модели.
⚡️ Отдельные группы узлов и шаблонов
Шаблоны теперь сгруппированы в группы шаблонов, а не в группы хостов. Импорт шаблонов и хостов из предыдущих версий Zabbix полностью поддерживается, и соответствующие группы будут созданы из файла импорта. Права доступа на основе ролей могут быть назначены для раздела «Template Groups».
⚡️ Поддержка нескольких серверов LDAP для аутентификации пользователей
Теперь можно установить несколько серверов LDAP. Функционал позволит плавно переключить аутентификацию пользователей между серверами LDAP при миграции или обновления LDAP.
Как вам обновления?
Полный список обновлений и скриншоты.
Zabbix сообщил о релизе новой версии Zabbix 6.2. В этой версии появилось несколько нововведений. Ниже подробности.
⚡️ Подавление проблем, порождаемых триггерами
При помощи этой функции можно подавлять проблему на определенный срок или навсегда. Подозреваю, что при подавлении проблемы, она не будет аффектить на доступность сервиса. Нужно проверить.
⚡️ Интеграция с хранилищем секретов CyberArk
В дополнение к HashiCorp Vault появилась ещё одна такая интеграция. Работает аналогично. На Хабре есть статья про опции безопасности Zabbix, про Vault там тоже было.
⚡️ Управление конфигурацией Zabbix-прокси с Zabbix-сервера
Управлять можно через веб-интерфейс, командной строки или API. Поддерживаются активные и пассивные прокси.
⚡️ Расширение контроля над обнаруженными узлами сети
Теперь можно вручную привязывать шаблоны к узлам, обнаруженным из прототипов, создавать дополнительные теги к узлам.
⚡️ Отслеживание выполнения активных проверок
Появилась возможность отслеживания активных проверок из веб-интерфейса. Можно конфигурировать период хартбита по проверке доступности активной проверки, а также появился внутренний айтем для проверки доступности активного агента.
⚡️ Улучшение производительности
Теперь Zabbix при обновлении конфигурации не перезагружает в память ее полностью, вместо этого он получает только последние обновления конфигурации.
Ещё одно улучшение — проверка вновь созданных айтемов в течении минуты после их создания вместо проверки в течении случайного периода времени в рамках периода сбора.
⚡️ Кнопка «Execute Now»
Разумеется, эта опция доступна не для всех элементов данных (для тех, где недоступна, будет выдаваться ошибка). Также доступностью этой кнопки для пользователей можно управлять при помощи ролевой модели.
⚡️ Отдельные группы узлов и шаблонов
Шаблоны теперь сгруппированы в группы шаблонов, а не в группы хостов. Импорт шаблонов и хостов из предыдущих версий Zabbix полностью поддерживается, и соответствующие группы будут созданы из файла импорта. Права доступа на основе ролей могут быть назначены для раздела «Template Groups».
⚡️ Поддержка нескольких серверов LDAP для аутентификации пользователей
Теперь можно установить несколько серверов LDAP. Функционал позволит плавно переключить аутентификацию пользователей между серверами LDAP при миграции или обновления LDAP.
Как вам обновления?
Полный список обновлений и скриншоты.
Multi Tenant Logs with Grafana Loki
Loki - популярный инструмент (и по совместимости близкий родственник Grafana) для анализа логов. В этой статье пошаговое руководство, чтобы начать работу с Grafana/Loki в кластере Kubernetes и возможностью наблюдения за несколькими окружениями. Читать дальше.
Loki - популярный инструмент (и по совместимости близкий родственник Grafana) для анализа логов. В этой статье пошаговое руководство, чтобы начать работу с Grafana/Loki в кластере Kubernetes и возможностью наблюдения за несколькими окружениями. Читать дальше.
Forwarded from /usr/bin
Серия статей по траблшутингу производительности Linux. Если не знаете куда копать, то они должны помочь.
Linux troubleshooting: CPU analysis
Linux troubleshooting: Memory analysis
Linux troubleshooting: Disk analysis
Linux Memory: Buffer vs Cache
Linux — Disk I/O Deep Dive
Linux — How to Measure Network Performance
Linux — How To Troubleshoot DNS Issues
Linux troubleshooting: CPU analysis
Linux troubleshooting: Memory analysis
Linux troubleshooting: Disk analysis
Linux Memory: Buffer vs Cache
Linux — Disk I/O Deep Dive
Linux — How to Measure Network Performance
Linux — How To Troubleshoot DNS Issues
Мониторинг событий Windows EventLog в Zabbix. В этом видео Дмитрий Ламберт (руководитель техподдержки Zabbix) рассказывает как настроить мониторинг таких событий при помощи Zabbix Agent.
https://youtu.be/rOBatrWrg2Y
https://youtu.be/rOBatrWrg2Y
YouTube
Windows EventLog Monitoring With ZABBIX
Windows EventLog Monitoring with Zabbix monitoring solution using Zabbix agent. Easy to install and simple to configure. Monitor all required events and receive notifications when something bad happens.
Don't forget to follow on Patreon ( Free tier available…
Don't forget to follow on Patreon ( Free tier available…
Интересный блог Adri Villela на Медиуме. Много пишет про подход к Observability, как правильно строить этот процесс, какие инструменты использовать и т.д. Велкоме.
Medium
Adriana Villela – Medium
Read writing from Adriana Villela on Medium. DevRel | OTel End User SIG Maintainer | {CNCF, HashiCorp} Ambassador | Podcaster | Former corporate 🤖 | Speaker | Bouldering Addict | Opinions my own.
Что означает load average
Кто-то считает, что load average — это загрузка CPU в единицу времени, например, средняя загрузка: 0,51, 0,72, 0,86 означает, что загрузка CPU составляет 51% за последнюю 1 минуту. Но это не так. Средняя загрузка относится к среднему количеству процессов, находящихся в запущенном и непрерывном состоянии в единицу времени, то есть к среднему количеству активных процессов, которое не связано напрямую с использованием CPU. Читать дальше.
Кто-то считает, что load average — это загрузка CPU в единицу времени, например, средняя загрузка: 0,51, 0,72, 0,86 означает, что загрузка CPU составляет 51% за последнюю 1 минуту. Но это не так. Средняя загрузка относится к среднему количеству процессов, находящихся в запущенном и непрерывном состоянии в единицу времени, то есть к среднему количеству активных процессов, которое не связано напрямую с использованием CPU. Читать дальше.
gals.software
Что такое Load Average в Linux
Разберемся что из себя представляет понятие load average и чем оно отличается от загрузки процессора
Если Mikrotik — ваше альтер эго. По этой ссылке 55 шаблонов от Zabbix для мониторинга если не всей, то большей части моделей устройств Mikrotik. Выбирайте на свой вкус.
Federating Prometheus Effectively
Федерация позволяет Prometheus собирать временные ряды с другого сервера Prometheus. Федерацию Prometheus можно использовать для масштабирования до сотен кластеров или для переноса связанных показателей из Prometheus одного сервиса в другой. Он поддерживает иерархическую и межсервисную федерацию. В этой статье о настройке федерации серверов Prometheus.
Федерация позволяет Prometheus собирать временные ряды с другого сервера Prometheus. Федерацию Prometheus можно использовать для масштабирования до сотен кластеров или для переноса связанных показателей из Prometheus одного сервиса в другой. Он поддерживает иерархическую и межсервисную федерацию. В этой статье о настройке федерации серверов Prometheus.
Kubernetes Monitoring with Kythira
Kythira — это десктопный визуализатор и инструмент мониторинга Kubernetes с открытым исходным кодом, предназначенный для централизации мониторинга Kubernetes. Kythira опрашивает все локальные неймспейсы и представляет разработчикам информацию о текущем статусе. Kythira поддерживает интеграцию с Prometheus и Grafana. В этой статье описание инструмента.
Репыч на Гитхабе.
Kythira — это десктопный визуализатор и инструмент мониторинга Kubernetes с открытым исходным кодом, предназначенный для централизации мониторинга Kubernetes. Kythira опрашивает все локальные неймспейсы и представляет разработчикам информацию о текущем статусе. Kythira поддерживает интеграцию с Prometheus и Grafana. В этой статье описание инструмента.
Репыч на Гитхабе.
Telegram-бот мониторинга состояния серверов на Haskell
Состояние сервера необходимо постоянно мониторить, чтобы в случае ошибки быстро ее исправить. Удобнее всего отслеживать работоспособность с помощью смартфона, а именно Telegram-бота, он позволяет осуществлять проверку на ходу. Реализуем Telegram-бот на функциональном языке Haskell, заодно разберемся в его преимуществах. Читать дальше.
Состояние сервера необходимо постоянно мониторить, чтобы в случае ошибки быстро ее исправить. Удобнее всего отслеживать работоспособность с помощью смартфона, а именно Telegram-бота, он позволяет осуществлять проверку на ходу. Реализуем Telegram-бот на функциональном языке Haskell, заодно разберемся в его преимуществах. Читать дальше.
Forwarded from Elastic Stack recipes
Arkime — opensource NTA решение, которое парсит и складывает трафик в Elasticsearch и pcap’ы. Это позволяет анализировать сетевой трафик из веб-интерфейса, что очень и очень удобно. Для безопасников предусмотрена интеграция c Suricata – Arkime умеет сопоставлять алерт с сессией и отображать это в интерфейсе.
В этой статье описание работы с Arkime.
@elasticstack_ru
В этой статье описание работы с Arkime.
@elasticstack_ru
👍1
Мониторинг PHP-приложений с помощью OpenTelemetry и SigNoz
OpenTelemetry помогает генерировать и собирать данные телеметрии. Затем собранные данные необходимо отправить в инструмент анализа на бэкенде. OpenTelemetry предоставляет свободу выбора любого внутреннего инструмента, с помощью которого будет удобнее всего хранить и визуализировать данные телеметрии. А с этим нам может помочь SigNoz. Читать дальше.
OpenTelemetry помогает генерировать и собирать данные телеметрии. Затем собранные данные необходимо отправить в инструмент анализа на бэкенде. OpenTelemetry предоставляет свободу выбора любого внутреннего инструмента, с помощью которого будет удобнее всего хранить и визуализировать данные телеметрии. А с этим нам может помочь SigNoz. Читать дальше.
SRE/DevOps Interview Questions — Linux Troubleshooting
В этой статье примеры вопросов на собеседовании на должность SRE. Если хотите им стать, эти знания лишними не будут. Статью написал человек, который был как собеседуемым так собеседующим на интервью. Читать дальше.
В этой статье примеры вопросов на собеседовании на должность SRE. Если хотите им стать, эти знания лишними не будут. Статью написал человек, который был как собеседуемым так собеседующим на интервью. Читать дальше.
Квадрант Gartner 2022 года по решениям для мониторинга приложений (APM)
7 июня 2022 года вышел новый квадрант Gartner по APM-решениям. Произошло несколько изменений среди лидеров, а также наметился новый интересный тренд. Запилил статью на Хабре.
7 июня 2022 года вышел новый квадрант Gartner по APM-решениям. Произошло несколько изменений среди лидеров, а также наметился новый интересный тренд. Запилил статью на Хабре.
Monitoring your Zabbix instance health - Zabbix caches and processes, Zabbix queue and housekeeper
Zabbix состоит из компонентов, которые выполняют повседневные задачи мониторинга. Эти компоненты необходимо контролировать, выполнять правильную конфигурацию и настройку Zabbix, чтобы обеспечить бесперебойный сбор и анализ данных.
В этом видео рассмотрены основы мониторинга состояния Zabbix и его настройки в соответствии с ежедневными нагрузками.
Zabbix состоит из компонентов, которые выполняют повседневные задачи мониторинга. Эти компоненты необходимо контролировать, выполнять правильную конфигурацию и настройку Zabbix, чтобы обеспечить бесперебойный сбор и анализ данных.
В этом видео рассмотрены основы мониторинга состояния Zabbix и его настройки в соответствии с ежедневными нагрузками.
Alerts, what are they good for?
Признаки хорошего алерта:
⚡️ алерт имеет run-book / документированный план действий
⚡️ приоритет установлен соответственно влиянию
⚡️ имеет соответствующий дашборд
⚡️ метки и теги назначены правильно (владелец, служба, среда)
⚡️ маршрутизируется правильно (если это критический алерт, будет ли он правильно эскалирован)
Статья с рекомендациями по правильному алертингу.
Признаки хорошего алерта:
⚡️ алерт имеет run-book / документированный план действий
⚡️ приоритет установлен соответственно влиянию
⚡️ имеет соответствующий дашборд
⚡️ метки и теги назначены правильно (владелец, служба, среда)
⚡️ маршрутизируется правильно (если это критический алерт, будет ли он правильно эскалирован)
Статья с рекомендациями по правильному алертингу.
Организаторы ежегодной конференции по мониторингу Monitorama разместили записи прошедшего 27-29 июня 2022 года мероприятия. Записей интересных много, нужно изучать.
Смотреть.
Смотреть.
Анализ производительности с помощью Guider
Guider — это анализатор производительности.
Он предназначен для измерения, анализа, тестирования и проверки производительности систем. Устанавливается через менеджер pip.
Репыч на Гитхабе.
Guider — это анализатор производительности.
Он предназначен для измерения, анализа, тестирования и проверки производительности систем. Устанавливается через менеджер pip.
Репыч на Гитхабе.
GitHub
GitHub - iipeace/guider: Real-time Performance & Fault Detection Service Enabled by Comprehensive Built-in Command
Real-time Performance & Fault Detection Service Enabled by Comprehensive Built-in Command - iipeace/guider