Monitoring MySQL using Prometheus, Grafana and mysqld_exporter in Kubernetes
This is a basic guide on monitoring MySQL Database containers in a Kubernetes environment. We’ll use Prometheus and Grafana here. It is an open-source monitoring solution that is widely used in Kubernetes. Читать дальше.
This is a basic guide on monitoring MySQL Database containers in a Kubernetes environment. We’ll use Prometheus and Grafana here. It is an open-source monitoring solution that is widely used in Kubernetes. Читать дальше.
Karma — единый событийный дашборд для кучи Alertmanager'ов
Агрегация, дедупликация, фильтрация и много других фич в этом полезном в хозяйстве инструменте.
Репыч на Гитхабе.
Агрегация, дедупликация, фильтрация и много других фич в этом полезном в хозяйстве инструменте.
Репыч на Гитхабе.
Managing Prometheus at scale with Cortex
Несколько слов про Cortex — горизонтально масштабируемое хранилище для Prometheus. Читать дальше.
Несколько слов про Cortex — горизонтально масштабируемое хранилище для Prometheus. Читать дальше.
The missing plugin to create business and industrial charts in Grafana
Apache ECharts — это бесплатная библиотека построения диаграмм и визуализации, предлагающая возможности создания интуитивно понятных, интерактивных и настраиваемых диаграмм. Она написана на чистом JavaScript и основана на zrender.
Панель Apache ECharts — это плагин для Grafana, который позволяет использовать библиотеку Apache ECharts в Grafana. Оригинальный плагин был разработан для Grafana 6.3/7.0 и ECharts 4.9.0. С тех пор он не поддерживается. В VolkovLabs этот плагин адаптировали к Grafana 9 и рассказывают об этом в статье на Медиуме.
Репыч на Гитхабе.
Apache ECharts — это бесплатная библиотека построения диаграмм и визуализации, предлагающая возможности создания интуитивно понятных, интерактивных и настраиваемых диаграмм. Она написана на чистом JavaScript и основана на zrender.
Панель Apache ECharts — это плагин для Grafana, который позволяет использовать библиотеку Apache ECharts в Grafana. Оригинальный плагин был разработан для Grafana 6.3/7.0 и ECharts 4.9.0. С тех пор он не поддерживается. В VolkovLabs этот плагин адаптировали к Grafana 9 и рассказывают об этом в статье на Медиуме.
Репыч на Гитхабе.
Performance testing with Iter8, now with custom metrics
Iter8 — это оптимизатор релизов приложений и моделей машинного обучения, развернутых с помощью Kubernetes, на основе метрик с открытым исходным кодом. Можно использовать Iter8 для проведения экспериментов, которые решают различные задачи, такие как сбор метрик из разных версий сервиса, проверка этих метрик на соответствие SLO, определение наиболее эффективной версии и многое другое. Читать дальше.
Репыч на Гитхабе.
Iter8 — это оптимизатор релизов приложений и моделей машинного обучения, развернутых с помощью Kubernetes, на основе метрик с открытым исходным кодом. Можно использовать Iter8 для проведения экспериментов, которые решают различные задачи, такие как сбор метрик из разных версий сервиса, проверка этих метрик на соответствие SLO, определение наиболее эффективной версии и многое другое. Читать дальше.
Репыч на Гитхабе.
Scaling Kubernetes workloads using custom Prometheus metrics
В этой статье вы узнаете про использования адаптера Prometheus для сбора метрик и передачи их в kube-api. HPA (horizontal pod autoscaler) будет использовать эти данные для принятия решений о масштабировании. Читать дальше.
В этой статье вы узнаете про использования адаптера Prometheus для сбора метрик и передачи их в kube-api. HPA (horizontal pod autoscaler) будет использовать эти данные для принятия решений о масштабировании. Читать дальше.
Creating A Basic Load Test Infrastructure Via Using K6/Grafana/InfluxDB
В этой статье описано создание тестового окружения для тестирования производительности с помощью K6/Grafana/InfluxDB. Читать дальше.
В этой статье описано создание тестового окружения для тестирования производительности с помощью K6/Grafana/InfluxDB. Читать дальше.
Single Prometheus job for dozens of Blackbox exporters
Эта история не про установку экспортера Blackbox, а скорее о настройке со стороны Prometheus. Цель состоит в том, чтобы получить простую, минимальную, но гибкую конфигурацию, избегая путаницы в конфигурации Prometheus.
Представьте, что у вас есть более 20 экспортеров Blackbox в разных местах мира, которые не принадлежат ни к какому кластеру или среде, а просто работают как автономные приложения для мониторинга конечных точек из разных мест. Например, вы должны отслеживать более 100 URL-адресов из всех мест, чтобы убедиться в доступности вашего веб-сайта, задержке и т. д. Читать дальше.
Эта история не про установку экспортера Blackbox, а скорее о настройке со стороны Prometheus. Цель состоит в том, чтобы получить простую, минимальную, но гибкую конфигурацию, избегая путаницы в конфигурации Prometheus.
Представьте, что у вас есть более 20 экспортеров Blackbox в разных местах мира, которые не принадлежат ни к какому кластеру или среде, а просто работают как автономные приложения для мониторинга конечных точек из разных мест. Например, вы должны отслеживать более 100 URL-адресов из всех мест, чтобы убедиться в доступности вашего веб-сайта, задержке и т. д. Читать дальше.
How to Handle Terabytes of Metrics in Kubernetes Monitoring
Мы использовали Prometheus, Thanos и Grafana для обрабатки около 40 000 метрик, генерируемых каждую секунду. В этом посте наша команда инженеров делится некоторыми мыслями и знаниями о нашем пути по настройке мониторинга. Читать дальше.
Мы использовали Prometheus, Thanos и Grafana для обрабатки около 40 000 метрик, генерируемых каждую секунду. В этом посте наша команда инженеров делится некоторыми мыслями и знаниями о нашем пути по настройке мониторинга. Читать дальше.
Who monitors the monitoring system? — Is my Prometheus alive at all
Пока система жива и здорова, отправляйте heartbeat. Если мы какое-то время не получаем heartbeat, можно смело считать, что система мертва. Это самый надежный способ получить уведомление о сбое системы. Главный недостаток этого подхода заключается в том, что действительно трудно понять, что вызвало сбой. Читать дальше.
Пока система жива и здорова, отправляйте heartbeat. Если мы какое-то время не получаем heartbeat, можно смело считать, что система мертва. Это самый надежный способ получить уведомление о сбое системы. Главный недостаток этого подхода заключается в том, что действительно трудно понять, что вызвало сбой. Читать дальше.
Avoiding Alert Fatigue: 8 Tips for Every K8s Engineering Team
В этой статье несколько советов, как снизить событийную усталость и докрутить систему алертинга до нужного уровня информативности. Читать дальше.
В этой статье несколько советов, как снизить событийную усталость и докрутить систему алертинга до нужного уровня информативности. Читать дальше.
Monitoring errors in your A/B tests
A/B-тестирование — важный инструмент для улучшения продукта. В Preply, мы запускаем сотни тестов ежеквартально, доставляя наш продукт с невероятной скоростью. Но запуск теста всегда связан с некоторыми рисками — вы никогда не можете быть уверены, что протестировали каждый отдельный кейс и не создадите проблем, особенно если вы двигаетесь быстро. Некоторые проблемы могут возникнуть из-за различных взаимодействий A/B-тестов, которые не всегда можно предсказать. Какое решение? Правильный мониторинг. И я говорю не о стиле «подождите, пока кто-нибудь свяжется со службой поддержки», а о автоматизированном подходе, основанном на данных. Читать дальше.
A/B-тестирование — важный инструмент для улучшения продукта. В Preply, мы запускаем сотни тестов ежеквартально, доставляя наш продукт с невероятной скоростью. Но запуск теста всегда связан с некоторыми рисками — вы никогда не можете быть уверены, что протестировали каждый отдельный кейс и не создадите проблем, особенно если вы двигаетесь быстро. Некоторые проблемы могут возникнуть из-за различных взаимодействий A/B-тестов, которые не всегда можно предсказать. Какое решение? Правильный мониторинг. И я говорю не о стиле «подождите, пока кто-нибудь свяжется со службой поддержки», а о автоматизированном подходе, основанном на данных. Читать дальше.
Squzy - opensource monitoring, incident and alerting system
Squzy высокопроизводительный открытый инструмент для мониторинга и алертинга, написанный на Golang.
Репыч на Гитхабе.
Squzy высокопроизводительный открытый инструмент для мониторинга и алертинга, написанный на Golang.
Репыч на Гитхабе.
How Grafana Mimir helped Pipedrive overcome Prometheus scalability limits
Около восьми месяцев назад мы начали замечать проблемы с Prometheus, который начал падать без видимой причины. Увеличение ресурсов помогло только до 32 vCPU и 256 ГБ памяти, далее это оказалось бесполезным и не решило проблемы. Перезапуск Prometheus занимал до 15 минут, мы не могли позволить себе эти задержки, так как наша стратегия обеспечения наблюдаемости и алертинга зависела от доступности Prometheus.
Для агрегированного экземпляра Prometheus проблемы начались, когда мы достигли ~8 миллионов активных серий, ~20 миллионов чанков и ~200 тысяч пар меток.
Принимая во внимание все функции, которые представил Mimir, такие как высокая производительность запросов, а также наш предыдущий опыт работы с инструментами Grafana, мы решили сразу же внедрить Mimir в наш стек. Читать дальше.
Около восьми месяцев назад мы начали замечать проблемы с Prometheus, который начал падать без видимой причины. Увеличение ресурсов помогло только до 32 vCPU и 256 ГБ памяти, далее это оказалось бесполезным и не решило проблемы. Перезапуск Prometheus занимал до 15 минут, мы не могли позволить себе эти задержки, так как наша стратегия обеспечения наблюдаемости и алертинга зависела от доступности Prometheus.
Для агрегированного экземпляра Prometheus проблемы начались, когда мы достигли ~8 миллионов активных серий, ~20 миллионов чанков и ~200 тысяч пар меток.
Принимая во внимание все функции, которые представил Mimir, такие как высокая производительность запросов, а также наш предыдущий опыт работы с инструментами Grafana, мы решили сразу же внедрить Mimir в наш стек. Читать дальше.
4 questions you must ask when an incident happens
Когда система мониторинга сообщает об инциденте, нам нужна структура, которая поможет переварить десятки тысяч показателей, чтобы понять масштаб воздействия на нашу продукционные системы и клиентов. Объем всегда можно оценить, спросив, что сломано? когда это началось? где это происходит? и кого это затронет? Читать дальше.
Когда система мониторинга сообщает об инциденте, нам нужна структура, которая поможет переварить десятки тысяч показателей, чтобы понять масштаб воздействия на нашу продукционные системы и клиентов. Объем всегда можно оценить, спросив, что сломано? когда это началось? где это происходит? и кого это затронет? Читать дальше.
What’s Up, Home? – Did You Really Turn Off Your Camera?
Интересная статья в блоге Zabbix — мониторинг времени работы веб-камеры рабочей станции. Читать дальше.
Интересная статья в блоге Zabbix — мониторинг времени работы веб-камеры рабочей станции. Читать дальше.
Grafana OnCall Community Call
На этой записи отцы-основатели Grafana OnCall (ранее Amixr) отвечают на вопросы и рассказывают о миграции с PagerDuty, а также о других интересных штуках о продукте. Смотреть на Ютубчике.
На этой записи отцы-основатели Grafana OnCall (ранее Amixr) отвечают на вопросы и рассказывают о миграции с PagerDuty, а также о других интересных штуках о продукте. Смотреть на Ютубчике.
Distributed Tracing for RabbitMQ with OpenTelemetry
В этой статье вы узнаете, как использовать OpenTelemetry для инструментирования RabbiMQ. Затем увидите, как визуализировать трейсы в Jaeger и Aspecto. В статье используется Node.js для всех примеров кода. Читать дальше.
В этой статье вы узнаете, как использовать OpenTelemetry для инструментирования RabbiMQ. Затем увидите, как визуализировать трейсы в Jaeger и Aspecto. В статье используется Node.js для всех примеров кода. Читать дальше.
Ways to monitor OOM in a K8S cluster using Prometheus and Grafana
Недавно я столкнулся с OOMKilled в своем кластере k8s. Я решил создать дашборд для мониторинга. Сначала я искал, есть ли готовый в Интернете (потому что зачем изобретать велосипед?), но не нашел, поэтому сделал его сам :)
Я придумал 3 довольно простые панели, которые выполняют свою работу, и все они довольно просты. Я объясню каждый, начиная с самого простого и заканчивая продвинутым.
Читать дальше.
Недавно я столкнулся с OOMKilled в своем кластере k8s. Я решил создать дашборд для мониторинга. Сначала я искал, есть ли готовый в Интернете (потому что зачем изобретать велосипед?), но не нашел, поэтому сделал его сам :)
Я придумал 3 довольно простые панели, которые выполняют свою работу, и все они довольно просты. Я объясню каждый, начиная с самого простого и заканчивая продвинутым.
Читать дальше.
Monitor Elasticsearch with Kube-Prometheus
В этой статье:
⚡️How to monitor Elasticsearch with Kube-Prometheus
⚡️Elasticsearch Exporter
⚡️Elasticsearch Exporter — Helm
⚡️Elasticsearch Exporter and Terraform
⚡️Deploy Elasticsearch Exporter using Terraform
⚡️Kubernetes Servicemonitor
Читать дальше.
В этой статье:
⚡️How to monitor Elasticsearch with Kube-Prometheus
⚡️Elasticsearch Exporter
⚡️Elasticsearch Exporter — Helm
⚡️Elasticsearch Exporter and Terraform
⚡️Deploy Elasticsearch Exporter using Terraform
⚡️Kubernetes Servicemonitor
Читать дальше.
AIOPs: Anomaly detection in Prometheus Time Series data with Prophet library
..используя Prophet, чтобы заглянуть в прошлое и найти аномалии
Prophet — библиотека прогнозирования временных рядов с открытым исходным кодом.
Prophet — это процедура прогнозирования данных временных рядов на основе аддитивной модели, в которой нелинейные тренды соответствуют годовой, недельной и ежедневной сезонности.
Он следует концепции точек изменения; то есть он меняет аппроксимацию кривой на основе точек перегиба, которые он идентифицирует в данных временного ряда. Мы можем нанести точки изменения, чтобы визуально увидеть точки перегиба, которые он идентифицирует. Следовательно, он очень хорошо вычисляет тренды.
Мы можем использовать это свойство, чтобы подогнать данные временных рядов из Prometheus или Grafana и использовать его для обнаружения выбросов, которые являются точками аномалий.
Читать дальше.
..используя Prophet, чтобы заглянуть в прошлое и найти аномалии
Prophet — библиотека прогнозирования временных рядов с открытым исходным кодом.
Prophet — это процедура прогнозирования данных временных рядов на основе аддитивной модели, в которой нелинейные тренды соответствуют годовой, недельной и ежедневной сезонности.
Он следует концепции точек изменения; то есть он меняет аппроксимацию кривой на основе точек перегиба, которые он идентифицирует в данных временного ряда. Мы можем нанести точки изменения, чтобы визуально увидеть точки перегиба, которые он идентифицирует. Следовательно, он очень хорошо вычисляет тренды.
Мы можем использовать это свойство, чтобы подогнать данные временных рядов из Prometheus или Grafana и использовать его для обнаружения выбросов, которые являются точками аномалий.
Читать дальше.