Мониторим ИТ – Telegram
Мониторим ИТ
7.96K subscribers
201 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
На Медиуме есть автор Стив Мушеро (Steve Mushero), который много пишет о SRE и о подходах к мониторингу по этой методологии. Здесь он пишет про золотые сигналы SRE (Latency, Traffic, Errors, and Saturation), методики USE и RED, но есть и статьи о метриках, которые он рекомендует собирать в контексте SRE по конкретным элементам систем. Ниже подборка таких статей.

Метрики балансировщика (AWS ALB/ELB, HAProxy)

Метрики веб-серверов (Apache & Nginx)

Метрики серверов приложений (PHP, FPM, Java, Ruby, Node, Go, Python)

Метрики серверов баз данных (MySQL & AWS RDS и AWS Aurora)

Метрики Линукс-серверов (Linux)
Обнаружение аномалий в Prometheus — выступление Andrew Newdigate на Monitorama PDX 2019. Расскажет о своём опыте и подходах. А здесь слайды презентации.
Кто-то слышал про колоночную БД Apache Druid? Она из коробки поддерживает ролл-апы (это усреднение данных за периоды, чтобы не хранить длительное время сырые данные) для экономии места в БД и имеет немудрёный скейлинг (простое добавление нод) и . В этой статье на Медиуме пишут про совместное использование этой с БД с открытой BI-системой Superset. В итоге получается производительное хранилище и гибкие дашборды.

Страница проекта Druid

Страница проекта Superset

Примеры визуализаций в Superset

P.S. На основе Druid работает аналитическая платформа Imply.
Регистрируйтесь на онлайн-митап Zabbix «Что нового в Zabbix 5.0». Среди выступающих Алексей Владышев, который расскажет о новинках в Zabbix 5.0. Участие бесплатное.

Регистрация и программа мероприятия
На этом видео Nic Jansma рассказывает о бесплатном и открытом инструменте для мониторинга пользвательских транзакций (он же RUM он же Real User Monitoring) Boomerang от Akamai.

Boomerang представляет из себя JavaScript-библиотеку, которая встраивается в код веб-страницы, выполняет измерения времени загрузки элементов страницы и отслеживает пользовательский опыт. По-моему самый лучший способ мониторинга это именно наблюдение за пользовательским опытом.

Репозиторий Boomerang на Github

Выступление было на конференции открытых решений Fosdem 2020. Да, сейчас трудно поверить, что в 2020 могут быть какие-то офлайн конференции.
Наблюдаю за развитием APM-решения Instana уже давно. Его основали выходцы из немецкого интегратора, которые занимались (работая в этом самом интеграторе) другим APM-решением Appdynamics. Появилась идея сделать круче, лучше, задорнее, веселее и стать сильным конкурентом. В этом году их оценил Gartner и включил в свой магический квадрант APM-решений. Можно порадоваться за ребят.

В продолжение вчерашней темы с RUM. В этой статье от Mozilla для веб-разработчиков, рассказывают о возможностях просмотра source map в браузере Firefox (если разработчики добавили соответствующую строку в код страницы). Когда строка с JS для мониторинга уже инжектирована в веб-проект, диагностика проблем с производительностью сильно упростится, если этот JS умеет распознавать source map и работать с конечными скриптами. В своём блоге Instana пишет о преимуществах наличия в коде source maps и возможностях работы с ними в Instana.

Если нужна помощь с подбором решения для мониторинга (APM или неважно какого) — пишите в личку.

Расскажите, используете ли в своём стеке мониторинга инжекцию JS-кода с мониторингом в веб-страницы. Неважно, коммерческое (Instana, Appdynamics, NewRelic, Ключ-Астром) решение или открытое (как вчерашний Boomerang)

👍 — использую

👎 — не использую, но пора бы начать

👀 — нет необходимости в таком способе мониторинга
Вместе с уже известным квадрантом по APM-решениям, Gartner также выкатил отчёт по критичным возможностям этих же решений. В этом отчёте те же самые участники квадранта APM сравниваются по следующим критериям:

⚡️ Business analysis
⚡️ IT services monitoring
⚡️ Root cause analysis
⚡️ Anomaly detection
⚡️ Distributed profiling
⚡️ Application debugging

в контексте их применения для следующих целей:

⚡️ IT operations
⚡️ DevOps release
⚡️ Application support
⚡️ Application development
⚡️ Application owner or line of business (LOB)
⚡️ CloudOps

Если вы сейчас выбираете APM-решение, это сравнение может быть полезным для формирования шорт-листа.
Что нового в Zabbix 5.0?

По итогам прошедшего сегодня митапа, оказалось много приятных улучшений. Из ключевого:

⚡️ официальная поддержка Zabbix Agent2 (агент на Go) для Windows и Linux

⚡️ улучение инструментов визуализации (+ экспорт в PNG)

⚡️ фильтр по тегам

⚡️ массовое изменение макросов для хостов &
шаблонов

⚡️ триггерные выражения работают с текстом

⚡️ обнаружение счётчиков Windows и сенсоров IPMI

⚡️ макросы для прототипов хостов

⚡️ совместимость с Float64 от Prometheus

⚡️ исключения из правил LLD

Более подробно в презентации следом. Ещё больше презентаций на странице митапа.
Whats_New_in_Zabbix_5.0_RU.pdf
2.3 MB
Презентация «Что нового в Zabbix 5.0»
Метрики, логи и трейсы — три вещи, которые покажут всё о здоровье приложения. В этом видео разработчик Grafana Labs рассказывает как настроить корреляцию этих трёх субстанций в Grafana на основе лейлблов. Это ещё одно выступление с Fosdem 2020.
Если откроете эту ссылку — увидите сколько вам ещё осталось времени в рамках бюджета даунтайма. Можно ввести своё значение доступности.
Elasticsearch можно использовать как хранилище метрик не только для Zabbix, но и Prometheus. В этой статье в блоге Elastic описание такого механизма.

Если в Elasticsearch заведены также и логи, у вас будет единая точка для расследования ИТ и ИБ событий.
Посмотрите выступления с GrafanaCONline 2020. Мероприятие проходило с 13 по 29 мая. По понятным причинам всё было онлайн.

Since you can’t come to GrafanaCon, GrafanaCon is coming to you.

Пишут, что если гора не идёт к Магомеду, Магомед идёт к горе.

Выступления, которые показались мне интересными:

⚡️ Prometheus: what the future holds

⚡️ Powerful graph representations in Grafana

⚡️ Grafana plugins

⚡️ How to get an organization to adopt a central telemetry solution
Подборка репозиториев на Github 9 бесплатных APM-инструментов для мониторинга приложений (профилирования кода). А в конце небольшой опрос.

⚡️ Pinpoint. Поддерживает Java и PHP.

⚡️ Apache SkyWalking. Инструмент для микросервисных сред, умеет собирать телеметрию (трейсы и метрики) от Java, .NET Core, NodeJS, PHP и Python.

⚡️ JavaMelody. Название инструмента говорит само за себя.

⚡️ Stagemonitor. Умеет в Java. Есть браузерный плагин и нативная интеграция с Elastic.

⚡️ Scouter. Сравнивают себя с New Relic и Appdynamics. Инструмент поддерживает Java и распознаёт трейсы в Redis, NginX, MongoDB, RabbitMQ и Elasticsearch

⚡️ App Metrics. Мейнтейнится IBM, поддерживает NodeJS.

⚡️ Codespeed. Мониторинг и анализ вызовов внутри Python.

⚡️ GoAppMonitor. Название не обманывает — это инструмент для мониторинга Golang приложений.

⚡️ App Perf. Говорят про аналогичную функциональность как у NewRelic и AppNeta.


Пользуетесь APM-инструментами с открытым исходным кодом?

👍 — да, мне нравится. Для вас статья на Хабре с инструментами для трекинга кода приложений.

👎 — нет, не пользуюсь или предпочитаю коммерческие решения. Для вас статья на Хабре с APM-квадрантом Gartner.

👀 — ШТОА?

А ещё своё мнение можно оставить в комментах.
Несколько дней назад Appdynamics выпустил новый функционал на базе собственной APM-платформы — Experience Journey Map. Эта штука агрегирует наиболее часто используемые пользовательские маршруты (последовательность страниц сайта или экранов мобильного приложения), визуализирует их, сегментирует (устройство, браузер, гео и т.д.), показывает медленно работающие части маршрута. Пока доступно только в SaaS-версии. Но функционал интересный.
А вот такой Journey Map есть в New Relic
Отчёт GigaOm Radar for AIOps 2020 (PDF в следующем сообщении). Список вендоров вызывает вопросы: ожидал тут увидеть системы аналогичные тем, что есть в отчёте Gartner по AIOps системам. Т.е. систем, которые работают с разными источниками данных и на основе их делают root-cause, event suppression и подобные штуки. Здесь же получился винегрет из APM и AIOps.
Мичурину и не снилось! В этой статье пишут о мониторинге VMware при помощи утилиты rvtools и дальнейшей передачи собранных метрик в Elasticsearch.

На сайте автора утилиты:

RVTools is a Windows .NET 4.6.1 application which uses VMware vSphere Management SDK 7.0 and CIS REST API to display information about your virtual environments.

Interacting with VirtualCenter 4.x, ESX Server 4.x, VirtualCenter 5.x, ESX Server 5.x, VirtualCenter 6.x, ESX Server 6.x, VirtualCenter 7.0 and ESX server 7.0 RVTools is able to list information about VMs, CPU, Memory, Disks, Partitions, Network, Floppy drives, CD drives, Snapshots, VMware tools, Resource pools, Clusters, ESX hosts, HBAs, Nics, Switches, Ports, Distributed Switches, Distributed Ports, Service consoles, VM Kernels, Datastores, multipath info, license info and health checks.

The information can be exported to csv and xlsx file(s). With a xlsx merge utility it’s possible to merge muliple vCenter xlsx reports to a single xlsx report.


Последний релиз утилиты был 1 мая 2020 г.