Мониторим ИТ – Telegram
Мониторим ИТ
8.07K subscribers
200 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Что нового в Zabbix 6.2

Zabbix сообщил о релизе новой версии Zabbix 6.2. В этой версии появилось несколько нововведений. Ниже подробности.

⚡️ Подавление проблем, порождаемых триггерами

При помощи этой функции можно подавлять проблему на определенный срок или навсегда. Подозреваю, что при подавлении проблемы, она не будет аффектить на доступность сервиса. Нужно проверить.

⚡️ Интеграция с хранилищем секретов CyberArk

В дополнение к HashiCorp Vault появилась ещё одна такая интеграция. Работает аналогично. На Хабре есть статья про опции безопасности Zabbix, про Vault там тоже было.

⚡️ Управление конфигурацией Zabbix-прокси с Zabbix-сервера

Управлять можно через веб-интерфейс, командной строки или API. Поддерживаются активные и пассивные прокси.

⚡️ Расширение контроля над обнаруженными узлами сети

Теперь можно вручную привязывать шаблоны к узлам, обнаруженным из прототипов, создавать дополнительные теги к узлам.

⚡️ Отслеживание выполнения активных проверок

Появилась возможность отслеживания активных проверок из веб-интерфейса. Можно конфигурировать период хартбита по проверке доступности активной проверки, а также появился внутренний айтем для проверки доступности активного агента.

⚡️ Улучшение производительности

Теперь Zabbix при обновлении конфигурации не перезагружает в память ее полностью, вместо этого он получает только последние обновления конфигурации.

Ещё одно улучшение — проверка вновь созданных айтемов в течении минуты после их создания вместо проверки в течении случайного периода времени в рамках периода сбора.

⚡️ Кнопка «Execute Now» изменила цвет стала доступна в Latest Data

Разумеется, эта опция доступна не для всех элементов данных (для тех, где недоступна, будет выдаваться ошибка). Также доступностью этой кнопки для пользователей можно управлять при помощи ролевой модели.

⚡️ Отдельные группы узлов и шаблонов

Шаблоны теперь сгруппированы в группы шаблонов, а не в группы хостов. Импорт шаблонов и хостов из предыдущих версий Zabbix полностью поддерживается, и соответствующие группы будут созданы из файла импорта. Права доступа на основе ролей могут быть назначены для раздела «Template Groups».

⚡️ Поддержка нескольких серверов LDAP для аутентификации пользователей

Теперь можно установить несколько серверов LDAP. Функционал позволит плавно переключить аутентификацию пользователей между серверами LDAP при миграции или обновления LDAP.

Как вам обновления?

Полный список обновлений и скриншоты.
Multi Tenant Logs with Grafana Loki

Loki - популярный инструмент (и по совместимости близкий родственник Grafana) для анализа логов. В этой статье пошаговое руководство, чтобы начать работу с Grafana/Loki в кластере Kubernetes и возможностью наблюдения за несколькими окружениями. Читать дальше.
Forwarded from /usr/bin
Серия статей по траблшутингу производительности Linux. Если не знаете куда копать, то они должны помочь.

Linux troubleshooting: CPU analysis

Linux troubleshooting: Memory analysis

Linux troubleshooting: Disk analysis

Linux Memory: Buffer vs Cache

Linux — Disk I/O Deep Dive

Linux — How to Measure Network Performance

Linux — How To Troubleshoot DNS Issues
Мониторинг событий Windows EventLog в Zabbix. В этом видео Дмитрий Ламберт (руководитель техподдержки Zabbix) рассказывает как настроить мониторинг таких событий при помощи Zabbix Agent.

https://youtu.be/rOBatrWrg2Y
Интересный блог Adri Villela на Медиуме. Много пишет про подход к Observability, как правильно строить этот процесс, какие инструменты использовать и т.д. Велкоме.
Что означает load average

Кто-то считает, что load average — это загрузка CPU в единицу времени, например, средняя загрузка: 0,51, 0,72, 0,86 означает, что загрузка CPU составляет 51% за последнюю 1 минуту. Но это не так. Средняя загрузка относится к среднему количеству процессов, находящихся в запущенном и непрерывном состоянии в единицу времени, то есть к среднему количеству активных процессов, которое не связано напрямую с использованием CPU. Читать дальше.
Если Mikrotik — ваше альтер эго. По этой ссылке 55 шаблонов от Zabbix для мониторинга если не всей, то большей части моделей устройств Mikrotik. Выбирайте на свой вкус.
Максимальный таймаут для скриптов в Zabbix - 30 секунд. Если нужно больше, то выход - это использование Zabbix Trapper. Вот и статья соответствующая есть. Ссылка.
Federating Prometheus Effectively

Федерация позволяет Prometheus собирать временные ряды с другого сервера Prometheus. Федерацию Prometheus можно использовать для масштабирования до сотен кластеров или для переноса связанных показателей из Prometheus одного сервиса в другой. Он поддерживает иерархическую и межсервисную федерацию. В этой статье о настройке федерации серверов Prometheus.
Kubernetes Monitoring with Kythira

Kythira — это десктопный визуализатор и инструмент мониторинга Kubernetes с открытым исходным кодом, предназначенный для централизации мониторинга Kubernetes. Kythira опрашивает все локальные неймспейсы и представляет разработчикам информацию о текущем статусе. Kythira поддерживает интеграцию с Prometheus и Grafana. В этой статье описание инструмента.

Репыч на Гитхабе.
Telegram-бот мониторинга состояния серверов на Haskell

Состояние сервера необходимо постоянно мониторить, чтобы в случае ошибки быстро ее исправить. Удобнее всего отслеживать работоспособность с помощью смартфона, а именно Telegram-бота, он позволяет осуществлять проверку на ходу. Реализуем Telegram-бот на функциональном языке Haskell, заодно разберемся в его преимуществах. Читать дальше.
Forwarded from Elastic Stack recipes
Arkime — opensource NTA решение, которое парсит и складывает трафик в Elasticsearch и pcap’ы. Это позволяет анализировать сетевой трафик из веб-интерфейса, что очень и очень удобно. Для безопасников предусмотрена интеграция c Suricata – Arkime умеет сопоставлять алерт с сессией и отображать это в интерфейсе.

В этой статье описание работы с Arkime.

@elasticstack_ru
👍1
Мониторинг PHP-приложений с помощью OpenTelemetry и SigNoz

OpenTelemetry помогает генерировать и собирать данные телеметрии. Затем собранные данные необходимо отправить в инструмент анализа на бэкенде. OpenTelemetry предоставляет свободу выбора любого внутреннего инструмента, с помощью которого будет удобнее всего хранить и визуализировать данные телеметрии. А с этим нам может помочь SigNoz. Читать дальше.
SRE/DevOps Interview Questions — Linux Troubleshooting

В этой статье примеры вопросов на собеседовании на должность SRE. Если хотите им стать, эти знания лишними не будут. Статью написал человек, который был как собеседуемым так собеседующим на интервью. Читать дальше.
Квадрант Gartner 2022 года по решениям для мониторинга приложений (APM)

7 июня 2022 года вышел новый квадрант Gartner по APM-решениям. Произошло несколько изменений среди лидеров, а также наметился новый интересный тренд. Запилил статью на Хабре.
Monitoring your Zabbix instance health - Zabbix caches and processes, Zabbix queue and housekeeper

Zabbix состоит из компонентов, которые выполняют повседневные задачи мониторинга. Эти компоненты необходимо контролировать, выполнять правильную конфигурацию и настройку Zabbix, чтобы обеспечить бесперебойный сбор и анализ данных.

В этом видео рассмотрены основы мониторинга состояния Zabbix и его настройки в соответствии с ежедневными нагрузками.
Alerts, what are they good for?

Признаки хорошего алерта:

⚡️ алерт имеет run-book / документированный план действий

⚡️ приоритет установлен соответственно влиянию

⚡️ имеет соответствующий дашборд

⚡️ метки и теги назначены правильно (владелец, служба, среда)

⚡️ маршрутизируется правильно (если это критический алерт, будет ли он правильно эскалирован)

Статья с рекомендациями по правильному алертингу.
Организаторы ежегодной конференции по мониторингу Monitorama разместили записи прошедшего 27-29 июня 2022 года мероприятия. Записей интересных много, нужно изучать.

Смотреть.
Анализ производительности с помощью Guider

Guider — это анализатор производительности.
Он предназначен для измерения, анализа, тестирования и проверки производительности систем. Устанавливается через менеджер pip.

Репыч на Гитхабе.
Monitoror — однофайловое приложение для мониторинга, написанное на Go. Умеет работать на Linux, macOS, WIndows.

Репыч на Гитхабе.

Демо.