NEW BOT Телеграм, страница

Мониторим ИТ

Как мы пытались подружить VictoriaMetrics и Thanos (и у нас почти получилось)

Мы в Сравни долгое время использовали связку Prometheus + Thanos для мониторинга и хранения данных. Для Thanos мы использовали схему с sidecar’ом. Эта схема работала довольно неплохо, но с ростом проекта — росло и потребление ресурсов. Со временем задачи по scrape samples уже потребляли значительные ресурсы. Когда только на Prometheus стало уходить больше 30 ядер vCPU и 100 гигабайт RAM, мы начали искать способы оптимизации потребления ресурсов. Читать дальше.

2.37K views13:17

Мониторим ИТ

Что нового в Grafana 9 по части алертинга?

В июне Grafana Labs объявили о выходе новой 9 версии своего решения-хедлайнера — инструмента для визуализации Grafana. Как и полагается мажорной версии, появилось увесистое количество обновлений. И одно из ключевых обновлений — новые возможности алертинга. Ниже некоторые подробности этих обновлений.

⚡️ Инстансные оповещения

До Grafana 9 оповещения нужно было привязывать к панели или дашборду. Теперь алертами можно управлять как будто это регулярное выражение. Правила алертинга могут создавать несколько отдельных экземпляров алертов внутри каждого правила. Правило определяет, когда отправлять оповещения, но оповещать можно сразу по нескольким элементам. Пример из реальной жизни: представьте, что у вас есть умный дом и вы хотите знать, когда открыты окна. У вас может быть одно оповещение «Сообщите мне, открыты ли окна», и для каждого окна вы получите «Окно x открыто!» Не нужно создавать более одного правила.

⚡️ Группировка и маршрутизация оповещений

Когда возникает событийный шторм, сотни оповещений могут прийти одновременно. Политики алертинга решают такую проблему. Это набор правил, определяющих, в какой канал как направляются оповещения. Объединение политик алертинга с функцией группировки позволяет все оповещения, относящиеся к одному компоненту системы, объединить вместе, чтобы Grafana будет отправляла только одно уведомление, содержащее список затронутых сред для этого правила. Политики оповещений имеют древовидную структуру, в которой каждая политика может иметь одну или несколько дочерних политик. Каждая политика, кроме корневой политики, может соответствовать определенным меткам алертов. Каждый алерт оценивается корневой политикой, а затем каждой дочерней политикой, чтобы можно было алертить в определенные каналы. В результате один алерт улетит сразу в несколько каналов на основе определенных критериев метки.

⚡️ Молчание - золото

Бесшумный режим позволяет останавливать уведомления от одного или нескольких правил. С помощью этой новой функции можно частично приостановить оповещение на основе определенных критериев. Бесшумный режим только приостанавливает создание алертов. В пользовательском интерфейсе всё так же будут отображаться экземпляры алертов. Это сделано нарочно: вы можете видеть текущий статус экземпляра алерта, но не получите уведомления.

⚡️ Режим обслуживания на период времени

В Grafana 9 можно указать интервал времени, когда вы не хотите, чтобы новые уведомления генерировались или отправлялись. Например, можно установить время отключения генерации и отправки для нескольких или всех ваших маршрутов оповещений, чтобы вас не отрывали от шашлындоса или посиделок в баре.

Подробнее.

3.58K views06:00

Мониторим ИТ

Что нового в Zabbix 6.2

Zabbix сообщил о релизе новой версии Zabbix 6.2. В этой версии появилось несколько нововведений. Ниже подробности.

⚡️ Подавление проблем, порождаемых триггерами

При помощи этой функции можно подавлять проблему на определенный срок или навсегда. Подозреваю, что при подавлении проблемы, она не будет аффектить на доступность сервиса. Нужно проверить.

⚡️ Интеграция с хранилищем секретов CyberArk

В дополнение к HashiCorp Vault появилась ещё одна такая интеграция. Работает аналогично. На Хабре есть статья про опции безопасности Zabbix, про Vault там тоже было.

⚡️ Управление конфигурацией Zabbix-прокси с Zabbix-сервера

Управлять можно через веб-интерфейс, командной строки или API. Поддерживаются активные и пассивные прокси.

⚡️ Расширение контроля над обнаруженными узлами сети

Теперь можно вручную привязывать шаблоны к узлам, обнаруженным из прототипов, создавать дополнительные теги к узлам.

⚡️ Отслеживание выполнения активных проверок

Появилась возможность отслеживания активных проверок из веб-интерфейса. Можно конфигурировать период хартбита по проверке доступности активной проверки, а также появился внутренний айтем для проверки доступности активного агента.

⚡️ Улучшение производительности

Теперь Zabbix при обновлении конфигурации не перезагружает в память ее полностью, вместо этого он получает только последние обновления конфигурации.

Ещё одно улучшение — проверка вновь созданных айтемов в течении минуты после их создания вместо проверки в течении случайного периода времени в рамках периода сбора.

⚡️ Кнопка «Execute Now» ~~изменила цвет~~ стала доступна в Latest Data

Разумеется, эта опция доступна не для всех элементов данных (для тех, где недоступна, будет выдаваться ошибка). Также доступностью этой кнопки для пользователей можно управлять при помощи ролевой модели.

⚡️ Отдельные группы узлов и шаблонов

Шаблоны теперь сгруппированы в группы шаблонов, а не в группы хостов. Импорт шаблонов и хостов из предыдущих версий Zabbix полностью поддерживается, и соответствующие группы будут созданы из файла импорта. Права доступа на основе ролей могут быть назначены для раздела «Template Groups».

⚡️ Поддержка нескольких серверов LDAP для аутентификации пользователей

Теперь можно установить несколько серверов LDAP. Функционал позволит плавно переключить аутентификацию пользователей между серверами LDAP при миграции или обновления LDAP.

Как вам обновления?

Полный список обновлений и скриншоты.

2.38K views11:30

Мониторим ИТ

Multi Tenant Logs with Grafana Loki

Loki - популярный инструмент (и по совместимости близкий родственник Grafana) для анализа логов. В этой статье пошаговое руководство, чтобы начать работу с Grafana/Loki в кластере Kubernetes и возможностью наблюдения за несколькими окружениями. Читать дальше.

2.44K views06:00

Мониторим ИТ

Forwarded from /usr/bin

Серия статей по траблшутингу производительности Linux. Если не знаете куда копать, то они должны помочь.

Linux troubleshooting: CPU analysis

Linux troubleshooting: Memory analysis

Linux troubleshooting: Disk analysis

Linux Memory: Buffer vs Cache

Linux — Disk I/O Deep Dive

Linux — How to Measure Network Performance

Linux — How To Troubleshoot DNS Issues

2.32K views13:01

Мониторим ИТ

Мониторинг событий Windows EventLog в Zabbix. В этом видео Дмитрий Ламберт (руководитель техподдержки Zabbix) рассказывает как настроить мониторинг таких событий при помощи Zabbix Agent.

https://youtu.be/rOBatrWrg2Y

YouTube

Windows EventLog Monitoring With ZABBIX

Windows EventLog Monitoring with Zabbix monitoring solution using Zabbix agent. Easy to install and simple to configure. Monitor all required events and receive notifications when something bad happens.

Don't forget to follow on Patreon ( Free tier available…

3.21K views14:30

Мониторим ИТ

Интересный блог Adri Villela на Медиуме. Много пишет про подход к Observability, как правильно строить этот процесс, какие инструменты использовать и т.д. Велкоме.

Medium

Adriana Villela – Medium

Read writing from Adriana Villela on Medium. DevRel | OTel End User SIG Maintainer | {CNCF, HashiCorp} Ambassador | Podcaster | Former corporate 🤖 | Speaker | Bouldering Addict | Opinions my own.

3.16K views06:00

Мониторим ИТ

Что означает load average

Кто-то считает, что load average — это загрузка CPU в единицу времени, например, средняя загрузка: 0,51, 0,72, 0,86 означает, что загрузка CPU составляет 51% за последнюю 1 минуту. Но это не так. Средняя загрузка относится к среднему количеству процессов, находящихся в запущенном и непрерывном состоянии в единицу времени, то есть к среднему количеству активных процессов, которое не связано напрямую с использованием CPU. Читать дальше.

gals.software

Что такое Load Average в Linux

Разберемся что из себя представляет понятие load average и чем оно отличается от загрузки процессора

5.33K views11:30

Мониторим ИТ

Если Mikrotik — ваше альтер эго. По этой ссылке 55 шаблонов от Zabbix для мониторинга если не всей, то большей части моделей устройств Mikrotik. Выбирайте на свой вкус.

4.41K views06:00

Мониторим ИТ

Максимальный таймаут для скриптов в Zabbix - 30 секунд. Если нужно больше, то выход - это использование Zabbix Trapper. Вот и статья соответствующая есть. Ссылка.

2.76K views14:30

Мониторим ИТ

Federating Prometheus Effectively

Федерация позволяет Prometheus собирать временные ряды с другого сервера Prometheus. Федерацию Prometheus можно использовать для масштабирования до сотен кластеров или для переноса связанных показателей из Prometheus одного сервиса в другой. Он поддерживает иерархическую и межсервисную федерацию. В этой статье о настройке федерации серверов Prometheus.

2.67K views09:22

Мониторим ИТ

Kubernetes Monitoring with Kythira

Kythira — это десктопный визуализатор и инструмент мониторинга Kubernetes с открытым исходным кодом, предназначенный для централизации мониторинга Kubernetes. Kythira опрашивает все локальные неймспейсы и представляет разработчикам информацию о текущем статусе. Kythira поддерживает интеграцию с Prometheus и Grafana. В этой статье описание инструмента.

Репыч на Гитхабе.

2.76K views06:28

Мониторим ИТ

Telegram-бот мониторинга состояния серверов на Haskell

Состояние сервера необходимо постоянно мониторить, чтобы в случае ошибки быстро ее исправить. Удобнее всего отслеживать работоспособность с помощью смартфона, а именно Telegram-бота, он позволяет осуществлять проверку на ходу. Реализуем Telegram-бот на функциональном языке Haskell, заодно разберемся в его преимуществах. Читать дальше.

2.84K views11:15

Мониторим ИТ

Forwarded from Elastic Stack recipes

Arkime — opensource NTA решение, которое парсит и складывает трафик в Elasticsearch и pcap’ы. Это позволяет анализировать сетевой трафик из веб-интерфейса, что очень и очень удобно. Для безопасников предусмотрена интеграция c Suricata – Arkime умеет сопоставлять алерт с сессией и отображать это в интерфейсе.

В этой статье описание работы с Arkime.

@elasticstack_ru

👍1

3.07K views14:56

Мониторим ИТ

Мониторинг PHP-приложений с помощью OpenTelemetry и SigNoz

OpenTelemetry помогает генерировать и собирать данные телеметрии. Затем собранные данные необходимо отправить в инструмент анализа на бэкенде. OpenTelemetry предоставляет свободу выбора любого внутреннего инструмента, с помощью которого будет удобнее всего хранить и визуализировать данные телеметрии. А с этим нам может помочь SigNoz. Читать дальше.

3.45K views06:00

Мониторим ИТ

SRE/DevOps Interview Questions — Linux Troubleshooting

В этой статье примеры вопросов на собеседовании на должность SRE. Если хотите им стать, эти знания лишними не будут. Статью написал человек, который был как собеседуемым так собеседующим на интервью. Читать дальше.

4.38K views09:30

Мониторим ИТ

Квадрант Gartner 2022 года по решениям для мониторинга приложений (APM)

7 июня 2022 года вышел новый квадрант Gartner по APM-решениям. Произошло несколько изменений среди лидеров, а также наметился новый интересный тренд. Запилил статью на Хабре.

2.88K views17:40

Мониторим ИТ

Monitoring your Zabbix instance health - Zabbix caches and processes, Zabbix queue and housekeeper

Zabbix состоит из компонентов, которые выполняют повседневные задачи мониторинга. Эти компоненты необходимо контролировать, выполнять правильную конфигурацию и настройку Zabbix, чтобы обеспечить бесперебойный сбор и анализ данных.

В этом видео рассмотрены основы мониторинга состояния Zabbix и его настройки в соответствии с ежедневными нагрузками.

2.97K views06:30

Мониторим ИТ

Alerts, what are they good for?

Признаки хорошего алерта:

⚡️ алерт имеет run-book / документированный план действий

⚡️ приоритет установлен соответственно влиянию

⚡️ имеет соответствующий дашборд

⚡️ метки и теги назначены правильно (владелец, служба, среда)

⚡️ маршрутизируется правильно (если это критический алерт, будет ли он правильно эскалирован)

Статья с рекомендациями по правильному алертингу.

3.13K views12:30

Мониторим ИТ

Организаторы ежегодной конференции по мониторингу Monitorama разместили записи прошедшего 27-29 июня 2022 года мероприятия. Записей интересных много, нужно изучать.

Смотреть.

3.14K views06:30

Мониторим ИТ

Анализ производительности с помощью Guider

Guider — это анализатор производительности.
Он предназначен для измерения, анализа, тестирования и проверки производительности систем. Устанавливается через менеджер pip.

Репыч на Гитхабе.

GitHub

GitHub - iipeace/guider: Real-time Performance & Fault Detection Service Enabled by Comprehensive Built-in Command

Real-time Performance & Fault Detection Service Enabled by Comprehensive Built-in Command - iipeace/guider

2.75K views12:30

About

Blog

Apps

Platform