Мониторим ИТ – Telegram
Мониторим ИТ
7.92K subscribers
197 photos
2 files
1.52K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
Экспертное руководство по мониторингу производительности BPF в Linux

Используя BPF, инженеры могут получить глубокий анализ своих систем без дополнительных затрат, связанных с традиционными инструментами мониторинга. Понимание того, как использовать его, — ключ к эффективной доступности и безопасности серверов Linux. Несколько примеров использования в этой статье.
🔥7👍2
7 крутых вещей, которые можно сделать дома с помощью Grafana

Мозг инженера никогда не перестаёт работать, поэтому вполне естественно, что при переходе с работы на дом работа продолжается. Неудивительно, что около десяти лет назад, когда коллега познакомил меня с Grafana, автор этой статьи почти сразу же решил использовать её для решения домашних задач. Давайте рассмотрим несколько интересных вариантов использования платформы мониторинга Grafana в домашних условиях.
👍8🔥6
grafana-kubernetes-plugin

Плагин позволяет просматривать ресурсы и журналы Kubernetes непосредственно в Grafana. Плагин также предоставляет ряд действий для взаимодействия с ресурсами, включая их редактирование, удаление и масштабирование, а ещё плагин поддерживает другие облачные инструменты, такие как Helm и Flux.

Репыч на Гитхаб

@monitorim_it
👍8🔥64
Забудьте про print(): Современное и красивое логирование в Python с помощью Loguru

Если вы пишете на Python, скорее всего, ваша карьера разработчика начиналась с одной простой, но незаменимой команды — print(). Нужно проверить значение переменной? print(my_variable). Хотите убедиться, что функция вообще вызвалась? print("Я внутри функции!"). Этот метод прост, интуитивно понятен и кажется верным другом в мире отладки.

Но дружба эта длится ровно до первого серьезного проекта. Внезапно оказывается, что ваш терминал завален десятками отладочных сообщений, и вы уже не понимаете, какое из них к чему относится. Вы начинаете писать print("--- HERE ---"), чтобы хоть как-то ориентироваться в этом хаосе. А когда приходит время выкатывать код в продакшен, вы судорожно ищете и комментируете все свои print(), надеясь не пропустить ни одного.

В этот момент опытные коллеги (или статьи в интернете) говорят вам: "Для этого есть стандартный модуль logging!". И они правы. logging — это мощный, гибкий и правильный инструмент. Но давайте будем честны, его настройка часто напоминает бюрократическую процедуру. В статье рассказано о модуле loguru — еще более эффективном инструменте для логирования.
🔥9👍4
I can’t recommend Grafana anymore

Отметьтесь в комментариях, кто, как и автор этой статьи, думает, что Grafana слишком быстро развивается, слишком быстро всё меняет и не является достаточно скучной (=неизменной). Очень интересная точка зрения, рекомендую пользователям Grafana с ней ознакомиться.

Я не слишком активный пользователь Grafana-стека. В основном пользуюсь только дашбордами. А вот те, кто использует Alloy, Mimir, Loki, OnCall, как оно вам вообще? Успеваете за изменениями?

❗️ Все желающие приглашаются в комментарии для обсуждения.
🔥93🤔3👎2
Drinking the OTel SODA: Send Observability Data Anywhere

Долгое время наблюдаемость означала организацию полного стека, который невозможно изменить: проприетарные агенты для сбора данных, проприетарный протокол для их передачи и проприетарный бэкенд для их просмотра. Наблюдаемость находилась в замкнутом пространстве.

OpenTelemetry был создан, чтобы сломать эту парадигму. Благодаря OTel Collector, выступающему в роли механизма трансляции и маршрутизации, метрики, журналы и трейсы больше не ограничены проприетарными средствами.

Наблюдаемость — это не монолит

Нет ничего плохого в проприетарном программном обеспечении; многие отличные системы имеют закрытый исходный код. Проблема в том, что данные становятся проприетарными в этих системах.

Когда сбор, передача и хранение тесно связаны с одним вендором, возможности сужаются. Нужна поддержка менее распространённого языка программирования? Вам придётся ждать агента кварталами. Хотите сменить вендора? Приготовьтесь к неделям перенастройки. Даже простые идеи, например, эксперименты со вторым параллельным бэкендом, могут стать «проектами».

OTel меняет весь подход. Сегодня вы можете единообразно инструментировать практически всё, и да, ещё никогда не было так просто менять платформу наблюдения, не трогая код приложения. Но дело не только в снижении привязки к вендору; когда вы контролируете, как перемещаются данные, вы можете отправлять их куда угодно.

Термин «наблюдаемость» создаёт впечатление, что сбор, обработка и хранение телеметрии — это один большой монолит. Это не так. Конвейер изначально компонуется, и наибольший эффект достигается в его хвосте: «бэкенде». Относитесь к этому хвосту как к развилке, а не как к тупику.

И вот тут предлагаю вам перейти к чтению оригинальной статьи, где рассказано что же такое SODA (Send Observability Data Anywhere) и как этот подход адаптировать к вашему окружению. Так как статься написана с прицелом на ClickStack, то в конце вам предлагается к нему еще раз присмотреться.
🔥72👍2
From Signals to Reliability: SLOs, Runbooks and Post-Mortems

Вы можете создать идеальную инфраструктуру наблюдения: унифицированные конвейеры OpenTelemetry, непрерывное профилирование, инструментирование каждого сервиса, сбор всех метрик, логов и трейсов и щепотка привлекательных дашбордов в Grafana.

Но это не спасет от возможных трудностей во время инцидентов. Недостающий элемент не технический, а организационный. Когда во время инцидентов срабатывают оповещения, команде необходимо мгновенно ответить на четыре вопроса: насколько это серьёзно? Какие действия следует предпринять? Кого необходимо привлечь? Когда проблема будет решена?

Без целей уровня обслуживания (SLA) критичность становится субъективной. Разные инженеры будут по-разному оценивать, приемлемо ли 5% ошибок или катастрофично. Без регламентов реагирование на инциденты превращается в импровизацию. Каждый инженер следует своей ментальной модели, что приводит к противоречивым результатам. Без структурированного анализа инцидентов команды устраняют симптомы, но упускают первопричины, постоянно сталкиваясь с одними и теми же проблемами.

В этой статье интересный разбор подхода к формированию SLA, ранбуков и пост-мортемов.
🔥75👍1
Изучаем инструменты мониторинга сети для Linux: tcpdump, wireshark и iftop

Linux предлагает много мощных инструментов, которые помогают администраторам захватывать, проверять и анализировать сетевой трафик в режиме реального времени. Три наиболее часто используемых инструмента — это tcpdump, wireshark и iftop. Подробнее в этой статье.
🔥8👍3
Галс Софтвэр приглашает на обновленный тренинг по OpenSearch 22-24 декабря

Приходите на дополнительный тренинг по OpenSearch в этом году. Мы обновили программу до версии 3.3 и добавили новые блоки:

🚀 сегментная репликация
🚀 мониторинг (Performance Analyzer)
🚀 отправка оповещений
🚀 работа с Vector
🚀 работа с Ingest pipelines

❗️ За 3 дня вы получите глубокий опыт работы с самой последней версией OpenSearch. Интенсив поможет быстро погрузиться в продукт, на растягивая знакомство на долгий срок.

Программа тренинга


Подробную информацию вы можете запросить, написав @galssoftware или через почту hello@gals.software.

Реклама. ООО «Галс Софтвэр», ИНН 5047195298, erid 2VtzquYcAp6
🔥6👍3👎1
Анализ проекта VictoriaMetrics

Мальчишки и девчонки, а также их родители, как устроена VictoriaMetrics узнать не хотите ли? В этой статье вы узнаете структуру каталогов проекта и о предназначении различных файлов. А ещё там описаны некоторые проектные решения при разработке продукта.

Эту статью можно назвать продолжением цикла. Есть еще одна похожая, которую я уже публиковал в канале. Но там рассмотрено все немного под другим углом.
🔥8👍1👎1
Хорошая новость: Рег.облако компенсирует весь первый месяц использования Kubernetes.

Подключайте кластеры K8s до 30 декабря и получайте 100% суммы обратно бонусами.
Подробнее — по ссылке.
🔥6👎3🤔2
Лучшие практики трассировки производительности для Linux

В этой статье перечислены готовые утилиты и скрипты для трассировки вызовов внутри Linux-систем между компонентами приложения. Рассмотрены perf, strace, eBPF и OTel.
5👍1🔥1
Faster incident response through distributed tracing: Inside Glovo's use of Traces Drilldown

Понедельник, почти час дня, и вы голодны. Открываете приложение доставки еды, выбираете любимый ресторан и блюдо. Затем идёте оформлять заказ, но ничего не происходит.

Ваше раздражение нарастает, поскольку с каждой минутой вы становитесь всё более голодными. Но есть и раздражение с другой стороны этой сделки: инженеры пытаются понять, в чём проблема, поскольку заказов становится меньше, а потери прибыли растут.

Это тот тип сценария, которого вы пытаетесь избежать, если вы работаете в команде SRE в Glovo, дочерней компании Delivery Hero и платформы доставки еды и продуктов по запросу, работающей в 23 странах Европы, Африки и Азии.

В статье рассказано об опыте использования Grafana Traces Drilldown.
🔥6👍2
OpenTelemetry eBPF Instrumentation Marks the First Release

Надо же, OpenTelemetry теперь и в eBPF может. Пока в альфе.

Результатом коллаборации Grafana Labs, Splunk, Coralogix, Odigos и многих других членов сообщества стало решение OpenTelemetry eBPF Instrumentation (OBI). Этот продукт основан на Grafana Beyla, которая была пожертвована Grafana Labs в начале этого года. Разработка инструментария eBPF значительно ускорилась после того, как проект перешёл под управление OpenTelemetry. Было добавлено множество новых протоколов, качество повысилось, особенно при масштабном деплое, а тестирование выполняется в 10 раз быстрее.

Инструментирование OpenTelemetry eBPF (OBI) выполняется вне процесса и использует инструменты на уровне протокола, а не на уровне библиотеки. Оно использует глубокую интеграцию с ядром, изоляцию процессов, безопасность выполнения и преимущества производительности технологии eBPF.

Так как OBI инструментирует данные на уровне протокола, это означает, что вы можете инструментировать все приложения (все языки программирования, все библиотеки) практически без усилий, одной командой, и всегда получать согласованную картину.

В общем просто космос какой-то. Читайте продолжение в блоге OpenTelemetry.

Репыч на Гитхаб

@monitorim_it
🔥8👍51
Обучающие материалы о Grafana от самой Grafana

Узнаете то, о чем раньше не знали. Изучение каждого мини-курса займет 10-20 минут. Все описано в доступной форме в виде пошаговой инструкции.

Среди обучающих курсов:

🚀 Kubernetes Monitoring

🚀 Connect to a Prometheus data source

🚀 Visualize logs

🚀 Create logsalert rule

и многое другое.

@monitorim_it
👍11🔥8
Continuous profiling for native code: Understanding the what, why, and how

Профилирование как метод отладки существует уже давно. В середине 2010-х годов, появился ряд продуктов, которые дали начало использованию этой технологии как четвёртого метода наблюдаемости. Появление eBPF сделали расширило его возможности.

В этой статье рассмотрены преимущества непрерывного профилирования и пример использования для получения наглядной информации о производительности кода.
🔥6👍4
Классический мониторинг уже не справляется с вызовами сложных ИТ-систем: он фиксирует сбои, но не раскрывает их причины.

Observability меняет подход — помогает понять взаимосвязи сервисов, качество работы и опыт пользователей. Подробнее об этом рассказал Антон Новоженин, технический директор GMONIT. В материале:

📌 ограничения традиционного мониторинга;
📌 особенности APM;
📌 ключевые принципы observability;
📌 преимущества сочетания подходов;
📌 тенденции, определяющие развитие систем анализа ИТ-инфраструктуры.

Переходите по ссылке, чтобы прочитать статью! 📖

Реклама. ООО "ХАЙПЕРСОФТЛАБ", ИНН 9705151703, erid 2Vtzqv6m13P
👍8👎32
Your Brain on Incidents

Опыт работы автора этой статьи дежурным начался в середине 2000-х. Было пять вечера пятницы, конец первой недели работы инженером-программистом в финансовой компании в Лондоне. Он как раз закрывал свою IDE на выходные, когда к столу, неловко улыбаясь, подошёл начальник. В руках у него были IBM Thinkpad, Blackberry и, несомненно, грузная ноша человека, которому нужно было сделать одолжение. Веселые истории и поучительный опыт из жизни дежурного.
🔥4👍2👎1
Как продуктовые аналитики в Туту ловят аномалии в метриках

Рано или поздно в любом продукте встает вопрос о том, как успевать отлавливать аномалии в аналитических логах и метриках. В статье продуктовый аналитик из команды Отелей сервиса путешествий Туту расскажет о подходе к алертингу и поделится кодом, с помощью которого продуктовый аналитик может за пару часов самостоятельно настроить базовый алертинг.
👍4🔥4👎1
Configuring PostgreSQL Logs: A Practical Guide

Анализ логов PostgreSQL даёт следующие преимущества:

🚀 Отладка и устранение неполадок: выявление медленных запросов, взаимоблокировок и проблем с подключением.

🚀 Оптимизация производительности: выявление узких мест, конфликтов блокировок и неэффективных шаблонов запросов.

🚀 Аудит и соответствие требованиям: регистрация того, кто, к чему, когда и откуда получил доступ, для обеспечения подотчетности и безопасности.

Проблема в том, что в большинстве боевых сред логирование по-прежнему выполняется неправильно. Некоторые регистрируют всё, генерируя столько данных, что они становятся бесполезными. Другие не регистрируют практически ничего, оставляя критические пробелы при снижении производительности или сбое.

В этой статье основное внимание уделяется поиску правильного баланса: настройке PostgreSQL для регистрации значимых событий, обеспечению компактности и эффективности журналов, а также созданию основы для бесшовной интеграции с современными фреймворками наблюдения, такими как OpenTelemetry.

@monitorim_it
👍5🔥4
Специальное предложение для планирующих миграцию виртуализации

Компания ISPsystem запустила акцию «Мигрируем VMeste» — комплексное решение для перехода с российских платформ виртуализации на VMmanager (Продукт года по версии CNews Awards).

Ключевые преимущества программы:

• Лицензия VMmanager на 12 месяцев по цене технической поддержки
• Годовая лицензия BILLmanager Enterprise в подарок
• Экспертное сопровождение миграции специалистами ISPsystem

Условия участия:
- Приобретение годовой технической поддержки на количество мигрирующих хостов
- Регистрация в акции — до 31 декабря 2025 года
- Завершение всех миграций — до 31 декабря 2026 года

Программа предлагает экономически эффективный подход к переходу на современную российскую платформу виртуализации с профессиональной поддержкой на всех этапах.

Детали акции доступны на официальном сайте ISPsystem.

Реклама. АО «Экзософт»
🔥4👎2