Dev0ps – Telegram
Dev0ps
40 subscribers
211 photos
3 videos
50 files
3.33K links
Download Telegram
Forwarded from Мониторим ИТ
Посмотрите на эту картинку. Да, это из известной сказки, в которой лживый мальчик кричал «Волки! Волки!» в то время, когда волки доедали каких-то других козлят. А когда волки пришли за его козлятами — никто не прибежал с вилами на помощь.

Если из мониторинга прилетают алерты без повода через какое-то время на них перестанут реагировать. Очень много таких ситуаций возникает когда нет ответственного за мониторинг и каждая группа администраторов добавляет туда свои метрики и алерты. Ниже несколько рекомендаций, чтобы не выпускать ситуацию из под контроля.

1️⃣ Выгружать отчёты по событиям/алертам. Выявлять повторяющиеся. В идеале каждое событие должно появляться из-за какого-то нового бага в коде или настройках.

2️⃣ События должны быть только по тому, что требует вмешательства. Если можно автоматизировать реакцию на событие — это нужно сделать как можно скорее и никого об этом не оповещать. Это касается повторяющихся событий, причину которых невозможно пофиксить.

3️⃣ В системах мониторинга или алертинга есть (или должен быть) такой Duration. Это позволит не реагировать на разовые всплески. Важно уточнить у администраторов информационных систем насколько долго эти системы могут работать в «красной зоне».

4️⃣ По каждому событию/алерту в системе мониторинга должна фиксироваться реакция ответственного сотрудника. Если на какие-то события реакции нет — нужно выяснить кто заказывал мониторинг. Может это уже никому не нужно.

5️⃣ Этот список не означает, что нужно собирать только минимальный набор ключевых метрик. Нужно собирать их как можно больше и различными технологиями (встривание в код, синтетические транзакции, анализ трафика и т.д.). Важно отключить генерацию событий и оповещения на то, на что некому реагировать.

6️⃣ Создавайте связанные триггеры. В системах Zabbix и Prometheus это можно делать. Не нужно плодить 100500 событий из-за отказавшего коммутатора на удалённой площадке.

7️⃣ Если есть мониторинг приложения, которое разрабатывается парнями через стенку, важно, чтобы они поучаствовали в определении метрик мониторинга, на которые должна реагировать эксплуатация (да они сами что-то могли записать в баг-репорт).

Хотел написать 10, но на 7 мысль дальше не идёт. Если хотите небольшое продолжение — я как-то писал на Медиуме о борьбе с событийной усталостью. Малую толику информации можно посмотреть там.
... Какая-то крупная компания создаёт интересный продукт, делает часть его функций открытой, но самую важную часть оставляет платной. Сообщество пользуется-пользуется, а потом кто-то махнёт рукой и сделает форк, реализовав в нём те самые платные фичи и открыв их для всех. Вот KeyDB — тот самый случай» https://habr.com/ru/company/flant/blog/478404/

А вообще, нормальный как-бы Redis - крайне актуальная тема
Forwarded from ДевОпс Інженер 🇺🇦 (devopsengineer bot)
GoTo DevOps: DevOps Conferences 2020

Интересный сборник DevOps-related  конференций с фильтрами по местоположению, времени и стоимости. Можно подписаться и получать уведомления:

https://www.gotodevops.org/
Forwarded from Cybershit
Порой кажется, что задача собирать и анализировать трафик сети неподъемная и очень трудоёмкая.

Причин, требующих мониторить трафик может быть множество, начиная от неправильных конфигураций, которые нагружают вашу сеть, до создания поведенческого baseline сетевой активности и анализа аномалий.

Задача поставлена, рынок спешит предложить решения, и тут они на любой вкус и цвет: пакетные анализаторы, анализаторы потоков (flow), десятки способов получения трафика: SPANы, TAP'ы, отправка различных flow и пр.

Но, что если хочется «бисплатно» и с рюшками? Тут тоже целый простор для фантазии, open-source, отодвигая кровавый энтерпрайз, тоже готов предложить массу интересных систем, например небезизвестное в широких кругах Moloch — масштабируемое решение для захвата и индексации пакетов внутри вашей сети, которое отлично дополнит IDS систему.

GitHub: https://github.com/aol/moloch
Quick Start: https://medium.com/swlh/indexing-network-traffic-with-moloch-and-elastic-931dda8a1685

А также другие решения, если вдруг захочется «а можно всех посмотреть?»:

Traffic Analysis/Inspection: https://github.com/caesar0301/awesome-pcaptools#analysis
Traffic Capture: https://github.com/caesar0301/awesome-pcaptools#capture
Forwarded from Danila Shtan
я как-то рассказывал про нашу инсталляцию jaeger, куда мы пишем сотни тысяч спанов в секунду
мы заопенсорсили сторадж-плагин для егеря, который использует ydb

да, это вендорлок, да, это saas база. но работает очень хорошо.
https://github.com/yandex-cloud/jaeger-ydb-store/
Forwarded from Matvey
Написали небольшую статью по первым инцидентам, которые скушал амиксер: https://blog.amixr.io/what-weve-learned-once-processed-first-150000-production-incidents/
Forwarded from CatOps
Moto - Python библиотека для мока AWS ресурсов.

В ридми есть таблица совместимости с существующими сервисами Амазона

#aws
Forwarded from Мониторим ИТ
Подвезли стафф для линукс-администраторов. Ещё одна интересная статья от уже известного вам Антуана Солничкина, на которую стоит обратить внимание. Пишет про мониторинг MySQL при помощи специализированного экспортера для Prometheus и создании бизнес-дашборда в Grafana. Там есть список ключевых метрик и парав видосов с объяснениями.
Forwarded from Мониторим ИТ
И ещё вдогонку к предыдущему посту. Статья о мониторинге DIsk I/O на Linux-системах при помощи Prometheus c небольшим рассказом о том, как устроена файловая система в Linux.
Очередная громкая статья Monoliths are the future, активно обсуждаемая околомикросервисным сообществом, оказалась просто громким заголовком https://changelog.com/posts/monoliths-are-the-future. Микросервисам, как станет понятно из фрагмента и комментариев после него, ничего не грозит.

Вернее, речь идет даже не о статьей, а о выдержке из расшифровки подкаста Go Time https://changelog.com/gotime/114 Кстати, неплохой выпуск. Послушайте/почитайте
👾 Скрипт для быстрой установки wireguard. https://github.com/angristan/wireguard-install Перед установкой убеждаемся, что система запущена с последней, актуальной версией ядра. Всё остальное скрипт сделает сам.

#wireguard #github
🔎 https://ihateregex.io/ - пачка примеров регэкспов, с объяснением того, как они работают. #линк #regexp
Forwarded from Мониторим ИТ
Это пост 5в1. Дальше будет 5 ссылок на статьи по подходам к обеспечению доступности MS SQL. Там про специализированные точки мониторинга: флаги трассировки, рост таблиц и баз данных, производительность запросов, хранимых процедур, триггеров и вот этого всего . Все статьи — это опыт Евгения Грибкова, который MS SQL Server and .NET Developer да ещё и DBA. В его профиле на Хабре найдёте ссылки на англоязычные статьи.

1️⃣ Использование Zabbix для слежения за базой данных MS SQL Server

2️⃣ Некоторые аспекты мониторинга MS SQL Server. Рекомендации по настройке флагов трассировки

3️⃣ Реализация индикатора производительности запросов, хранимых процедур и триггеров в MS SQL Server. Автотрассировка

4️⃣ Пример реализации общего индикатора производительности MS SQL Server

5️⃣ Автоматизация по сбору данных о росте таблиц и файлов всех баз данных MS SQL Server