NEW BOT Телеграм, страница

Channel photo updated

21:53

И так, снова про метрики. Что вы знаете о Trickster?

Но начну с проблем, которые мы решали.

У нас в observability команде Prometheus начал задыхаться под нагрузкой:
- Grafana-дашборды открывались по 30-40 секунд
- Одни и те же запросы выполнялись десятки раз
- PromQL-запросы с большими временными диапазонами убивали память
- Кардинальность метрик росла, а железо - нет

Встал вопрос, как это решать, и неожиданно нашёлся Trickster.

Trickster - это умный HTTP reverse proxy, который сидит между Grafana и Prometheus. Он кэширует результаты запросов и умеет делать несколько крутых вещей:

Delta Proxy Cache - запрашивает только новые данные, а старые берёт из кэша. Например, если у вас запрос за последние 6 часов, а в кэше уже есть данные за 5 часов 50 минут - Trickster догрузит только последние 10 минут.

Time Series Merging - склеивает закэшированные данные с новыми так, что Prometheus даже не догадается.

Query Rewriting - оптимизирует тяжёлые запросы на лету.

Результаты после внедрения:
- Нагрузка на Prometheus упала на 60-70%
- Дашборды открываются в 3-5 раз быстрее (не всегда :D)
- Hit rate кэша стабильно держится на уровне 75-80%
- Можно спокойно масштабировать дашборды без страха положить Prometheus (нет)

Альтернатив особо нет. Есть Promxy, Cortex, Thanos - но они решают другие задачи (федерация, долгосрочное хранение). Именно для кэширования запросов на уровне HTTP с умным delta-подходом Trickster практически уникален.

Что важно знать:
- Работает с Prometheus, InfluxDB, ClickHouse, IronDB
- Поддерживает Redis и Filesystem как бэкенд для кэша
- Можно настроить TTL отдельно для каждого типа запросов
- Метрики самого Trickster экспортируются в Prometheus (очень meta)

Если у вас Prometheus начинает тормозить, а дашбордов становится всё больше - внедрение Trickster займёт пару часов, но сэкономит месяцы оптимизаций.

PS: ах, да, особо не смотрите на последний релиз Trickster-a, форкните репо себе и соберите image. Ребята что-то забросили сборки обновлять :(

GitHub

GitHub - trickstercache/trickster: Open Source HTTP Reverse Proxy Cache and Time Series Dashboard Accelerator

Open Source HTTP Reverse Proxy Cache and Time Series Dashboard Accelerator - trickstercache/trickster

1🔥3

226 viewsedited 00:36

A young Max’s notebook

Forwarded from Берёзка

Тестфлайт Додо Пиццы

Мы открываем бета-сборочки в публичный тестфлайт. Сборки довольно стабильные: они прошли все внутренние автоматические проверки и часть ручных. Критический путь в них 100% работает, но могут быть супер-редкие краши. Их мы и хотим отловить с вашей помощью.

Бета-сборочку можно установить по ссылке: https://testflight.apple.com/join/DJjtWbmY

Новые сборки выкладываем каждые две недели, так что включите автообновление и выключите оповещения.

Apple

Join the Dodo Pizza Delivery beta

Available on iOS

184 views06:55

A young Max’s notebook

Как работают инженеры по надёжности в 2025 году?

SRE-инженеры — те, кто держат production в живых, настраивают мониторинг, ловят и устраняют инциденты и отвечают за uptime.

Ребята из DevCrowd, которые специализируются на ёмких и открытых отчетах о разных профессиях в IT, запускают свое первое исследование про SRE и DevOps-практики — чтобы понять, как всё устроено изнутри: кто за что отвечает, какие инструменты реально работают и где проходит граница между SRE и DevOps. Они попросили меня помочь и я не смог им отказать. :)

💡 Зачем участвовать?

– посмотрите, как ваш опыт соотносится с другими инженерами: процессы, зрелость команд, инструменты;

– узнайте, какие reliability-практики внедряют коллеги;

– поможете сделать роль SRE понятнее и заметнее на рынке.

🛠 В опросе задачи, инструменты, мониторинг, алертинг, CI/CD, культура постмортемов и взаимодействие ролей.

🕐 Заполнение займёт около 10 минут.

📊 Результаты — в ноябре на devcrowd.ru

📝 Пройти опрос → https://survey.alchemer.eu/s3/90909470/SRE-2025

⚠️Важно — результаты будут опубликованы в открытом доступе, чтобы все сообщество могло оценить/обсудить и сделать собственные выводы.

Please open Telegram to view this post

VIEW IN TELEGRAM

266 viewsedited 14:18

A young Max’s notebook

В нашем корп. чатике поделились, а я залип...
И так, 796 этаж...это огромная анимационная сцена в виде космической станции с кучей комнат, каждая из которых наполнена множеством двигающихся персонажей и отсылок к поп-культуре, кино, играм и мемам. Всё создаётся и расширяется одним человеком уже несколько лет с 2018-го, при этом анимация представлена одной большой зацикленной гифкой в 60 кадров.
В этой анимации можно найти массу пасхалок, включая отсылки к “Властелину колец”, “Дюне” и “Бегущему по лезвию” — начиная с неоновых огней нуарного Лос-Анджелеса, таинственных пустынь и до классических эльфов и легендарных героев. Автор очень досконально проработал каждый кадр, создавая сложный и живой мир, который постоянно расширяется и развивается. Клик по многим персонажам раскрывает их истоки, превращая просмотр в настоящее гик-путешествие по культовым произведениям и мемам.
И залипаю я в эту штуку уже третий вечер подряд :)

Floor796

A huge animation scene with many references to memes, games, films, series, anime, music groups

🔥4

260 views02:06

A young Max’s notebook

Вот вам мемес под конец рабочего дня

❤‍🔥1

235 views15:27

A young Max’s notebook

Всем продуктивного понедельника :)

😁9

142 views11:38

A young Max’s notebook

Как я автоматизировал заметки: из Telegram в Notion без боли (ну почти)

Рабочие вопросы, задачи, курсы, консультации - информации в день прилетает тонна. Идеи для постов, заметки с митингов, голосовухи после созвонов, внезапные озарения в 2 часа ночи. Раньше все летело в избранное Telegram. А потом каждые выходные - унылый ритуал: открываешь избранное, копируешь в Notion, категоризируешь, добавляешь теги - 2-3 часа убито.

И тут я нашел базовый workflow для n8n и довел до ума. Теперь просто форвардлю сообщение боту - и оно уже в Notion, причем AI сама:
- Генерит заголовок из содержимого
- Определяет тип: Question/Task/Idea/Observation/Research
- Ставит категорию: Projects/Marketing/Personal/Research и т.д.
- Сохраняет контент без изменений, все ссылочки собирает в конце заметки

Бонус: работает с голосовыми! Записал мысль вслух → Google Gemini транскрибирует → в Notion уже текстом.

Набор простой:
- n8n для оркестрации
- Google Gemini 2.5 Flash (транскрипция + обработка)
- Notion API
- Telegram Bot

Фишка: без даты в заголовке (она отдельно в поле Created At). AI не додумывает - копирует как есть.
Минус: не более 2000 символов и слегка медленно думает над войсами :(

А что изменилось то?
Было:
- 50-70 заметок в неделю в избранном
- 2-3 часа на сортировку в выходные
- Теряются детали, пока не перенес
Стало:
- Форвард → 5 секунд → в Notion с тегами
- Голосовые сообщения и прочие "подкасты" → текстом в базе
- Идеи для курсов не теряются
- Могу искать по категориям сразу

Ну куда же без применение в SRE

Реально полезные кейсы:
Во время инцидентов вместо скрайбера:
Голосом в бота: "Упал Prometheus в зоне B, начал рестарт, проверяю PV" → в Notion с типом "Observation", категория "Projects"
После митингов:
Форвардишь итоги встречи → автокатегоризация → в одной базе с другими заметками по проекту
Идеи для постов:
Увидел интересный кейс → сразу в бота → тип "Idea", категория "Marketing" → не потеряется
Для курсов:
Research по новым инструментам → сразу в категорию "Research" → потом легко найти при подготовке материалов

Итоги
Экономлю ~10 часов в месяц. Но главное - перестал терять информацию. Все идеи, заметки, инсайты сразу в структурированном виде.
Для SRE/DevOps-инженеров, кто ведет каналы, пишет курсы или просто много фиксирует - мастхэв.
---
P.S. Ссылочка на сам ворк-флоу - туть
P.P.S. Google Gemini для транскрипции русского языка работает офигенно. Даже с моим техническим жаргоном, косноязычием и "эмммм" посреди предложения. Главное без мата, он такое не любит.

👍3🔥1

177 viewsedited 02:01

A young Max’s notebook

CrowdSec - штука, которую мне показал хороший друг.

Привет! Сегодня хочу рассказать про инструмент, который реально помогает спать спокойнее, когда у вас куча VPS торчит в интернет.

Что это вообще такое?
CrowdSec - это открытая система защиты от атак, работающая по принципу "один за всех". Представьте: кто-то брутит SSH на сервере в Токио, информация об атакующем IP попадает в общую базу, и ваш сервер в Москве уже знает, что этот адрес нужно блокировать. Круто, да?

Почему я это использую:
Легковесность - агент жрёт ~50MB RAM, не то что fail2ban с его аппетитами
Умные парсеры - из коробки понимает логи nginx, SSH, MySQL и ещё кучи сервисов
Общая threat intelligence - миллионы серверов делятся данными об атаках в реальном времени
Гибкие bouncers - блокируешь на уровне iptables, nginx, cloudflare - как удобно:)

Базовый сетап за 5 минут:

curl -s https://install.crowdsec.net | sudo sh
sudo cscli bouncers add firewall-bouncer
sudo apt install crowdsec-firewall-bouncer-iptables

Добавляешь коллекции под свои сервисы:

sudo cscli collections install crowdsecurity/nginx
sudo cscli collections install crowdsecurity/sshd

И всё — у вас уже работает защита, которая учится на опыте всего комьюнити.
Из практики:
Только что накатил на свои 4 VPS . За первые сутки:
SpaceCore поймал уже 334 алерта:(
WaiCore - 135 попыток
BlackMore и Veesp - 18 и 13 соответственно

Все эти IP автоматически попали в блокировку. И это только за день! Представьте, сколько мусорного трафика раньше долетало до сервисов.

Веб-интерфейс для мониторинга:
У CrowdSec есть вариант визуализации:
CrowdSec Console (app.crowdsec.net) - регистрируешь аккаунт, энроллишь свои инстансы через cscli console enroll, и получаешь красивый дашборд со всеми серверами в одном месте. Бесплатно для небольших инсталляций. Удобно мониторить все VPS с телефона, не нужно ничего поднимать и поддерживать. Плюс получаешь аналитику по типам атак и географии атакующих.
Метрики и алерты:
CrowdSec экспортирует метрики в Prometheus из коробки. У меня стоит алерт на аномальный рост заблокированных IP - если вдруг начинается что-то серьёзное, я узнаю об этом сразу.

Если у вас есть VPS, на которых что-то крутится, поставьте CrowdSec. Это не панацея, но отличный дополнительный слой защиты, который работает на опыте миллионов других серверов.

UPD: Оказывается в их cloud-вебморде лимит на 500, а значит я свои 500 уже получил и новые не увижу, но метрика в prometheus работает корректно и показывает как дела :)

❤4

195 viewsedited 00:06

A young Max’s notebook

Слегка отойдем от рабочих моментов...

И так, Dispatch — это безумно залипательная вещь на 10 часов, заполненная шикарными шутками, чёрным юмором, подколами и матюками.

Нам в 8 эпизодах рассказывают историю бывшего супергероя, который теперь сидит за пультом и управляет другими не совсем уж героями, а бывшими злодеями которых отправили на перевоспитание. Сюжет разворачивается как полноценный интерактивный триллер с выборами, которые реально влияют на развитие истории и судьбы персонажей.

Визуальная составляющая — просто шик, это замечательный мультик в стиле…а черт его знает что это за стиль, где иногда надо что-то выбрать, чтобы решить свою или чужую судьбу. Атмосфера насыщенная, саундтрек давит в нужный момент, а диалоги написаны с таким расчётом, что половину времени ты либо смеёшься, либо сидишь в шоке от развития событий.

Люто советую отключить QTE в настройках и просто наслаждайся моментами — игра от этого только выигрывает. Позволяет сосредоточиться на выборах и диалогах, а не на нажимании кнопок. Локализация страдает местами, поэтому советую еще и оригинальный язык оставить, а то есть шанс упустить все тонкости юмора и приколов.

А ещё там можно романсить двух красоток, что добавляет реиграбельности — хочется пройти ещё раз, чтобы увидеть все ветки сюжета и альтернативные концовки их лайнов.
Финал игры - просто отвал башки, с кайфом просидел все 9 часов и 8 эпизодов замечательной истории о любви, предательстве, дружбе и всей прочей ерунды.

Если ты любишь интерактивные истории, чёрный юмор и не боишься немного экспериментировать со своей судьбой — Dispatch это обязательно. Это не игра для быстрого прохождения, это игра, в которую хочется погружаться, перепроходить и обсуждать с друзьями. Шедевр инди-сцены, который легко затянет на весь выходной.

👍2

188 views01:53

A young Max’s notebook

Время чуть-чуть погрустить...
Итак, 12 числа, ровно через неделю, я покидаю Dodo Engineering.
Это было исключительно моё решение, которое далось тяжело. Но надо двигаться дальше...
Я всё ещё считаю, что за почти 11 лет моей IT-карьеры это самое лучшее место, где я работал. Начиная с онбординга и вливания в команду, заканчивая технологиями, опытом и свободой.
Ко всему прочему, я считаю, что именно в этой команде у меня был лучший лид и техлид, с которыми приходилось работать.
А текущая команда observability, которую лидировал я, - одни из самых заряженных и горящих парней, что я видел.
Специально для тех, кто интересуется, куда я, прикладываю намекающую картинку.
А Dodo всегда останется у меня в сердечке ❤️

❤11

181 views00:46

A young Max’s notebook

Не так давно я скидывал ресерч от DevCrowd и...
Ресерч закончился, с результатами можно ознакомиться по ссылке в репосте.
Спасибо ребятам за интересный опрос, за возможность поучаствовать и "помочь" в нем :)

130 views10:49

A young Max’s notebook

Forwarded from DevCrowd - недушные рисерчи IT-отрасли

Готово: исследование SRE-специалистов 2025 💥

Мы опросили 273 инженера, которые отвечают за стабильность сервисов, и собрали честную картину того, как на самом деле устроены SRE-команды в российском IT.

Вот несколько ключевых наблюдений:

- 51% компаний не разделяют SRE и DevOps — чаще всего из-за размера команды и пересечения задач.

- SLO/SLI внедрены только у 60% — и это зависит от зрелости процессов и размера команды.

- Error Budget отслеживают всего 25% команд, остальные работают «по ощущениям».

- Мониторинг и инциденты — две самые универсальные зоны ответственности, независимо от названия роли.

- 63% команд разрабатывают собственные инструменты надёжности, чаще всего на Python или Go.

Традиционно больше данных и результатов в финальном отчете. Читайте, делитесь с коллегами https://devcrowd.ru/sre-2025

184 views10:49

A young Max’s notebook

Все хейтят Grafana - а я вот её похвалю.

Несколько месяцев назад подключил всю свою хоум-лабу и все свои VPS к Grafana Cloud на бесплатном тарифе. И знаете, что? Кайфую.

Начну с боли, которую я ожидал. Обычно когда дело касается "облачных" решений для мониторинга, в голове сразу возникает:
- Дорого
- Настраивается часов 6, документация неясная или куча костылей
- Сервис упадёт и будет недоступен
- Дешевые тарифы режут по функциям так, что толку нет

Но Grafana Cloud удивил. Вот что я вижу в реальности:

Бесплатный тариф - это не издевательство над пользователями.
У меня сейчас в аккаунте:
- 6,7k метрик (включено 10k)
- 192 МБ логов из ingester (включено 50GB)
- И кучу синтетик-тестов, трейсов, host hours - всё включено и не трогается

Честно, для хоум-лабы и VPS-ок это смотрится как неограниченное количество.

Настройка 0 вообще минут на пять.
Тут самое крутое: мне не нужен отдельный Prometheus. Я поднял Grafana Alloy по команде что дала интеграция, дал ему конфиг (буквально JSON готовый), и он сам начал собирать метрики, логи, трейсы и слать их в облако. Никаких remote_write, никаких танцев с Helm и сертификатами. Alloy - это агент от Grafana, который делает всё в одном месте и просто работает.

Дашборды открываются быстро (но не всегда).
Я привык, что облачные решения тормозят, но тут - раз, и уже вижу свои графики. PromQL работает, алерты срабатывают, логи ищутся.

Это реально стандарт индустрии.
Я здесь не первый год работаю с метриками и мониторингом. Grafana - то самое решение, на которое смотрят даже большие компании и говорят: "ок, вот это хорошо сделано, это то что нам точно нужно".

Поэтому пока все вокруг ругаются на Grafana (и, может быть, справедливо!), я вот сидю, смотрю на свои дашборды, на состояние своей инфры, и просто... спокойно пью чай.

Если у вас есть хоум-лаба, vps-ки, какие-то сервисы, и вы ещё не подключили их туда - не усложняйте. Alloy + Grafana Cloud на фри-плане настраивается за вечер. Потом спасибо говорить будете.

#sre #observability #grafana #alloy #homelab #vps #мониторинг

160 viewsedited 15:54

A young Max’s notebook

Очень часто слышу споры и вопросы - а в чем разница между SRE/DevOps/Cloud Engineer/Platform Engineer?

Нашел тут статью на эту тему, которая мне очень понравилась, перевел ее для вас, оригинал по ссылке в конце :)

В современном мире технологий границы между ролями DevOps-инженера, SRE, Cloud Engineer и Platform Engineer часто размыты — эти термины постоянно путают между собой. Но есть нюанс: инструменты и культура пересекаются, а вот цели и фокус у каждой роли — разные.

Если вы когда-нибудь задумывались, «Это просто разные названия одной и той же профессии?» — давайте разберёмся 👇

🔹 DevOps Engineer — архитектор автоматизации
Фокус: CI/CD, автоматизация и Infrastructure as Code (IaC).
Цель: ускорить доставку софта, сохранив стабильность и повторяемость.
Инструменты: Jenkins, Docker, Kubernetes, Terraform.

DevOps-инженер соединяет разработку и эксплуатацию, устраняя ручные процессы. Его миссия — автоматизировать всё, что можно: от сборки и тестов до деплоя инфраструктуры. DevOps — это про скорость и автоматизацию, где каждый релиз становится быстрее и надёжнее.

🔹 SRE (Site Reliability Engineer) — хранитель надёжности
Фокус: отказоустойчивость, масштабируемость, мониторинг, инциденты.
Цель: обеспечить стабильность и доступность систем даже под нагрузкой.
Инструменты: Prometheus, Grafana, SLO/SLI, PagerDuty, on-call практики.

Культура SRE пошла от Google и основывается на идее: «эксплуатация — это та же инженерная задача».
SRE применяют программное мышление к операционным проблемам: автоматизируют обнаружение инцидентов, следят за здоровьем систем и формулируют измеримые цели надёжности (SLO).
Если DevOps ускоряет, то SRE не даёт скорости сломать стабильность — он балансирует инновации и устойчивость.

🔹 Cloud Engineer — архитектор облака
Фокус: проектирование, развёртывание и сопровождение облаков (AWS, Azure, GCP).
Цель: строить безопасные, масштабируемые и экономичные облачные среды.
Инструменты: EC2, S3, IAM, VPC, CloudFormation, Azure Resource Manager.

Cloud-инженер переводит инфраструктурные потребности компании в готовые облачные решения. Он отвечает за вычисления, сеть, хранение данных, безопасность и отказоустойчивость.
В гибридных и мультиоблачных сценариях такие специалисты — ключевые игроки: именно они создают скелет инфраструктуры, на котором всё держится.

🔹 Platform Engineer — инженер, делающий разработку удобной
Фокус: внутренние платформы, инструменты, автоматизация процессов.
Цель: создать комфортный self-service-интерфейс для разработчиков.
Инструменты: Kubernetes, ArgoCD, Backstage, Crossplane.

Platform-инженеры развивают идеи DevOps дальше — они не просто автоматизируют пайплайны, а создают готовые внутренние платформы, где разработчики самостоятельно деплоят и наблюдают за своими сервисами.
Их приоритет — Developer Experience (DevEx): стандартизированные процессы, «золотые пути» и удобные инструменты, которые снимают зависимость от инфраструктурных команд.

⚙️ Как эти роли работают вместе
- DevOps строит CI/CD пайплайны и автоматизирует сборки.
- SRE внедряет метрики, мониторинг и процессы надёжности.
- Cloud Engineer создаёт и поддерживает облачную инфраструктуру.
- Platform Engineer объединяет всё это в единую self-service платформу для разработчиков.

Когда эти роли работают согласованно, компания получает идеальный баланс: скорость, надёжность и масштабируемость.

🧭 Кратко:
DevOps → скорость + автоматизация
SRE → надёжность + доступность
Cloud Engineer → облачная экспертиза
Platform Engineer → удобство + внутренние инструменты

Каждый из них важен сам по себе, но вместе они создают фундамент продуктивной инженерной культуры.

Или проще: DevOps строит мост, SRE укрепляет его, Cloud Engineer заливает фундамент, а Platform Engineer делает так, чтобы по мосту удобно ходить.

💡 Итог:
В 2025 и дальше выигрывают компании, которые объединяют эти подходы — где автоматизация, надёжность, облачные практики и DevEx работают как единая экосистема.

С оригиналом можно ознакомиться тут

#sre #devops #platformengineering #cloudengineering

👍8❤1

180 views16:37

A young Max’s notebook

Ну что, новый год, новая работа, новые знания.

Хочу порекомендовать вам шикарную штуку, которая подойдёт и новичкам в SRE, и «старичкам», которые уже успели подзабыть базу.
Сайт sre.in100.dev - аккуратная коллекция выжимки по SRE: книги, статьи, доклады и инструменты по надёжности в одном месте, без воды и бесконечных «подписок на вебинар».

Зачем ещё один сайт про SRE
Когда начинаешь строить надёжность в команде, легко утонуть в хаосе: гуглодоки, статьи на Habr, доклады, книги - всё в разных вкладках, и половина вообще не по делу.
sre.in100.dev закрывает эту боль: даёт точку входа и «каркас» - от базового понимания SLO/SLI и error budget до практик алёртинга, обcёрвабилити и постмортемов.

Что внутри
Разделы по ключевым темам SRE: основы, мониторинг и наблюдаемость, инцидент‑менеджмент, культура, книги и курсы - по ним удобно идти сверху вниз как по учебному плану.
У каждой ссылки есть короткое описание: зачем читать, для кого, о чём материал (теория, практика, кейс), так что не приходится открывать десяток статей «на удачу».

Как этим пользоваться SRE‑лиду
Если вы тимлид или единственный SRE в компании, сайт можно использовать как дорожную карту: сегодня - обcёрвабилити, завтра - политика SLO, послезавтра - шаблоны постмортемов.
Материалы удобно раздавать точечно: разработчикам - блок про error budget, менеджерам - статьи про баланс фичей и надёжности, новичкам - базовые вводные по роли SRE.

Чем это лучше рандомного гуглинга
Подборка куратора завязана на реальные практики: меньше маркетинга, больше конкретики про метрики, дежурства и разбор инцидентов, как это принято в живых SRE‑командах.
Ресурс живой: по структуре видно, что его легко расширять новыми ссылками и секциями, превращая в внутренний «учебник» по надёжности для вашей команды.

Что можно сделать уже сегодня
Пройдитесь по разделу с основами, соберите список материалов «к обязательному прочтению» и положите его в README вашей платформенной или инфраструктурной репы.
Добавьте sre.in100.dev в онбординг SRE/DevOps: как только человек заводит первые алерты или SLO, у него уже есть понятный набор ссылок, а не случайные статьи из поиска.

Вывод: если вы строите или прокачиваете SRE в себе или вашей команде, этот сайт может стать тем самым стартовым набором, который экономит часы гуглинга и помогает говорить о надёжности с командой на одном языке.

#sre #learning #onboarding

in100.dev

in100.dev - Master Any Engineering Topic in 100 Lessons

Build today's most in-demand engineering skills with practical, bite-sized lesson collections. Learn SRE, AI, Kubernetes, Platform Engineering, System Design, and more.

👍5❤1

155 views05:32

A young Max’s notebook

5 антипаттернов алертов

На новом месте работы я заметил, что алерты сливаются в общий чат и это жутко неудобно. Первое же, что я сделал - отключил уведомления :) Значит, что-то явно не так.
Решил собрать антипаттерны и рассказать об этом.

Алертов много, а пользы мало - значит, в системе есть вот это:

1. Алертит всё подряд
Проблема: Люди настраивают алерт на каждый возможный сценарий. Результат: 2000+ алертов в неделю, но только 3% требуют действия.
Лучшая практика: Google SRE рекомендуют 4 Golden Signals:
• Latency - как быстро отвечает система
• Traffic - сколько запросов приходит
• Errors - сколько ошибок
• Saturation - как насыщена система (CPU, память, диск)
Этого хватает на 80% проблем. Остальное - noise.
Действие: Перепроверьте все алерты. Если алерт не про эти 4 сигнала - удалите или переделайте.

2. Нет severity
Проблема: Все алерты одинаковые. Получаешь 50 нотификаций в час и не знаешь, что критично, а что нет.
Лучшая практика: Четыре уровня:
DISASTER - Сервис упал, есть реальные users affected
→ ЗВОНОК СЕЙЧАС, пока разговариваешь
CRITICAL - Сервис работает, но деградация
→ Разбери сегодня, но можно за час
HIGH - Тренд плохой, может стать проблемой
→ Разбери завтра, добавь в спринт
WARNING - Отслеживаем, но пока OK
→ Смотри в дашборд, не звони
Результат в VK: 98% Critical алертов получают реакцию в первые минуты.

3. Нет runbook
Проблема: Alert сработал в 3 часа ночи. On-call инженер смотрит на название алерта и не понимает, что делать. Результат: 1–2 часа на поиск информации или escalation разработчикам.
Лучшая практика: Каждый Disaster/Critical алерт ДОЛЖЕН иметь runbook.
Что включить в runbook:
• Что произошло - что именно означает этот алерт (на человеческом языке, не техно-жаргон)
• Что проверить - какие логи смотреть, какие метрики
• Как чинить - пошаговые шаги для on-call инженера
• Время - runbook должен решаться за 10 минут без escalation
Правило: Если алерт не решается за 10 минут и в нём нет инструкции - это не алерт, это шум.
LinkedIn пример: On-call получал 50 страниц в неделю из-за плохо структурированных runbook. После переделки - спит по ночам.

4. Нет владельца
Проблема: Алерт срабатывает, но никто не знает, кто за него отвечает. Ticket гуляет по сотрудникам. Никто не знает, чинить ли это или это "expected behavior".
"Алерт без ответственного - это не алерт."
Лучшая практика: Каждый алерт должен иметь владельца (может быть team).
Владелец отвечает за:
• Обновление runbook, когда меняется сервис
• Мониторинг False Positive rate этого алерта
• Удаление/переделку, если алерт не помогает
Мотивация простая: если алерт плохой - его будут будить ночью.

5. Нет SLO
Проблема: Алерты на static thresholds:
• "CPU > 90%" - alert
• "Memory > 85%" - alert
• "Latency > 500ms" - alert
Но 95% времени эти метрики выше threshold, и ничего не ломается. Результат: игнор.
Лучшая практика: Переходи на SLO-based alerting (error budgets + multi-burn-rate).
Что такое SLO-based alerting:
Вместо: "CPU > 90%"
На: "Как быстро горит ваш error budget?"
Примеры:
• SLO: 99,9% uptime (error budget: 43 минуты в месяц)
• Если за день потратили 20 минут budget - спокойно, впереди ещё 23
• Если за день потратили 40 минут - WARNING, тренд плохой
• Если за час потратили 10 минут - CRITICAL, горит со скоростью 240 минут в день!
Multi-burn-rate alerts:
• 14.4x burn rate (будет истощен через 2 дня) = PAGE NOW
• 6x burn rate (будет истощен через 5 дней) = CREATE TICKET
• 3x burn rate (будет истощен через 10 дней) = MONITOR
• 1x burn rate (планируется) = смотри дашборд, не алертим
Результат: SLO-driven approach может снизить alert noise на 80%, но catch real issues ЛУЧШЕ, потому что alert срабатывает только когда реально горит.

#sre #observability #alerts #slo #sla #sli

👍4

108 viewsedited 00:25

A young Max’s notebook

ПОЧЕМУ ЭТО ВАЖНО
73% outage происходят из-за ПРОИГНОРИРОВАННЫХ алертов.
Это не значит, что систему нужно мониторить лучше. Это значит, что мониторим, но дежурный видит 300 алертов и игнорит все.
Масштаб проблемы:
• Команды получают 2000+ алертов в неделю, но только 3% требуют действия
• 67% алертов игнорируются ежедневно
• 85% - это ложные срабатывания
• Cost: $5,600/минута downtime для enterprise
Парадокс Alert Fatigue:
• Нужно видеть ВСЕ проблемы
• Но когда их слишком много - пропускаешь РЕАЛЬНЫЕ проблемы
• Нужно найти баланс через правильную настройку

ПРАВИЛЬНЫЙ ПОДХОД
Метрика качества алертов: Signal-to-Noise Ratio

Signal-to-noise = (actionable alerts) / (total alerts)

• Здоровая система: 30–50% actionable
• Проблемная система: <10% actionable
Если видишь, что <10% алертов требуют действия - бери это в приоритет, переделывай систему.

Вывод: Лучше 3 полезных алерта, чем 300 шумных. А ещё лучше - алерт, который можно реально починить за 10 минут.

#sre #observability #alerts #slo #sla #sli

👍3

133 viewsedited 00:25

A young Max’s notebook

ЭТОТ ШАБЛОН ПОСТМОРТЕМА РЕШИЛ ВСЕ МОИ ПРОБЛЕМЫ

А теперь, когда я вас забайтил, поговорим серьезно.
Постмортем хорош не тогда, когда он «идеально оформлен», а когда он существует и уже помогает принимать решения и предотвращать повторы.

Постмортемы часто откладывают, потому что «нет времени нормально написать». Но правда в том, что самый полезный постмортем - это тот, который вы сделали хоть как-то, и уже можете из него вытащить пользу: действия, владельцев, изменения.

Минимальный бар “полезно”

Если у вас есть только это - уже ок:
Impact: что сломалось и кому/чему стало больно (1–2 предложения).
Timeline: 5–10 ключевых событий (по минутам/часам).
Root cause / contributing factors: что реально привело к эффекту (не “у нас всё плохо”, а конкретика).
Action items: 1–5 пунктов, которые уменьшают вероятность/влияние повтора.

В Google SRE прямо подсвечивают, что постмортем без конкретных action items - неэффективен, а action items без понятных владельцев часто не закрываются. Ещё один типичный антипаттерн - “слишком много владельцев у постмортема”: лучше один владелец как single point of contact и несколько коллабораторов.

“Мы думали, проблема в одном…”

Очень частый сценарий: начали разбирать инцидент, и внезапно выяснилось, что «корень» вообще в другом месте, а по пути всплывает куча неочевидных зависимостей/подводных камней.

Это нормально - и это как раз ценность постмортема: он вытаскивает факты наружу и превращает “кажется, у нас X” в “на самом деле, у нас Y + 3 contributing factors + план, что с этим делать”.

Пример из мира реального.

У GitHub в пост-инцидент анализе есть показательная деталь: краткая потеря связности на 43 секунды запустила цепочку событий, которая привела к деградации сервиса на 24 часа и 11 минут. При этом они отдельно фиксируют последствия (например, показ устаревших/несогласованных данных) и описывают ход восстановления как последовательность фаз, а не «всё починили».

Практическое правило

Сделайте “черновой” постмортем в течение 10-12 часов (с момента окончания инцидента), даже если половина пунктов пока “TBD”. Но action items - только такие, у которых есть владелец и проверяемый финальный результат (это тоже прямо рекомендуют как признак хороших action items).

Текст специально обезличенного постмортема из Додо можно почитать тут или тут.
Я все еще считаю, что это один из лучших вариантов "шаблона" постмортема что я встречал когда либо.

Вопрос к вам: что чаще мешает сделать постмортем “хоть как-то” - отсутствие шаблона, нехватка времени, или ощущение, что «всё равно ничего не поменяется»?

#sre #postmortem

❤1

93 viewsedited 22:14

About

Blog

Apps

Platform