Стандартный мониторинг и как у фейсбука (зелёный, неожиданно). Один пиксель - одна минута.
Каждая линия - один датацентр, сколько сохраняем данных в БД, или сколько получаем 5xx ошибок.
Очень много информации на одной картинке, но надо привыкнуть
Очень много информации на одной картинке, но надо привыкнуть
Следующая большая область ответственности у Production Engineer: чинить проблемы (инциденты, в терминах Facebook)
Очень нужны Incident Manager, который не чинит инциденты, но управляет отдельной проблемой: кому позвонить, с кем связаться, и пр.
Самый интересный инцидент “Call the Cops”, когда в Los Angeles долго не работал Facebook, и люди звонили в полицию “почините Facebook”. Звонили так часто, что шериф выступил с заявлением и просьбой не звонить больше в полицию.
Следующий инцидент “CAPSLOCK”, когда сравнение IPv6 адреса делалось сравнением строки, и при изменении адреса автоматически происходило переподключение (опустить и поднять интерфейс). Проблема происходит, если у вас два адреса одинаковые, но написаны в Upper Case или в Down Case. И это произошло на миллионах машин, в том числе на машинах с кэшем, что вызвало большое количество проблем.
С помощью eBPF hook вытаскивают StackTrace перед сбросом Core Dump. Это почти бесплатно и очень просто.
Интересный способ улучшить систему: подготовить опросник.
Вопросы про архитектуру, SLO, Детектирование проблем, Процесс Релиза, и пр.
Дают опросник, помогают его заполнить, потом устраивают 2 часовой митинг с обсуждением результатов.
И, что интересно, после этого люди улучшают свои системы.
Вопросы про архитектуру, SLO, Детектирование проблем, Процесс Релиза, и пр.
Дают опросник, помогают его заполнить, потом устраивают 2 часовой митинг с обсуждением результатов.
И, что интересно, после этого люди улучшают свои системы.
В 12 часов семь новых докладов и один продолжается:
Персонализация за 10 миллисекунд, или Как tinkoff.ru подстраивается под вас / Владимир Посвянский, Иван Вовк (Тинькофф) — Конгресс-холл
Cluster and Resource Management at Facebook / Артемий Колесников (Facebook) — Дели + Калькутта
Vitess: Fearlessly Scaling in the Cloud / Sugu Sougoumarane (PlanetScale) — Пекин + Шанхай
Risk Control System, или Антифрод-перезагрузка / Федор Васильев (ECommPay IT) — Москва
Программистам не нужны стринги, или High Performance Computing via C# / Георгий Полевой (Dodo Pizza) — Найроби + Касабланка
Хардкор-трек от Романа Ивлиева:
SWIM — протокол построения кластера / Владислав Шпилевой (Tarantool) — Мумбай
Мониторинг Apache Ignite. Сделали правильно / Николай Ижиков (Сбербанк Технологии) — Кейптаун
в Калининграде продолжается двухчасовой доклад: DevSecOps: buzzword или реальность? / Виктория Маркова, Ярослав Сорокин, Михаил Пронякин (Валарм)
Сингапур, Рио-де-Жанейро — перерыв.
Персонализация за 10 миллисекунд, или Как tinkoff.ru подстраивается под вас / Владимир Посвянский, Иван Вовк (Тинькофф) — Конгресс-холл
Cluster and Resource Management at Facebook / Артемий Колесников (Facebook) — Дели + Калькутта
Vitess: Fearlessly Scaling in the Cloud / Sugu Sougoumarane (PlanetScale) — Пекин + Шанхай
Risk Control System, или Антифрод-перезагрузка / Федор Васильев (ECommPay IT) — Москва
Программистам не нужны стринги, или High Performance Computing via C# / Георгий Полевой (Dodo Pizza) — Найроби + Касабланка
Хардкор-трек от Романа Ивлиева:
SWIM — протокол построения кластера / Владислав Шпилевой (Tarantool) — Мумбай
Мониторинг Apache Ignite. Сделали правильно / Николай Ижиков (Сбербанк Технологии) — Кейптаун
в Калининграде продолжается двухчасовой доклад: DevSecOps: buzzword или реальность? / Виктория Маркова, Ярослав Сорокин, Михаил Пронякин (Валарм)
Сингапур, Рио-де-Жанейро — перерыв.