Scuba выступает бэкендом для разных систем, например для Logview, поиск по stacktrace, все выглядит очень красиво.
Стандартный мониторинг и как у фейсбука (зелёный, неожиданно). Один пиксель - одна минута.
Каждая линия - один датацентр, сколько сохраняем данных в БД, или сколько получаем 5xx ошибок.
Очень много информации на одной картинке, но надо привыкнуть
Очень много информации на одной картинке, но надо привыкнуть
Следующая большая область ответственности у Production Engineer: чинить проблемы (инциденты, в терминах Facebook)
Очень нужны Incident Manager, который не чинит инциденты, но управляет отдельной проблемой: кому позвонить, с кем связаться, и пр.
Самый интересный инцидент “Call the Cops”, когда в Los Angeles долго не работал Facebook, и люди звонили в полицию “почините Facebook”. Звонили так часто, что шериф выступил с заявлением и просьбой не звонить больше в полицию.
Следующий инцидент “CAPSLOCK”, когда сравнение IPv6 адреса делалось сравнением строки, и при изменении адреса автоматически происходило переподключение (опустить и поднять интерфейс). Проблема происходит, если у вас два адреса одинаковые, но написаны в Upper Case или в Down Case. И это произошло на миллионах машин, в том числе на машинах с кэшем, что вызвало большое количество проблем.
С помощью eBPF hook вытаскивают StackTrace перед сбросом Core Dump. Это почти бесплатно и очень просто.
Интересный способ улучшить систему: подготовить опросник.
Вопросы про архитектуру, SLO, Детектирование проблем, Процесс Релиза, и пр.
Дают опросник, помогают его заполнить, потом устраивают 2 часовой митинг с обсуждением результатов.
И, что интересно, после этого люди улучшают свои системы.
Вопросы про архитектуру, SLO, Детектирование проблем, Процесс Релиза, и пр.
Дают опросник, помогают его заполнить, потом устраивают 2 часовой митинг с обсуждением результатов.
И, что интересно, после этого люди улучшают свои системы.