NEW BOT Телеграм, страница

HighLoad++

Scuba выступает бэкендом для разных систем, например для Logview, поиск по stacktrace, все выглядит очень красиво.

879 views08:19

HighLoad++

В качестве dashboard для отображения метрик используется Cubism.

909 views08:19

HighLoad++

Стандартный мониторинг и как у фейсбука (зелёный, неожиданно). Один пиксель - одна минута.

919 views08:21

HighLoad++

Каждая линия - один датацентр, сколько сохраняем данных в БД, или сколько получаем 5xx ошибок.
Очень много информации на одной картинке, но надо привыкнуть

880 views08:22

HighLoad++

Cubism https://en.wikipedia.org/wiki/Cubism

875 viewsedited 08:22

HighLoad++

https://square.github.io/cubism/

Извините напутал. Вот этот. Бесплатный опенсорс тул.

881 views08:23

HighLoad++

Следующая большая область ответственности у Production Engineer: чинить проблемы (инциденты, в терминах Facebook)

868 views08:24

HighLoad++

Очень нужны Incident Manager, который не чинит инциденты, но управляет отдельной проблемой: кому позвонить, с кем связаться, и пр.

865 views08:25

HighLoad++

Почему иногда лежит фейсбук? DDoS? Hackers? Не угадали - наши инженеры.

932 views08:26

HighLoad++

Самый интересный инцидент “Call the Cops”, когда в Los Angeles долго не работал Facebook, и люди звонили в полицию “почините Facebook”. Звонили так часто, что шериф выступил с заявлением и просьбой не звонить больше в полицию.

946 views08:27

HighLoad++

Следующий инцидент “CAPSLOCK”, когда сравнение IPv6 адреса делалось сравнением строки, и при изменении адреса автоматически происходило переподключение (опустить и поднять интерфейс). Проблема происходит, если у вас два адреса одинаковые, но написаны в Upper Case или в Down Case. И это произошло на миллионах машин, в том числе на машинах с кэшем, что вызвало большое количество проблем.

902 viewsedited 08:28

HighLoad++

Как решаем проблемы, что на нагрузке реквесты обрабатываются дольше клиентского тайм-аута с эффектом домино - выкидываем медленных кандидатов заранее, разгружая систему.

900 views08:31

HighLoad++

Если быть точным, то выкидываем запрос, если он в очереди больше 100ms

895 views08:32

HighLoad++

Набор используемых тулов

891 views08:32

HighLoad++

С помощью eBPF hook вытаскивают StackTrace перед сбросом Core Dump. Это почти бесплатно и очень просто.

896 views08:33

HighLoad++

Интересный способ улучшить систему: подготовить опросник.
Вопросы про архитектуру, SLO, Детектирование проблем, Процесс Релиза, и пр.
Дают опросник, помогают его заполнить, потом устраивают 2 часовой митинг с обсуждением результатов.
И, что интересно, после этого люди улучшают свои системы.

909 views08:36

HighLoad++

Далее, вопросы.

900 views08:36

HighLoad++

Вот это всё о нас, продакшн инженерах.

910 views08:37

HighLoad++

Всем котиков!

935 views08:37

About

Blog

Apps

Platform