NEW BOT Телеграм, страница

HighLoad++

Следующий рассказ - про велосипеды в Facebook, когда компания делала решения у себя внутри, потому что не было еще общедоступных решений в Open Source.

949 views08:14

HighLoad++

Шутки для посвященных. Как завалить систему, интерпретируя ответ HTTP 400 от сервиса, которого надо было вызвать по совсем другому протоколу. Сервис должен был вернуть размер памяти. Ок, "HTTP" -> toHex байт зарезервируем, нет проблем).

987 views08:14

HighLoad++

Данные из Prometheus хранятся ВСЕГДА. Можно поднять историю за любой момент в прошлом. Сильное решение!

937 views08:16

HighLoad++

Менеджеры любят графики, говорили они.

1.09K views08:16

HighLoad++

Scuba - хранилище данных внутри Facebook, работает всегда быстро (шутка про ELK), и имеет неплохой UI для отображения графиков и всех данных.

918 views08:17

HighLoad++

Оказывается, в сети есть даже Paper про эту систему: https://research.fb.com/publications/scuba-diving-into-data-at-facebook/

Facebook Research

Scuba: Diving into Data at Facebook

Facebook takes performance monitoring seriously. Performance issues can impact over one billion users so we track thousands of servers, hundreds of PB of daily network traffic, hundreds of daily code...

929 views08:18

HighLoad++

Scuba выступает бэкендом для разных систем, например для Logview, поиск по stacktrace, все выглядит очень красиво.

879 views08:19

HighLoad++

В качестве dashboard для отображения метрик используется Cubism.

909 views08:19

HighLoad++

Стандартный мониторинг и как у фейсбука (зелёный, неожиданно). Один пиксель - одна минута.

919 views08:21

HighLoad++

Каждая линия - один датацентр, сколько сохраняем данных в БД, или сколько получаем 5xx ошибок.
Очень много информации на одной картинке, но надо привыкнуть

880 views08:22

HighLoad++

Cubism https://en.wikipedia.org/wiki/Cubism

875 viewsedited 08:22

HighLoad++

https://square.github.io/cubism/

Извините напутал. Вот этот. Бесплатный опенсорс тул.

881 views08:23

HighLoad++

Следующая большая область ответственности у Production Engineer: чинить проблемы (инциденты, в терминах Facebook)

868 views08:24

HighLoad++

Очень нужны Incident Manager, который не чинит инциденты, но управляет отдельной проблемой: кому позвонить, с кем связаться, и пр.

865 views08:25

HighLoad++

Почему иногда лежит фейсбук? DDoS? Hackers? Не угадали - наши инженеры.

932 views08:26

HighLoad++

Самый интересный инцидент “Call the Cops”, когда в Los Angeles долго не работал Facebook, и люди звонили в полицию “почините Facebook”. Звонили так часто, что шериф выступил с заявлением и просьбой не звонить больше в полицию.

946 views08:27

HighLoad++

Следующий инцидент “CAPSLOCK”, когда сравнение IPv6 адреса делалось сравнением строки, и при изменении адреса автоматически происходило переподключение (опустить и поднять интерфейс). Проблема происходит, если у вас два адреса одинаковые, но написаны в Upper Case или в Down Case. И это произошло на миллионах машин, в том числе на машинах с кэшем, что вызвало большое количество проблем.

902 viewsedited 08:28

HighLoad++

Как решаем проблемы, что на нагрузке реквесты обрабатываются дольше клиентского тайм-аута с эффектом домино - выкидываем медленных кандидатов заранее, разгружая систему.

900 views08:31

About

Blog

Apps

Platform