NEW BOT Телеграм, страница

HighLoad++

Взгляд изнутри на надежность сервисов Facebook / Элина Лобанова (Facebook) — Дели + Калькутта на подходе.

Текстовую и фото-трансляцию будут вести Алексей Виноградов и Иван Глушков.

1.01K viewsedited 07:57

HighLoad++

ну и пока не началось, напоминаем про митапы
✔️В 11:00 в А 1.6 митап «Web Services in C++ in 5 min», проводит C++ User Group.

1.02K views08:01

HighLoad++

Ну, началось!

1.02K views08:02

HighLoad++

“Надежность Сервисов, ч1”
Элина будет рассказывать про свой опыт “Production Engineer” в Facebook.
Почему Production Engineer а не SRE как в Google?
Чтобы ответить на вопрос - надо погрузиться в историю.
- Стандартная система - Dev & QA & Ops
- в 2009 - появились SRE в Google. В Facebook было все по старому, все в ручном режиме
- в 2010 всю массу Ops поделили на две группы: SRO & AppOps
- SRO - Operations
- AppOpst - интегрированы в команды, работают рядом с разработчиками, очень близко к SRE
- в 2012 - rename SRO -> Production Engineer. Все стали OnCall
- s 2014 - остатки команд SRO закрыли, остались только Production Engineer.

995 viewsedited 08:05

HighLoad++

SRE - значит Site Reliability Engineer, это понятно. А что такое SRO я прослушал. В википедии нашел - Senior Reactor Operator. Решил, что в принципе подходит.

996 views08:07

HighLoad++

Production Engineers - всегда в команде, нет отдельных команд (как в SRE).
Чем занимаются:
- Мониторинг. Периодически (раз в 5 мин) апускают atop, сохраняя результат на каждой машине. Это помогает в дальнейшем разбираться с проблемами. Можно посмотреть кто когда что сломал.

1.05K views08:09

HighLoad++

Forwarded from Vaddo

1.01K views08:09

HighLoad++

Чтобы развлечь аудиторию, Элина рассказала про интересную проблему “Malloc HTTP”. Когда пришел заголовок “HTTP”, а malloc перевел 4 байта в int, и выделил ‘malloc(“HTTP”)’ памяти.

956 viewsedited 08:12

HighLoad++

Следующий рассказ - про велосипеды в Facebook, когда компания делала решения у себя внутри, потому что не было еще общедоступных решений в Open Source.

949 views08:14

HighLoad++

Шутки для посвященных. Как завалить систему, интерпретируя ответ HTTP 400 от сервиса, которого надо было вызвать по совсем другому протоколу. Сервис должен был вернуть размер памяти. Ок, "HTTP" -> toHex байт зарезервируем, нет проблем).

987 views08:14

HighLoad++

Данные из Prometheus хранятся ВСЕГДА. Можно поднять историю за любой момент в прошлом. Сильное решение!

937 views08:16

HighLoad++

Менеджеры любят графики, говорили они.

1.09K views08:16

HighLoad++

Scuba - хранилище данных внутри Facebook, работает всегда быстро (шутка про ELK), и имеет неплохой UI для отображения графиков и всех данных.

918 views08:17

HighLoad++

Оказывается, в сети есть даже Paper про эту систему: https://research.fb.com/publications/scuba-diving-into-data-at-facebook/

Facebook Research

Scuba: Diving into Data at Facebook

Facebook takes performance monitoring seriously. Performance issues can impact over one billion users so we track thousands of servers, hundreds of PB of daily network traffic, hundreds of daily code...

929 views08:18

HighLoad++

Scuba выступает бэкендом для разных систем, например для Logview, поиск по stacktrace, все выглядит очень красиво.

879 views08:19

HighLoad++

В качестве dashboard для отображения метрик используется Cubism.

909 views08:19

HighLoad++

Стандартный мониторинг и как у фейсбука (зелёный, неожиданно). Один пиксель - одна минута.

919 views08:21

HighLoad++

Каждая линия - один датацентр, сколько сохраняем данных в БД, или сколько получаем 5xx ошибок.
Очень много информации на одной картинке, но надо привыкнуть

880 views08:22

HighLoad++

Cubism https://en.wikipedia.org/wiki/Cubism

875 viewsedited 08:22

About

Blog

Apps

Platform