HighLoad++ – Telegram
HighLoad++
6.32K subscribers
2.41K photos
159 videos
16 files
2.27K links
Официальный канал профессиональной конференции разработчиков высоконагруженных систем

Saint HighLoad++ 2026 пройдёт в июне в Санкт-Петербурге: https://highload.ru/spb/2026

Общаемся в чатике https://news.1rj.ru/str/HighLoadTalks
Download Telegram
Данные из Prometheus хранятся ВСЕГДА. Можно поднять историю за любой момент в прошлом. Сильное решение!
Менеджеры любят графики, говорили они.
Scuba - хранилище данных внутри Facebook, работает всегда быстро (шутка про ELK), и имеет неплохой UI для отображения графиков и всех данных.
Scuba выступает бэкендом для разных систем, например для Logview, поиск по stacktrace, все выглядит очень красиво.
В качестве dashboard для отображения метрик используется Cubism.
Стандартный мониторинг и как у фейсбука (зелёный, неожиданно). Один пиксель - одна минута.
Каждая линия - один датацентр, сколько сохраняем данных в БД, или сколько получаем 5xx ошибок.
Очень много информации на одной картинке, но надо привыкнуть
https://square.github.io/cubism/

Извините напутал. Вот этот. Бесплатный опенсорс тул.
Следующая большая область ответственности у Production Engineer: чинить проблемы (инциденты, в терминах Facebook)
Очень нужны Incident Manager, который не чинит инциденты, но управляет отдельной проблемой: кому позвонить, с кем связаться, и пр.
Почему иногда лежит фейсбук? DDoS? Hackers? Не угадали - наши инженеры.
Самый интересный инцидент “Call the Cops”, когда в Los Angeles долго не работал Facebook, и люди звонили в полицию “почините Facebook”. Звонили так часто, что шериф выступил с заявлением и просьбой не звонить больше в полицию.
Следующий инцидент “CAPSLOCK”, когда сравнение IPv6 адреса делалось сравнением строки, и при изменении адреса автоматически происходило переподключение (опустить и поднять интерфейс). Проблема происходит, если у вас два адреса одинаковые, но написаны в Upper Case или в Down Case. И это произошло на миллионах машин, в том числе на машинах с кэшем, что вызвало большое количество проблем.
Как решаем проблемы, что на нагрузке реквесты обрабатываются дольше клиентского тайм-аута с эффектом домино - выкидываем медленных кандидатов заранее, разгружая систему.
Если быть точным, то выкидываем запрос, если он в очереди больше 100ms
Набор используемых тулов
С помощью eBPF hook вытаскивают StackTrace перед сбросом Core Dump. Это почти бесплатно и очень просто.