HighLoad++ – Telegram
HighLoad++
6.31K subscribers
2.41K photos
159 videos
16 files
2.27K links
Официальный канал профессиональной конференции разработчиков высоконагруженных систем

Saint HighLoad++ 2026 пройдёт в июне в Санкт-Петербурге: https://highload.ru/spb/2026

Общаемся в чатике https://news.1rj.ru/str/HighLoadTalks
Download Telegram
Шутки для посвященных. Как завалить систему, интерпретируя ответ HTTP 400 от сервиса, которого надо было вызвать по совсем другому протоколу. Сервис должен был вернуть размер памяти. Ок, "HTTP" -> toHex байт зарезервируем, нет проблем).
Данные из Prometheus хранятся ВСЕГДА. Можно поднять историю за любой момент в прошлом. Сильное решение!
Менеджеры любят графики, говорили они.
Scuba - хранилище данных внутри Facebook, работает всегда быстро (шутка про ELK), и имеет неплохой UI для отображения графиков и всех данных.
Scuba выступает бэкендом для разных систем, например для Logview, поиск по stacktrace, все выглядит очень красиво.
В качестве dashboard для отображения метрик используется Cubism.
Стандартный мониторинг и как у фейсбука (зелёный, неожиданно). Один пиксель - одна минута.
Каждая линия - один датацентр, сколько сохраняем данных в БД, или сколько получаем 5xx ошибок.
Очень много информации на одной картинке, но надо привыкнуть
https://square.github.io/cubism/

Извините напутал. Вот этот. Бесплатный опенсорс тул.
Следующая большая область ответственности у Production Engineer: чинить проблемы (инциденты, в терминах Facebook)
Очень нужны Incident Manager, который не чинит инциденты, но управляет отдельной проблемой: кому позвонить, с кем связаться, и пр.
Почему иногда лежит фейсбук? DDoS? Hackers? Не угадали - наши инженеры.
Самый интересный инцидент “Call the Cops”, когда в Los Angeles долго не работал Facebook, и люди звонили в полицию “почините Facebook”. Звонили так часто, что шериф выступил с заявлением и просьбой не звонить больше в полицию.
Следующий инцидент “CAPSLOCK”, когда сравнение IPv6 адреса делалось сравнением строки, и при изменении адреса автоматически происходило переподключение (опустить и поднять интерфейс). Проблема происходит, если у вас два адреса одинаковые, но написаны в Upper Case или в Down Case. И это произошло на миллионах машин, в том числе на машинах с кэшем, что вызвало большое количество проблем.
Как решаем проблемы, что на нагрузке реквесты обрабатываются дольше клиентского тайм-аута с эффектом домино - выкидываем медленных кандидатов заранее, разгружая систему.
Если быть точным, то выкидываем запрос, если он в очереди больше 100ms
Набор используемых тулов