NEW BOT Телеграм, страница

Some random GrafanCon EU 2k18 Notes

3. Если что-то случилось с одним из сторадж серверов, то нету готовых утилит чтобы восстановить пропавшие данные. Есть множество разных утилит по работе с виспер-файлами, но у всех свои допущения, которые очень не всегда применимы.

32 views17:21

Some random GrafanCon EU 2k18 Notes

4. Из-за пункта 3 следствие - чем больше стораджей тем медленее все.

32 views17:21

Some random GrafanCon EU 2k18 Notes

Мы в Booking решили исправлять проблемы по мере их возникновения

32 views17:22

Some random GrafanCon EU 2k18 Notes

То есть не менять весь стэк целиком, а исправлять проблемы в текущем.

31 views17:22

Some random GrafanCon EU 2k18 Notes

Собственно первым делом мы взялись за carbon-relay

29 views17:22

Some random GrafanCon EU 2k18 Notes

Заменили его на carbon-c-relay, который написан на Сях, достаточно производительный (1 миллион метрик в секунду на 2-х ядрах)

29 views17:23

Some random GrafanCon EU 2k18 Notes

Может делать балансировку нагрузки зная о протоколе

29 views17:23

Some random GrafanCon EU 2k18 Notes

Притом балансируя нагрузку он старается выбирать тот сервер, куда эта метрика уже уходила

29 views17:23

Some random GrafanCon EU 2k18 Notes

мы также поставили его на каждый сервер, как можно ближе к источнику данных

29 views17:24

Some random GrafanCon EU 2k18 Notes

Во первых это дало возможность сказать разработчикам "вот вам порт на локалхосте, шлите данные сюда"

29 views17:24

Some random GrafanCon EU 2k18 Notes

и дальше это не их забота как они дойдут до хранилища

29 views17:24

Some random GrafanCon EU 2k18 Notes

А во вторых наш локальный carbon-c-relay знает о остальных relay'ах и может делать более умный failover если что-то пошло не так

29 views17:24

Some random GrafanCon EU 2k18 Notes

К слову о failover - если у нас случилась проблема и relay не может отправить дальше, то он их какое-то время хранит в памяти. Не бесконечное, но обычно достаточно чтобы починить проблему.

29 views17:25

Some random GrafanCon EU 2k18 Notes

Следующая проблема

30 views17:25

Some random GrafanCon EU 2k18 Notes

Когда пользователи приходят на фронтэнд после аварии, то они на один и тот же запрос могут получить разный ответ

30 views17:25

Some random GrafanCon EU 2k18 Notes

Потому что сервера имеют разный набор данных

30 views17:26

Some random GrafanCon EU 2k18 Notes

Так появился zipper stack

29 views17:26

Some random GrafanCon EU 2k18 Notes

он умеет в параллель спрашивать много store серверов и отдавать первый полный ответ. Если полного ответа нет, то он постарается восстановить как можно больше данных, используя метрики с других store серверов.

29 views17:27

Some random GrafanCon EU 2k18 Notes

Заодно мы заменили graphite-web на store серверах

29 viewsedited 17:27

Some random GrafanCon EU 2k18 Notes

мы реализовали маленький сабсет возможностей graphite-web (только то что нужно для кластеризации)

29 views17:28

Some random GrafanCon EU 2k18 Notes

И сделали его более быстрым.

30 views17:28

About

Blog

Apps

Platform