NEW BOT Телеграм, страница

Some random GrafanCon EU 2k18 Notes

Ну и наконец - он модульный. Каждый компонент отдельно, не обязательно использовать все и сразу, да и если что-то пойдет не так, можно заменить только 1 компонент.

31 views17:02

Some random GrafanCon EU 2k18 Notes

Вероятнее всего, строя свою инфраструктуру, вы прийдете к какому-то такому виду.

32 views17:04

Some random GrafanCon EU 2k18 Notes

(по непонятной причине телеграм не хочет грузить фоточки)

31 views17:11

Some random GrafanCon EU 2k18 Notes

https://blog.smirnov.photo/slides/1.jpg

32 views17:13

Some random GrafanCon EU 2k18 Notes

Собственно на схеме можно выделить data flow - данные которые идут на запись

29 views17:15

Some random GrafanCon EU 2k18 Notes

Это могут быть метрики от серверов, приложений, сетевых устройств - не важно от чего

30 views17:15

Some random GrafanCon EU 2k18 Notes

Затем они идут в carbon-relay, который уже решает стоит ли их отправить на агрегацию или нет

32 views17:15

Some random GrafanCon EU 2k18 Notes

Или сразу сохранить. А если сохранить - то на какой storage послать

31 views17:15

Some random GrafanCon EU 2k18 Notes

Вероятнее всего захочется поставить графит в несколько датацентров - чтобы если один сдох, то данные все еще были бы доступны

32 views17:16

Some random GrafanCon EU 2k18 Notes

Да и серверов для хранения данных тоже будет явно больше чем 1 - данных то будет тоже не мало

32 views17:16

Some random GrafanCon EU 2k18 Notes

На тех же storage серверах вероятно будет стоять graphite-web для чтения данных

32 views17:17

Some random GrafanCon EU 2k18 Notes

Над которым будет находится кластер frontend'ов

32 views17:17

Some random GrafanCon EU 2k18 Notes

Над фронтэндами будет какой-то балансировщик нагрузки.

31 views17:18

Some random GrafanCon EU 2k18 Notes

Ведь пользователям падение одного из ДЦ (или проблемы на фронтэндах) должны быть незаметны.

32 views17:19

Some random GrafanCon EU 2k18 Notes

Но у этой схемы есть несколько проблем

32 views17:19

Some random GrafanCon EU 2k18 Notes

1. carbon-relay - единая точка отказа. Если он умер, то данные больше не дойдут до storage'ей.

32 views17:19

Some random GrafanCon EU 2k18 Notes

2. Под нашей (booking.com) нагрузкой оно очень плохо масштабировалось. Начали использовать графит мы давно, когда graphite-web не умел параллельные запросы

33 views17:20

Some random GrafanCon EU 2k18 Notes

3. Если что-то случилось с одним из сторадж серверов, то нету готовых утилит чтобы восстановить пропавшие данные. Есть множество разных утилит по работе с виспер-файлами, но у всех свои допущения, которые очень не всегда применимы.

32 views17:21

Some random GrafanCon EU 2k18 Notes

4. Из-за пункта 3 следствие - чем больше стораджей тем медленее все.

32 views17:21

Some random GrafanCon EU 2k18 Notes

Мы в Booking решили исправлять проблемы по мере их возникновения

32 views17:22

Some random GrafanCon EU 2k18 Notes

То есть не менять весь стэк целиком, а исправлять проблемы в текущем.

31 views17:22

About

Blog

Apps

Platform