Если взять 8 серверов, то распределение метрик по ним (при использовании хэша) можно представить как-то так
Делаем мы так, потому что хотим еще иметь избыточность в рамках ДЦ
И третий вариант - берем две группы, но во второй считаем хэш чуть-чуть иначе
Мы захотели проверить каковы же плюсы и минусы каждого варианта
для этого провели мысленный эксперимент - написали программу, которая эмулирует падение серверов и замеряет разные параметры
Первый график это колличество потерянных данных в худшем случаи, в процентах.
Худший случай для replication factor 1 - потеря сервера с тем же набором метрик
А теперь давайте посмотрим на вероятности потери данных