NEW BOT Телеграм, страница

950 views06:01

Channel photo updated

15:49

Large scale distributed neural network training through online distillation

Rohan Anil, Gabriel Pereyra, Alexandre Passos, Robert Ormandi, George E. Dahl, Geoffrey E. Hinton
(Google, DeepMind, Google Brain)

https://arxiv.org/abs/1804.03235

#SGD #distributed #distillation

Идея дистилляции моделей заключается в том, что по какой-то хорошей но тяжёлой модели-учителю (например, ансамблю) можно построить другую заменяющую её модель-студента, которая будет учиться предсказывать результаты модели учителя (через дополнительный терм в лосс-функции).

В данной работе рассматривается ко-дистилляция, подразумевающая:
1) Одинаковую архитектуру всех моделей
2) Общий обучающий датасет
3) Дополнительный distillation loss во время обучения, не дожидаясь пока процесс полностью сойдётся.

Онлайн дистилляция происходит не отдельным этапом после обучения хорошей модели, а в процессе распределённого SGD (то есть происходит одновременное обучение студента и учителя).

Из практики известно, что синхронный SGD скейлится плохо (после какого-то момента), а асинхронный вообще плохо работает (отставшие градиенты всё портят).

Кодистилляция решает несколько проблем:
1) Отставшие предсказания не так страшны, как отставшие градиенты
2) В синхронном/асинхронном распределённом SGD надо обмениваться большим количеством данных, а в случае кодистилляции эти объёмы существенно меньше (и делать их можно реже)

В работе пробовали проверить лимиты асинхронного [распределённого] SGD, но не добились стабильности и сфокусировались на синхронном.

Нашли лимит после которого он неэффективен (в смысле обучение не ускоряется, оказалось 128 воркеров), попробовали кодистилляцию с двумя группами по 128 воркеров, а также ансамбль из двух сеток обученных на 128 воркерах. Кодистилляция сработала, обучается быстрее чем SGD на 128 воркерах, а качество близко к ансамблю. Profit!

В общем если у вас масштабы Гугла, то классная технология :)

arXiv.org

Large scale distributed neural network training through online distillation

Techniques such as ensembling and distillation promise model quality improvements when paired with almost any base model. However, due to increased test-time cost (for ensembles) and increased...

1.07K viewsedited 21:05