NEW BOT Телеграм, страница

2.51K views19:58

Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves
Luke Metz, Niru Maheswaranathan, C. Daniel Freeman, Ben Poole, Jascha Sohl-Dickstein
Статья: https://arxiv.org/abs/2009.11243

Свежая работа по теме обучаемых оптимизаторов. А то типа безобразие, фичи научились выучивать и их больше подавать на вход не надо, а оптимизаторы у нас по-прежнему олдскульные сделанные человеком — SGD, моменты, Adam и вот это вот всё. Непорядок.

Такие работы периодически появляются, но какого-то суперпрогресса и перехода в практическую плоскость пока не случилось. Но должно.

В текущей работе команда из Google Brain предприняла масштабную попытку обучить оптимизатор, который желательно должен быть достаточно генерализованным.

Выбран датасет с тысячами разных задач (https://arxiv.org/abs/2002.11887, https://github.com/google-research/google-research/tree/master/task_set — это частично те же авторы). В обучающем датасете около 6000 разных задач: RNN, CNN, FCN, LM, VAE, masked autoregressive flows и т.д.

Задача по обучению такого оптимизатора обычно состоит из двух циклов: во внутреннем оптимизатор применяется к различным задачам, а во внешнем его параметры итеративно обновляются. Цель — получить лучший loss на этих задачах с обучаемым оптимизатором. Лосс для внешнего цикла (outer-loss) определяется как средний inner-loss посчитанный на inner-validation set.

Outer-loss даже дифференцируемый, но очень дорогой для вычисления, потому что задачу во внутреннем цикле надо развернуть на достаточно большое число шагов. Поэтому градиентными методами такую штуку обучать достаточно сложно (плюс она ещё и плохо обусловлена) и для внешнего цикла используются эволюционные стратегии. Когда обучение устаканивается, то переходят к Persistent Evolutionary Stragegies (PES, по ним статья ещё обещается). Обучается всё распределённо на 1024 многоядерных воркерах. Во внутреннем цикле обучают Adam’ом.

Архитектура оптимизатора является комбинацией FFN и LSTM. LSTM (64 ячейки) работает на уровне тензоров, на вход получает вычисленные по тензорам фичи + глобальные параметры (трейн и валидационный лоссы), и посчитанную по каждому тензору информацию отправляет в другие такие же LSTM’ки, а также в FFN, которая работает на уровне отдельных параметров. Эта же FFN (2 скрытых слоя и 32 нейрона) получает на вход инфу о градиентах и значениях параметров, а на выход отправляет апдейты для параметров.

Для обучения задействовали только CPU, для GPU и других современных железок такие задачи (обучение кучи маленьких сеточек) не очень заточены. Задействовали 60K ядер примерно на месяц, или около 5k CPU years. Потребили порядка 200 мегаватт-часов.

После обучения проверяют полученный оптимизатор на пачке задач из датасета, а также на MNIST и CIFAR-10. Обученная конструкция превосходит бейзлайновые оптимизаторы (вариации Adam) с фиксированными гиперпараметрами, а также затюненные на небольшом числе задач бейзлайны (обучаемому оптимизатору такой возможности не дают).

В модель оказывается неявно встроена регуляризация, так что при бесконечности равноценных вариантов на модельной квадратичной задаче, он выбирает решение с минимальной нормой.

Опитимизатор показывает генерализацию по некоторым осям задачи (размер датасета, размер батча, число скрытых нейронов). На больших задачах (резнеты поглубже) и снова CIFAR-10, а также уменьшенный ImageNet результаты вполне сравнимые с бейзлайнами.

Из красивого, полученный оптимизатор оказывается способен обучить самого себя (всё как с компиляторами) и в обучающем датасете похожей задачи не было. Получается сравнимо с Adam (правда после 10К итераций начинает ухудшаться). Тут так понимаю его таки поставили во внешний цикл вместо эволюционных стратегий.

GitHub

google-research/task_set at master · google-research/google-research

Google Research. Contribute to google-research/google-research development by creating an account on GitHub.

👍1

2.84K viewsedited 18:11