NEW BOT Телеграм, страница

In-context Reinforcement Learning with Algorithm Distillation

UPD: за время, пока админы писали обзор на эту статью, гугл забронил

под эту технологию, вот и думаем насколько важно) приятного прочтения

😎

Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче

А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?

Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач

Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)

Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.

В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...

👀LINK

#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn

Please open Telegram to view this post