On the Practical Consistency of Meta-Reinforcement Learning Algorithms
а вот и момент, когда непростая теория в рл (почти наверняка) работает
В (относительно) последнее время набирает популярность область мета-рля, когда мы учим гигачад агента, который умеет не просто выполнять хорошо несколько тасок, но и адаптироваться к новым на оптимальный уровень
Есть несколько общих подходов, которые пытаются такое сотворить. Можно через hypernetwork, у которой аутпуты являются весами для другой модели. И производить адаптацию к новым таскам через градиент апдейты (MAML). Можно через понятие контекста, которое близко к понятий гиперсетей, только не производится градиентный спуск (RL^2). А можно и через псевдо-байеса, вводя понятие уверенности (VariBAD)
Прикол в том, что теоретические обоснования есть только у мамла относительно оод тасок. Авторы данной статьи решают проверить, а нужна ли теория вообще в этом аспекте
Как оказыается, да...
Эвристические методы проваливаются, если менять распределение новых задач, в то время как эксперименты на мамле подтверждают теорию. НО если добавить градиентные обновления во все методы (то есть сделать какой-то гибрид), то все методы выходят на хороший уровень
Однако мамл адаптируется не ко всем оод таскам. Например, он не может хорошо эксплорить среду с разреженными ревардами, если тренился до этого на плотных ревардах
Но и в то же время понятие оод может быть контринтуитивным. Авторы подтверждают гипотезу, что чем сильнее отличается распределение тест таски от трейновых, тем хуже адаптация. Но если сначала обучать агента ходить за halfcheetah, а потом ant'a, то адаптация будет отличной - пища для размышлений относительно формализации оод понятия для рл
👀LINK
#rl #metarl #adaptation #exploration #theory #ood
а вот и момент, когда непростая теория в рл (почти наверняка) работает
В (относительно) последнее время набирает популярность область мета-рля, когда мы учим гигачад агента, который умеет не просто выполнять хорошо несколько тасок, но и адаптироваться к новым на оптимальный уровень
Есть несколько общих подходов, которые пытаются такое сотворить. Можно через hypernetwork, у которой аутпуты являются весами для другой модели. И производить адаптацию к новым таскам через градиент апдейты (MAML). Можно через понятие контекста, которое близко к понятий гиперсетей, только не производится градиентный спуск (RL^2). А можно и через псевдо-байеса, вводя понятие уверенности (VariBAD)
Прикол в том, что теоретические обоснования есть только у мамла относительно оод тасок. Авторы данной статьи решают проверить, а нужна ли теория вообще в этом аспекте
Как оказыается, да...
Эвристические методы проваливаются, если менять распределение новых задач, в то время как эксперименты на мамле подтверждают теорию. НО если добавить градиентные обновления во все методы (то есть сделать какой-то гибрид), то все методы выходят на хороший уровень
Однако мамл адаптируется не ко всем оод таскам. Например, он не может хорошо эксплорить среду с разреженными ревардами, если тренился до этого на плотных ревардах
Но и в то же время понятие оод может быть контринтуитивным. Авторы подтверждают гипотезу, что чем сильнее отличается распределение тест таски от трейновых, тем хуже адаптация. Но если сначала обучать агента ходить за halfcheetah, а потом ant'a, то адаптация будет отличной - пища для размышлений относительно формализации оод понятия для рл
👀LINK
#rl #metarl #adaptation #exploration #theory #ood
On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning
Ранее мы упоминали мета-рл, где агент адаптируется (без обучения основного модуля) к новым таскам, которые ранее не видел
Но ресерч в этом направлении в основном проходит на достаточно простых средах, есть много гораздо сложнее, на которых обучают сингл-таск и мульти-таск агентов
Поэтому авторы задумались - а насколько релевантны современные метарл алгосы для более сложных сред, нежели мульти-таск агенты, которые файнтюнятся на новой задаче?
Оказалось, что мета-рл на данный момент намного хуже выступает, чем файнтюн мультитаск методы. А это значит, что в этом направлении остаётся еще копать и копать для получения практических методов, которые разрывают все на практике
👀LINK
#rl #metarl #finetuning #visual #multitask
Ранее мы упоминали мета-рл, где агент адаптируется (без обучения основного модуля) к новым таскам, которые ранее не видел
Но ресерч в этом направлении в основном проходит на достаточно простых средах, есть много гораздо сложнее, на которых обучают сингл-таск и мульти-таск агентов
Поэтому авторы задумались - а насколько релевантны современные метарл алгосы для более сложных сред, нежели мульти-таск агенты, которые файнтюнятся на новой задаче?
Оказалось, что мета-рл на данный момент намного хуже выступает, чем файнтюн мультитаск методы. А это значит, что в этом направлении остаётся еще копать и копать для получения практических методов, которые разрывают все на практике
👀LINK
#rl #metarl #finetuning #visual #multitask
General Policy Evaluation and Improvement by Learning to Identify Few But Crucial States
[Я бы назвал это попыткой Шмидхубера в что-то вроде мета-рл, но строго говоря это вообще не так, просто что-то интересное]
Многие знают, что обучение сингл таск агента состоит из двух основных шагов:
1. policy improvement - когда вы обновляете непосредственно модель, которая совершает действия, часто ее называют актором
2. policy evaluation - когда вы фиттите модель ценности принятого действия для конкретного состояния, часто ее называют критиком. При том этот критик актуален для конкретного актора. т.е. если поменять конфигурацию актора, то и критика придется полностью переобучивать (а может и архитектуру тоже менять)
Встает вопрос - а можно ли иметь одного критика для нескольких акторов, которые так или иначе друг от друга отличаются, чтобы быстрее находить самого лучшего актора?
Авторы показывают, что можно, если критик будет оперировать над параметрами модели (почти) напрямую. А как это сделать эффективно? Шмидхубер и Ко прогоняют акторов через обучаемые состояния (probing states), которые являются частью параметров критика + можно сделать только одну адекватную конфигурацию актора, а дальше получить из него много-много моделей добавляя шум прямо в веса
Так а что в итоге?
- генерализованный критик
- состояния, в которых можно потыкаться и что-то узнать о поставленной задаче (кстати их не так много и можно по пальцам одной руки пересчитать)
- zero-shot обучение новых акторов😎
👀LINK
#rl #policyoptimisation #datasetdistillation #mdp
[Я бы назвал это попыткой Шмидхубера в что-то вроде мета-рл, но строго говоря это вообще не так, просто что-то интересное]
Многие знают, что обучение сингл таск агента состоит из двух основных шагов:
1. policy improvement - когда вы обновляете непосредственно модель, которая совершает действия, часто ее называют актором
2. policy evaluation - когда вы фиттите модель ценности принятого действия для конкретного состояния, часто ее называют критиком. При том этот критик актуален для конкретного актора. т.е. если поменять конфигурацию актора, то и критика придется полностью переобучивать (а может и архитектуру тоже менять)
Встает вопрос - а можно ли иметь одного критика для нескольких акторов, которые так или иначе друг от друга отличаются, чтобы быстрее находить самого лучшего актора?
Авторы показывают, что можно, если критик будет оперировать над параметрами модели (почти) напрямую. А как это сделать эффективно? Шмидхубер и Ко прогоняют акторов через обучаемые состояния (probing states), которые являются частью параметров критика + можно сделать только одну адекватную конфигурацию актора, а дальше получить из него много-много моделей добавляя шум прямо в веса
Так а что в итоге?
- генерализованный критик
- состояния, в которых можно потыкаться и что-то узнать о поставленной задаче (кстати их не так много и можно по пальцам одной руки пересчитать)
- zero-shot обучение новых акторов
👀LINK
#rl #policyoptimisation #datasetdistillation #mdp
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Recurrent Hypernetworks are Surprisingly Strong in Meta-RL
Ну окей, есть мета-рл, а как его воспроизвести быстрее/легче всего? так через рекуррентные сети, которые принимают траектории тасок и пытаются на них генерализоваться
Однако выход рннки подавали на вход политике вместо состояния, и так и работали. Авторы этой статьи, по названию, вставляют в эту парадигму гиперсети в качестве рннок, которые моделируют веса для политики непосредственно
Но не все так просто. Так же пришлось поработать с инференсом и добавить в него что-то вроде прокси для моделирования "контекста" - ярлыка для обозначения того, какую именно таску надо решить - тем самым они сближают области мета-рля и мульти-таск рля
👀LINK
#rl #metarl #hypernetwork #rnn
Ну окей, есть мета-рл, а как его воспроизвести быстрее/легче всего? так через рекуррентные сети, которые принимают траектории тасок и пытаются на них генерализоваться
Однако выход рннки подавали на вход политике вместо состояния, и так и работали. Авторы этой статьи, по названию, вставляют в эту парадигму гиперсети в качестве рннок, которые моделируют веса для политики непосредственно
Но не все так просто. Так же пришлось поработать с инференсом и добавить в него что-то вроде прокси для моделирования "контекста" - ярлыка для обозначения того, какую именно таску надо решить - тем самым они сближают области мета-рля и мульти-таск рля
👀LINK
#rl #metarl #hypernetwork #rnn
Learning to Act without Actions
модели Комьютерного зрения и нлп получили большой буст благодаря огромным датасетам, которые можно получить из открытых источников для ансурервайзд целей.
А как быть области рл, где мы очень подвязаны на разметку - какое действие в каком состоянии привело в такой-то награде. Возможно ли что-то получить полезное из датасетов, огромных по размеру, но без действий и наград?
Авторы показывают, что можем!! Главное аккуратно ввести понятие латентного (скрытого) действия, и моделировать его целым рядом моделей:
- моделью динамики среды - при данном состоянии и действии моделируем следующее действие
- моделью обратной динамики - по последовательным состояниям предсказываем, какое действие привело к последнему состоянию
- сама политика, которая моделирует латентные действия + декодер по возможности, который маппит из латентных в непосредственные действия (если есть разметка для этого)
Ну в принципе звучит не так-то сложно, а вполне естественно. Так почему успешные результаты пришли только сейчас? Пушто если мы будем обучать эти модели наивно, то вместо "латентного действия" они будут выдавать стейты на тех или иных таймстепах по закону наименьшего сопротивления в минимизации лоссов. Поэтому авторы так же добавили квантизацию векторов латентов + расширили контекст у моделей динамик и поиграли с операциями стопградиента в них
👀LINK
#rl #latentactions #pretraining #foundationmodels #worldmodel
модели Комьютерного зрения и нлп получили большой буст благодаря огромным датасетам, которые можно получить из открытых источников для ансурервайзд целей.
А как быть области рл, где мы очень подвязаны на разметку - какое действие в каком состоянии привело в такой-то награде. Возможно ли что-то получить полезное из датасетов, огромных по размеру, но без действий и наград?
Авторы показывают, что можем!! Главное аккуратно ввести понятие латентного (скрытого) действия, и моделировать его целым рядом моделей:
- моделью динамики среды - при данном состоянии и действии моделируем следующее действие
- моделью обратной динамики - по последовательным состояниям предсказываем, какое действие привело к последнему состоянию
- сама политика, которая моделирует латентные действия + декодер по возможности, который маппит из латентных в непосредственные действия (если есть разметка для этого)
Ну в принципе звучит не так-то сложно, а вполне естественно. Так почему успешные результаты пришли только сейчас? Пушто если мы будем обучать эти модели наивно, то вместо "латентного действия" они будут выдавать стейты на тех или иных таймстепах по закону наименьшего сопротивления в минимизации лоссов. Поэтому авторы так же добавили квантизацию векторов латентов + расширили контекст у моделей динамик и поиграли с операциями стопградиента в них
👀LINK
#rl #latentactions #pretraining #foundationmodels #worldmodel
The Generalization Gap
in Offline Reinforcement Learning
Мы уже ни раз упоминали область оффлайн рл и количество достижений, которые в ней совершили. Тем не менее, ресерч в этом направлении в основном проходит не в реалистичной манере - тестируются на той же среде, с которой и был собран датасет. А что насчет генерализации на такие многие среды, которые хоть и отличаются друг от друга, но интуитивно мы понимаем, что на ней может перформить алгоритм, который был обучен и только на одной из них. А если мы еще и будем обучать одновременно алгоритм на многих средах, то его обобщающие способности должны тем более повыситься с минимальным количеством проблем
А вот оказывается они возникают не в минимальном количестве. На такое существующие алгоритмы генерализоваться не могут. Авторы сделали бенчмарк для проверки генерализации на основе датасетов 2д видеоигр (Procgen) и текстовых описаний айтемов с интернет-магазинов (WebShop) и проеряют следующие подходы между собой:
- непосредственно оффлайн рл (IQL CQL BQL)
- онлайн рл (когда мы сразу выпуливаем агента в среду и обучаем его)
- Behavior cloning (когда вы просто в супервайзд манере пытаетесь копировать действияв конкретных состояниях, без ревардов)
- задача оффлайн рл как моделирование последовательности (через трансформер DT) - как учитывая реварды, так и без них
статья получается очень сочной с невероятным количеством инсайтов, которые полезны как для дальнейшего ресерча, так и для продуктовой истории (где пытаются применять рл), например что бихевиор клонинг обгоняет всех даже на субоптимальных демонстрациях (что далеко нетривиально, говорит о жесткой ограниченности рл методов на спектре сред), онлайн рл выступает лучше оффлайн рл в вакуумных условиях и в то же время при оффлайн рле в таком сеттинге важен больше не размер датасета, а его вариативность - количество трейн тасок, качество собранных траекторий в каждой из них и тд
👀LINK
#offlinerl #generalization #pitfalls
in Offline Reinforcement Learning
Мы уже ни раз упоминали область оффлайн рл и количество достижений, которые в ней совершили. Тем не менее, ресерч в этом направлении в основном проходит не в реалистичной манере - тестируются на той же среде, с которой и был собран датасет. А что насчет генерализации на такие многие среды, которые хоть и отличаются друг от друга, но интуитивно мы понимаем, что на ней может перформить алгоритм, который был обучен и только на одной из них. А если мы еще и будем обучать одновременно алгоритм на многих средах, то его обобщающие способности должны тем более повыситься с минимальным количеством проблем
А вот оказывается они возникают не в минимальном количестве. На такое существующие алгоритмы генерализоваться не могут. Авторы сделали бенчмарк для проверки генерализации на основе датасетов 2д видеоигр (Procgen) и текстовых описаний айтемов с интернет-магазинов (WebShop) и проеряют следующие подходы между собой:
- непосредственно оффлайн рл (IQL CQL BQL)
- онлайн рл (когда мы сразу выпуливаем агента в среду и обучаем его)
- Behavior cloning (когда вы просто в супервайзд манере пытаетесь копировать действияв конкретных состояниях, без ревардов)
- задача оффлайн рл как моделирование последовательности (через трансформер DT) - как учитывая реварды, так и без них
статья получается очень сочной с невероятным количеством инсайтов, которые полезны как для дальнейшего ресерча, так и для продуктовой истории (где пытаются применять рл), например что бихевиор клонинг обгоняет всех даже на субоптимальных демонстрациях (что далеко нетривиально, говорит о жесткой ограниченности рл методов на спектре сред), онлайн рл выступает лучше оффлайн рл в вакуумных условиях и в то же время при оффлайн рле в таком сеттинге важен больше не размер датасета, а его вариативность - количество трейн тасок, качество собранных траекторий в каждой из них и тд
👀LINK
#offlinerl #generalization #pitfalls
Mixtures of Experts Unlock Parameter Scaling for Deep RL
А вот МоЕ дошли и до рл. Но впихивать хоть куда-то не совсем резонно, так где они могут пригодиться именно в обучении с подкреплением?
дипмайнд нашел применение в модели критика - а именно - можно ли повысить количество параметров (количество экспертов) и улучшить тем самым перформанс всего алгоритма?
Да! Более того, МоЕ и софт-МоЕ стабилизируют внутреннюю ситуацию модели - увеличивается ранг матриц слоев (что говорит о невырожденности и линейной независимости внутри матриц), снижается норма фичей (а ето говорит о численной стабильности активаций) и снижается количество засыпающих нейронов
А о чем ето может говорить в перспективе? Что раз мы стабилизировали все то, что внутри модели, при этом повысив награду с увеличением параметров, то неплохо было бы выяснить эмпирические правила масштабируемости модели - насколько увеличивается награда при таком-то увеличении модели, благо у нас есть опция МоЕ с которой можно получить адекватные результаты (по крайней мере как констатируют авторы)
👀LINK
#rl #valuenetwork #moe #softmoe #scalinglaws
А вот МоЕ дошли и до рл. Но впихивать хоть куда-то не совсем резонно, так где они могут пригодиться именно в обучении с подкреплением?
дипмайнд нашел применение в модели критика - а именно - можно ли повысить количество параметров (количество экспертов) и улучшить тем самым перформанс всего алгоритма?
Да! Более того, МоЕ и софт-МоЕ стабилизируют внутреннюю ситуацию модели - увеличивается ранг матриц слоев (что говорит о невырожденности и линейной независимости внутри матриц), снижается норма фичей (а ето говорит о численной стабильности активаций) и снижается количество засыпающих нейронов
А о чем ето может говорить в перспективе? Что раз мы стабилизировали все то, что внутри модели, при этом повысив награду с увеличением параметров, то неплохо было бы выяснить эмпирические правила масштабируемости модели - насколько увеличивается награда при таком-то увеличении модели, благо у нас есть опция МоЕ с которой можно получить адекватные результаты (по крайней мере как констатируют авторы)
👀LINK
#rl #valuenetwork #moe #softmoe #scalinglaws
Offline Meta-Reinforcement Learning with Online Self-Supervision
До этого мы немного затронули понятие оффлайн мета-рля - это мета-рл, который пытается хорошо перформить из статического датасета (прям как оффлайн рл). Однако в такой области есть довольно сильное различие от обычного мета-рля
А как собственно обычный мета-рл алгоритм адаптируется к таскам во время тестирования? Дело в том, что во время трейна стараются заложить в него умения эффекитвного эксплора таски => во время теста ему будет легче прийти к оптимальному уровню награды
Но когда дело идет о статическом датасете, который собрал другой алгоритм (или эксперт) - в общем случае его называют behavior policy - то его семплы могут вообще никак не соотноситься с понятием исследования среды => если мы обучаем на таком датасете модель, то во время теста она будет пытаться исследовать и неизбежно попадет под сдвиг привычного ей распределения => все фейлится
Но как можно обойти это? ребята из беркли показывают, что такое можно нивелировать, если эксплорить среду в онлайне не с помощью настоящих ревардов, а при помощи обучаемой модели награды, которая была обучена так же на оффлайн датасете + это повышает практичность алгоритма в реальных задачах, поскольку не требует сбора наград в онлайне, что зачастую очень дорого
Казалось бы, мы добавляем новую модель, внутри которой могут быть свои проблемы и с которой надо разбираться отдельно, но при этом мы получаем прирост, просто потому что уходим от сдвига распределения
food for thought: не всегда важна правильность (награды), сколько ее привычность (в рамках распределения трейн датасета)
👀LINK
#rl #metarl #offlinemetarl #rewardfunction
До этого мы немного затронули понятие оффлайн мета-рля - это мета-рл, который пытается хорошо перформить из статического датасета (прям как оффлайн рл). Однако в такой области есть довольно сильное различие от обычного мета-рля
А как собственно обычный мета-рл алгоритм адаптируется к таскам во время тестирования? Дело в том, что во время трейна стараются заложить в него умения эффекитвного эксплора таски => во время теста ему будет легче прийти к оптимальному уровню награды
Но когда дело идет о статическом датасете, который собрал другой алгоритм (или эксперт) - в общем случае его называют behavior policy - то его семплы могут вообще никак не соотноситься с понятием исследования среды => если мы обучаем на таком датасете модель, то во время теста она будет пытаться исследовать и неизбежно попадет под сдвиг привычного ей распределения => все фейлится
Но как можно обойти это? ребята из беркли показывают, что такое можно нивелировать, если эксплорить среду в онлайне не с помощью настоящих ревардов, а при помощи обучаемой модели награды, которая была обучена так же на оффлайн датасете + это повышает практичность алгоритма в реальных задачах, поскольку не требует сбора наград в онлайне, что зачастую очень дорого
Казалось бы, мы добавляем новую модель, внутри которой могут быть свои проблемы и с которой надо разбираться отдельно, но при этом мы получаем прирост, просто потому что уходим от сдвига распределения
food for thought: не всегда важна правильность (награды), сколько ее привычность (в рамках распределения трейн датасета)
👀LINK
#rl #metarl #offlinemetarl #rewardfunction
Closing the Gap between TD Learning and Supervised Learning - A Generalisation Point of View
Вот мы упоминали мета рл, который пытается решать таски которые до этого не видел. Но есть более легкая область - goal-conditioned rl, где мы подаем на вход агенту еще и цель, куда хотим прийти (будь то ргб картинка или какая-то позиция на карте в игре)
И вот если агента обучить на многих-многих таких целях, то он сможет приходить на тесте к новым goals которых не видел - это называется stitching в данном случае, генерализация на разные цели
Тем не менее, это не та же самая генерализация, которая подразумевается в супервайзд лернинг методах - через iid assumption и прочее. В случае SL мы получаем "усреднение" по лоссу (простейший пример - решением МСЕ регрессии является арифметическое среднее, если мы предиктим для всего константу), что не оч получается для рл (да и для многих супервайзд задач но речь пока не об этом))
Но как нам можно внести минимальные изменения, не меняя полностью парадигму трейна, ведь рл алгоритмы тоже обучают на (адаптированных) супервайзд методах
Авторы сформулировали темпоральную аугментацию для голов, где могут семплировать разные цели, для которых оптимальные действия остаются такими же, из разных траекторий при помощи waypoint'ов. В общем довольно интересно и относительно просто, мб идея найдет применение за понятием goal-conditioned RL
👀LINK
#rl #stitching #generalisation #augmentation #supervisedlearning
Вот мы упоминали мета рл, который пытается решать таски которые до этого не видел. Но есть более легкая область - goal-conditioned rl, где мы подаем на вход агенту еще и цель, куда хотим прийти (будь то ргб картинка или какая-то позиция на карте в игре)
И вот если агента обучить на многих-многих таких целях, то он сможет приходить на тесте к новым goals которых не видел - это называется stitching в данном случае, генерализация на разные цели
Тем не менее, это не та же самая генерализация, которая подразумевается в супервайзд лернинг методах - через iid assumption и прочее. В случае SL мы получаем "усреднение" по лоссу (простейший пример - решением МСЕ регрессии является арифметическое среднее, если мы предиктим для всего константу), что не оч получается для рл (да и для многих супервайзд задач но речь пока не об этом))
Но как нам можно внести минимальные изменения, не меняя полностью парадигму трейна, ведь рл алгоритмы тоже обучают на (адаптированных) супервайзд методах
Авторы сформулировали темпоральную аугментацию для голов, где могут семплировать разные цели, для которых оптимальные действия остаются такими же, из разных траекторий при помощи waypoint'ов. В общем довольно интересно и относительно просто, мб идея найдет применение за понятием goal-conditioned RL
👀LINK
#rl #stitching #generalisation #augmentation #supervisedlearning
🔥1
Flow to Better: Offline Preference-based Reinforcement Learning via Preferred Trajectory Generation
мы уже упоминали преференс лернинг, где у нас нет ревард функции, а только пары траекторий с отметками, какая хуже а какая лучше, и из них мы уже и составляем ревард функцию
Тем не менее, в оффлайн сеттинге такая ревард функция может быть склонна к смещению в сторону распределения статического датасета, что вызовет проблемы при тестировании на оод семплах
Авторы решили нивелировать эту проблему улучшением траекторий через диффузию - на вход подаем плохую траекторию, а на выходе улучшение на протяжении всего горизонта + они добавляют аугментацию чтобы этого достичь, которая кластеризует оффлайн датасет исходя из скоров обученной модели, что по смыслу близко к ревард функции, но проще в обучении и реализации
И, для кого-то к удивлению а для кого-то нет, диффузия вместе с такой аугментацией добавляет элементы новизны и вариативности в сгенерированные траектории, что по фактам помогает обойти оод проблему так, как и надо
👀LINK
#rl #diffusion #preferencerl #offlinerl #augmentation
мы уже упоминали преференс лернинг, где у нас нет ревард функции, а только пары траекторий с отметками, какая хуже а какая лучше, и из них мы уже и составляем ревард функцию
Тем не менее, в оффлайн сеттинге такая ревард функция может быть склонна к смещению в сторону распределения статического датасета, что вызовет проблемы при тестировании на оод семплах
Авторы решили нивелировать эту проблему улучшением траекторий через диффузию - на вход подаем плохую траекторию, а на выходе улучшение на протяжении всего горизонта + они добавляют аугментацию чтобы этого достичь, которая кластеризует оффлайн датасет исходя из скоров обученной модели, что по смыслу близко к ревард функции, но проще в обучении и реализации
И, для кого-то к удивлению а для кого-то нет, диффузия вместе с такой аугментацией добавляет элементы новизны и вариативности в сгенерированные траектории, что по фактам помогает обойти оод проблему так, как и надо
👀LINK
#rl #diffusion #preferencerl #offlinerl #augmentation
🔥1
Offline Actor-Critic Reinforcement Learning Scales to Large Models
В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого
Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!
И это все на 132 тасках с непрерывными действиями🥸
👀LINK
#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого
Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!
И это все на 132 тасках с непрерывными действиями
👀LINK
#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3