NEW BOT Телеграм, страница

rizzearch

Learning to Act without Actions

модели Комьютерного зрения и нлп получили большой буст благодаря огромным датасетам, которые можно получить из открытых источников для ансурервайзд целей.

А как быть области рл, где мы очень подвязаны на разметку - какое действие в каком состоянии привело в такой-то награде. Возможно ли что-то получить полезное из датасетов, огромных по размеру, но без действий и наград?

Авторы показывают, что можем!! Главное аккуратно ввести понятие латентного (скрытого) действия, и моделировать его целым рядом моделей:
- моделью динамики среды - при данном состоянии и действии моделируем следующее действие
- моделью обратной динамики - по последовательным состояниям предсказываем, какое действие привело к последнему состоянию
- сама политика, которая моделирует латентные действия + декодер по возможности, который маппит из латентных в непосредственные действия (если есть разметка для этого)

Ну в принципе звучит не так-то сложно, а вполне естественно. Так почему успешные результаты пришли только сейчас? Пушто если мы будем обучать эти модели наивно, то вместо "латентного действия" они будут выдавать стейты на тех или иных таймстепах по закону наименьшего сопротивления в минимизации лоссов. Поэтому авторы так же добавили квантизацию векторов латентов + расширили контекст у моделей динамик и поиграли с операциями стопградиента в них

👀LINK

#rl #latentactions #pretraining #foundationmodels #worldmodel

179 views19:37

rizzearch

The Generalization Gap
in Offline Reinforcement Learning

Мы уже ни раз упоминали область оффлайн рл и количество достижений, которые в ней совершили. Тем не менее, ресерч в этом направлении в основном проходит не в реалистичной манере - тестируются на той же среде, с которой и был собран датасет. А что насчет генерализации на такие многие среды, которые хоть и отличаются друг от друга, но интуитивно мы понимаем, что на ней может перформить алгоритм, который был обучен и только на одной из них. А если мы еще и будем обучать одновременно алгоритм на многих средах, то его обобщающие способности должны тем более повыситься с минимальным количеством проблем

А вот оказывается они возникают не в минимальном количестве. На такое существующие алгоритмы генерализоваться не могут. Авторы сделали бенчмарк для проверки генерализации на основе датасетов 2д видеоигр (Procgen) и текстовых описаний айтемов с интернет-магазинов (WebShop) и проеряют следующие подходы между собой:

- непосредственно оффлайн рл (IQL CQL BQL)
- онлайн рл (когда мы сразу выпуливаем агента в среду и обучаем его)
- Behavior cloning (когда вы просто в супервайзд манере пытаетесь копировать действияв конкретных состояниях, без ревардов)
- задача оффлайн рл как моделирование последовательности (через трансформер DT) - как учитывая реварды, так и без них

статья получается очень сочной с невероятным количеством инсайтов, которые полезны как для дальнейшего ресерча, так и для продуктовой истории (где пытаются применять рл), например что бихевиор клонинг обгоняет всех даже на субоптимальных демонстрациях (что далеко нетривиально, говорит о жесткой ограниченности рл методов на спектре сред), онлайн рл выступает лучше оффлайн рл в вакуумных условиях и в то же время при оффлайн рле в таком сеттинге важен больше не размер датасета, а его вариативность - количество трейн тасок, качество собранных траекторий в каждой из них и тд

👀LINK

#offlinerl #generalization #pitfalls

190 views20:24

rizzearch

Mixtures of Experts Unlock Parameter Scaling for Deep RL

А вот МоЕ дошли и до рл. Но впихивать хоть куда-то не совсем резонно, так где они могут пригодиться именно в обучении с подкреплением?

дипмайнд нашел применение в модели критика - а именно - можно ли повысить количество параметров (количество экспертов) и улучшить тем самым перформанс всего алгоритма?

Да! Более того, МоЕ и софт-МоЕ стабилизируют внутреннюю ситуацию модели - увеличивается ранг матриц слоев (что говорит о невырожденности и линейной независимости внутри матриц), снижается норма фичей (а ето говорит о численной стабильности активаций) и снижается количество засыпающих нейронов

А о чем ето может говорить в перспективе? Что раз мы стабилизировали все то, что внутри модели, при этом повысив награду с увеличением параметров, то неплохо было бы выяснить эмпирические правила масштабируемости модели - насколько увеличивается награда при таком-то увеличении модели, благо у нас есть опция МоЕ с которой можно получить адекватные результаты (по крайней мере как констатируют авторы)

👀LINK

#rl #valuenetwork #moe #softmoe #scalinglaws

191 views22:08

rizzearch

Offline Meta-Reinforcement Learning with Online Self-Supervision

До этого мы немного затронули понятие оффлайн мета-рля - это мета-рл, который пытается хорошо перформить из статического датасета (прям как оффлайн рл). Однако в такой области есть довольно сильное различие от обычного мета-рля

А как собственно обычный мета-рл алгоритм адаптируется к таскам во время тестирования? Дело в том, что во время трейна стараются заложить в него умения эффекитвного эксплора таски => во время теста ему будет легче прийти к оптимальному уровню награды
Но когда дело идет о статическом датасете, который собрал другой алгоритм (или эксперт) - в общем случае его называют behavior policy - то его семплы могут вообще никак не соотноситься с понятием исследования среды => если мы обучаем на таком датасете модель, то во время теста она будет пытаться исследовать и неизбежно попадет под сдвиг привычного ей распределения => все фейлится

Но как можно обойти это? ребята из беркли показывают, что такое можно нивелировать, если эксплорить среду в онлайне не с помощью настоящих ревардов, а при помощи обучаемой модели награды, которая была обучена так же на оффлайн датасете + это повышает практичность алгоритма в реальных задачах, поскольку не требует сбора наград в онлайне, что зачастую очень дорого

Казалось бы, мы добавляем новую модель, внутри которой могут быть свои проблемы и с которой надо разбираться отдельно, но при этом мы получаем прирост, просто потому что уходим от сдвига распределения

food for thought: не всегда важна правильность (награды), сколько ее привычность (в рамках распределения трейн датасета)

👀LINK

#rl #metarl #offlinemetarl #rewardfunction

198 views09:56

rizzearch

Closing the Gap between TD Learning and Supervised Learning - A Generalisation Point of View

Вот мы упоминали мета рл, который пытается решать таски которые до этого не видел. Но есть более легкая область - goal-conditioned rl, где мы подаем на вход агенту еще и цель, куда хотим прийти (будь то ргб картинка или какая-то позиция на карте в игре)
И вот если агента обучить на многих-многих таких целях, то он сможет приходить на тесте к новым goals которых не видел - это называется stitching в данном случае, генерализация на разные цели

Тем не менее, это не та же самая генерализация, которая подразумевается в супервайзд лернинг методах - через iid assumption и прочее. В случае SL мы получаем "усреднение" по лоссу (простейший пример - решением МСЕ регрессии является арифметическое среднее, если мы предиктим для всего константу), что не оч получается для рл (да и для многих супервайзд задач но речь пока не об этом))

Но как нам можно внести минимальные изменения, не меняя полностью парадигму трейна, ведь рл алгоритмы тоже обучают на (адаптированных) супервайзд методах

Авторы сформулировали темпоральную аугментацию для голов, где могут семплировать разные цели, для которых оптимальные действия остаются такими же, из разных траекторий при помощи waypoint'ов. В общем довольно интересно и относительно просто, мб идея найдет применение за понятием goal-conditioned RL

👀LINK

#rl #stitching #generalisation #augmentation #supervisedlearning

🔥1

197 views23:30

rizzearch

Flow to Better: Offline Preference-based Reinforcement Learning via Preferred Trajectory Generation

мы уже упоминали преференс лернинг, где у нас нет ревард функции, а только пары траекторий с отметками, какая хуже а какая лучше, и из них мы уже и составляем ревард функцию

Тем не менее, в оффлайн сеттинге такая ревард функция может быть склонна к смещению в сторону распределения статического датасета, что вызовет проблемы при тестировании на оод семплах

Авторы решили нивелировать эту проблему улучшением траекторий через диффузию - на вход подаем плохую траекторию, а на выходе улучшение на протяжении всего горизонта + они добавляют аугментацию чтобы этого достичь, которая кластеризует оффлайн датасет исходя из скоров обученной модели, что по смыслу близко к ревард функции, но проще в обучении и реализации

И, для кого-то к удивлению а для кого-то нет, диффузия вместе с такой аугментацией добавляет элементы новизны и вариативности в сгенерированные траектории, что по фактам помогает обойти оод проблему так, как и надо

👀LINK

#rl #diffusion #preferencerl #offlinerl #augmentation

🔥1

224 views10:03

rizzearch

Offline Actor-Critic Reinforcement Learning Scales to Large Models

В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого

Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!

И это все на 132 тасках с непрерывными действиями🥸

👀LINK

#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

3.86K views10:44

rizzearch

Can Generative Models Improve Self-Supervised Representation Learning?


import albumentations as A
import torch


transforms = A.Compose([
    A.RandomCrop(),
    A.ColorJitter(),
    A.HorizontalFlip(),
    A.GaussianBlur(),
])

Знакомо?
Довольно полезные аугментации, которые хорошо расширяют вариативность обучаемого датасета
Тем не менее, они ограничены, а значит абсолютно случайным образом ударяя по клавишам пишущей машинки, гипотетическая обезьяна рано или поздно сделает датасает где такие аугментации не помогут генерализации и, скорее всего, в генерализации относительно селф-супервайзд лернинга

Авторы предлагают автоматизировать в некотором смысле процесс аугментации через генеративные модели, тем самым аугментируя ее (потому что генеративка на равна функции Identity как в торче), при этом сохраняя семантику, что по идее многогранно повышает вариативность при аугментировании

Авторы говорят, что синтетические аутпуты генеративки очень сильно похожи на реальные данные, но это вопрос на любителя - по-любому найдется задача или требование в перформансе, где эта идея только все ухудшит
Но нарратив и посыл в целом очень даже вдохновляющий

👀LINK

#selfsupervisedlearning #generativemodelling #augmentation

🤔1

288 views18:03

rizzearch

Privacy Backdoors: Stealing Data with Corrupted Pretrained Models

Авторы статьи показывают интересный и важный инсайт о том, как можно по аутпутам модели (которую зачастую скачивают претрененную) можно выявить, на каких данных ее файнтюнили, что мб чрезвычайно секретно

При том они смогли это сделат как в white box сценарии - когда у нас есть прямой доступ к модели - так и в black box, когда мы можем только смотреть аутпуты под инпуты, которые сами и выбираем

Выглядит прикольно, чтение статьи даже немного напоминает чтение детектива, но настораживающе)

👀LINK

#pretraining #privacy #blackbox #whitebox #weightinducing

277 views14:03

rizzearch

Empirical Design in Reinforcement Learning

Вот мы вроде ресерчеры, выкладываем статьи с результатами, что-то исследуем. А насколько мы исследуем по науке? насколько достоверны результаты, которые получаются? И верна ли изначальная методология в построении экспериментов?

Авторы манускрипта стараются раскрыть темки по грамотному тестированию рл гипотез, статистические предположения, которые скрываются за экспериментами, которые многие делают "не задумываясь" и в принципе о том, как следует соединять принятые в нашей области эксперименты, которые делаются не совсем по науке статистики, к таким результатам, о которых мы можем заявлять со статистической уверенностью как ресерчеры из медицины, физики и тд

👀LINK

#rl #methodology #experimentdesign #statistics #implementation

345 views12:32

rizzearch

Reinforcement Learning from Passive Data via Latent Intentions

yo, мы ранее говорили, что абсолютное большинство доступных данных не содержат разметку на действия, да и с такими данными работают в goal-conditioning стиле

Но что если ребята из беркли придумали, как свести goal-conditioning rl к стандартному рл, не имея при этом разметку на реварды и действия? (то есть расширить понятие функций ценностей - value functions)

Вопрос с единственно возможным ответом хе-хе. Да! Такое смогли сделать и это просто охренительно - с сырыми данными мы используем этот фреймворк и получаем осмысленное представление состояний, политик и потенциальных исходов в среде просто по демонстрациям, необработанным в смысле рльки

Достигают они этого с помощью введения латентных действий, называемых интенциями, и соединяют это с ревард функцией, которая стимулирует дойти до заранее определенной цели, используя конкретную интенцию. Сложно (непонятно), но интересно и изменений от стандартного рл не так много, что они сразу смогли некоторые алгоритмы подогнать под их фреймворк и получается все оч круто

👀LINK

#rl #valuenetwork #goalconditioning #latentactions #latentrewards

👍1

296 views22:23

About

Blog

Apps

Platform