Inference via Interpolation:
Contrastive Representations Provably Enable Planning and Inference
Работать с временными рядами сложно, особенно когда эти ряды еще и многомерны. Но можно ли снизить размерность -> облегчить инференс, который интуитивно отвечает на вопрос "а что произойдет в будущем?"
Ну можно перевести в какие-то эмбеддинги, а лучше не просто, а применить метрик или контрастив лернинг
А как именно применить контрастив лернинг? - перевести ряды в такие эмбеддинги, чтобы временная разность между рядами сохранялась в пространственной между эмбеддингами
Авторы делают такой процесс при помощи классического InfoNCE, да и теоретически показывают, что такие репрезентации следуют процессу Гаусса-Маркова, а значит и инференс благодаря этому получается analytically tractable, да и еще можно интерполяцию делать между дискретными таймстепами
👀LINK
#timeseries #representationlearning #contrastivelearning #decisionmaking
Contrastive Representations Provably Enable Planning and Inference
Работать с временными рядами сложно, особенно когда эти ряды еще и многомерны. Но можно ли снизить размерность -> облегчить инференс, который интуитивно отвечает на вопрос "а что произойдет в будущем?"
Ну можно перевести в какие-то эмбеддинги, а лучше не просто, а применить метрик или контрастив лернинг
А как именно применить контрастив лернинг? - перевести ряды в такие эмбеддинги, чтобы временная разность между рядами сохранялась в пространственной между эмбеддингами
Авторы делают такой процесс при помощи классического InfoNCE, да и теоретически показывают, что такие репрезентации следуют процессу Гаусса-Маркова, а значит и инференс благодаря этому получается analytically tractable, да и еще можно интерполяцию делать между дискретными таймстепами
👀LINK
#timeseries #representationlearning #contrastivelearning #decisionmaking
❤1👍1🔥1
Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning
Мы привыкли, что трансфер лернинг - полезная вещь, потому что дает отфайнтюнить крутую модель на более узкую задачу (в основном). На самом деле это не совсем так, ведь если домен претрена и домен для файнтюна сильно не совпадают, то трансфер лернинг только ухудшит перформанс, чем если обучать модель с нуля с рандом инитом
Это более глубокая проблема, потому что она происходит как в continual learning, так и в continual rl, где с течением времени домен (таска) тем или иным Образом обновляется и надо показывать хороший результат как на нем, так и на всех предыдущих доменах (тасках)
Загвоздка в том, что по отдельности эти таски хорошо выучиваются, но вот если файнтюнить агента на новой таске, то все ломается, а нам бы хотелось не много-много агентов, каждый из которых хорошо работает на отдельных тасках, а одного мультитаск гигачада
Авторы в континуал рл решают эту проблему тем, что на каждую таску тренят отдельного агента (онлайн агента), собирают его экспертный датасет, и уже потом дистиллят этот датасет в основного агента (оффлайн), который старается сохранять мультитаскность по истории тасок, онлайн агент ресетится и все повторяется
(Костыльная) Простота - сестра таланта😎
👀LINK
#rl #continuallearning #continualrl #reset #distillation #behaviorcloning #plasticity #stability
Мы привыкли, что трансфер лернинг - полезная вещь, потому что дает отфайнтюнить крутую модель на более узкую задачу (в основном). На самом деле это не совсем так, ведь если домен претрена и домен для файнтюна сильно не совпадают, то трансфер лернинг только ухудшит перформанс, чем если обучать модель с нуля с рандом инитом
Это более глубокая проблема, потому что она происходит как в continual learning, так и в continual rl, где с течением времени домен (таска) тем или иным Образом обновляется и надо показывать хороший результат как на нем, так и на всех предыдущих доменах (тасках)
Загвоздка в том, что по отдельности эти таски хорошо выучиваются, но вот если файнтюнить агента на новой таске, то все ломается, а нам бы хотелось не много-много агентов, каждый из которых хорошо работает на отдельных тасках, а одного мультитаск гигачада
Авторы в континуал рл решают эту проблему тем, что на каждую таску тренят отдельного агента (онлайн агента), собирают его экспертный датасет, и уже потом дистиллят этот датасет в основного агента (оффлайн), который старается сохранять мультитаскность по истории тасок, онлайн агент ресетится и все повторяется
(Костыльная) Простота - сестра таланта
👀LINK
#rl #continuallearning #continualrl #reset #distillation #behaviorcloning #plasticity #stability
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update
Я здесь, за эту ортогонализацию стою
Грам-Шмидт мне все, и я все Грам-Шмидту
Кто меня знает, тот в курсе
В рл есть огромный пласт - value-based методы, которые учат каким-либо образом функцию ценности состояния или пары состояния-действия, в идеале они должны показывать, насколько выгодно в долгосрочной перспективе приходить в это состояние или же принимать какое-либо действие в конкретном состоянии
Однако, в довольно сложных средах обучение таких функций становится нетривиальным и зачастую вообще не соответствует тому, что мы хотим получить (не показывает истинную ценность принятых решений)
🇨🇳 авторы заметили, что в практическом градиент апдейте таких функций есть два направления - forward & backward🥴 , которые могут противоречить друг другу (вообще там все более-менее обосновано на состояниях и следующих состояниях датасета) => почему бы не ортогонализировать обратно этот градиент на поверхность forward gradient'a
Какой вывод можно сделать из статьи? Оказавшись в тупике, не будет лишним попробовать ортогонализировать что-нибудь и посмотреть, как изменится результат - авось приведет к полезным выводам и повысит видимость общей картины
👀LINK
#rl #offlinerl #orthogonalization #value
Я здесь, за эту ортогонализацию стою
Грам-Шмидт мне все, и я все Грам-Шмидту
Кто меня знает, тот в курсе
В рл есть огромный пласт - value-based методы, которые учат каким-либо образом функцию ценности состояния или пары состояния-действия, в идеале они должны показывать, насколько выгодно в долгосрочной перспективе приходить в это состояние или же принимать какое-либо действие в конкретном состоянии
Однако, в довольно сложных средах обучение таких функций становится нетривиальным и зачастую вообще не соответствует тому, что мы хотим получить (не показывает истинную ценность принятых решений)
Какой вывод можно сделать из статьи? Оказавшись в тупике, не будет лишним попробовать ортогонализировать что-нибудь и посмотреть, как изменится результат - авось приведет к полезным выводам и повысит видимость общей картины
👀LINK
#rl #offlinerl #orthogonalization #value
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🥴2
Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning
Ранее мы уже писали о проблеме сбора данных для обучения рл агентов - регулярный переход с цпу на гпу сильно снижает скорость сбора и качество данных и все такое
В последнее время в области рл произошел бум в связи с jax'ом, который позволяет не только производить компиляцию всего процесса обучения (Just-In-Time Compilation), но и в невероятно огромных масштабах параллелизовать процесс сбора траекторий в средах, не переходя обратно на цпу. Этот феномен имеет название JAX-based environments phenomenon
Насколько ускоряется этот процесс? Например, если вы возьмете готовый скрипт PPO из популярной репы cleanrl, то процесс обучения займет несколько часов на нескольких миллионах апдейт шагов
Авторы этой статьи способны обучить на своей среде PPO на миллиард шагов меньше чем за час и достигнуть 90% от оптимального уровня - вот один из плюсов джакса👡
(!) Но это еще не все - поскольку идет такое невероятное ускорение в сотни раз (буквально), то это позволяет и обучать агентов гораздо быстрее => ресерчерам проверять быстрее гипотезы => получать сота результаты по старым средам быстрее => усложнять среды, чтобы двигать область вперед
Крафтакс - оч яркий пример таких джакс сред, который в себя включает достаточную сложность и вопросы бесконечного эксплорейшна, долгосрочного планирования, адаптации к новым уровням и модельной памяти (это буквально инди игра), где можно очень сочно и быстро развивать существующие методы, чтобы рл перестала быть как область топорной непонятной штукой во многих местах и начала пробивать все потолки
👀LINK
#rl #jax #openendedness #compute #exploration #planning #memory #adaptation
Ранее мы уже писали о проблеме сбора данных для обучения рл агентов - регулярный переход с цпу на гпу сильно снижает скорость сбора и качество данных и все такое
В последнее время в области рл произошел бум в связи с jax'ом, который позволяет не только производить компиляцию всего процесса обучения (Just-In-Time Compilation), но и в невероятно огромных масштабах параллелизовать процесс сбора траекторий в средах, не переходя обратно на цпу. Этот феномен имеет название JAX-based environments phenomenon
Насколько ускоряется этот процесс? Например, если вы возьмете готовый скрипт PPO из популярной репы cleanrl, то процесс обучения займет несколько часов на нескольких миллионах апдейт шагов
Авторы этой статьи способны обучить на своей среде PPO на миллиард шагов меньше чем за час и достигнуть 90% от оптимального уровня - вот один из плюсов джакса
(!) Но это еще не все - поскольку идет такое невероятное ускорение в сотни раз (буквально), то это позволяет и обучать агентов гораздо быстрее => ресерчерам проверять быстрее гипотезы => получать сота результаты по старым средам быстрее => усложнять среды, чтобы двигать область вперед
Крафтакс - оч яркий пример таких джакс сред, который в себя включает достаточную сложность и вопросы бесконечного эксплорейшна, долгосрочного планирования, адаптации к новым уровням и модельной памяти (это буквально инди игра), где можно очень сочно и быстро развивать существующие методы, чтобы рл перестала быть как область топорной непонятной штукой во многих местах и начала пробивать все потолки
👀LINK
#rl #jax #openendedness #compute #exploration #planning #memory #adaptation
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯1🤩1
HIQL: Offline Goal-Conditioned RL with Latent States as Actions
Есть рл, где мы отталкиваемся от ревард функции. Окей, а что делать если этой функции нет - можно ли все равно делать роботов и прочее, что мы хотим? Yes, можно свести отсутствие реварда к задаче достижения цели (goal), где надо прийти в какое-то место, а ревард функция в данном случае будет индикатором того, достигли ли мы желаемой точки или нет. В каком-то смысле отсутствие реварда в явном виде подталкивает нас на то, что такие модели будут склонны к self-supervised (unsupervised) поведению
Но чем дальше наша цель, тем сложнее. Верно как и для людей, так и для универсальных аппроксиматоров (нейронок), Seohong Park, ранее упоминавшийся в нашем канале, решает эту проблему через обобщенную Value function, которая принимает на вход вместо действий так называемые подцели (subgoals) + вводит иерархичного актора (policy), первый уровень которого моделирует эмбеддинг этого subgoal, а второй уровень по действию и по подцели предсказывает действие, которое надо сделать чтобы прийти к изначальному goal
Звучит не так сложно, а ведь так и должно - зачастую скейлятся и остаются на года именно те решения, которые стараются как можно проще решить задачу, и при этом решают ее
👀LINK
#rl #goal #rewardfree #value #offlinerl
Есть рл, где мы отталкиваемся от ревард функции. Окей, а что делать если этой функции нет - можно ли все равно делать роботов и прочее, что мы хотим? Yes, можно свести отсутствие реварда к задаче достижения цели (goal), где надо прийти в какое-то место, а ревард функция в данном случае будет индикатором того, достигли ли мы желаемой точки или нет. В каком-то смысле отсутствие реварда в явном виде подталкивает нас на то, что такие модели будут склонны к self-supervised (unsupervised) поведению
Но чем дальше наша цель, тем сложнее. Верно как и для людей, так и для универсальных аппроксиматоров (нейронок), Seohong Park, ранее упоминавшийся в нашем канале, решает эту проблему через обобщенную Value function, которая принимает на вход вместо действий так называемые подцели (subgoals) + вводит иерархичного актора (policy), первый уровень которого моделирует эмбеддинг этого subgoal, а второй уровень по действию и по подцели предсказывает действие, которое надо сделать чтобы прийти к изначальному goal
Звучит не так сложно, а ведь так и должно - зачастую скейлятся и остаются на года именно те решения, которые стараются как можно проще решить задачу, и при этом решают ее
👀LINK
#rl #goal #rewardfree #value #offlinerl
Is the Policy Gradient a Gradient?
Есть важная для теории рл вещь как Policy Gradient - позволяет связать (почти) напрямую реварды в рл с параметрами модели, которая предпринимает действия в среде.
Однако есть важный нюанс, который часто откидывают в более продвинутых методах - в них откидывают discount factor, коэф < 1, который интуитивно склоняет агента получать как можно больше награды как можно раньше (ну и на самом деле без этого коэффициента часто где не будут сходиться определенные величины и алгоритмы еще на уровне теории второго курса точно не будут работать)
Авторы задают вопрос - а можно ли вообще такое делать? останется ли такой измененный "градиент" градиентом хоть какой-то функции, или хотя бы будут ли теоретические показания, что алгоритм все равно хоть куда-то сойдется?
Как оказывается - такие градиенты вообще не градиенты (думайте.) Если ниже из списка популярных алгоритмов хоть один вам известен - в нем оптимизация идет не функции, а непонятно по чему
[ A3C SAC ACKTR ACER PPO TD3 ]
Ну, окей - хотя бы практически работает, но почему? where is my mind?
К сожалению или счастью, непонятно, почему это работает, кроме как фразы: "Ну мы вкладываем такое предположение, которое должно работать"
Считаю, это тот момент, когда очень наглядно современный теоретический аппарат науки отстает от человеческой интуиции - авторы вносят практические (эвристические) модификации, обусловленные эмпирическими результатами и упрощенными размышлениями, а теоретически это не выразить
👀LINK
#rl #policygradient #theory #practice
Есть важная для теории рл вещь как Policy Gradient - позволяет связать (почти) напрямую реварды в рл с параметрами модели, которая предпринимает действия в среде.
Однако есть важный нюанс, который часто откидывают в более продвинутых методах - в них откидывают discount factor, коэф < 1, который интуитивно склоняет агента получать как можно больше награды как можно раньше (ну и на самом деле без этого коэффициента часто где не будут сходиться определенные величины и алгоритмы еще на уровне теории второго курса точно не будут работать)
Авторы задают вопрос - а можно ли вообще такое делать? останется ли такой измененный "градиент" градиентом хоть какой-то функции, или хотя бы будут ли теоретические показания, что алгоритм все равно хоть куда-то сойдется?
Как оказывается - такие градиенты вообще не градиенты (думайте.) Если ниже из списка популярных алгоритмов хоть один вам известен - в нем оптимизация идет не функции, а непонятно по чему
[ A3C SAC ACKTR ACER PPO TD3 ]
Ну, окей - хотя бы практически работает, но почему? where is my mind?
К сожалению или счастью, непонятно, почему это работает, кроме как фразы: "Ну мы вкладываем такое предположение, которое должно работать"
Считаю, это тот момент, когда очень наглядно современный теоретический аппарат науки отстает от человеческой интуиции - авторы вносят практические (эвристические) модификации, обусловленные эмпирическими результатами и упрощенными размышлениями, а теоретически это не выразить
👀LINK
#rl #policygradient #theory #practice
👍1
The Primacy Bias in Deep Reinforcement Learning
Думаю, у всех есть жизненные ситуации, где вы сначала заучились что-то делать не совсем правильно (субоптимально) или совсем неправильно (неоптимально), то потом очень сложно переучиться делать правильно - будь то чеканка мяча, игра на гитаре, полуслепая печать и что вообще угодно
Такое явление носит название primacy bias. И раз такое может происходить с людьми, встает вопрос - может ли такое происходить с моделями, которые мы выстраиваем на подобие функционирования человека? (что бы это ни значило)
Ну конечно, еще одна проблема появляется в рл - агент оверфиттится на своем начальном опыте, который просто не может быть оптимальным, он просто ужасный, тк по сути агент только-только увидел свет и начал делать что-то (в основном) неправильное относительно реварда
Проблема то серьезная, а вот авторы показывают как ее легко решить - просто ресеттать веса нескольких последних слоев модели. Такая глубокая проблема решается добавлением нескольких строк кода, да🥹
👀LINK
#rl #resetting #primacybias
Думаю, у всех есть жизненные ситуации, где вы сначала заучились что-то делать не совсем правильно (субоптимально) или совсем неправильно (неоптимально), то потом очень сложно переучиться делать правильно - будь то чеканка мяча, игра на гитаре, полуслепая печать и что вообще угодно
Такое явление носит название primacy bias. И раз такое может происходить с людьми, встает вопрос - может ли такое происходить с моделями, которые мы выстраиваем на подобие функционирования человека? (что бы это ни значило)
Ну конечно, еще одна проблема появляется в рл - агент оверфиттится на своем начальном опыте, который просто не может быть оптимальным, он просто ужасный, тк по сути агент только-только увидел свет и начал делать что-то (в основном) неправильное относительно реварда
Проблема то серьезная, а вот авторы показывают как ее легко решить - просто ресеттать веса нескольких последних слоев модели. Такая глубокая проблема решается добавлением нескольких строк кода, да
👀LINK
#rl #resetting #primacybias
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2
Visual Programming: Compositional visual reasoning without training
Нейро-символьный подход, который объединяет GPT-3 и разные модули CV. В начале мы пишем in-context примеры по генерации программ, которые впоследствии генерируются LLM и исполняются разными модулями, типо SD, клипа или MaskFormer
👀 LINK
#neurosymbolic #multimodal
Нейро-символьный подход, который объединяет GPT-3 и разные модули CV. В начале мы пишем in-context примеры по генерации программ, которые впоследствии генерируются LLM и исполняются разными модулями, типо SD, клипа или MaskFormer
👀 LINK
#neurosymbolic #multimodal
🔥4
Learning to Modulate pre-trained Models in RL (NeurIPS 2023)
Вспоминаем один из наших предыдущих постов про catastrophic forgetting. Так вот авторы данной статьи решают эту проблему совершенно другим способом для того, чтобы адаптировать это все под среды с разными входными пространствами
Что они делают? берут каузальный трансформер (который просто на конкретном таймстепе последовательности смотрит только на предыдущие токены) и при помощи лоры дообучают его на новые таски. При том у нас не пара матриц для каждого слоя как по классике, а множество таких матриц, из которого мы с помощью обучаемого ключа вытаскиваем конкретные матрицы, которыми и файнтюним нашу основную модельку
Получаем совмещение Population Based Training + Parameter Efficient Fine-Tuning, где старые таски не забываются, а на новых достигается хороший результат
👀LINK
#rl #metarl #finetuning #lora #learning2modulate
Вспоминаем один из наших предыдущих постов про catastrophic forgetting. Так вот авторы данной статьи решают эту проблему совершенно другим способом для того, чтобы адаптировать это все под среды с разными входными пространствами
Что они делают? берут каузальный трансформер (который просто на конкретном таймстепе последовательности смотрит только на предыдущие токены) и при помощи лоры дообучают его на новые таски. При том у нас не пара матриц для каждого слоя как по классике, а множество таких матриц, из которого мы с помощью обучаемого ключа вытаскиваем конкретные матрицы, которыми и файнтюним нашу основную модельку
Получаем совмещение Population Based Training + Parameter Efficient Fine-Tuning, где старые таски не забываются, а на новых достигается хороший результат
👀LINK
#rl #metarl #finetuning #lora #learning2modulate
In-Context Language Learning: Architectures and Algorithms
Для начала вставим, как авторы понимают понятие In-Context Learning'a:
Вот его авторы и пытаются изучить - какие именно модели (и кто лучше) перформит исл, какие изменения в архитектуре заставят улучшить результаты по исл и почему именно происходит исл
Входе следственно-розыскного мероприятия аттеншн слоев трансформера (у которого исл получается лучше остальных моделей) было выявлено, что они моделируют то, что называется n-gram heads (они же индуктивные головы более высокого порядка)
Если добавить их в модели типо RetNet или Mamba они почти полностью закрывают разрыв с трансформером по in-context, более того дают большой прирост даже для самого трансформера
👀LINK
#icl #ngrams #transformer #languagemodelling
Для начала вставим, как авторы понимают понятие In-Context Learning'a:
in-context learning (ICL)—the ability to infer a conditional or unconditional distribution over natural language strings simply by performing next-token prediction following a sequence of examples from the distribution of interest.
Вот его авторы и пытаются изучить - какие именно модели (и кто лучше) перформит исл, какие изменения в архитектуре заставят улучшить результаты по исл и почему именно происходит исл
В
Если добавить их в модели типо RetNet или Mamba они почти полностью закрывают разрыв с трансформером по in-context, более того дают большой прирост даже для самого трансформера
👀LINK
#icl #ngrams #transformer #languagemodelling
❤3👍2 2🤔1
The Evolution of Statistical Induction Heads: In-Context Learning Markov Chains
Вдогонку про ин-контекст. Абстрагируемся от естественного языка - перейдем к моделированию последовательностей случайной цепи Маркова, потому что легко такое сделать, да и мы знаем как такое оптимально моделировать на инференсе. Авторы так же демонстрируют появление статистических индуктивных голов, то есть голов, которые ведут счетчики (статистики) по входящим токенам
Более того, сначала трансформер моделирует униграммы, затем происходит «фазовый переход» - момент резкого падения лосса модели из-за оверфита на трейне и появления в ней новых способностей - и трансформер уже моделирует биграммы. Процесс (возможно, и в более сложных реалистичных ситуациях) повторяется и получаем, что трансформеры способны моделировать in-context n-grams
👀LINK
#icl #bigrams #unigrams #ngrams #inductiveheads #phasetransition #transformer
Вдогонку про ин-контекст. Абстрагируемся от естественного языка - перейдем к моделированию последовательностей случайной цепи Маркова, потому что легко такое сделать, да и мы знаем как такое оптимально моделировать на инференсе. Авторы так же демонстрируют появление статистических индуктивных голов, то есть голов, которые ведут счетчики (статистики) по входящим токенам
Более того, сначала трансформер моделирует униграммы, затем происходит «фазовый переход» - момент резкого падения лосса модели из-за оверфита на трейне и появления в ней новых способностей - и трансформер уже моделирует биграммы. Процесс (возможно, и в более сложных реалистичных ситуациях) повторяется и получаем, что трансформеры способны моделировать in-context n-grams
👀LINK
#icl #bigrams #unigrams #ngrams #inductiveheads #phasetransition #transformer
🤔2👍1
Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations
Есть близкая к рл подобласть - imitation learning, где нам не дана функция награды, но есть примеры от эксперта (демонстратора), по которым надо научиться действовать в среде. По сути это обычный supervised learning. А значит и этой идее присущи все недостатки супервайзд лернинга, связанные с характеристиками данных и лейблов. В нашем случае мы это назовем невозможностью превзойти демонстратора, которым были собраны данные
Но авторы придумали, как обойти этот потолок - раз у нас есть лучшие действия которые надо копировать, почему бы не зашумить их тем или иным образом, перформанс ухудшится от шума, а значит и у нас уже будут не просто лучшие действия, а пара из оптимального и неоптимального действия, а если еще и шум постепенно увеличивать, то мы будем наблюдать постепенную деградацию в результате с разной степенью оптимальности. Можем ли мы обучить на этом функцию награды и вернуться к классической постановке обучения с подкреплением? Как оказывается, да!
👀LINK
#rl #reward #noiseinjection #irl #imitationlearning
Есть близкая к рл подобласть - imitation learning, где нам не дана функция награды, но есть примеры от эксперта (демонстратора), по которым надо научиться действовать в среде. По сути это обычный supervised learning. А значит и этой идее присущи все недостатки супервайзд лернинга, связанные с характеристиками данных и лейблов. В нашем случае мы это назовем невозможностью превзойти демонстратора, которым были собраны данные
Но авторы придумали, как обойти этот потолок - раз у нас есть лучшие действия которые надо копировать, почему бы не зашумить их тем или иным образом, перформанс ухудшится от шума, а значит и у нас уже будут не просто лучшие действия, а пара из оптимального и неоптимального действия, а если еще и шум постепенно увеличивать, то мы будем наблюдать постепенную деградацию в результате с разной степенью оптимальности. Можем ли мы обучить на этом функцию награды и вернуться к классической постановке обучения с подкреплением? Как оказывается, да!
👀LINK
#rl #reward #noiseinjection #irl #imitationlearning
👍3
Can Wikipedia Help Offline Reinforcement Learning?
Что? При чем тут википедия и рл вообще, где в атари и муджоко надо играть
А вот авторы показывают, что трансформер можно предобучить как лм на корпусе Википедии, что ускорит сходимость при файнтюнинге на рл тасках (при том очень разнообразных относительно друг друга). Это говорит о том, что вики закладывает индуктивный биас полезный для РЛ задач (!!!) да как так?
Реально как так? При том мы упоминали, что трансфер лернинг только мешает результату при сильном смене домена, а тут последовательность языковая из википедии и последовательность состояний-действий-наград в средах, которые совершенно не связаны с языком. Как это работает?
А вот как-то работает🤔 . Явно такие противоречащие факты говорят о том, что все намного глубже и проблематичнее, чем мы думаем
👀LINK
#rl #offlinerl #pretraining #finetuning
Что? При чем тут википедия и рл вообще, где в атари и муджоко надо играть
А вот авторы показывают, что трансформер можно предобучить как лм на корпусе Википедии, что ускорит сходимость при файнтюнинге на рл тасках (при том очень разнообразных относительно друг друга). Это говорит о том, что вики закладывает индуктивный биас полезный для РЛ задач (!!!) да как так?
Реально как так? При том мы упоминали, что трансфер лернинг только мешает результату при сильном смене домена, а тут последовательность языковая из википедии и последовательность состояний-действий-наград в средах, которые совершенно не связаны с языком. Как это работает?
А вот как-то работает
👀LINK
#rl #offlinerl #pretraining #finetuning
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2
Pre-training with Synthetic Data Helps Offline Reinforcement Learning
А вот и продолжение (упрощение) идеи выше. Оказывается, необязательно претрениться именно на языке, достаточно генерировать относительно игрушечную синтетику (то есть рандомные марковские цепи или игрушечные марковские процессы принятия решений) и уже это ускорит обучение
При том это будет работать не только для трансформеров или моделей которые работают с последовательностями, но и с более легковесными моделями. В данном случае речь идет про CQL
👀LINK
#rl #offlinerl #synthetic #finetuning #mdp
А вот и продолжение (упрощение) идеи выше. Оказывается, необязательно претрениться именно на языке, достаточно генерировать относительно игрушечную синтетику (то есть рандомные марковские цепи или игрушечные марковские процессы принятия решений) и уже это ускорит обучение
При том это будет работать не только для трансформеров или моделей которые работают с последовательностями, но и с более легковесными моделями. В данном случае речь идет про CQL
👀LINK
#rl #offlinerl #synthetic #finetuning #mdp
🤯1