Generalization to New Sequential Decision Making Tasks with In-Context Learning
До этого ин-контекст рл проверяли на относительно простых, известных средах (Darkroom & MuJoCo). Авторы решили испытать на известных cвоей сложностью MiniHack & Procgen, которые также включают в себя задачи на эксплорейшн, навигацию/планирование и использование инструментов + много различных левелов в тасках
И встает вопрос - а возможно ли в этих, более сложных и вариативных средах, так же получить ин-контекст? При том такая постановка настолько сложна, что на трейновых средах играешь за рыбу🐠 и пытаетесь скушать как можно больше всего, а во время тестирования заставляют в качестве ниндзя🥷
Йо, и такое возможно! Но стоит сделать достаточно большой датасет (десятки тысяч траекторий с разных уровней на каждую таску, коих десятки), иметь доступ к оптимальным действиям (как обычно) и правильно аугментировать - семплить разные траектории из тех же уровней, чтобы нивелировать меморизацию и сподвигнуть к генерализации
К тому же в качестве контекста можно на пальцах пересчитать, сколько эпизодов нужно для достижения оптимума (7)😎
👀LINK
До этого ин-контекст рл проверяли на относительно простых, известных средах (Darkroom & MuJoCo). Авторы решили испытать на известных cвоей сложностью MiniHack & Procgen, которые также включают в себя задачи на эксплорейшн, навигацию/планирование и использование инструментов + много различных левелов в тасках
И встает вопрос - а возможно ли в этих, более сложных и вариативных средах, так же получить ин-контекст? При том такая постановка настолько сложна, что на трейновых средах играешь за рыбу
Йо, и такое возможно! Но стоит сделать достаточно большой датасет (десятки тысяч траекторий с разных уровней на каждую таску, коих десятки), иметь доступ к оптимальным действиям (как обычно) и правильно аугментировать - семплить разные траектории из тех же уровней, чтобы нивелировать меморизацию и сподвигнуть к генерализации
К тому же в качестве контекста можно на пальцах пересчитать, сколько эпизодов нужно для достижения оптимума (7)
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images
CVPR 2024
🔬🦠🧬
В биологии есть большое количество различных данных и они отличаются своей структурой. Одна из важных задач - создания эффективных унифицированных репрезентация для биологических данных для последующего использование в тюнинге на различные задачи
Очевидно, есть серьезная проблема - данные сильно отличаются в количестве каналов. Основные и базовые подходы делают фокус на интра-канальных пространственных фичах и часто игнорируют связь между каналами
Авторы предлагают Channel Adaptive Vision Transformer, который способен кодировать данные с вариативным количеством каналов. Делается это с помощью создания патчей по каналам, маскирования и паддинга как в SSL для ViT. При обучении добавляют позиционные и канальные эмбеддинги. Первые используются для обработки spatial информации между каналами, а вторые для обучаются на связях патчей внутри каждого конкретного канала. Такой подход позволяет модели различать между патчами на одной позиции, но в разных каналах
В экспериментах показано, что ChAda-ViT имеет качественные аттеншен мапы на последнем слое, что подтверждает хайп
👀 LINK
CVPR 2024
🔬🦠🧬
В биологии есть большое количество различных данных и они отличаются своей структурой. Одна из важных задач - создания эффективных унифицированных репрезентация для биологических данных для последующего использование в тюнинге на различные задачи
Очевидно, есть серьезная проблема - данные сильно отличаются в количестве каналов. Основные и базовые подходы делают фокус на интра-канальных пространственных фичах и часто игнорируют связь между каналами
Авторы предлагают Channel Adaptive Vision Transformer, который способен кодировать данные с вариативным количеством каналов. Делается это с помощью создания патчей по каналам, маскирования и паддинга как в SSL для ViT. При обучении добавляют позиционные и канальные эмбеддинги. Первые используются для обработки spatial информации между каналами, а вторые для обучаются на связях патчей внутри каждого конкретного канала. Такой подход позволяет модели различать между патчами на одной позиции, но в разных каналах
В экспериментах показано, что ChAda-ViT имеет качественные аттеншен мапы на последнем слое, что подтверждает хайп
👀 LINK
❤2👍2
In-Context Exploration-Exploitation for Reinforcement Learning
О том, как не надо писать статьи(несмотря на то, что приняли на ICLR 24)
Уже очень много мы успели упомянуть об ин-контекст рл - и везде для достижения такого надо много данных как во время обучения, так и во время инференса для накопления контекста, поскольку исследование новых сред происходит не так быстро. Было бы неплохо такое нивелировать. А как?
Авторы встраивают в инференс доп модель, которая производит явный трейд-офф между exploration/exploitation, при этом они не делают байесовский инференс явно, встраивая свой алгоритм в трансформер ⇒ скорость сходимости к оптимальной награде меняется с сотни эпизодов до десятка.
А в чем тогда проблема? Да вообще непонятно, как в коде устроена эта их модификация. Есть псевдокод, но он выдает больше вопросов, чем ответов, а авторы никакой код и не прикладывают
Вот так и получаем - по идее новая СОТА, но по ней мало что понятно
👀LINK
О том, как не надо писать статьи
Уже очень много мы успели упомянуть об ин-контекст рл - и везде для достижения такого надо много данных как во время обучения, так и во время инференса для накопления контекста, поскольку исследование новых сред происходит не так быстро. Было бы неплохо такое нивелировать. А как?
Авторы встраивают в инференс доп модель, которая производит явный трейд-офф между exploration/exploitation, при этом они не делают байесовский инференс явно, встраивая свой алгоритм в трансформер ⇒ скорость сходимости к оптимальной награде меняется с сотни эпизодов до десятка.
А в чем тогда проблема? Да вообще непонятно, как в коде устроена эта их модификация. Есть псевдокод, но он выдает больше вопросов, чем ответов, а авторы никакой код и не прикладывают
Вот так и получаем - по идее новая СОТА, но по ней мало что понятно
👀LINK
❤3
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX
Вспоминая феномен JAX сред, наши замечательные авторы решили расширить его и на понятие ин-контекст рля, да при том сделать это мега круто!
А почему круто?
- вдохновлены сложностью XLand’a и минималистичностью MiniGrid’a
- древовидная система правил, которая определяет конкретную таску (а значит может легко варировать сложность и разнообразность)
- возможность обучения сингл-таск и мета-агентов
- триллион шагов за 2 дня обучения!!!
А как такая библиотека помогает продвинуться области? Даже самые легкие задачи из бенчмарков вызывают затруднение как для обычных, так и для мета алгосов. На определенных задачах только после 1 миллиарда/триллиона шагов один агент начинает хоть что-то выучивать. Такой долгий разгон означает, что потолок в сложности тасок пробит, и теперь есть удобный и невероятно быстрый фреймворк, на котором можно улучшаться
👀LINK
Вспоминая феномен JAX сред, наши замечательные авторы решили расширить его и на понятие ин-контекст рля, да при том сделать это мега круто!
А почему круто?
- вдохновлены сложностью XLand’a и минималистичностью MiniGrid’a
- древовидная система правил, которая определяет конкретную таску (а значит может легко варировать сложность и разнообразность)
- возможность обучения сингл-таск и мета-агентов
- триллион шагов за 2 дня обучения!!!
А как такая библиотека помогает продвинуться области? Даже самые легкие задачи из бенчмарков вызывают затруднение как для обычных, так и для мета алгосов. На определенных задачах только после 1 миллиарда/триллиона шагов один агент начинает хоть что-то выучивать. Такой долгий разгон означает, что потолок в сложности тасок пробит, и теперь есть удобный и невероятно быстрый фреймворк, на котором можно улучшаться
👀LINK
❤🔥7👍1
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents
Another cool paper на узкую и сложную, но тем не менее потенциально хайповую тему
В основном в ин-контекст рл обучают агентов, завязанных на концепции памяти и обрабатывают последовательности в том или ином виде (рнн, трансформер, ссм) ⇒ результат, как и во всем рл, очень жестко зависит от технических деталей при имплементации, к тому же пока еще нет полной связи с устоявшимися концепциями рл
амаго делает боооольшой такой шаг на пути к тому, чтобы скомбинировать sequential модели и goal-conditioned Q-learning + оптимизирует код, чтобы сделать метод масштабируемым и максимально емким во всех смыслах
- адекватно кодирует данные относительно длины последовательности чтобы не засорять память
- закручен офф-полиси актор-критик с общим бекбоном
- они не просто улучшают существующие ин-контекст результаты, но и расширяют задачи с условными целями
В общем конфетка
👀LINK
Another cool paper на узкую и сложную, но тем не менее потенциально хайповую тему
В основном в ин-контекст рл обучают агентов, завязанных на концепции памяти и обрабатывают последовательности в том или ином виде (рнн, трансформер, ссм) ⇒ результат, как и во всем рл, очень жестко зависит от технических деталей при имплементации, к тому же пока еще нет полной связи с устоявшимися концепциями рл
амаго делает боооольшой такой шаг на пути к тому, чтобы скомбинировать sequential модели и goal-conditioned Q-learning + оптимизирует код, чтобы сделать метод масштабируемым и максимально емким во всех смыслах
- адекватно кодирует данные относительно длины последовательности чтобы не засорять память
- закручен офф-полиси актор-критик с общим бекбоном
- они не просто улучшают существующие ин-контекст результаты, но и расширяют задачи с условными целями
В общем конфетка
👀LINK
🎉4
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
дипмаинды представили интересный гибрид - что-то между трансформером, ссм и рнн, но ни одно из них, но поближе все-таки к трансформеру🤓
Идея довольно нужная и в некотором смысле даже вечная - трансформер медленный в инференсе и ограничен длиной последовательности, в остальном просто чудо, хотим получить идеал.
Авторы в известном трансформер блоке меняют аттеншн на то, что они называют gated linear reccurence + локальный аттеншн ⇒ быстрее трансформера на инференсе, на трейне так же эффективно. Еще показывают, что экстраполируется на бОльшую длину последовательности чем во время обучения
И еще есть код что тоже круто🥸
👀LINK
дипмаинды представили интересный гибрид - что-то между трансформером, ссм и рнн, но ни одно из них, но поближе все-таки к трансформеру
Идея довольно нужная и в некотором смысле даже вечная - трансформер медленный в инференсе и ограничен длиной последовательности, в остальном просто чудо, хотим получить идеал.
Авторы в известном трансформер блоке меняют аттеншн на то, что они называют gated linear reccurence + локальный аттеншн ⇒ быстрее трансформера на инференсе, на трейне так же эффективно. Еще показывают, что экстраполируется на бОльшую длину последовательности чем во время обучения
И еще есть код что тоже круто🥸
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
A Brief Look at Generalization in Visual Meta-Reinforcement Learning
Мы уже говорили о проблемах генерализации ин-контекст рл агентов, а что насчет классичных мета-рл алгоритмов - есть ли у них проблемы с этим? Авторы решили протестить на средах с визуальными обсервейшнами (данными, которые содержат не всю информацию, чтобы можно было ее решить в рамках МДП - получаем ПОМДП)
И, к удивлению, у мета-рл алгоритмов наблюдается оверфит с сохранением генерализации! То есть, качество на трейновых тасках достигается выше, чем на трейновых - даже на простом сеттинге Мета-Ворлда (графики прикрепленные по другим средам)
Так же наблюдаются проблемы со скейлом - чем больше тасок алгоритмы видят во время трейна (а в постановке и возможно такое, что на трейне нужны тысячи тасок, чтобы во время инференса хорошо перформить на тысяче других), тем сложнее норм обучаться модели, исключение разве что составляет RL^2
В общем, не рл, а целое непаханное поле😇
👀LINK
Мы уже говорили о проблемах генерализации ин-контекст рл агентов, а что насчет классичных мета-рл алгоритмов - есть ли у них проблемы с этим? Авторы решили протестить на средах с визуальными обсервейшнами (данными, которые содержат не всю информацию, чтобы можно было ее решить в рамках МДП - получаем ПОМДП)
И, к удивлению, у мета-рл алгоритмов наблюдается оверфит с сохранением генерализации! То есть, качество на трейновых тасках достигается выше, чем на трейновых - даже на простом сеттинге Мета-Ворлда (графики прикрепленные по другим средам)
Так же наблюдаются проблемы со скейлом - чем больше тасок алгоритмы видят во время трейна (а в постановке и возможно такое, что на трейне нужны тысячи тасок, чтобы во время инференса хорошо перформить на тысяче других), тем сложнее норм обучаться модели, исключение разве что составляет RL^2
В общем, не рл, а целое непаханное поле
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👀1
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies
Проблема взрыва или затухания градиентов в обучении рнн является проблемой в том числе и в рл, а точнее в задачах, где надо принимать действия в соответствии с предыдущей историей из-за неполноты выдаваемых данных для достижения оптимальности
Да и в целом присутствует проблема не только с градиентами, а со всем Truncated Backpropagation Through Time (Truncated BPPT), потому что он смещает обновление модели из-за ограниченной длины
Авторы смогли нивелировать эту проблему в рл путем введения stochastic internal state - штукой, которую дополнительно будет моделировать наш алгоритм рл на каждом шаге, пытаясь вместить в себя релевантную информацию о среде. Таким образом модель не привязана к длине контекста по сравнению с BPTT
Главная заслуга авторов в том, что они смогли аккуратно это ввести в существующие методы, модификаций в коде немного, вычисление градиентов происходит так, как и задумано, по теории получается unbiased решение, а на практике быстрее обучатся и награды больше
👀LINK
Проблема взрыва или затухания градиентов в обучении рнн является проблемой в том числе и в рл, а точнее в задачах, где надо принимать действия в соответствии с предыдущей историей из-за неполноты выдаваемых данных для достижения оптимальности
Да и в целом присутствует проблема не только с градиентами, а со всем Truncated Backpropagation Through Time (Truncated BPPT), потому что он смещает обновление модели из-за ограниченной длины
Авторы смогли нивелировать эту проблему в рл путем введения stochastic internal state - штукой, которую дополнительно будет моделировать наш алгоритм рл на каждом шаге, пытаясь вместить в себя релевантную информацию о среде. Таким образом модель не привязана к длине контекста по сравнению с BPTT
Главная заслуга авторов в том, что они смогли аккуратно это ввести в существующие методы, модификаций в коде немного, вычисление градиентов происходит так, как и задумано, по теории получается unbiased решение, а на практике быстрее обучатся и награды больше
👀LINK
🍾5
Наш первый Дайджест по In-context Reinforcement Learning!
1. In-context Reinforcement Learning with Algorithm Distillation - гениально простая идея, которую запатентовал гугл (кажется, началось…)
2. Structured State Space Models for In-Context Reinforcement Learning - расширяем границы ассоциативного скана
3. Supervised Pretraining Can Learn In-Context Reinforcement Learning - нетривиальная теория в рл/трансформерах, которая все разносит
(почти)
4. зарезервировано под https://arxiv.org/abs/2312.12275
5. Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining - область не считается отдельной, если для нее не пытаются сделать свою теорию meow
6. Generalization to New Sequential Decision Making Tasks with In-Context Learning - любая прорывная идея должна выстоять усложнение задачи, что и происходит тута
7. In-Context Exploration-Exploitation for Reinforcement Learning - вроде очередной breakthrough, но пощупать нелья
8. XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX - to the moon в усложнении и количестве задач при помощи джакса
9. AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents - критически анализируем прошлые технические детали, оптимизируем их ⇒ профит
10. Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning - узнаем глубже, что происходит внутри трансформера при помощи ин-контекст рл
11. Towards General-Purpose In-Context Learning Agents - попытка лабы шмидхубера не отставать от тренда
12. In-Context Reinforcement Learning for Variable Action Spaces
- вводим в область проблему произвольного количества действий и (частично) решаем ее
13. Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning - попытка сблизить человеческое социальное обучение и ин-контекст рл
14. зарезервировано под https://arxiv.org/abs/2406.08973
15. In-context learning agents are asymmetric belief updaters - связь инконтекст лернинга с человеческими паттернами
16. In-Context Imitation Learning
via Next-Token Prediction - переносим концепцию на имитейшн лернинг и получаем профит
17. Retrieval-Augmented Decision Transformer: External for In-Context RL - добавляем faiss с индексированной базой к алгоритмам => улучшаем результат и снижаем размер контекста
18. LLMs Are In-Context Reinforcement Learners - ллмки тоже могут в ин-контекст рл, и при том даже лучше чем при классическом ин-контекст сетапе
19. ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI - эмбодиед сетап + увеличение контекста
Feel free to enjoy the papers with us!
1. In-context Reinforcement Learning with Algorithm Distillation - гениально простая идея, которую запатентовал гугл (кажется, началось…)
2. Structured State Space Models for In-Context Reinforcement Learning - расширяем границы ассоциативного скана
3. Supervised Pretraining Can Learn In-Context Reinforcement Learning - нетривиальная теория в рл/трансформерах, которая все разносит
(почти)
4. зарезервировано под https://arxiv.org/abs/2312.12275
5. Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining - область не считается отдельной, если для нее не пытаются сделать свою теорию meow
6. Generalization to New Sequential Decision Making Tasks with In-Context Learning - любая прорывная идея должна выстоять усложнение задачи, что и происходит тута
7. In-Context Exploration-Exploitation for Reinforcement Learning - вроде очередной breakthrough, но пощупать нелья
8. XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX - to the moon в усложнении и количестве задач при помощи джакса
9. AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents - критически анализируем прошлые технические детали, оптимизируем их ⇒ профит
10. Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning - узнаем глубже, что происходит внутри трансформера при помощи ин-контекст рл
11. Towards General-Purpose In-Context Learning Agents - попытка лабы шмидхубера не отставать от тренда
12. In-Context Reinforcement Learning for Variable Action Spaces
- вводим в область проблему произвольного количества действий и (частично) решаем ее
13. Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning - попытка сблизить человеческое социальное обучение и ин-контекст рл
14. зарезервировано под https://arxiv.org/abs/2406.08973
15. In-context learning agents are asymmetric belief updaters - связь инконтекст лернинга с человеческими паттернами
16. In-Context Imitation Learning
via Next-Token Prediction - переносим концепцию на имитейшн лернинг и получаем профит
17. Retrieval-Augmented Decision Transformer: External for In-Context RL - добавляем faiss с индексированной базой к алгоритмам => улучшаем результат и снижаем размер контекста
18. LLMs Are In-Context Reinforcement Learners - ллмки тоже могут в ин-контекст рл, и при том даже лучше чем при классическом ин-контекст сетапе
19. ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI - эмбодиед сетап + увеличение контекста
Feel free to enjoy the papers with us!
❤6🔥6👍3
Коллеги, поделитесь, на какие темы/статьи вы хотели бы увидеть дайджесты/посты в ближайшем будущем в нашем канале 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM