rizzearch – Telegram
rizzearch
1.01K subscribers
988 photos
11 videos
320 links
Кайфули на каждый день

Авторы:
@zzmtsvv
@maxnygma (AI4Science посты)
Download Telegram
Generalization to New Sequential Decision Making Tasks with In-Context Learning

До этого ин-контекст рл проверяли на относительно простых, известных средах (Darkroom & MuJoCo). Авторы решили испытать на известных cвоей сложностью MiniHack & Procgen, которые также включают в себя задачи на эксплорейшн, навигацию/планирование и использование инструментов + много различных левелов в тасках

И встает вопрос - а возможно ли в этих, более сложных и вариативных средах, так же получить ин-контекст? При том такая постановка настолько сложна, что на трейновых средах играешь за рыбу🐠 и пытаетесь скушать как можно больше всего, а во время тестирования заставляют в качестве ниндзя🥷

Йо, и такое возможно! Но стоит сделать достаточно большой датасет (десятки тысяч траекторий с разных уровней на каждую таску, коих десятки), иметь доступ к оптимальным действиям (как обычно) и правильно аугментировать - семплить разные траектории из тех же уровней, чтобы нивелировать меморизацию и сподвигнуть к генерализации

К тому же в качестве контекста можно на пальцах пересчитать, сколько эпизодов нужно для достижения оптимума (7) 😎

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images
CVPR 2024

🔬🦠🧬

В биологии есть большое количество различных данных и они отличаются своей структурой. Одна из важных задач - создания эффективных унифицированных репрезентация для биологических данных для последующего использование в тюнинге на различные задачи

Очевидно, есть серьезная проблема - данные сильно отличаются в количестве каналов. Основные и базовые подходы делают фокус на интра-канальных пространственных фичах и часто игнорируют связь между каналами

Авторы предлагают Channel Adaptive Vision Transformer, который способен кодировать данные с вариативным количеством каналов. Делается это с помощью создания патчей по каналам, маскирования и паддинга как в SSL для ViT. При обучении добавляют позиционные и канальные эмбеддинги. Первые используются для обработки spatial информации между каналами, а вторые для обучаются на связях патчей внутри каждого конкретного канала. Такой подход позволяет модели различать между патчами на одной позиции, но в разных каналах

В экспериментах показано, что ChAda-ViT имеет качественные аттеншен мапы на последнем слое, что подтверждает хайп

👀 LINK
2👍2
In-Context Exploration-Exploitation for Reinforcement Learning

О том, как не надо писать статьи (несмотря на то, что приняли на ICLR 24)

Уже очень много мы успели упомянуть об ин-контекст рл - и везде для достижения такого надо много данных как во время обучения, так и во время инференса для накопления контекста, поскольку исследование новых сред происходит не так быстро. Было бы неплохо такое нивелировать. А как?

Авторы встраивают в инференс доп модель, которая производит явный трейд-офф между exploration/exploitation, при этом они не делают байесовский инференс явно, встраивая свой алгоритм в трансформер ⇒ скорость сходимости к оптимальной награде меняется с сотни эпизодов до десятка.

А в чем тогда проблема? Да вообще непонятно, как в коде устроена эта их модификация. Есть псевдокод, но он выдает больше вопросов, чем ответов, а авторы никакой код и не прикладывают

Вот так и получаем - по идее новая СОТА, но по ней мало что понятно

👀LINK
3
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX

Вспоминая феномен JAX сред, наши замечательные авторы решили расширить его и на понятие ин-контекст рля, да при том сделать это мега круто!
А почему круто?

- вдохновлены сложностью XLand’a и минималистичностью MiniGrid’a
- древовидная система правил, которая определяет конкретную таску (а значит может легко варировать сложность и разнообразность)
- возможность обучения сингл-таск и мета-агентов
- триллион шагов за 2 дня обучения!!!

А как такая библиотека помогает продвинуться области? Даже самые легкие задачи из бенчмарков вызывают затруднение как для обычных, так и для мета алгосов. На определенных задачах только после 1 миллиарда/триллиона шагов один агент начинает хоть что-то выучивать. Такой долгий разгон означает, что потолок в сложности тасок пробит, и теперь есть удобный и невероятно быстрый фреймворк, на котором можно улучшаться

👀LINK
❤‍🔥7👍1
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents

Another cool paper на узкую и сложную, но тем не менее потенциально хайповую тему

В основном в ин-контекст рл обучают агентов, завязанных на концепции памяти и обрабатывают последовательности в том или ином виде (рнн, трансформер, ссм) ⇒ результат, как и во всем рл, очень жестко зависит от технических деталей при имплементации, к тому же пока еще нет полной связи с устоявшимися концепциями рл

амаго делает боооольшой такой шаг на пути к тому, чтобы скомбинировать sequential модели и goal-conditioned Q-learning + оптимизирует код, чтобы сделать метод масштабируемым и максимально емким во всех смыслах

- адекватно кодирует данные относительно длины последовательности чтобы не засорять память
- закручен офф-полиси актор-критик с общим бекбоном
- они не просто улучшают существующие ин-контекст результаты, но и расширяют задачи с условными целями

В общем конфетка

👀LINK
🎉4
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

дипмаинды представили интересный гибрид - что-то между трансформером, ссм и рнн, но ни одно из них, но поближе все-таки к трансформеру🤓

Идея довольно нужная и в некотором смысле даже вечная - трансформер медленный в инференсе и ограничен длиной последовательности, в остальном просто чудо, хотим получить идеал.

Авторы в известном трансформер блоке меняют аттеншн на то, что они называют gated linear reccurence + локальный аттеншн ⇒ быстрее трансформера на инференсе, на трейне так же эффективно. Еще показывают, что экстраполируется на бОльшую длину последовательности чем во время обучения

И еще есть код что тоже круто🥸

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
A Brief Look at Generalization in Visual Meta-Reinforcement Learning

Мы уже говорили о проблемах генерализации ин-контекст рл агентов, а что насчет классичных мета-рл алгоритмов - есть ли у них проблемы с этим? Авторы решили протестить на средах с визуальными обсервейшнами (данными, которые содержат не всю информацию, чтобы можно было ее решить в рамках МДП - получаем ПОМДП)

И, к удивлению, у мета-рл алгоритмов наблюдается оверфит с сохранением генерализации! То есть, качество на трейновых тасках достигается выше, чем на трейновых - даже на простом сеттинге Мета-Ворлда (графики прикрепленные по другим средам)

Так же наблюдаются проблемы со скейлом - чем больше тасок алгоритмы видят во время трейна (а в постановке и возможно такое, что на трейне нужны тысячи тасок, чтобы во время инференса хорошо перформить на тысяче других), тем сложнее норм обучаться модели, исключение разве что составляет RL^2

В общем, не рл, а целое непаханное поле 😇

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👀1
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies

Проблема взрыва или затухания градиентов в обучении рнн является проблемой в том числе и в рл, а точнее в задачах, где надо принимать действия в соответствии с предыдущей историей из-за неполноты выдаваемых данных для достижения оптимальности

Да и в целом присутствует проблема не только с градиентами, а со всем Truncated Backpropagation Through Time (Truncated BPPT), потому что он смещает обновление модели из-за ограниченной длины

Авторы смогли нивелировать эту проблему в рл путем введения stochastic internal state - штукой, которую дополнительно будет моделировать наш алгоритм рл на каждом шаге, пытаясь вместить в себя релевантную информацию о среде. Таким образом модель не привязана к длине контекста по сравнению с BPTT

Главная заслуга авторов в том, что они смогли аккуратно это ввести в существующие методы, модификаций в коде немного, вычисление градиентов происходит так, как и задумано, по теории получается unbiased решение, а на практике быстрее обучатся и награды больше

👀LINK
🍾5
Наш первый Дайджест по In-context Reinforcement Learning!

1. In-context Reinforcement Learning with Algorithm Distillation - гениально простая идея, которую запатентовал гугл (кажется, началось…)

2. Structured State Space Models for In-Context Reinforcement Learning - расширяем границы ассоциативного скана

3. Supervised Pretraining Can Learn In-Context Reinforcement Learning - нетривиальная теория в рл/трансформерах, которая все разносит
(почти)

4. зарезервировано под https://arxiv.org/abs/2312.12275

5. Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining - область не считается отдельной, если для нее не пытаются сделать свою теорию meow

6. Generalization to New Sequential Decision Making Tasks with In-Context Learning - любая прорывная идея должна выстоять усложнение задачи, что и происходит тута

7. In-Context Exploration-Exploitation for Reinforcement Learning - вроде очередной breakthrough, но пощупать нелья

8. XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX - to the moon в усложнении и количестве задач при помощи джакса

9. AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents - критически анализируем прошлые технические детали, оптимизируем их ⇒ профит

10. Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning - узнаем глубже, что происходит внутри трансформера при помощи ин-контекст рл

11. Towards General-Purpose In-Context Learning Agents - попытка лабы шмидхубера не отставать от тренда

12. In-Context Reinforcement Learning for Variable Action Spaces
- вводим в область проблему произвольного количества действий и (частично) решаем ее

13. Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning - попытка сблизить человеческое социальное обучение и ин-контекст рл

14. зарезервировано под https://arxiv.org/abs/2406.08973

15. In-context learning agents are asymmetric belief updaters - связь инконтекст лернинга с человеческими паттернами

16. In-Context Imitation Learning
via Next-Token Prediction
- переносим концепцию на имитейшн лернинг и получаем профит

17. Retrieval-Augmented Decision Transformer: External for In-Context RL - добавляем faiss с индексированной базой к алгоритмам => улучшаем результат и снижаем размер контекста

18. LLMs Are In-Context Reinforcement Learners - ллмки тоже могут в ин-контекст рл, и при том даже лучше чем при классическом ин-контекст сетапе

19. ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI - эмбодиед сетап + увеличение контекста


Feel free to enjoy the papers with us!
6🔥6👍3
Коллеги, поделитесь, на какие темы/статьи вы хотели бы увидеть дайджесты/посты в ближайшем будущем в нашем канале 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM