rizzearch – Telegram
rizzearch
1.01K subscribers
988 photos
11 videos
320 links
Кайфули на каждый день

Авторы:
@zzmtsvv
@maxnygma (AI4Science посты)
Download Telegram
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents

Another cool paper на узкую и сложную, но тем не менее потенциально хайповую тему

В основном в ин-контекст рл обучают агентов, завязанных на концепции памяти и обрабатывают последовательности в том или ином виде (рнн, трансформер, ссм) ⇒ результат, как и во всем рл, очень жестко зависит от технических деталей при имплементации, к тому же пока еще нет полной связи с устоявшимися концепциями рл

амаго делает боооольшой такой шаг на пути к тому, чтобы скомбинировать sequential модели и goal-conditioned Q-learning + оптимизирует код, чтобы сделать метод масштабируемым и максимально емким во всех смыслах

- адекватно кодирует данные относительно длины последовательности чтобы не засорять память
- закручен офф-полиси актор-критик с общим бекбоном
- они не просто улучшают существующие ин-контекст результаты, но и расширяют задачи с условными целями

В общем конфетка

👀LINK
🎉4
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

дипмаинды представили интересный гибрид - что-то между трансформером, ссм и рнн, но ни одно из них, но поближе все-таки к трансформеру🤓

Идея довольно нужная и в некотором смысле даже вечная - трансформер медленный в инференсе и ограничен длиной последовательности, в остальном просто чудо, хотим получить идеал.

Авторы в известном трансформер блоке меняют аттеншн на то, что они называют gated linear reccurence + локальный аттеншн ⇒ быстрее трансформера на инференсе, на трейне так же эффективно. Еще показывают, что экстраполируется на бОльшую длину последовательности чем во время обучения

И еще есть код что тоже круто🥸

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
A Brief Look at Generalization in Visual Meta-Reinforcement Learning

Мы уже говорили о проблемах генерализации ин-контекст рл агентов, а что насчет классичных мета-рл алгоритмов - есть ли у них проблемы с этим? Авторы решили протестить на средах с визуальными обсервейшнами (данными, которые содержат не всю информацию, чтобы можно было ее решить в рамках МДП - получаем ПОМДП)

И, к удивлению, у мета-рл алгоритмов наблюдается оверфит с сохранением генерализации! То есть, качество на трейновых тасках достигается выше, чем на трейновых - даже на простом сеттинге Мета-Ворлда (графики прикрепленные по другим средам)

Так же наблюдаются проблемы со скейлом - чем больше тасок алгоритмы видят во время трейна (а в постановке и возможно такое, что на трейне нужны тысячи тасок, чтобы во время инференса хорошо перформить на тысяче других), тем сложнее норм обучаться модели, исключение разве что составляет RL^2

В общем, не рл, а целое непаханное поле 😇

👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👀1
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies

Проблема взрыва или затухания градиентов в обучении рнн является проблемой в том числе и в рл, а точнее в задачах, где надо принимать действия в соответствии с предыдущей историей из-за неполноты выдаваемых данных для достижения оптимальности

Да и в целом присутствует проблема не только с градиентами, а со всем Truncated Backpropagation Through Time (Truncated BPPT), потому что он смещает обновление модели из-за ограниченной длины

Авторы смогли нивелировать эту проблему в рл путем введения stochastic internal state - штукой, которую дополнительно будет моделировать наш алгоритм рл на каждом шаге, пытаясь вместить в себя релевантную информацию о среде. Таким образом модель не привязана к длине контекста по сравнению с BPTT

Главная заслуга авторов в том, что они смогли аккуратно это ввести в существующие методы, модификаций в коде немного, вычисление градиентов происходит так, как и задумано, по теории получается unbiased решение, а на практике быстрее обучатся и награды больше

👀LINK
🍾5
Наш первый Дайджест по In-context Reinforcement Learning!

1. In-context Reinforcement Learning with Algorithm Distillation - гениально простая идея, которую запатентовал гугл (кажется, началось…)

2. Structured State Space Models for In-Context Reinforcement Learning - расширяем границы ассоциативного скана

3. Supervised Pretraining Can Learn In-Context Reinforcement Learning - нетривиальная теория в рл/трансформерах, которая все разносит
(почти)

4. зарезервировано под https://arxiv.org/abs/2312.12275

5. Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining - область не считается отдельной, если для нее не пытаются сделать свою теорию meow

6. Generalization to New Sequential Decision Making Tasks with In-Context Learning - любая прорывная идея должна выстоять усложнение задачи, что и происходит тута

7. In-Context Exploration-Exploitation for Reinforcement Learning - вроде очередной breakthrough, но пощупать нелья

8. XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX - to the moon в усложнении и количестве задач при помощи джакса

9. AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents - критически анализируем прошлые технические детали, оптимизируем их ⇒ профит

10. Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning - узнаем глубже, что происходит внутри трансформера при помощи ин-контекст рл

11. Towards General-Purpose In-Context Learning Agents - попытка лабы шмидхубера не отставать от тренда

12. In-Context Reinforcement Learning for Variable Action Spaces
- вводим в область проблему произвольного количества действий и (частично) решаем ее

13. Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning - попытка сблизить человеческое социальное обучение и ин-контекст рл

14. зарезервировано под https://arxiv.org/abs/2406.08973

15. In-context learning agents are asymmetric belief updaters - связь инконтекст лернинга с человеческими паттернами

16. In-Context Imitation Learning
via Next-Token Prediction
- переносим концепцию на имитейшн лернинг и получаем профит

17. Retrieval-Augmented Decision Transformer: External for In-Context RL - добавляем faiss с индексированной базой к алгоритмам => улучшаем результат и снижаем размер контекста

18. LLMs Are In-Context Reinforcement Learners - ллмки тоже могут в ин-контекст рл, и при том даже лучше чем при классическом ин-контекст сетапе

19. ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI - эмбодиед сетап + увеличение контекста


Feel free to enjoy the papers with us!
6🔥6👍3
Коллеги, поделитесь, на какие темы/статьи вы хотели бы увидеть дайджесты/посты в ближайшем будущем в нашем канале 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
Policy graphs in action: explaining single- and multi-agent behaviour using predicates

Небольшой папир о библиотеке, которая находится в разработке. Цель ее благая и очень крутая - привнести “объяснимость” в действия, которые предпринимает один или много агентов

А что значит эта самая объяснимость в плане обучения с подкреплением? Когда мы можем построить алгоритм, похожий по поведению на агента, и ответить с помощью него на вопросы по поводу процесса принятия решений:

- Что ты сделаешь, оказавшись в состоянии X?
- Когда ты совершишь действие А?
- Почему ты не совершил действие А в состоянии Х?

Достигают этого авторы, выстраивая граф по пути принятия решений, конвертируют состояния-действия в предикаты и далее с ними оперируют для достижения Explainability

Profound работа, поскольку она продвигает коммьюнити к бОльшему доверию к рл моделям и их последующей интеграции в социо-технические системы (что бы это ни значило🥸)

👀LINK
👍3
Is Cosine-Similarity of Embeddings Really About Similarity?

Чего греха таить, у нас у всех в голове есть установка, что cosine similarity показывает сходство между эмбеддингами, а потому это супер удобный метод для привнесения нужной семантики в модель

Невероятно, но не факт!)

Авторы из нетфликс провели анализ линейных автоэнкодеров (если говорить не по диплерновски, то они анализировали модели матричной факторизации) с регуляризацией. Оказывается, можно так попасть в просак с этой регуляризацией, что она будет отвечать за значение dot-product’a, что (почти) есть cosine similarity. А что именно выучила модель - да хрен его знает

Также авторы спекулируют, что подобное может встречаться и в дип лернинге, с чем можно согласиться - на каждом слое применяется своя регуляризация и нет-нет да и да ⇒ где-то такая же неприязнь может быть

Но нивелируется (по их словам) это довольно легко - не забывайте добавлять леернорму + побольше задумываться о том, куда именно вы применяете этот косинус (в каком именно пространстве, почему оно вам надо именно там, не происходит ли какой-то очевидной утечки во время обучения как, например, неправильно подобранного семплинга к дисбаланс датасету и все такое).

Общий вывод таков - не тыкайте свой пестик в любую тычинку, чтобы получить желаемые результаты по метрик лернингу.


The devil’s in the details 😈

👀LINK
😁62👀1
State Spaces Aren't Enough: Machine Translation Needs Attention

Мы уже упоминали неидеальность ССМ. До этого еще авторы из эпл показали, что ссм (в частности, S4) не может так же хорошо в перевод как и трансформер (благодаря аттеншну). При том там почти в 4 BLEU отставание

Спекулируют они тем, что ссм в принципе по построению не может выстраивать потокенные представления, которые позволяют связывать две последовательности на разных языках, пушто ссм всю последовательность запихивает в репрезентацию фиксированного размера, а из этого потокенно что-то вытащить уже сложно

Аттеншн же по построению делает обратное

К тому же для пущей полноты они представили свою гибридную архитектуру, где весь селф-аттн заменяют на S4, оставляют кросс-аттеншн и картина становится похожей на обычный трансформер

👀LINK
🤔3👀1
Resurrecting Recurrent Neural Networks for Long Sequences

Относительно давняя статья, которую уже можно считать базой

дипмаинды решили освежить рннки и привнести в них заново жизнь. они смогли получить такой же скор на Long Range Arena, что и ссмки, не уступая по вычислительной эффективности

Для этого пришлось уйти от парадигмы - убрать нелинейность из рнн блока. и хоть по теории это звучит абсурдно, потому что именно эта нелинейность (сигмоида, танх) позволяет рннке быть полной по Тьюрингу, но “линейная” рнн достигает даже лучшего результата чем классические сетапы

но этого недостаточно, чтобы получить такую же эффективность, как и ссм. как и стейт-спейс модели, авторы обучают свою новую рннку матрицами комплексных пространств чтобы получить такую же способность к выявлению паттернов, а так же

- диагонализуют обучаемые матрицы и часть обучения происходит в комплексно-диагональном пространстве, пространстве собственных значений
- заменяют HiPPO инициализацию на более легкую, известную всем формулу еще с первого курса университета (назвали ее stable exp parametrization)
- добавляют зависимую от “обучаемых eigenvalues” нормализацию, которая привносит постоянство, схожее с диффурами, которые стоят за ссм

И получается интересный Linear Recurrent Unit (LRU) 🫡

P.S. мы писали до этого про гибрид от тех же дипмаиндов, где они используют Real-Gated LRU, которые сами придумали. основное отличие - уходят от комплексных пространств, потому что по их опыту комплексные пространства плохо справляются с language modelling. pay attention to the evaluation protocol😎

👀LINK
👍4🔥31👀1
Learning from Active Human Involvement through Proxy Value Propagation

Еще одна крутая статья с крутой и одновременно простой идеей, которая расширяет границы привычного обучения с подкреплением

Общая проблема всех областей в рл - необходимость собрать огромный датасет, чтобы выйти хотя бы на субоптимальный уровень, а если и оптимальный, то потеть надо еще сильнее

Авторы подумали - так а может уберем потребность в большууууущем датасете? А как? Ну, видимо через демонстрацию того, как надо сразу действовать оптимально. Окей, но такое уже было - собирают датасеты с оптимальной разметкой, проблемы убавляются, но несильно.

А что если вообще не собирать огромный датасет, а посмотреть что выучит алгоритм, если человек будет постоянно “на связи” - сможет в любой момент перехватить контроль на себя и показать, как надо действовать? А сделаем это через модификацию Value functions ⇒ Proxy Value Functions, или PVP (уже похожее делали здесь)

И как ни странно, это работает! Вы только чекните графики - алгоритм таким образом в ГТА 5 может до конца маршрута в гонке доехать на ламбе (PVP выигрывает в гонках гта, interesting)

Помимо гта там еще авторы показывают анализ лосс функций и выводят связь с CQL, что нетривиально и вообще супер, тк говорит о том, что мы идем в правильную сторону

👀LINK
4