NEW BOT Телеграм, страница

More gradient descent news.

"Grimmer found that the fastest sequences always had one thing in common: The middle step was always a big one. Its size depended on the number of steps in the repeating sequence."

Hooray to cyclical and large learning rates!

https://www.quantamagazine.org/risky-giant-steps-can-solve-optimization-problems-faster-20230811/

The original paper:
Provably Faster Gradient Descent via Long Steps
https://arxiv.org/abs/2307.06324

Quanta Magazine

Risky Giant Steps Can Solve Optimization Problems Faster

New results break with decades of conventional wisdom for the gradient descent algorithm.

❤16🥱6

7.88K viewsedited 17:09

gonzo-обзоры ML статей

TWIMC

Ревью Маши Фаликман на книгу Томаселло "The Evolution of Agency: Behavioral Organization from Lizards to Humans"

https://www.tandfonline.com/doi/full/10.1080/10749039.2023.2246947

Taylor & Francis

Agency, activity, and biocybernetics: On The Evolution of Agency by Michael Tomasello

Published in Mind, Culture, and Activity (Vol. 30, No. 1, 2023)

🔥7❤2👎1🤔1

6.55K views23:51

gonzo-обзоры ML статей

Learning to Model the World with Language
Jessy Lin, Yuqing Du, Olivia Watkins, Danijar Hafner, Pieter Abbeel, Dan Klein, Anca Dragan
Статья: https://arxiv.org/abs/2308.01399
Сайт: https://dynalang.github.io/

Интересная работа из серии про World Models. Мы по этой теме практически ничего не успели написать (https://news.1rj.ru/str/gonzo_ML/186), но она интересная, развивается уже не первый год, и относительно свежий толчок несколько лет назад дал ей наш любимый Шмидхубер (и не менее любимый Дэвид Ха, https://arxiv.org/abs/1803.10122). Идея там была в том, что агент может выучить модель мира и дальше оттачивать свои навыки в ней, то есть в симуляции. Получалось неплохо (https://worldmodels.github.io/).

С тех пор много всего появилось, всё не перечислишь, одна из популярных моделей была Dreamer (https://arxiv.org/abs/1912.01603), которая дошла до 3-й версии DreamerV3 (https://arxiv.org/abs/2301.04104). Один из соавторов текущей работы, Danijar Hafner, как раз автор Дримера. И на самом деле текущая модель это расширение DreamerV3 на работу с языком на входе и опционально на выходе.

Новая работа представляет агента Dynalang, который выучивает мультимодальную модель мира и добавляет в микс язык. Язык использовали и раньше, по крайней мере на входе, чтобы предсказывать действия агента (например, когда агент получал текстовую команду что-то сделать). Но маппинг языка в действия, особенно если единственным обучающим сигналом является награда, это довольно слабый сигнал чтобы выучить богатые текстовые репрезентации мира и понимать не только прямые инструкции, но и фразы, относящиеся к состоянию этого мира. Гипотеза авторов в том, что предсказание будущих репрезентаций даёт богатый сигнал, чтобы понять язык и как он соотносится с миром вокруг. Язык теперь также используется и чтобы предсказывать будущие языковые и видео наблюдения, а также награды.

Dynalang разъединяет (в смысле decouple) обучение моделированию мира с помощью языка (supervised learning with prediction objectives) и обучение действиям в этом мире c использованием модели (reinforcement learning with task rewards).

Задача модели мира (world model, или далее просто WM) -- сжать входной текстовый и зрительный сигналы в латентное представление и научиться предсказывать будущие латентные представления по набранным наблюдениям взаимодействия агента в среде. Это латентное представление от WM поступает на вход полиси, которая предсказывает действия и максимизирует награду.

Благодаря этому разделению, Dynalang можно предобучать на одиночных модальностях типа текста или видео без всяких действий и наград.

Во фреймворк можно также добавить генерацию текста, когда восприятие агента даёт сигнал его языковой модели и он получает возможность “говорить в среду”.

Более формально, в интерактивных задачах агент выбирает действие a_t в среде. В большинстве экспериментов это одно из дискретных действий, то есть просто целое число. Но опционально может быть ещё и языковой токен. Из среды в ответ поступает награда r_t, флажок продолжения эпизода c_t, и наблюдение o_t, состоящее из пары: картинка x_t и языковой токен l_t. То есть получается что на входе и выходе появляется лишь по одному токену на кадр, и в работе показали, что token-level представления работают лучше чем sentence-level. Задача как обычно максимизировать ожидаемую дисконтируемую сумму наград.

WM -- это Recurrent State Space Model (RSSM, https://arxiv.org/abs/1811.04551) на базе GRU со скрытым рекуррентным состоянием h_t.

В каждый момент времени (x_t, l_t, h_t) кодируется энкодером (VAE) в латентное состояние z_t:

z_t ∼ enc(x_t, l_t, h_t)

Sequence model (GRU) выдаёт (z’_t, h_t) по предыдущим (z, h, a) от момента t-1:

z’_t, h_t = seq(z_{t−1}, h_{t−1}, a_{t−1})

Наконец декодер по (z_t, h_t) восстанавливает (x_t, l_t, r_t, c_t):

x’_t, l’_t, r’_t, c’_t = dec(z_t, h_t)

При этом для картиночных входов и выходов используется CNN, а для всех остальных MLP.

WM обучается на сумме representation learning loss (L_repr) и future prediction loss (L_pred).

dynalang.github.io

Learning to Model the World with Language

Dynalang leverages diverse types of language to solve tasks by using language to predict the future in a multimodal world model.

👍16❤3

5.22K views21:40

gonzo-обзоры ML статей

L_repr в свою очередь является суммой MSE лосса восстановления картинки, категориальных кроссэнтропийных лоссов для текста и награды, бинарного кроссэнтропийного лосса для c_t, и KL-регуляризации на оригинальный z_t и предсказанный.

L_pred это тоже KL-терм про соответствие распределений оригинального и предсказанного z_t, только в другом порядке и с разными позициями stop-gradient.

Благодаря decoupling’у WM и полиси, WM можно предобучать оффлайн на больших корпусах текстов и видео без действий. Для этого неиспользуемые части входов и выходов зануляются, и зануляются коэффициенты соответствующих лоссов. После чего можно файнтюнить модель уже на всех модальностях.

Важное отличие текущей модели от традиционных LLM в том, что эта модель не предсказывает напрямую следующий токен по предыдущему, а делает эти хитрее через предсказание репрезентации следующего шага.

Полиси обучается actor-critic алгоритмом (взят из DreamerV3) по воображаемой последовательности мультимодальных репрезентаций, не на реальных наблюдениях. Это тот самый подход, с которым Шмидхубер и Ха презентовали свою работу на NIPS 2018, когда модель прокручивает ситуации в своём воображении и учится на этом.

Модель делает симулированных ролауты длины 15, стартуя с состояний, взятых из replay buffer’а. Далее полиси выдаёт действия, а WM наблюдения.

Авторы проверяют четыре гипотезы:

H1) Агент может использовать язык за пределами инструкций для улучшения выполнения задач и без необходимости изучать мир методом проб и ошибок. Например, по языковым подсказкам или мануалам к игре.

H2) Более полезно заземлять язык на предсказание будущего, чем напрямую предсказывать действия.

H3) Интерпретация инструкций как предсказание будущих вознаграждений не хуже предсказания действий по инструкциям.

H4) Формулировка Dynalang позволяет выполнять языковую генерацию.

Тексты обрабатываются токенизатором от T5, и в зависимости от задачи, токены эмбеддятся либо через one-hot, либо берутся эмбеддинги от T5-small (60M).

В качестве бейзлайнов взяты model-free IMPALA и R2D2, имплементации взяты из Seed RL (https://github.com/google-research/seed_rl). Обе модели примерно с 10М параметров и скейлинг им не помогает.

Проверяли на разных средах.

Во-первых, создали свою HomeGrid -- gridworld, в котором агент получает текстовые описания задачи, а также языковые подсказки по ходу дела. Подсказки могут содержать информацию о динамике мира и его состоянии, а также корректировки агенту. Есть пять типов задач с разными объектами и корзинами. Со всеми ними можно делать разные действия.

Dynalang успешно использует подсказки разных типов, с ними выполнение задач даётся лучше, даже если подсказки физически далеко от релевантных объектов и наблюдений. В итоге нашли поддержку гипотез H1 и H2. Model-free бейзлайнам от новых хинтов становится только хуже.

Во-вторых, проверялись в среде Messenger (http://proceedings.mlr.press/v139/hanjie21a.html), в котором агент должен передавать сообщения от одних сущностей другим, избегая врагов. Имеются текстовые мануалы, описывающие динамику игры. В игре три уровня сложности, от S1 до S3. Дополнительно к предыдущим бейзлайнам, сравниваются с EMMA из этой же работы про среду.

Dynalang рулит, особенно на сложном S3, где остальным плохо. Это поддерживает гипотезу H2.

Третий бенчмарк Vision-Language Navigation (VLN), где агент должен навигировать по трёхмерным реалистичным панорамам домов, к которым прилагаются инструкции, как надо действовать.

По сравнению с R2D2 доля успешных прохождений сильно выше. Это поддерживает H3.

Четвёртая среда, LangRoom, сделана под задачу Embodied Question Answering и здесь агент должен отвечать текстом на вопросы про свойства объектов в среде. Это скорее PoC (proof-of-concept) и агент действительно учится собирать информацию в среде и генерировать правильные ответы. Это поддерживает H4.

Показали, что предобучение на текстовых данных (in-domain инструкции, а также общие тексты с историями, сгенерированными гптшками) улучшает результаты.

GitHub

GitHub - google-research/seed_rl: SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference. Implements IMPALA…

SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference. Implements IMPALA and R2D2 algorithms in TF2 with SEED's architecture. - google-research/seed_rl

❤8🔥3🤮1

3.56K views21:40

gonzo-обзоры ML статей

Из прикольного, можно делать воображаемые роллауты из модели мира. Это помогает интерпретировать, что выучила модель и видеть, что она генерит что-то осмысленное.

Если поставить текущую работу в более широкий и массовый контекст, то важно отдавать себе отчёт, что:

* Сравнивать Dynalang с существующими LLM не имеет смысла, потому что масштабы отличаются на порядки, вся Dynalang в зависимости от настроек содержит 150-300M параметров (далеко даже до самой лёгкой из LLaMa 2) плюс другая архитектура (в смысле не трансформер). То есть смотреть здесь на метрики качества, по которым сравниваются LLM, пока бессмысленно.

* По сравнению с Gato (https://news.1rj.ru/str/gonzo_ML/966) или PaLM-e (https://news.1rj.ru/str/gonzo_ML/1350), Dynalang также в другой категории. PaLM-e -- это всё же LLM, хоть и с мультимодальными входами, на выходе выдающая команды текстом. При этом она ещё и одна из самых больших в мире. А Gato -- хотя и побольше Dynalang в несколько раз, всё равно довольно маленькая (но наверняка DeepMind за это время уже обучил большую новую Gato 2 и молчит) мультизадачная модель, умеющая генерить токены разной природы, не только текстовые для чата или описания картинок, но и для действий. Обучаются эти модели без RL, и никакой явной модели мира с динамикой внутри себя не содержат (но, конечно, могут содержать что-то такое неявно).

Anyway, направление интересное, наверняка мы довольно скоро увидим модели типа Dreamer+LLM гораздо большего масштаба.

gonzo-обзоры ML статей

[DeepMind Gato] A Generalist Agent
Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards…

🔥13👍3🤡1

3.22K views21:40

gonzo-обзоры ML статей

2.95K views21:42

gonzo-обзоры ML статей

3K views21:43

gonzo-обзоры ML статей

3.03K views21:44

gonzo-обзоры ML статей

3.02K views21:44