NEW BOT Телеграм, страница

rizzearch

Flow to Better: Offline Preference-based Reinforcement Learning via Preferred Trajectory Generation

мы уже упоминали преференс лернинг, где у нас нет ревард функции, а только пары траекторий с отметками, какая хуже а какая лучше, и из них мы уже и составляем ревард функцию

Тем не менее, в оффлайн сеттинге такая ревард функция может быть склонна к смещению в сторону распределения статического датасета, что вызовет проблемы при тестировании на оод семплах

Авторы решили нивелировать эту проблему улучшением траекторий через диффузию - на вход подаем плохую траекторию, а на выходе улучшение на протяжении всего горизонта + они добавляют аугментацию чтобы этого достичь, которая кластеризует оффлайн датасет исходя из скоров обученной модели, что по смыслу близко к ревард функции, но проще в обучении и реализации

И, для кого-то к удивлению а для кого-то нет, диффузия вместе с такой аугментацией добавляет элементы новизны и вариативности в сгенерированные траектории, что по фактам помогает обойти оод проблему так, как и надо

👀LINK

#rl #diffusion #preferencerl #offlinerl #augmentation

🔥1

224 views10:03

rizzearch

Offline Actor-Critic Reinforcement Learning Scales to Large Models

В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого

Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!

И это все на 132 тасках с непрерывными действиями🥸

👀LINK

#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

3.86K views10:44

rizzearch

Can Generative Models Improve Self-Supervised Representation Learning?


import albumentations as A
import torch


transforms = A.Compose([
    A.RandomCrop(),
    A.ColorJitter(),
    A.HorizontalFlip(),
    A.GaussianBlur(),
])

Знакомо?
Довольно полезные аугментации, которые хорошо расширяют вариативность обучаемого датасета
Тем не менее, они ограничены, а значит абсолютно случайным образом ударяя по клавишам пишущей машинки, гипотетическая обезьяна рано или поздно сделает датасает где такие аугментации не помогут генерализации и, скорее всего, в генерализации относительно селф-супервайзд лернинга

Авторы предлагают автоматизировать в некотором смысле процесс аугментации через генеративные модели, тем самым аугментируя ее (потому что генеративка на равна функции Identity как в торче), при этом сохраняя семантику, что по идее многогранно повышает вариативность при аугментировании

Авторы говорят, что синтетические аутпуты генеративки очень сильно похожи на реальные данные, но это вопрос на любителя - по-любому найдется задача или требование в перформансе, где эта идея только все ухудшит
Но нарратив и посыл в целом очень даже вдохновляющий

👀LINK

#selfsupervisedlearning #generativemodelling #augmentation

🤔1

288 views18:03

rizzearch

Privacy Backdoors: Stealing Data with Corrupted Pretrained Models

Авторы статьи показывают интересный и важный инсайт о том, как можно по аутпутам модели (которую зачастую скачивают претрененную) можно выявить, на каких данных ее файнтюнили, что мб чрезвычайно секретно

При том они смогли это сделат как в white box сценарии - когда у нас есть прямой доступ к модели - так и в black box, когда мы можем только смотреть аутпуты под инпуты, которые сами и выбираем

Выглядит прикольно, чтение статьи даже немного напоминает чтение детектива, но настораживающе)

👀LINK

#pretraining #privacy #blackbox #whitebox #weightinducing

277 views14:03

rizzearch

Empirical Design in Reinforcement Learning

Вот мы вроде ресерчеры, выкладываем статьи с результатами, что-то исследуем. А насколько мы исследуем по науке? насколько достоверны результаты, которые получаются? И верна ли изначальная методология в построении экспериментов?

Авторы манускрипта стараются раскрыть темки по грамотному тестированию рл гипотез, статистические предположения, которые скрываются за экспериментами, которые многие делают "не задумываясь" и в принципе о том, как следует соединять принятые в нашей области эксперименты, которые делаются не совсем по науке статистики, к таким результатам, о которых мы можем заявлять со статистической уверенностью как ресерчеры из медицины, физики и тд

👀LINK

#rl #methodology #experimentdesign #statistics #implementation

345 views12:32

rizzearch

Reinforcement Learning from Passive Data via Latent Intentions

yo, мы ранее говорили, что абсолютное большинство доступных данных не содержат разметку на действия, да и с такими данными работают в goal-conditioning стиле

Но что если ребята из беркли придумали, как свести goal-conditioning rl к стандартному рл, не имея при этом разметку на реварды и действия? (то есть расширить понятие функций ценностей - value functions)

Вопрос с единственно возможным ответом хе-хе. Да! Такое смогли сделать и это просто охренительно - с сырыми данными мы используем этот фреймворк и получаем осмысленное представление состояний, политик и потенциальных исходов в среде просто по демонстрациям, необработанным в смысле рльки

Достигают они этого с помощью введения латентных действий, называемых интенциями, и соединяют это с ревард функцией, которая стимулирует дойти до заранее определенной цели, используя конкретную интенцию. Сложно (непонятно), но интересно и изменений от стандартного рл не так много, что они сразу смогли некоторые алгоритмы подогнать под их фреймворк и получается все оч круто

👀LINK

#rl #valuenetwork #goalconditioning #latentactions #latentrewards

👍1

296 views22:23

rizzearch

The Illusion of State in State-Space Models

В последнее время мы все чаще слышим про State-Space Models (SSM) ([1] [2] [3] [4] [5]), которые эффективно могут быть альтернативой во многом трансформеру. В частности, теоретически SSM может "понимать" определенные виды последовательностей и осуществлять state tracking, чего не может трансформер

Однако, эта теория основана на ссм с бесконечным кол-вом слоев (как это обычно бывает в теории linear iteration dynamics), что не сходится с практикой - мы ведь фиксируем несколько слоев, здесь вам не deep equilibruim models

И этот важный факт на практике показывает, что никакого преимущества у ссм над трансформерами и нет - они не могут моделировать те же виды последовательностей, что и трансформеры, связанные со связностью графов, вычислением булевых формул и проблемы композиции перестановок. В отличие от однослойной РНН, которая все это может решать 🗿

Казалось бы, завяли помидоры... но не совсем - все-таки теоретически это можно решить, добавляя зависимость от инпутов и нелинейность в моделируемые матрицы ссм, приближая их к рннкам (но это не будет рнн, все сложно🙃)
Правда тогда возникают проблемы с параллелизмом и динамикой обучения

Короче, следим за последовательностью событий

👀LINK

#statespacemodels #transformer #rnn #sequencemodelling

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥2

330 views07:14

rizzearch

Rediscovering orbital mechanics with machine learning

Discover the force of the skies O Men: once recognised it can be put to use. - Johannes Kepler

А вы знали, что можно открывать старые и новые законы физики с помощью нейронных сетей 👀?

В статье показывается подход, состоящий из графовой нейронки и символьной регрессии для моделирования орбитальных траекторий. Символьная регрессия с помощью генетического алгоритма (зачастую) итеративно подбирает математические выражения, лучше аппроксимирующие функцию, и при этом с меньшей сложностью

Для GNN авторы используют обучаемый скаляр массы для каждой вершины (планеты), координаты планет, ребра вершин. Фичи с ребер используются как сила между планетами (F = ma, вспоминаем 😵) и используется для вывода ускорения планет, чтобы сравнить ее с истинными значениями

Тут конечно не обошлось без небольших индуктивных признаков. Фичи ребер типа (i, j) и (j, i) не обучаются по разному, а к ним применяется знак минус. Это третий закон Ньютона. Также для каждой планеты итоговый вектор выход из сум фичей соседей. Это суперпозиция сил. И как было написано выше, a = F/m, это второй закон Ньютона

Применяя символьную регрессию к обученой нейронке, авторы переоткрывают классический закон тяготения Ньютона

👀

LINK

#gnn #symbolicregression #ai4science

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2

348 views14:23

rizzearch

Align your Latents:
High-Resolution Video Synthesis with Latent Diffusion Models

Подход заключается в том, чтоб использовать латентную картиночную диффузию для генерации видео. Для этого помимо уже имеющихся пространственных (spatial) слоев в блок UNet добавляются новые слои - временны́е (temporal), далее будем называть их темпоральными. B * T кадров обрабатываются пространственными слоями как картинки в то время как темпоральные слои моделируют временную ось. Многократно изменяется форма тензора (B, C, T, H, W) -> (B*T, C, H, W) и кадры видео обрабатываются как батч что и позволяет нем использовать 2Д слои из уже обученной картиночной диффузии, а в темпоральных слоях тензор уже представлен 5-мерным (B, C, T, H, W).

Реализовано два варианта темпоральных слоев: 3Д свертка и слой темпорального внимания. Важно отметить, что после каждого временнОго слоя мы комбинируем выходные значения со значениями из пространственного слоя используя обучаемый параметр α, уникальный для каждого темпорального слоя, используя взвешенную сумму a*z + (1-a)*z′

- для ориентации во времени используются синусоидальные эмбеддинги
- пространственные слои заморожены, обучаются только темпоральные

Со слов авторов интеграция темпоральных слоев в декодер является критическим и значительно улучшает межкадровую связность. енкодер остается неизменным так как нельзя изменять свойства латентного пространства в котором училась диффузия

Далее были предприняты шаги удлинения генерируемых видео путем предсказания T - S последующих кадров при S данных при T равному длине последовательности, через маскирование кадров. После чего этот подход использовали для улучшения fps путем маскирования 3-4 кадров между 2 известными.

Для улучшения пространственного разрешения был использован диффузионный апсемплер разрешения (пиксельный)


Overall, we believe that the combination of an LDM with an upsampler DM is ideal for efficient high-resolution video synthesis.

👀

LINK

#text2video #video #diffusion

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

448 viewsedited 21:30

rizzearch

In-context Reinforcement Learning with Algorithm Distillation

UPD: за время, пока админы писали обзор на эту статью, гугл забронил

патент

под эту технологию, вот и думаем насколько важно) приятного прочтения

😎

Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче

А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?

Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач

Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)

Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.

В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...

👀LINK

#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6🤯3

7.32K views10:51

rizzearch

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

В какой то степени эта работа является продолжением работы Andreas Blattmann над архитектурой Align your Latents (прикрепил наш разбор к сообщению). В данной работе основное внимание уделено сбору данных и обучению модели, в то время как архитектура наследуется из статьи выше.

Обучение модели разделено на три этапа:

1. Обучение картиночной диффузии
2. Предобучение видео модели
3. Финальный тюн модели

Про первый этап писать не буду, давайте поговорим про второй и третий и в целом про предобработку данных.

Детекция смены сцены (cut detection) - после детекции вырезок на видео число клипов в датасете увеличилось в 4 раза

Вычисление оптического потока - для каждого видео в датасете при частоте 2 фпс был подсчитан оптический поток и после этого стало понятно что значительная часть видео (смотрите график) является статичными что значительно влияет на качество итоговой модели

Описание видео - CoCa для аннотации кадра посередине, V-BLIP для генерации описания для всего видео, далее суммаризация двух промптов через LLM.

Подсчет CLIP-score эстетичности

для того чтоб модели умела генерировать текст был интегрирован OCR-detection

2. Предобучение видео модели

Мы собрали аннотации: текстовые, информацию о статичности видео, мы подсчитали эмбеддинги видео, ну и почистили видео от обилия различных сцен, теперь надо обучить модель. Исследователи применяют метод курации данных для различных аннотаций в LVD. Они начинают с непрофильтрованного подмножества размером 9,8 миллиона примеров и удаляют нижние 12.5, 25 и 50% примеров для каждой аннотации. Для синтетических подписей они используют ранжирование Эло. Обучая модели на отфильтрованных подмножествах, они сравнивают результаты и выбирают наилучший порог фильтрации для каждой аннотации на основе голосов предпочтений людей. В итоге получилось 152M тренировочных примеров.

3. Финальный тюн модели производился на 250к видео с предварительно написанными субтитрами и высокой визуальной точностью.

Обучение

Авторы отмечают что крайне важно принять график шума при обучении моделей диффузии изображений, переходя к большему количеству шума для изображений с более высоким разрешением.

Так они сочли полезным линейно увеличивать guidance scale по по темпоральной оси (от меньшего к большему).

Путем маскирования (так же как и в работе выше) модель была дообучена для задач интерполяции увеличивая fps в 4 раза

Модель была дообучена для задачи генерации 360 видов сцены и показала конкурентные результаты c SOTA решениями

на 8 карточках А100 80гб обучение заняло 12к итераций ~ 16 часов с батчем 16

👀

LINK

#text2video #video #diffusion

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Stable Video Diffusion: Scaling Latent Video Diffusion Models to...

We present Stable Video Diffusion - a latent video diffusion model for high-resolution, state-of-the-art text-to-video and image-to-video generation. Recently, latent diffusion models trained for...

👍6❤1

489 viewsedited 15:25

rizzearch

Structured State Space Models for In-Context Reinforcement Learning

Трансформеры в ин-контекст лернинге в рл (и нлп) опробовали, почему бы не опробовать и ссм?

Отлично, только хорошо бы не просто их запустить из-под коробки, а как-то внести в структуру модели понимание того, какое действие хорошо в новой таске, а какое плохо

А как этого достичь, да так, чтобы не сохранить скорость stat space models? Возможно, понадобится как-то видоизменить параллельный скан, которым так славится ссм

Так и есть - авторы добавляют в ассоциативный оператор их ссм, которая называется S5, флаг о том, что эпизод закончился (а это классика поскольку в рл средах этот флаг поступает на вход при каждом шаге) -> сохраняется 'ссм-ность', и можно проверять, могут ли осуществлять ин-контекст рл не только трансформеры и рнн

Но дело на этом не заканчивается - в основном сетап у таких мета-рл моделей устроен так, что входное и выходное пространства (пространства состояний и действий) остаются одинаковыми как для тренировочных задач, так и для тестовых, которых алгоритм прежде не видел. Это сильно сужает применимость таких моделей и вариативность

авторы подумали-подумали и решили это исправить - а как? да просто пусть модель принимает и выдает фиксированные размеры (потому что по-другому она и не может), а обрабатывать сигналы из сред (тренировочных и тестовых) мы будем при помощи рандомных матриц, то есть мы будем осуществлять рандомную линейную проекцию, а модель пусть сама старается минимизировать лосс при вот таких условиях.

И это работает! Более того, это повышает вариативность тренировочного датасета (потому что мы более не привязаны к размерностям состояний и действий) + это позволяет адаптироваться к ООД задачам

супергуд! разве что пока возможно такое только на джаксе сделать

👀LINK

👍5❤2

338 views18:32

About

Blog

Apps

Platform