Flow to Better: Offline Preference-based Reinforcement Learning via Preferred Trajectory Generation
мы уже упоминали преференс лернинг, где у нас нет ревард функции, а только пары траекторий с отметками, какая хуже а какая лучше, и из них мы уже и составляем ревард функцию
Тем не менее, в оффлайн сеттинге такая ревард функция может быть склонна к смещению в сторону распределения статического датасета, что вызовет проблемы при тестировании на оод семплах
Авторы решили нивелировать эту проблему улучшением траекторий через диффузию - на вход подаем плохую траекторию, а на выходе улучшение на протяжении всего горизонта + они добавляют аугментацию чтобы этого достичь, которая кластеризует оффлайн датасет исходя из скоров обученной модели, что по смыслу близко к ревард функции, но проще в обучении и реализации
И, для кого-то к удивлению а для кого-то нет, диффузия вместе с такой аугментацией добавляет элементы новизны и вариативности в сгенерированные траектории, что по фактам помогает обойти оод проблему так, как и надо
👀LINK
#rl #diffusion #preferencerl #offlinerl #augmentation
мы уже упоминали преференс лернинг, где у нас нет ревард функции, а только пары траекторий с отметками, какая хуже а какая лучше, и из них мы уже и составляем ревард функцию
Тем не менее, в оффлайн сеттинге такая ревард функция может быть склонна к смещению в сторону распределения статического датасета, что вызовет проблемы при тестировании на оод семплах
Авторы решили нивелировать эту проблему улучшением траекторий через диффузию - на вход подаем плохую траекторию, а на выходе улучшение на протяжении всего горизонта + они добавляют аугментацию чтобы этого достичь, которая кластеризует оффлайн датасет исходя из скоров обученной модели, что по смыслу близко к ревард функции, но проще в обучении и реализации
И, для кого-то к удивлению а для кого-то нет, диффузия вместе с такой аугментацией добавляет элементы новизны и вариативности в сгенерированные траектории, что по фактам помогает обойти оод проблему так, как и надо
👀LINK
#rl #diffusion #preferencerl #offlinerl #augmentation
🔥1
Offline Actor-Critic Reinforcement Learning Scales to Large Models
В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого
Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!
И это все на 132 тасках с непрерывными действиями🥸
👀LINK
#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого
Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!
И это все на 132 тасках с непрерывными действиями
👀LINK
#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Can Generative Models Improve Self-Supervised Representation Learning?
Знакомо?
Довольно полезные аугментации, которые хорошо расширяют вариативность обучаемого датасета
Тем не менее, они ограничены, а значит абсолютно случайным образом ударяя по клавишам пишущей машинки, гипотетическая обезьяна рано или поздно сделает датасает где такие аугментации не помогут генерализации и, скорее всего, в генерализации относительно селф-супервайзд лернинга
Авторы предлагают автоматизировать в некотором смысле процесс аугментации через генеративные модели, тем самым аугментируя ее (потому что генеративка на равна функции Identity как в торче), при этом сохраняя семантику, что по идее многогранно повышает вариативность при аугментировании
Авторы говорят, что синтетические аутпуты генеративки очень сильно похожи на реальные данные, но это вопрос на любителя - по-любому найдется задача или требование в перформансе, где эта идея только все ухудшит
Но нарратив и посыл в целом очень даже вдохновляющий
👀LINK
#selfsupervisedlearning #generativemodelling #augmentation
import albumentations as A
import torch
transforms = A.Compose([
A.RandomCrop(),
A.ColorJitter(),
A.HorizontalFlip(),
A.GaussianBlur(),
])
Знакомо?
Довольно полезные аугментации, которые хорошо расширяют вариативность обучаемого датасета
Тем не менее, они ограничены, а значит абсолютно случайным образом ударяя по клавишам пишущей машинки, гипотетическая обезьяна рано или поздно сделает датасает где такие аугментации не помогут генерализации и, скорее всего, в генерализации относительно селф-супервайзд лернинга
Авторы предлагают автоматизировать в некотором смысле процесс аугментации через генеративные модели, тем самым аугментируя ее (потому что генеративка на равна функции Identity как в торче), при этом сохраняя семантику, что по идее многогранно повышает вариативность при аугментировании
Авторы говорят, что синтетические аутпуты генеративки очень сильно похожи на реальные данные, но это вопрос на любителя - по-любому найдется задача или требование в перформансе, где эта идея только все ухудшит
Но нарратив и посыл в целом очень даже вдохновляющий
👀LINK
#selfsupervisedlearning #generativemodelling #augmentation
🤔1
Privacy Backdoors: Stealing Data with Corrupted Pretrained Models
Авторы статьи показывают интересный и важный инсайт о том, как можно по аутпутам модели (которую зачастую скачивают претрененную) можно выявить, на каких данных ее файнтюнили, что мб чрезвычайно секретно
При том они смогли это сделат как в white box сценарии - когда у нас есть прямой доступ к модели - так и в black box, когда мы можем только смотреть аутпуты под инпуты, которые сами и выбираем
Выглядит прикольно, чтение статьи даже немного напоминает чтение детектива, но настораживающе)
👀LINK
#pretraining #privacy #blackbox #whitebox #weightinducing
Авторы статьи показывают интересный и важный инсайт о том, как можно по аутпутам модели (которую зачастую скачивают претрененную) можно выявить, на каких данных ее файнтюнили, что мб чрезвычайно секретно
При том они смогли это сделат как в white box сценарии - когда у нас есть прямой доступ к модели - так и в black box, когда мы можем только смотреть аутпуты под инпуты, которые сами и выбираем
Выглядит прикольно, чтение статьи даже немного напоминает чтение детектива, но настораживающе)
👀LINK
#pretraining #privacy #blackbox #whitebox #weightinducing
Empirical Design in Reinforcement Learning
Вот мы вроде ресерчеры, выкладываем статьи с результатами, что-то исследуем. А насколько мы исследуем по науке? насколько достоверны результаты, которые получаются? И верна ли изначальная методология в построении экспериментов?
Авторы манускрипта стараются раскрыть темки по грамотному тестированию рл гипотез, статистические предположения, которые скрываются за экспериментами, которые многие делают "не задумываясь" и в принципе о том, как следует соединять принятые в нашей области эксперименты, которые делаются не совсем по науке статистики, к таким результатам, о которых мы можем заявлять со статистической уверенностью как ресерчеры из медицины, физики и тд
👀LINK
#rl #methodology #experimentdesign #statistics #implementation
Вот мы вроде ресерчеры, выкладываем статьи с результатами, что-то исследуем. А насколько мы исследуем по науке? насколько достоверны результаты, которые получаются? И верна ли изначальная методология в построении экспериментов?
Авторы манускрипта стараются раскрыть темки по грамотному тестированию рл гипотез, статистические предположения, которые скрываются за экспериментами, которые многие делают "не задумываясь" и в принципе о том, как следует соединять принятые в нашей области эксперименты, которые делаются не совсем по науке статистики, к таким результатам, о которых мы можем заявлять со статистической уверенностью как ресерчеры из медицины, физики и тд
👀LINK
#rl #methodology #experimentdesign #statistics #implementation
Reinforcement Learning from Passive Data via Latent Intentions
yo, мы ранее говорили, что абсолютное большинство доступных данных не содержат разметку на действия, да и с такими данными работают в goal-conditioning стиле
Но что если ребята из беркли придумали, как свести goal-conditioning rl к стандартному рл, не имея при этом разметку на реварды и действия? (то есть расширить понятие функций ценностей - value functions)
Вопрос с единственно возможным ответом хе-хе. Да! Такое смогли сделать и это просто охренительно - с сырыми данными мы используем этот фреймворк и получаем осмысленное представление состояний, политик и потенциальных исходов в среде просто по демонстрациям, необработанным в смысле рльки
Достигают они этого с помощью введения латентных действий, называемых интенциями, и соединяют это с ревард функцией, которая стимулирует дойти до заранее определенной цели, используя конкретную интенцию. Сложно (непонятно), но интересно и изменений от стандартного рл не так много, что они сразу смогли некоторые алгоритмы подогнать под их фреймворк и получается все оч круто
👀LINK
#rl #valuenetwork #goalconditioning #latentactions #latentrewards
yo, мы ранее говорили, что абсолютное большинство доступных данных не содержат разметку на действия, да и с такими данными работают в goal-conditioning стиле
Но что если ребята из беркли придумали, как свести goal-conditioning rl к стандартному рл, не имея при этом разметку на реварды и действия? (то есть расширить понятие функций ценностей - value functions)
Вопрос с единственно возможным ответом хе-хе. Да! Такое смогли сделать и это просто охренительно - с сырыми данными мы используем этот фреймворк и получаем осмысленное представление состояний, политик и потенциальных исходов в среде просто по демонстрациям, необработанным в смысле рльки
Достигают они этого с помощью введения латентных действий, называемых интенциями, и соединяют это с ревард функцией, которая стимулирует дойти до заранее определенной цели, используя конкретную интенцию. Сложно (непонятно), но интересно и изменений от стандартного рл не так много, что они сразу смогли некоторые алгоритмы подогнать под их фреймворк и получается все оч круто
👀LINK
#rl #valuenetwork #goalconditioning #latentactions #latentrewards
👍1
The Illusion of State in State-Space Models
В последнее время мы все чаще слышим про State-Space Models (SSM) ([1] [2] [3] [4] [5]), которые эффективно могут быть альтернативой во многом трансформеру. В частности, теоретически SSM может "понимать" определенные виды последовательностей и осуществлять state tracking, чего не может трансформер
Однако, эта теория основана на ссм с бесконечным кол-вом слоев (как это обычно бывает в теории linear iteration dynamics), что не сходится с практикой - мы ведь фиксируем несколько слоев, здесь вам не deep equilibruim models
И этот важный факт на практике показывает, что никакого преимущества у ссм над трансформерами и нет - они не могут моделировать те же виды последовательностей, что и трансформеры, связанные со связностью графов, вычислением булевых формул и проблемы композиции перестановок. В отличие от однослойной РНН, которая все это может решать🗿
Казалось бы, завяли помидоры... но не совсем - все-таки теоретически это можно решить, добавляя зависимость от инпутов и нелинейность в моделируемые матрицы ссм, приближая их к рннкам (но это не будет рнн, все сложно🙃 )
Правда тогда возникают проблемы с параллелизмом и динамикой обучения
Короче, следим за последовательностью событий
👀LINK
#statespacemodels #transformer #rnn #sequencemodelling
В последнее время мы все чаще слышим про State-Space Models (SSM) ([1] [2] [3] [4] [5]), которые эффективно могут быть альтернативой во многом трансформеру. В частности, теоретически SSM может "понимать" определенные виды последовательностей и осуществлять state tracking, чего не может трансформер
Однако, эта теория основана на ссм с бесконечным кол-вом слоев (как это обычно бывает в теории linear iteration dynamics), что не сходится с практикой - мы ведь фиксируем несколько слоев, здесь вам не deep equilibruim models
И этот важный факт на практике показывает, что никакого преимущества у ссм над трансформерами и нет - они не могут моделировать те же виды последовательностей, что и трансформеры, связанные со связностью графов, вычислением булевых формул и проблемы композиции перестановок. В отличие от однослойной РНН, которая все это может решать
Казалось бы, завяли помидоры... но не совсем - все-таки теоретически это можно решить, добавляя зависимость от инпутов и нелинейность в моделируемые матрицы ссм, приближая их к рннкам (но это не будет рнн, все сложно
Правда тогда возникают проблемы с параллелизмом и динамикой обучения
Короче, следим за последовательностью событий
👀LINK
#statespacemodels #transformer #rnn #sequencemodelling
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
Rediscovering orbital mechanics with machine learning
А вы знали, что можно открывать старые и новые законы физики с помощью нейронных сетей👀 ?
В статье показывается подход, состоящий из графовой нейронки и символьной регрессии для моделирования орбитальных траекторий. Символьная регрессия с помощью генетического алгоритма (зачастую) итеративно подбирает математические выражения, лучше аппроксимирующие функцию, и при этом с меньшей сложностью
Для GNN авторы используют обучаемый скаляр массы для каждой вершины (планеты), координаты планет, ребра вершин. Фичи с ребер используются как сила между планетами (F = ma, вспоминаем😵 ) и используется для вывода ускорения планет, чтобы сравнить ее с истинными значениями
Тут конечно не обошлось без небольших индуктивных признаков. Фичи ребер типа (i, j) и (j, i) не обучаются по разному, а к ним применяется знак минус. Это третий закон Ньютона. Также для каждой планеты итоговый вектор выход из сум фичей соседей. Это суперпозиция сил. И как было написано выше, a = F/m, это второй закон Ньютона
Применяя символьную регрессию к обученой нейронке, авторы переоткрывают классический закон тяготения Ньютона
👀 LINK
#gnn #symbolicregression #ai4science
Discover the force of the skies O Men: once recognised it can be put to use. - Johannes Kepler
А вы знали, что можно открывать старые и новые законы физики с помощью нейронных сетей
В статье показывается подход, состоящий из графовой нейронки и символьной регрессии для моделирования орбитальных траекторий. Символьная регрессия с помощью генетического алгоритма (зачастую) итеративно подбирает математические выражения, лучше аппроксимирующие функцию, и при этом с меньшей сложностью
Для GNN авторы используют обучаемый скаляр массы для каждой вершины (планеты), координаты планет, ребра вершин. Фичи с ребер используются как сила между планетами (F = ma, вспоминаем
Тут конечно не обошлось без небольших индуктивных признаков. Фичи ребер типа (i, j) и (j, i) не обучаются по разному, а к ним применяется знак минус. Это третий закон Ньютона. Также для каждой планеты итоговый вектор выход из сум фичей соседей. Это суперпозиция сил. И как было написано выше, a = F/m, это второй закон Ньютона
Применяя символьную регрессию к обученой нейронке, авторы переоткрывают классический закон тяготения Ньютона
#gnn #symbolicregression #ai4science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Align your Latents:
High-Resolution Video Synthesis with Latent Diffusion Models
Подход заключается в том, чтоб использовать латентную картиночную диффузию для генерации видео. Для этого помимо уже имеющихся пространственных (spatial) слоев в блок UNet добавляются новые слои - временны́е (temporal), далее будем называть их темпоральными. B * T кадров обрабатываются пространственными слоями как картинки в то время как темпоральные слои моделируют временную ось. Многократно изменяется форма тензора (B, C, T, H, W) -> (B*T, C, H, W) и кадры видео обрабатываются как батч что и позволяет нем использовать 2Д слои из уже обученной картиночной диффузии, а в темпоральных слоях тензор уже представлен 5-мерным (B, C, T, H, W).
Реализовано два варианта темпоральных слоев: 3Д свертка и слой темпорального внимания. Важно отметить, что после каждого временнОго слоя мы комбинируем выходные значения со значениями из пространственного слоя используя обучаемый параметр α, уникальный для каждого темпорального слоя, используя взвешенную сумму a*z + (1-a)*z′
- для ориентации во времени используются синусоидальные эмбеддинги
- пространственные слои заморожены, обучаются только темпоральные
Со слов авторов интеграция темпоральных слоев в декодер является критическим и значительно улучшает межкадровую связность. енкодер остается неизменным так как нельзя изменять свойства латентного пространства в котором училась диффузия
Далее были предприняты шаги удлинения генерируемых видео путем предсказания T - S последующих кадров при S данных при T равному длине последовательности, через маскирование кадров. После чего этот подход использовали для улучшения fps путем маскирования 3-4 кадров между 2 известными.
Для улучшения пространственного разрешения был использован диффузионный апсемплер разрешения (пиксельный)
👀 LINK
#text2video #video #diffusion
High-Resolution Video Synthesis with Latent Diffusion Models
Подход заключается в том, чтоб использовать латентную картиночную диффузию для генерации видео. Для этого помимо уже имеющихся пространственных (spatial) слоев в блок UNet добавляются новые слои - временны́е (temporal), далее будем называть их темпоральными. B * T кадров обрабатываются пространственными слоями как картинки в то время как темпоральные слои моделируют временную ось. Многократно изменяется форма тензора (B, C, T, H, W) -> (B*T, C, H, W) и кадры видео обрабатываются как батч что и позволяет нем использовать 2Д слои из уже обученной картиночной диффузии, а в темпоральных слоях тензор уже представлен 5-мерным (B, C, T, H, W).
Реализовано два варианта темпоральных слоев: 3Д свертка и слой темпорального внимания. Важно отметить, что после каждого временнОго слоя мы комбинируем выходные значения со значениями из пространственного слоя используя обучаемый параметр α, уникальный для каждого темпорального слоя, используя взвешенную сумму a*z + (1-a)*z′
- для ориентации во времени используются синусоидальные эмбеддинги
- пространственные слои заморожены, обучаются только темпоральные
Со слов авторов интеграция темпоральных слоев в декодер является критическим и значительно улучшает межкадровую связность. енкодер остается неизменным так как нельзя изменять свойства латентного пространства в котором училась диффузия
Далее были предприняты шаги удлинения генерируемых видео путем предсказания T - S последующих кадров при S данных при T равному длине последовательности, через маскирование кадров. После чего этот подход использовали для улучшения fps путем маскирования 3-4 кадров между 2 известными.
Для улучшения пространственного разрешения был использован диффузионный апсемплер разрешения (пиксельный)
Overall, we believe that the combination of an LDM with an upsampler DM is ideal for efficient high-resolution video synthesis.
#text2video #video #diffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
In-context Reinforcement Learning with Algorithm Distillation
UPD: за время, пока админы писали обзор на эту статью, гугл забронил патент под эту технологию, вот и думаем насколько важно) приятного прочтения 😎
Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче
А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?
Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач
Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)
Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.
В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...
👀LINK
#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn
Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче
А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?
Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач
Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)
Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.
В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...
👀LINK
#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6🤯3
rizzearch
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models Подход заключается в том, чтоб использовать латентную картиночную диффузию для генерации видео. Для этого помимо уже имеющихся пространственных (spatial) слоев в блок UNet добавляются…
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
В какой то степени эта работа является продолжением работы Andreas Blattmann над архитектурой Align your Latents (прикрепил наш разбор к сообщению). В данной работе основное внимание уделено сбору данных и обучению модели, в то время как архитектура наследуется из статьи выше.
Обучение модели разделено на три этапа:
1. Обучение картиночной диффузии
2. Предобучение видео модели
3. Финальный тюн модели
Про первый этап писать не буду, давайте поговорим про второй и третий и в целом про предобработку данных.
Детекция смены сцены (cut detection) - после детекции вырезок на видео число клипов в датасете увеличилось в 4 раза
Вычисление оптического потока - для каждого видео в датасете при частоте 2 фпс был подсчитан оптический поток и после этого стало понятно что значительная часть видео (смотрите график) является статичными что значительно влияет на качество итоговой модели
Описание видео - CoCa для аннотации кадра посередине, V-BLIP для генерации описания для всего видео, далее суммаризация двух промптов через LLM.
Подсчет CLIP-score эстетичности
для того чтоб модели умела генерировать текст был интегрирован OCR-detection
2. Предобучение видео модели
Мы собрали аннотации: текстовые, информацию о статичности видео, мы подсчитали эмбеддинги видео, ну и почистили видео от обилия различных сцен, теперь надо обучить модель. Исследователи применяют метод курации данных для различных аннотаций в LVD. Они начинают с непрофильтрованного подмножества размером 9,8 миллиона примеров и удаляют нижние 12.5, 25 и 50% примеров для каждой аннотации. Для синтетических подписей они используют ранжирование Эло. Обучая модели на отфильтрованных подмножествах, они сравнивают результаты и выбирают наилучший порог фильтрации для каждой аннотации на основе голосов предпочтений людей. В итоге получилось 152M тренировочных примеров.
3. Финальный тюн модели производился на 250к видео с предварительно написанными субтитрами и высокой визуальной точностью.
Обучение
Авторы отмечают что крайне важно принять график шума при обучении моделей диффузии изображений, переходя к большему количеству шума для изображений с более высоким разрешением.
Так они сочли полезным линейно увеличивать guidance scale по по темпоральной оси (от меньшего к большему).
Путем маскирования (так же как и в работе выше) модель была дообучена для задач интерполяции увеличивая fps в 4 раза
Модель была дообучена для задачи генерации 360 видов сцены и показала конкурентные результаты c SOTA решениями
на 8 карточках А100 80гб обучение заняло 12к итераций ~ 16 часов с батчем 16
👀 LINK
#text2video #video #diffusion
В какой то степени эта работа является продолжением работы Andreas Blattmann над архитектурой Align your Latents (прикрепил наш разбор к сообщению). В данной работе основное внимание уделено сбору данных и обучению модели, в то время как архитектура наследуется из статьи выше.
Обучение модели разделено на три этапа:
1. Обучение картиночной диффузии
2. Предобучение видео модели
3. Финальный тюн модели
Про первый этап писать не буду, давайте поговорим про второй и третий и в целом про предобработку данных.
Детекция смены сцены (cut detection) - после детекции вырезок на видео число клипов в датасете увеличилось в 4 раза
Вычисление оптического потока - для каждого видео в датасете при частоте 2 фпс был подсчитан оптический поток и после этого стало понятно что значительная часть видео (смотрите график) является статичными что значительно влияет на качество итоговой модели
Описание видео - CoCa для аннотации кадра посередине, V-BLIP для генерации описания для всего видео, далее суммаризация двух промптов через LLM.
Подсчет CLIP-score эстетичности
для того чтоб модели умела генерировать текст был интегрирован OCR-detection
2. Предобучение видео модели
Мы собрали аннотации: текстовые, информацию о статичности видео, мы подсчитали эмбеддинги видео, ну и почистили видео от обилия различных сцен, теперь надо обучить модель. Исследователи применяют метод курации данных для различных аннотаций в LVD. Они начинают с непрофильтрованного подмножества размером 9,8 миллиона примеров и удаляют нижние 12.5, 25 и 50% примеров для каждой аннотации. Для синтетических подписей они используют ранжирование Эло. Обучая модели на отфильтрованных подмножествах, они сравнивают результаты и выбирают наилучший порог фильтрации для каждой аннотации на основе голосов предпочтений людей. В итоге получилось 152M тренировочных примеров.
3. Финальный тюн модели производился на 250к видео с предварительно написанными субтитрами и высокой визуальной точностью.
Обучение
Авторы отмечают что крайне важно принять график шума при обучении моделей диффузии изображений, переходя к большему количеству шума для изображений с более высоким разрешением.
Так они сочли полезным линейно увеличивать guidance scale по по темпоральной оси (от меньшего к большему).
Путем маскирования (так же как и в работе выше) модель была дообучена для задач интерполяции увеличивая fps в 4 раза
Модель была дообучена для задачи генерации 360 видов сцены и показала конкурентные результаты c SOTA решениями
на 8 карточках А100 80гб обучение заняло 12к итераций ~ 16 часов с батчем 16
#text2video #video #diffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Stable Video Diffusion: Scaling Latent Video Diffusion Models to...
We present Stable Video Diffusion - a latent video diffusion model for high-resolution, state-of-the-art text-to-video and image-to-video generation. Recently, latent diffusion models trained for...
👍6❤1
Structured State Space Models for In-Context Reinforcement Learning
Трансформеры в ин-контекст лернинге в рл (и нлп) опробовали, почему бы не опробовать и ссм?
Отлично, только хорошо бы не просто их запустить из-под коробки, а как-то внести в структуру модели понимание того, какое действие хорошо в новой таске, а какое плохо
А как этого достичь, да так, чтобы не сохранить скорость stat space models? Возможно, понадобится как-то видоизменить параллельный скан, которым так славится ссм
Так и есть - авторы добавляют в ассоциативный оператор их ссм, которая называется S5, флаг о том, что эпизод закончился (а это классика поскольку в рл средах этот флаг поступает на вход при каждом шаге) -> сохраняется 'ссм-ность', и можно проверять, могут ли осуществлять ин-контекст рл не только трансформеры и рнн
Но дело на этом не заканчивается - в основном сетап у таких мета-рл моделей устроен так, что входное и выходное пространства (пространства состояний и действий) остаются одинаковыми как для тренировочных задач, так и для тестовых, которых алгоритм прежде не видел. Это сильно сужает применимость таких моделей и вариативность
авторы подумали-подумали и решили это исправить - а как? да просто пусть модель принимает и выдает фиксированные размеры (потому что по-другому она и не может), а обрабатывать сигналы из сред (тренировочных и тестовых) мы будем при помощи рандомных матриц, то есть мы будем осуществлять рандомную линейную проекцию, а модель пусть сама старается минимизировать лосс при вот таких условиях.
И это работает! Более того, это повышает вариативность тренировочного датасета (потому что мы более не привязаны к размерностям состояний и действий) + это позволяет адаптироваться к ООД задачам
супергуд! разве что пока возможно такое только на джаксе сделать
👀LINK
Трансформеры в ин-контекст лернинге в рл (и нлп) опробовали, почему бы не опробовать и ссм?
Отлично, только хорошо бы не просто их запустить из-под коробки, а как-то внести в структуру модели понимание того, какое действие хорошо в новой таске, а какое плохо
А как этого достичь, да так, чтобы не сохранить скорость stat space models? Возможно, понадобится как-то видоизменить параллельный скан, которым так славится ссм
Так и есть - авторы добавляют в ассоциативный оператор их ссм, которая называется S5, флаг о том, что эпизод закончился (а это классика поскольку в рл средах этот флаг поступает на вход при каждом шаге) -> сохраняется 'ссм-ность', и можно проверять, могут ли осуществлять ин-контекст рл не только трансформеры и рнн
Но дело на этом не заканчивается - в основном сетап у таких мета-рл моделей устроен так, что входное и выходное пространства (пространства состояний и действий) остаются одинаковыми как для тренировочных задач, так и для тестовых, которых алгоритм прежде не видел. Это сильно сужает применимость таких моделей и вариативность
авторы подумали-подумали и решили это исправить - а как? да просто пусть модель принимает и выдает фиксированные размеры (потому что по-другому она и не может), а обрабатывать сигналы из сред (тренировочных и тестовых) мы будем при помощи рандомных матриц, то есть мы будем осуществлять рандомную линейную проекцию, а модель пусть сама старается минимизировать лосс при вот таких условиях.
И это работает! Более того, это повышает вариативность тренировочного датасета (потому что мы более не привязаны к размерностям состояний и действий) + это позволяет адаптироваться к ООД задачам
супергуд! разве что пока возможно такое только на джаксе сделать
👀LINK
👍5❤2