Privacy Backdoors: Stealing Data with Corrupted Pretrained Models
Авторы статьи показывают интересный и важный инсайт о том, как можно по аутпутам модели (которую зачастую скачивают претрененную) можно выявить, на каких данных ее файнтюнили, что мб чрезвычайно секретно
При том они смогли это сделат как в white box сценарии - когда у нас есть прямой доступ к модели - так и в black box, когда мы можем только смотреть аутпуты под инпуты, которые сами и выбираем
Выглядит прикольно, чтение статьи даже немного напоминает чтение детектива, но настораживающе)
👀LINK
#pretraining #privacy #blackbox #whitebox #weightinducing
Авторы статьи показывают интересный и важный инсайт о том, как можно по аутпутам модели (которую зачастую скачивают претрененную) можно выявить, на каких данных ее файнтюнили, что мб чрезвычайно секретно
При том они смогли это сделат как в white box сценарии - когда у нас есть прямой доступ к модели - так и в black box, когда мы можем только смотреть аутпуты под инпуты, которые сами и выбираем
Выглядит прикольно, чтение статьи даже немного напоминает чтение детектива, но настораживающе)
👀LINK
#pretraining #privacy #blackbox #whitebox #weightinducing
Empirical Design in Reinforcement Learning
Вот мы вроде ресерчеры, выкладываем статьи с результатами, что-то исследуем. А насколько мы исследуем по науке? насколько достоверны результаты, которые получаются? И верна ли изначальная методология в построении экспериментов?
Авторы манускрипта стараются раскрыть темки по грамотному тестированию рл гипотез, статистические предположения, которые скрываются за экспериментами, которые многие делают "не задумываясь" и в принципе о том, как следует соединять принятые в нашей области эксперименты, которые делаются не совсем по науке статистики, к таким результатам, о которых мы можем заявлять со статистической уверенностью как ресерчеры из медицины, физики и тд
👀LINK
#rl #methodology #experimentdesign #statistics #implementation
Вот мы вроде ресерчеры, выкладываем статьи с результатами, что-то исследуем. А насколько мы исследуем по науке? насколько достоверны результаты, которые получаются? И верна ли изначальная методология в построении экспериментов?
Авторы манускрипта стараются раскрыть темки по грамотному тестированию рл гипотез, статистические предположения, которые скрываются за экспериментами, которые многие делают "не задумываясь" и в принципе о том, как следует соединять принятые в нашей области эксперименты, которые делаются не совсем по науке статистики, к таким результатам, о которых мы можем заявлять со статистической уверенностью как ресерчеры из медицины, физики и тд
👀LINK
#rl #methodology #experimentdesign #statistics #implementation
Reinforcement Learning from Passive Data via Latent Intentions
yo, мы ранее говорили, что абсолютное большинство доступных данных не содержат разметку на действия, да и с такими данными работают в goal-conditioning стиле
Но что если ребята из беркли придумали, как свести goal-conditioning rl к стандартному рл, не имея при этом разметку на реварды и действия? (то есть расширить понятие функций ценностей - value functions)
Вопрос с единственно возможным ответом хе-хе. Да! Такое смогли сделать и это просто охренительно - с сырыми данными мы используем этот фреймворк и получаем осмысленное представление состояний, политик и потенциальных исходов в среде просто по демонстрациям, необработанным в смысле рльки
Достигают они этого с помощью введения латентных действий, называемых интенциями, и соединяют это с ревард функцией, которая стимулирует дойти до заранее определенной цели, используя конкретную интенцию. Сложно (непонятно), но интересно и изменений от стандартного рл не так много, что они сразу смогли некоторые алгоритмы подогнать под их фреймворк и получается все оч круто
👀LINK
#rl #valuenetwork #goalconditioning #latentactions #latentrewards
yo, мы ранее говорили, что абсолютное большинство доступных данных не содержат разметку на действия, да и с такими данными работают в goal-conditioning стиле
Но что если ребята из беркли придумали, как свести goal-conditioning rl к стандартному рл, не имея при этом разметку на реварды и действия? (то есть расширить понятие функций ценностей - value functions)
Вопрос с единственно возможным ответом хе-хе. Да! Такое смогли сделать и это просто охренительно - с сырыми данными мы используем этот фреймворк и получаем осмысленное представление состояний, политик и потенциальных исходов в среде просто по демонстрациям, необработанным в смысле рльки
Достигают они этого с помощью введения латентных действий, называемых интенциями, и соединяют это с ревард функцией, которая стимулирует дойти до заранее определенной цели, используя конкретную интенцию. Сложно (непонятно), но интересно и изменений от стандартного рл не так много, что они сразу смогли некоторые алгоритмы подогнать под их фреймворк и получается все оч круто
👀LINK
#rl #valuenetwork #goalconditioning #latentactions #latentrewards
👍1
The Illusion of State in State-Space Models
В последнее время мы все чаще слышим про State-Space Models (SSM) ([1] [2] [3] [4] [5]), которые эффективно могут быть альтернативой во многом трансформеру. В частности, теоретически SSM может "понимать" определенные виды последовательностей и осуществлять state tracking, чего не может трансформер
Однако, эта теория основана на ссм с бесконечным кол-вом слоев (как это обычно бывает в теории linear iteration dynamics), что не сходится с практикой - мы ведь фиксируем несколько слоев, здесь вам не deep equilibruim models
И этот важный факт на практике показывает, что никакого преимущества у ссм над трансформерами и нет - они не могут моделировать те же виды последовательностей, что и трансформеры, связанные со связностью графов, вычислением булевых формул и проблемы композиции перестановок. В отличие от однослойной РНН, которая все это может решать🗿
Казалось бы, завяли помидоры... но не совсем - все-таки теоретически это можно решить, добавляя зависимость от инпутов и нелинейность в моделируемые матрицы ссм, приближая их к рннкам (но это не будет рнн, все сложно🙃 )
Правда тогда возникают проблемы с параллелизмом и динамикой обучения
Короче, следим за последовательностью событий
👀LINK
#statespacemodels #transformer #rnn #sequencemodelling
В последнее время мы все чаще слышим про State-Space Models (SSM) ([1] [2] [3] [4] [5]), которые эффективно могут быть альтернативой во многом трансформеру. В частности, теоретически SSM может "понимать" определенные виды последовательностей и осуществлять state tracking, чего не может трансформер
Однако, эта теория основана на ссм с бесконечным кол-вом слоев (как это обычно бывает в теории linear iteration dynamics), что не сходится с практикой - мы ведь фиксируем несколько слоев, здесь вам не deep equilibruim models
И этот важный факт на практике показывает, что никакого преимущества у ссм над трансформерами и нет - они не могут моделировать те же виды последовательностей, что и трансформеры, связанные со связностью графов, вычислением булевых формул и проблемы композиции перестановок. В отличие от однослойной РНН, которая все это может решать
Казалось бы, завяли помидоры... но не совсем - все-таки теоретически это можно решить, добавляя зависимость от инпутов и нелинейность в моделируемые матрицы ссм, приближая их к рннкам (но это не будет рнн, все сложно
Правда тогда возникают проблемы с параллелизмом и динамикой обучения
Короче, следим за последовательностью событий
👀LINK
#statespacemodels #transformer #rnn #sequencemodelling
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
Rediscovering orbital mechanics with machine learning
А вы знали, что можно открывать старые и новые законы физики с помощью нейронных сетей👀 ?
В статье показывается подход, состоящий из графовой нейронки и символьной регрессии для моделирования орбитальных траекторий. Символьная регрессия с помощью генетического алгоритма (зачастую) итеративно подбирает математические выражения, лучше аппроксимирующие функцию, и при этом с меньшей сложностью
Для GNN авторы используют обучаемый скаляр массы для каждой вершины (планеты), координаты планет, ребра вершин. Фичи с ребер используются как сила между планетами (F = ma, вспоминаем😵 ) и используется для вывода ускорения планет, чтобы сравнить ее с истинными значениями
Тут конечно не обошлось без небольших индуктивных признаков. Фичи ребер типа (i, j) и (j, i) не обучаются по разному, а к ним применяется знак минус. Это третий закон Ньютона. Также для каждой планеты итоговый вектор выход из сум фичей соседей. Это суперпозиция сил. И как было написано выше, a = F/m, это второй закон Ньютона
Применяя символьную регрессию к обученой нейронке, авторы переоткрывают классический закон тяготения Ньютона
👀 LINK
#gnn #symbolicregression #ai4science
Discover the force of the skies O Men: once recognised it can be put to use. - Johannes Kepler
А вы знали, что можно открывать старые и новые законы физики с помощью нейронных сетей
В статье показывается подход, состоящий из графовой нейронки и символьной регрессии для моделирования орбитальных траекторий. Символьная регрессия с помощью генетического алгоритма (зачастую) итеративно подбирает математические выражения, лучше аппроксимирующие функцию, и при этом с меньшей сложностью
Для GNN авторы используют обучаемый скаляр массы для каждой вершины (планеты), координаты планет, ребра вершин. Фичи с ребер используются как сила между планетами (F = ma, вспоминаем
Тут конечно не обошлось без небольших индуктивных признаков. Фичи ребер типа (i, j) и (j, i) не обучаются по разному, а к ним применяется знак минус. Это третий закон Ньютона. Также для каждой планеты итоговый вектор выход из сум фичей соседей. Это суперпозиция сил. И как было написано выше, a = F/m, это второй закон Ньютона
Применяя символьную регрессию к обученой нейронке, авторы переоткрывают классический закон тяготения Ньютона
#gnn #symbolicregression #ai4science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Align your Latents:
High-Resolution Video Synthesis with Latent Diffusion Models
Подход заключается в том, чтоб использовать латентную картиночную диффузию для генерации видео. Для этого помимо уже имеющихся пространственных (spatial) слоев в блок UNet добавляются новые слои - временны́е (temporal), далее будем называть их темпоральными. B * T кадров обрабатываются пространственными слоями как картинки в то время как темпоральные слои моделируют временную ось. Многократно изменяется форма тензора (B, C, T, H, W) -> (B*T, C, H, W) и кадры видео обрабатываются как батч что и позволяет нем использовать 2Д слои из уже обученной картиночной диффузии, а в темпоральных слоях тензор уже представлен 5-мерным (B, C, T, H, W).
Реализовано два варианта темпоральных слоев: 3Д свертка и слой темпорального внимания. Важно отметить, что после каждого временнОго слоя мы комбинируем выходные значения со значениями из пространственного слоя используя обучаемый параметр α, уникальный для каждого темпорального слоя, используя взвешенную сумму a*z + (1-a)*z′
- для ориентации во времени используются синусоидальные эмбеддинги
- пространственные слои заморожены, обучаются только темпоральные
Со слов авторов интеграция темпоральных слоев в декодер является критическим и значительно улучшает межкадровую связность. енкодер остается неизменным так как нельзя изменять свойства латентного пространства в котором училась диффузия
Далее были предприняты шаги удлинения генерируемых видео путем предсказания T - S последующих кадров при S данных при T равному длине последовательности, через маскирование кадров. После чего этот подход использовали для улучшения fps путем маскирования 3-4 кадров между 2 известными.
Для улучшения пространственного разрешения был использован диффузионный апсемплер разрешения (пиксельный)
👀 LINK
#text2video #video #diffusion
High-Resolution Video Synthesis with Latent Diffusion Models
Подход заключается в том, чтоб использовать латентную картиночную диффузию для генерации видео. Для этого помимо уже имеющихся пространственных (spatial) слоев в блок UNet добавляются новые слои - временны́е (temporal), далее будем называть их темпоральными. B * T кадров обрабатываются пространственными слоями как картинки в то время как темпоральные слои моделируют временную ось. Многократно изменяется форма тензора (B, C, T, H, W) -> (B*T, C, H, W) и кадры видео обрабатываются как батч что и позволяет нем использовать 2Д слои из уже обученной картиночной диффузии, а в темпоральных слоях тензор уже представлен 5-мерным (B, C, T, H, W).
Реализовано два варианта темпоральных слоев: 3Д свертка и слой темпорального внимания. Важно отметить, что после каждого временнОго слоя мы комбинируем выходные значения со значениями из пространственного слоя используя обучаемый параметр α, уникальный для каждого темпорального слоя, используя взвешенную сумму a*z + (1-a)*z′
- для ориентации во времени используются синусоидальные эмбеддинги
- пространственные слои заморожены, обучаются только темпоральные
Со слов авторов интеграция темпоральных слоев в декодер является критическим и значительно улучшает межкадровую связность. енкодер остается неизменным так как нельзя изменять свойства латентного пространства в котором училась диффузия
Далее были предприняты шаги удлинения генерируемых видео путем предсказания T - S последующих кадров при S данных при T равному длине последовательности, через маскирование кадров. После чего этот подход использовали для улучшения fps путем маскирования 3-4 кадров между 2 известными.
Для улучшения пространственного разрешения был использован диффузионный апсемплер разрешения (пиксельный)
Overall, we believe that the combination of an LDM with an upsampler DM is ideal for efficient high-resolution video synthesis.
#text2video #video #diffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
In-context Reinforcement Learning with Algorithm Distillation
UPD: за время, пока админы писали обзор на эту статью, гугл забронил патент под эту технологию, вот и думаем насколько важно) приятного прочтения 😎
Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче
А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?
Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач
Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)
Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.
В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...
👀LINK
#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn
Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче
А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?
Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач
Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)
Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.
В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...
👀LINK
#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6🤯3
rizzearch
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models Подход заключается в том, чтоб использовать латентную картиночную диффузию для генерации видео. Для этого помимо уже имеющихся пространственных (spatial) слоев в блок UNet добавляются…
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
В какой то степени эта работа является продолжением работы Andreas Blattmann над архитектурой Align your Latents (прикрепил наш разбор к сообщению). В данной работе основное внимание уделено сбору данных и обучению модели, в то время как архитектура наследуется из статьи выше.
Обучение модели разделено на три этапа:
1. Обучение картиночной диффузии
2. Предобучение видео модели
3. Финальный тюн модели
Про первый этап писать не буду, давайте поговорим про второй и третий и в целом про предобработку данных.
Детекция смены сцены (cut detection) - после детекции вырезок на видео число клипов в датасете увеличилось в 4 раза
Вычисление оптического потока - для каждого видео в датасете при частоте 2 фпс был подсчитан оптический поток и после этого стало понятно что значительная часть видео (смотрите график) является статичными что значительно влияет на качество итоговой модели
Описание видео - CoCa для аннотации кадра посередине, V-BLIP для генерации описания для всего видео, далее суммаризация двух промптов через LLM.
Подсчет CLIP-score эстетичности
для того чтоб модели умела генерировать текст был интегрирован OCR-detection
2. Предобучение видео модели
Мы собрали аннотации: текстовые, информацию о статичности видео, мы подсчитали эмбеддинги видео, ну и почистили видео от обилия различных сцен, теперь надо обучить модель. Исследователи применяют метод курации данных для различных аннотаций в LVD. Они начинают с непрофильтрованного подмножества размером 9,8 миллиона примеров и удаляют нижние 12.5, 25 и 50% примеров для каждой аннотации. Для синтетических подписей они используют ранжирование Эло. Обучая модели на отфильтрованных подмножествах, они сравнивают результаты и выбирают наилучший порог фильтрации для каждой аннотации на основе голосов предпочтений людей. В итоге получилось 152M тренировочных примеров.
3. Финальный тюн модели производился на 250к видео с предварительно написанными субтитрами и высокой визуальной точностью.
Обучение
Авторы отмечают что крайне важно принять график шума при обучении моделей диффузии изображений, переходя к большему количеству шума для изображений с более высоким разрешением.
Так они сочли полезным линейно увеличивать guidance scale по по темпоральной оси (от меньшего к большему).
Путем маскирования (так же как и в работе выше) модель была дообучена для задач интерполяции увеличивая fps в 4 раза
Модель была дообучена для задачи генерации 360 видов сцены и показала конкурентные результаты c SOTA решениями
на 8 карточках А100 80гб обучение заняло 12к итераций ~ 16 часов с батчем 16
👀 LINK
#text2video #video #diffusion
В какой то степени эта работа является продолжением работы Andreas Blattmann над архитектурой Align your Latents (прикрепил наш разбор к сообщению). В данной работе основное внимание уделено сбору данных и обучению модели, в то время как архитектура наследуется из статьи выше.
Обучение модели разделено на три этапа:
1. Обучение картиночной диффузии
2. Предобучение видео модели
3. Финальный тюн модели
Про первый этап писать не буду, давайте поговорим про второй и третий и в целом про предобработку данных.
Детекция смены сцены (cut detection) - после детекции вырезок на видео число клипов в датасете увеличилось в 4 раза
Вычисление оптического потока - для каждого видео в датасете при частоте 2 фпс был подсчитан оптический поток и после этого стало понятно что значительная часть видео (смотрите график) является статичными что значительно влияет на качество итоговой модели
Описание видео - CoCa для аннотации кадра посередине, V-BLIP для генерации описания для всего видео, далее суммаризация двух промптов через LLM.
Подсчет CLIP-score эстетичности
для того чтоб модели умела генерировать текст был интегрирован OCR-detection
2. Предобучение видео модели
Мы собрали аннотации: текстовые, информацию о статичности видео, мы подсчитали эмбеддинги видео, ну и почистили видео от обилия различных сцен, теперь надо обучить модель. Исследователи применяют метод курации данных для различных аннотаций в LVD. Они начинают с непрофильтрованного подмножества размером 9,8 миллиона примеров и удаляют нижние 12.5, 25 и 50% примеров для каждой аннотации. Для синтетических подписей они используют ранжирование Эло. Обучая модели на отфильтрованных подмножествах, они сравнивают результаты и выбирают наилучший порог фильтрации для каждой аннотации на основе голосов предпочтений людей. В итоге получилось 152M тренировочных примеров.
3. Финальный тюн модели производился на 250к видео с предварительно написанными субтитрами и высокой визуальной точностью.
Обучение
Авторы отмечают что крайне важно принять график шума при обучении моделей диффузии изображений, переходя к большему количеству шума для изображений с более высоким разрешением.
Так они сочли полезным линейно увеличивать guidance scale по по темпоральной оси (от меньшего к большему).
Путем маскирования (так же как и в работе выше) модель была дообучена для задач интерполяции увеличивая fps в 4 раза
Модель была дообучена для задачи генерации 360 видов сцены и показала конкурентные результаты c SOTA решениями
на 8 карточках А100 80гб обучение заняло 12к итераций ~ 16 часов с батчем 16
#text2video #video #diffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Stable Video Diffusion: Scaling Latent Video Diffusion Models to...
We present Stable Video Diffusion - a latent video diffusion model for high-resolution, state-of-the-art text-to-video and image-to-video generation. Recently, latent diffusion models trained for...
👍6❤1
Structured State Space Models for In-Context Reinforcement Learning
Трансформеры в ин-контекст лернинге в рл (и нлп) опробовали, почему бы не опробовать и ссм?
Отлично, только хорошо бы не просто их запустить из-под коробки, а как-то внести в структуру модели понимание того, какое действие хорошо в новой таске, а какое плохо
А как этого достичь, да так, чтобы не сохранить скорость stat space models? Возможно, понадобится как-то видоизменить параллельный скан, которым так славится ссм
Так и есть - авторы добавляют в ассоциативный оператор их ссм, которая называется S5, флаг о том, что эпизод закончился (а это классика поскольку в рл средах этот флаг поступает на вход при каждом шаге) -> сохраняется 'ссм-ность', и можно проверять, могут ли осуществлять ин-контекст рл не только трансформеры и рнн
Но дело на этом не заканчивается - в основном сетап у таких мета-рл моделей устроен так, что входное и выходное пространства (пространства состояний и действий) остаются одинаковыми как для тренировочных задач, так и для тестовых, которых алгоритм прежде не видел. Это сильно сужает применимость таких моделей и вариативность
авторы подумали-подумали и решили это исправить - а как? да просто пусть модель принимает и выдает фиксированные размеры (потому что по-другому она и не может), а обрабатывать сигналы из сред (тренировочных и тестовых) мы будем при помощи рандомных матриц, то есть мы будем осуществлять рандомную линейную проекцию, а модель пусть сама старается минимизировать лосс при вот таких условиях.
И это работает! Более того, это повышает вариативность тренировочного датасета (потому что мы более не привязаны к размерностям состояний и действий) + это позволяет адаптироваться к ООД задачам
супергуд! разве что пока возможно такое только на джаксе сделать
👀LINK
Трансформеры в ин-контекст лернинге в рл (и нлп) опробовали, почему бы не опробовать и ссм?
Отлично, только хорошо бы не просто их запустить из-под коробки, а как-то внести в структуру модели понимание того, какое действие хорошо в новой таске, а какое плохо
А как этого достичь, да так, чтобы не сохранить скорость stat space models? Возможно, понадобится как-то видоизменить параллельный скан, которым так славится ссм
Так и есть - авторы добавляют в ассоциативный оператор их ссм, которая называется S5, флаг о том, что эпизод закончился (а это классика поскольку в рл средах этот флаг поступает на вход при каждом шаге) -> сохраняется 'ссм-ность', и можно проверять, могут ли осуществлять ин-контекст рл не только трансформеры и рнн
Но дело на этом не заканчивается - в основном сетап у таких мета-рл моделей устроен так, что входное и выходное пространства (пространства состояний и действий) остаются одинаковыми как для тренировочных задач, так и для тестовых, которых алгоритм прежде не видел. Это сильно сужает применимость таких моделей и вариативность
авторы подумали-подумали и решили это исправить - а как? да просто пусть модель принимает и выдает фиксированные размеры (потому что по-другому она и не может), а обрабатывать сигналы из сред (тренировочных и тестовых) мы будем при помощи рандомных матриц, то есть мы будем осуществлять рандомную линейную проекцию, а модель пусть сама старается минимизировать лосс при вот таких условиях.
И это работает! Более того, это повышает вариативность тренировочного датасета (потому что мы более не привязаны к размерностям состояний и действий) + это позволяет адаптироваться к ООД задачам
супергуд! разве что пока возможно такое только на джаксе сделать
👀LINK
👍5❤2
ANIMATEDIFF: ANIMATE YOUR PERSONALIZED TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT SPECIFIC TUNING
Как будет выглядеть архитектура, позволяющая загрузить любую версию лоры с хф 🤗 и превратить ее в персонализированный генератор анимаций? На этот вопрос пытаются ответить наши 🇨🇳 и 🇺🇸 коллеги.
Вводится новый слой названный Motion Module (приложил фото), он представляет из себя слой self-attention поверх проекции на темпоральную ось, делается это для темпоральной консистентности выходного видео. Модуль движения добавляется на каждом уровне UNet для увеличения receptive field. Со слов авторов ванильный трансформер показывает адекватные результаты и поиск оптимальной архитектуры они оставляют для дальнейшего rizzearch-a😁 .
Из интересного стоит отметить что небольшое изменение параметров расписания шума может благотворно повлиять на обучение диффузии под новую задачу (приложил фото)
👀 LINK
Как будет выглядеть архитектура, позволяющая загрузить любую версию лоры с хф 🤗 и превратить ее в персонализированный генератор анимаций? На этот вопрос пытаются ответить наши 🇨🇳 и 🇺🇸 коллеги.
Вводится новый слой названный Motion Module (приложил фото), он представляет из себя слой self-attention поверх проекции на темпоральную ось, делается это для темпоральной консистентности выходного видео. Модуль движения добавляется на каждом уровне UNet для увеличения receptive field. Со слов авторов ванильный трансформер показывает адекватные результаты и поиск оптимальной архитектуры они оставляют для дальнейшего rizzearch-a
Из интересного стоит отметить что небольшое изменение параметров расписания шума может благотворно повлиять на обучение диффузии под новую задачу (приложил фото)
Using the same diffusion schedule may mislead the model that it is still optimized for image reconstruction, which slower the training efficiency of our motion modeling module responsible for cross-frame motion modeling, resulting in more flickering animation and color aliasing.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2🐳1
Supervised Pretraining Can Learn In-Context Reinforcement Learning
А возможна ли какая-то теория, которая объясняет, как же все-таки работает ин-контекст лернинг, а конкретнее ин-контекст лернинг в рл, потому что это не совсем то же, что и инконтекст в нлп
Так вот, возможна. Авторы придумали как обучать и евалить трансформер, что он с точки зрения теории является эффективной имплементацией Байесовского постериорного семплинга.
А как такое достигается? В чем особенность алгоритма? Во время обучения трансформер учат предсказывать оптимальное действие (которое может быть получено оракулом или чем-либо еще) для фиксированного состояния, которое мы помещаем в начало последовательности, а остальная (основная) часть последовательности - случайный контекст.
Что это значит? - тренировочный датасет собирается случайной равномерной политикой - у действий одинаковая вероятность, с которой ее могут засемплить. Таким образом в контекст вбиваются элементы эксплорейшна относительно реварда и динамики среды (для кучи-кучи разных тасок) + мы подаем это на вход трансформеру не в последовательном виде, а случайном. Получаем расширение вариативности контекста на двух уровнях
Окэй, допустим. А как такой трансформер евалить? Да в принципе как обычно, за исключением того, что, судя по оригинальной имплементации, во время евала в качестве контекста хранится 1 предыдущий эпизод, никак не связываясь с текущим эпизодом (кроме потока стейтов для которых предиктим действия)
Это нетривиально имхо, поскольку AD и S5 плавно обрабатывают входящие сигналы мульти-эпизодичного контекста. Еще одна важная разница заключается в том, что DPT умеет решать только MDP, о POMDP речи не идет вообще
Вот такую цену заплатили авторы, чтобы получить крутой теоретически обоснованный алгоритм🥸
👀LINK
А возможна ли какая-то теория, которая объясняет, как же все-таки работает ин-контекст лернинг, а конкретнее ин-контекст лернинг в рл, потому что это не совсем то же, что и инконтекст в нлп
Так вот, возможна. Авторы придумали как обучать и евалить трансформер, что он с точки зрения теории является эффективной имплементацией Байесовского постериорного семплинга.
А как такое достигается? В чем особенность алгоритма? Во время обучения трансформер учат предсказывать оптимальное действие (которое может быть получено оракулом или чем-либо еще) для фиксированного состояния, которое мы помещаем в начало последовательности, а остальная (основная) часть последовательности - случайный контекст.
Что это значит? - тренировочный датасет собирается случайной равномерной политикой - у действий одинаковая вероятность, с которой ее могут засемплить. Таким образом в контекст вбиваются элементы эксплорейшна относительно реварда и динамики среды (для кучи-кучи разных тасок) + мы подаем это на вход трансформеру не в последовательном виде, а случайном. Получаем расширение вариативности контекста на двух уровнях
Окэй, допустим. А как такой трансформер евалить? Да в принципе как обычно, за исключением того, что, судя по оригинальной имплементации, во время евала в качестве контекста хранится 1 предыдущий эпизод, никак не связываясь с текущим эпизодом (кроме потока стейтов для которых предиктим действия)
Это нетривиально имхо, поскольку AD и S5 плавно обрабатывают входящие сигналы мульти-эпизодичного контекста. Еще одна важная разница заключается в том, что DPT умеет решать только MDP, о POMDP речи не идет вообще
Вот такую цену заплатили авторы, чтобы получить крутой теоретически обоснованный алгоритм🥸
👀LINK
🔥6👍4❤3
PIXART-α: FAST TRAINING OF DIFFUSION TRANS- FORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE SYNTHESIS
Авторы данной статьи всерьез озабочены ценой и влиянием на экологию разработки нейросетей, например, они подсчитали, что обучение современной диффузии выделяет столько же CO2 сколько человек в течение 7 лет.
EFFICIENT T2I TRANSFORMER
Начнем с того что у нас есть уже предобученная на ImageNet модель DiT с дискретным кол-вом классов. Нам нужно каким либо образом интегрировать текстовый кондишен в модель и в то же время избавиться от классового кондишена. Что мы делаем для этого?
1. Между слоями self-attention и FF слоем внедрен слой cross-attention для эффективного внедрения текстового кондишена в модель
2. Модуль AdaLN-single: Линейные проекции внутри модуля AdaLN DiT занимают 27% параметров, однако они не являются необходимыми для задач T2I, так как классовые условия не используются. Для решения этой проблемы авторы предалагают ввести новый слой AdaLN-single который имеет глобальный набор весов и смещений.
Стандартный блок:
Sᵢ =f(c+t), параметры - [β₁, β₂, γ₁, γ₂, α₁, α₂]
Модифицированный:
S̅ = f(t)
И теперь:
Sᵢ = g(S̅, Eᵢ),
g - функция суммирования
Eᵢ обучаемый эмбеддинг с таким же размером что и S̅
2. Репараметризация: Для использования предварительно обученных весов все Eᵢ инициализируются значениями, которые дают те же параметры что и DiT без классового кондишена для 500-го шага. Этот подход эффективно заменяет слой-специфические параметры глобальными, обеспечивая совместимость с предварительно обученными весами и сокращая размер модели.
Данные
LAION содержит большое кол-во изображений товаров с маркетплейсов с довольно скудными фонами, наверно это не то что будет радовать глаз пользователей, поэтому авторы решили добавить в обучающую выборку SAM датасет ориентированный на задачу сегментации с обильным кол-вом объектов. Все данные были переразмеченны LLaVA. Ну и для достижения эстетического удовольствия пользователей финальный тюн произведен на JourneyDB.
👀 LINK
Авторы данной статьи всерьез озабочены ценой и влиянием на экологию разработки нейросетей, например, они подсчитали, что обучение современной диффузии выделяет столько же CO2 сколько человек в течение 7 лет.
EFFICIENT T2I TRANSFORMER
Начнем с того что у нас есть уже предобученная на ImageNet модель DiT с дискретным кол-вом классов. Нам нужно каким либо образом интегрировать текстовый кондишен в модель и в то же время избавиться от классового кондишена. Что мы делаем для этого?
1. Между слоями self-attention и FF слоем внедрен слой cross-attention для эффективного внедрения текстового кондишена в модель
2. Модуль AdaLN-single: Линейные проекции внутри модуля AdaLN DiT занимают 27% параметров, однако они не являются необходимыми для задач T2I, так как классовые условия не используются. Для решения этой проблемы авторы предалагают ввести новый слой AdaLN-single который имеет глобальный набор весов и смещений.
Стандартный блок:
Sᵢ =f(c+t), параметры - [β₁, β₂, γ₁, γ₂, α₁, α₂]
Модифицированный:
S̅ = f(t)
И теперь:
Sᵢ = g(S̅, Eᵢ),
g - функция суммирования
Eᵢ обучаемый эмбеддинг с таким же размером что и S̅
2. Репараметризация: Для использования предварительно обученных весов все Eᵢ инициализируются значениями, которые дают те же параметры что и DiT без классового кондишена для 500-го шага. Этот подход эффективно заменяет слой-специфические параметры глобальными, обеспечивая совместимость с предварительно обученными весами и сокращая размер модели.
Данные
LAION содержит большое кол-во изображений товаров с маркетплейсов с довольно скудными фонами, наверно это не то что будет радовать глаз пользователей, поэтому авторы решили добавить в обучающую выборку SAM датасет ориентированный на задачу сегментации с обильным кол-вом объектов. Все данные были переразмеченны LLaVA. Ну и для достижения эстетического удовольствия пользователей финальный тюн произведен на JourneyDB.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3
Будем рады услышать обратную связь о канале. Оставляйте идеи/пожелания в секции комментариев!)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13
SynCode: LLM Generation with Grammar Augmentation
Многострадальный guided generation, - подход, который позволяет мутировать логпробы на выходе ЛЛМок так, чтобы генерации подчинялись некоторому синтаксису. Именно благодаря guided generation ты можешь насильно заставить свою ЛЛМ генерировать, например, синтаксически валидный JSON. Или даже не просто синтаксически валидный, а валидный по отношению к какой-то конкретной схеме. Топик интересный и его довольно долгое время ковыряют: вон существуют Guidance, Outlines и ещё пачка инструментов.
SynCode - это очередной инструмент для guided generation. Но ребята предложили новую идею: в оффлайне строят DFA mask store, - карту ключ-значение, которая маппит каждое состояние DFAшки (конечный автомат лексера) в маски для логпроб токенов. Это дало свои плоды - генерация с Syncode быстрее генерации с Outlines или Llama.cpp в несколько раз.
Статья довольно большая, но любителям дискретки, жаждующим почитать что-нибудь про автоматы в мире DL, зайдёт.
👀 Link
🗿 Code
Многострадальный guided generation, - подход, который позволяет мутировать логпробы на выходе ЛЛМок так, чтобы генерации подчинялись некоторому синтаксису. Именно благодаря guided generation ты можешь насильно заставить свою ЛЛМ генерировать, например, синтаксически валидный JSON. Или даже не просто синтаксически валидный, а валидный по отношению к какой-то конкретной схеме. Топик интересный и его довольно долгое время ковыряют: вон существуют Guidance, Outlines и ещё пачка инструментов.
SynCode - это очередной инструмент для guided generation. Но ребята предложили новую идею: в оффлайне строят DFA mask store, - карту ключ-значение, которая маппит каждое состояние DFAшки (конечный автомат лексера) в маски для логпроб токенов. Это дало свои плоды - генерация с Syncode быстрее генерации с Outlines или Llama.cpp в несколько раз.
Статья довольно большая, но любителям дискретки, жаждующим почитать что-нибудь про автоматы в мире DL, зайдёт.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍2❤1