In-context Reinforcement Learning with Algorithm Distillation
UPD: за время, пока админы писали обзор на эту статью, гугл забронил патент под эту технологию, вот и думаем насколько важно) приятного прочтения 😎
Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче
А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?
Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач
Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)
Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.
В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...
👀LINK
#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn
Вот мы с вами уже обсуждали мета рл (#metarl), где происходит небольшое количество обновлений модели, чтобы она адаптировалась к какой-то новой задаче
А можно ли вообще не производить градиентные обновления, то есть решить задачу аналогично тому, как существует ин-контекст лернинг в нлп, только в рл?
Да!! урааа, йухуууу, еее-бадиии
А если серьезно, то реально можно, при том идея невероятно простая и масштабируемая - хотим чтобы моделька на новых задачах постепенно адаптировалась и приходила к оптимальному решению. Ок - как это сделать? Ну дипмаинды подумали-подумали, и решили тенденцию обучения засунуть еще в основу тренировочных задач
Что это значит? У нас есть трансформер, который на вход во время обучения принимает мульти-эпизодичную последовательность событий в средах (которые были собраны другим алгоритмом), где наблюдается улучшение относительно достижения оптимальной награды. Наш трансформер все это аккумулирует на большом количестве тренировочных задач, и способен перенести такую тенденцию к обучению на ранее неизвестных задачах (стоит помнить, что это не прям абсолютно другие задачи, а все они схожи по той или иной причине - принадлежат одному распределению)
Более того, этот трансформер начинает сходиться быстрее, чем те алгоритмы, на данных которого он был натренирован - если тот же Q-Learning сходится за 1000 эпизодов к оптимуму на одной задаче, то Algorithm Distillation Transformer сходится уже за 250 на каждой из тренировочных и тестовых задач.
В долгосроке это упрощает рл и повышает его способы к скейлингу относительно сложности задач и скорости решения. Кажется, началось...
👀LINK
#rl #offlinerl #metarl #incontextlearning #distillation #transformer #rnn
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6🤯3
rizzearch
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models Подход заключается в том, чтоб использовать латентную картиночную диффузию для генерации видео. Для этого помимо уже имеющихся пространственных (spatial) слоев в блок UNet добавляются…
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
В какой то степени эта работа является продолжением работы Andreas Blattmann над архитектурой Align your Latents (прикрепил наш разбор к сообщению). В данной работе основное внимание уделено сбору данных и обучению модели, в то время как архитектура наследуется из статьи выше.
Обучение модели разделено на три этапа:
1. Обучение картиночной диффузии
2. Предобучение видео модели
3. Финальный тюн модели
Про первый этап писать не буду, давайте поговорим про второй и третий и в целом про предобработку данных.
Детекция смены сцены (cut detection) - после детекции вырезок на видео число клипов в датасете увеличилось в 4 раза
Вычисление оптического потока - для каждого видео в датасете при частоте 2 фпс был подсчитан оптический поток и после этого стало понятно что значительная часть видео (смотрите график) является статичными что значительно влияет на качество итоговой модели
Описание видео - CoCa для аннотации кадра посередине, V-BLIP для генерации описания для всего видео, далее суммаризация двух промптов через LLM.
Подсчет CLIP-score эстетичности
для того чтоб модели умела генерировать текст был интегрирован OCR-detection
2. Предобучение видео модели
Мы собрали аннотации: текстовые, информацию о статичности видео, мы подсчитали эмбеддинги видео, ну и почистили видео от обилия различных сцен, теперь надо обучить модель. Исследователи применяют метод курации данных для различных аннотаций в LVD. Они начинают с непрофильтрованного подмножества размером 9,8 миллиона примеров и удаляют нижние 12.5, 25 и 50% примеров для каждой аннотации. Для синтетических подписей они используют ранжирование Эло. Обучая модели на отфильтрованных подмножествах, они сравнивают результаты и выбирают наилучший порог фильтрации для каждой аннотации на основе голосов предпочтений людей. В итоге получилось 152M тренировочных примеров.
3. Финальный тюн модели производился на 250к видео с предварительно написанными субтитрами и высокой визуальной точностью.
Обучение
Авторы отмечают что крайне важно принять график шума при обучении моделей диффузии изображений, переходя к большему количеству шума для изображений с более высоким разрешением.
Так они сочли полезным линейно увеличивать guidance scale по по темпоральной оси (от меньшего к большему).
Путем маскирования (так же как и в работе выше) модель была дообучена для задач интерполяции увеличивая fps в 4 раза
Модель была дообучена для задачи генерации 360 видов сцены и показала конкурентные результаты c SOTA решениями
на 8 карточках А100 80гб обучение заняло 12к итераций ~ 16 часов с батчем 16
👀 LINK
#text2video #video #diffusion
В какой то степени эта работа является продолжением работы Andreas Blattmann над архитектурой Align your Latents (прикрепил наш разбор к сообщению). В данной работе основное внимание уделено сбору данных и обучению модели, в то время как архитектура наследуется из статьи выше.
Обучение модели разделено на три этапа:
1. Обучение картиночной диффузии
2. Предобучение видео модели
3. Финальный тюн модели
Про первый этап писать не буду, давайте поговорим про второй и третий и в целом про предобработку данных.
Детекция смены сцены (cut detection) - после детекции вырезок на видео число клипов в датасете увеличилось в 4 раза
Вычисление оптического потока - для каждого видео в датасете при частоте 2 фпс был подсчитан оптический поток и после этого стало понятно что значительная часть видео (смотрите график) является статичными что значительно влияет на качество итоговой модели
Описание видео - CoCa для аннотации кадра посередине, V-BLIP для генерации описания для всего видео, далее суммаризация двух промптов через LLM.
Подсчет CLIP-score эстетичности
для того чтоб модели умела генерировать текст был интегрирован OCR-detection
2. Предобучение видео модели
Мы собрали аннотации: текстовые, информацию о статичности видео, мы подсчитали эмбеддинги видео, ну и почистили видео от обилия различных сцен, теперь надо обучить модель. Исследователи применяют метод курации данных для различных аннотаций в LVD. Они начинают с непрофильтрованного подмножества размером 9,8 миллиона примеров и удаляют нижние 12.5, 25 и 50% примеров для каждой аннотации. Для синтетических подписей они используют ранжирование Эло. Обучая модели на отфильтрованных подмножествах, они сравнивают результаты и выбирают наилучший порог фильтрации для каждой аннотации на основе голосов предпочтений людей. В итоге получилось 152M тренировочных примеров.
3. Финальный тюн модели производился на 250к видео с предварительно написанными субтитрами и высокой визуальной точностью.
Обучение
Авторы отмечают что крайне важно принять график шума при обучении моделей диффузии изображений, переходя к большему количеству шума для изображений с более высоким разрешением.
Так они сочли полезным линейно увеличивать guidance scale по по темпоральной оси (от меньшего к большему).
Путем маскирования (так же как и в работе выше) модель была дообучена для задач интерполяции увеличивая fps в 4 раза
Модель была дообучена для задачи генерации 360 видов сцены и показала конкурентные результаты c SOTA решениями
на 8 карточках А100 80гб обучение заняло 12к итераций ~ 16 часов с батчем 16
#text2video #video #diffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Stable Video Diffusion: Scaling Latent Video Diffusion Models to...
We present Stable Video Diffusion - a latent video diffusion model for high-resolution, state-of-the-art text-to-video and image-to-video generation. Recently, latent diffusion models trained for...
👍6❤1
Structured State Space Models for In-Context Reinforcement Learning
Трансформеры в ин-контекст лернинге в рл (и нлп) опробовали, почему бы не опробовать и ссм?
Отлично, только хорошо бы не просто их запустить из-под коробки, а как-то внести в структуру модели понимание того, какое действие хорошо в новой таске, а какое плохо
А как этого достичь, да так, чтобы не сохранить скорость stat space models? Возможно, понадобится как-то видоизменить параллельный скан, которым так славится ссм
Так и есть - авторы добавляют в ассоциативный оператор их ссм, которая называется S5, флаг о том, что эпизод закончился (а это классика поскольку в рл средах этот флаг поступает на вход при каждом шаге) -> сохраняется 'ссм-ность', и можно проверять, могут ли осуществлять ин-контекст рл не только трансформеры и рнн
Но дело на этом не заканчивается - в основном сетап у таких мета-рл моделей устроен так, что входное и выходное пространства (пространства состояний и действий) остаются одинаковыми как для тренировочных задач, так и для тестовых, которых алгоритм прежде не видел. Это сильно сужает применимость таких моделей и вариативность
авторы подумали-подумали и решили это исправить - а как? да просто пусть модель принимает и выдает фиксированные размеры (потому что по-другому она и не может), а обрабатывать сигналы из сред (тренировочных и тестовых) мы будем при помощи рандомных матриц, то есть мы будем осуществлять рандомную линейную проекцию, а модель пусть сама старается минимизировать лосс при вот таких условиях.
И это работает! Более того, это повышает вариативность тренировочного датасета (потому что мы более не привязаны к размерностям состояний и действий) + это позволяет адаптироваться к ООД задачам
супергуд! разве что пока возможно такое только на джаксе сделать
👀LINK
Трансформеры в ин-контекст лернинге в рл (и нлп) опробовали, почему бы не опробовать и ссм?
Отлично, только хорошо бы не просто их запустить из-под коробки, а как-то внести в структуру модели понимание того, какое действие хорошо в новой таске, а какое плохо
А как этого достичь, да так, чтобы не сохранить скорость stat space models? Возможно, понадобится как-то видоизменить параллельный скан, которым так славится ссм
Так и есть - авторы добавляют в ассоциативный оператор их ссм, которая называется S5, флаг о том, что эпизод закончился (а это классика поскольку в рл средах этот флаг поступает на вход при каждом шаге) -> сохраняется 'ссм-ность', и можно проверять, могут ли осуществлять ин-контекст рл не только трансформеры и рнн
Но дело на этом не заканчивается - в основном сетап у таких мета-рл моделей устроен так, что входное и выходное пространства (пространства состояний и действий) остаются одинаковыми как для тренировочных задач, так и для тестовых, которых алгоритм прежде не видел. Это сильно сужает применимость таких моделей и вариативность
авторы подумали-подумали и решили это исправить - а как? да просто пусть модель принимает и выдает фиксированные размеры (потому что по-другому она и не может), а обрабатывать сигналы из сред (тренировочных и тестовых) мы будем при помощи рандомных матриц, то есть мы будем осуществлять рандомную линейную проекцию, а модель пусть сама старается минимизировать лосс при вот таких условиях.
И это работает! Более того, это повышает вариативность тренировочного датасета (потому что мы более не привязаны к размерностям состояний и действий) + это позволяет адаптироваться к ООД задачам
супергуд! разве что пока возможно такое только на джаксе сделать
👀LINK
👍5❤2
ANIMATEDIFF: ANIMATE YOUR PERSONALIZED TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT SPECIFIC TUNING
Как будет выглядеть архитектура, позволяющая загрузить любую версию лоры с хф 🤗 и превратить ее в персонализированный генератор анимаций? На этот вопрос пытаются ответить наши 🇨🇳 и 🇺🇸 коллеги.
Вводится новый слой названный Motion Module (приложил фото), он представляет из себя слой self-attention поверх проекции на темпоральную ось, делается это для темпоральной консистентности выходного видео. Модуль движения добавляется на каждом уровне UNet для увеличения receptive field. Со слов авторов ванильный трансформер показывает адекватные результаты и поиск оптимальной архитектуры они оставляют для дальнейшего rizzearch-a😁 .
Из интересного стоит отметить что небольшое изменение параметров расписания шума может благотворно повлиять на обучение диффузии под новую задачу (приложил фото)
👀 LINK
Как будет выглядеть архитектура, позволяющая загрузить любую версию лоры с хф 🤗 и превратить ее в персонализированный генератор анимаций? На этот вопрос пытаются ответить наши 🇨🇳 и 🇺🇸 коллеги.
Вводится новый слой названный Motion Module (приложил фото), он представляет из себя слой self-attention поверх проекции на темпоральную ось, делается это для темпоральной консистентности выходного видео. Модуль движения добавляется на каждом уровне UNet для увеличения receptive field. Со слов авторов ванильный трансформер показывает адекватные результаты и поиск оптимальной архитектуры они оставляют для дальнейшего rizzearch-a
Из интересного стоит отметить что небольшое изменение параметров расписания шума может благотворно повлиять на обучение диффузии под новую задачу (приложил фото)
Using the same diffusion schedule may mislead the model that it is still optimized for image reconstruction, which slower the training efficiency of our motion modeling module responsible for cross-frame motion modeling, resulting in more flickering animation and color aliasing.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2🐳1
Supervised Pretraining Can Learn In-Context Reinforcement Learning
А возможна ли какая-то теория, которая объясняет, как же все-таки работает ин-контекст лернинг, а конкретнее ин-контекст лернинг в рл, потому что это не совсем то же, что и инконтекст в нлп
Так вот, возможна. Авторы придумали как обучать и евалить трансформер, что он с точки зрения теории является эффективной имплементацией Байесовского постериорного семплинга.
А как такое достигается? В чем особенность алгоритма? Во время обучения трансформер учат предсказывать оптимальное действие (которое может быть получено оракулом или чем-либо еще) для фиксированного состояния, которое мы помещаем в начало последовательности, а остальная (основная) часть последовательности - случайный контекст.
Что это значит? - тренировочный датасет собирается случайной равномерной политикой - у действий одинаковая вероятность, с которой ее могут засемплить. Таким образом в контекст вбиваются элементы эксплорейшна относительно реварда и динамики среды (для кучи-кучи разных тасок) + мы подаем это на вход трансформеру не в последовательном виде, а случайном. Получаем расширение вариативности контекста на двух уровнях
Окэй, допустим. А как такой трансформер евалить? Да в принципе как обычно, за исключением того, что, судя по оригинальной имплементации, во время евала в качестве контекста хранится 1 предыдущий эпизод, никак не связываясь с текущим эпизодом (кроме потока стейтов для которых предиктим действия)
Это нетривиально имхо, поскольку AD и S5 плавно обрабатывают входящие сигналы мульти-эпизодичного контекста. Еще одна важная разница заключается в том, что DPT умеет решать только MDP, о POMDP речи не идет вообще
Вот такую цену заплатили авторы, чтобы получить крутой теоретически обоснованный алгоритм🥸
👀LINK
А возможна ли какая-то теория, которая объясняет, как же все-таки работает ин-контекст лернинг, а конкретнее ин-контекст лернинг в рл, потому что это не совсем то же, что и инконтекст в нлп
Так вот, возможна. Авторы придумали как обучать и евалить трансформер, что он с точки зрения теории является эффективной имплементацией Байесовского постериорного семплинга.
А как такое достигается? В чем особенность алгоритма? Во время обучения трансформер учат предсказывать оптимальное действие (которое может быть получено оракулом или чем-либо еще) для фиксированного состояния, которое мы помещаем в начало последовательности, а остальная (основная) часть последовательности - случайный контекст.
Что это значит? - тренировочный датасет собирается случайной равномерной политикой - у действий одинаковая вероятность, с которой ее могут засемплить. Таким образом в контекст вбиваются элементы эксплорейшна относительно реварда и динамики среды (для кучи-кучи разных тасок) + мы подаем это на вход трансформеру не в последовательном виде, а случайном. Получаем расширение вариативности контекста на двух уровнях
Окэй, допустим. А как такой трансформер евалить? Да в принципе как обычно, за исключением того, что, судя по оригинальной имплементации, во время евала в качестве контекста хранится 1 предыдущий эпизод, никак не связываясь с текущим эпизодом (кроме потока стейтов для которых предиктим действия)
Это нетривиально имхо, поскольку AD и S5 плавно обрабатывают входящие сигналы мульти-эпизодичного контекста. Еще одна важная разница заключается в том, что DPT умеет решать только MDP, о POMDP речи не идет вообще
Вот такую цену заплатили авторы, чтобы получить крутой теоретически обоснованный алгоритм🥸
👀LINK
🔥6👍4❤3
PIXART-α: FAST TRAINING OF DIFFUSION TRANS- FORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE SYNTHESIS
Авторы данной статьи всерьез озабочены ценой и влиянием на экологию разработки нейросетей, например, они подсчитали, что обучение современной диффузии выделяет столько же CO2 сколько человек в течение 7 лет.
EFFICIENT T2I TRANSFORMER
Начнем с того что у нас есть уже предобученная на ImageNet модель DiT с дискретным кол-вом классов. Нам нужно каким либо образом интегрировать текстовый кондишен в модель и в то же время избавиться от классового кондишена. Что мы делаем для этого?
1. Между слоями self-attention и FF слоем внедрен слой cross-attention для эффективного внедрения текстового кондишена в модель
2. Модуль AdaLN-single: Линейные проекции внутри модуля AdaLN DiT занимают 27% параметров, однако они не являются необходимыми для задач T2I, так как классовые условия не используются. Для решения этой проблемы авторы предалагают ввести новый слой AdaLN-single который имеет глобальный набор весов и смещений.
Стандартный блок:
Sᵢ =f(c+t), параметры - [β₁, β₂, γ₁, γ₂, α₁, α₂]
Модифицированный:
S̅ = f(t)
И теперь:
Sᵢ = g(S̅, Eᵢ),
g - функция суммирования
Eᵢ обучаемый эмбеддинг с таким же размером что и S̅
2. Репараметризация: Для использования предварительно обученных весов все Eᵢ инициализируются значениями, которые дают те же параметры что и DiT без классового кондишена для 500-го шага. Этот подход эффективно заменяет слой-специфические параметры глобальными, обеспечивая совместимость с предварительно обученными весами и сокращая размер модели.
Данные
LAION содержит большое кол-во изображений товаров с маркетплейсов с довольно скудными фонами, наверно это не то что будет радовать глаз пользователей, поэтому авторы решили добавить в обучающую выборку SAM датасет ориентированный на задачу сегментации с обильным кол-вом объектов. Все данные были переразмеченны LLaVA. Ну и для достижения эстетического удовольствия пользователей финальный тюн произведен на JourneyDB.
👀 LINK
Авторы данной статьи всерьез озабочены ценой и влиянием на экологию разработки нейросетей, например, они подсчитали, что обучение современной диффузии выделяет столько же CO2 сколько человек в течение 7 лет.
EFFICIENT T2I TRANSFORMER
Начнем с того что у нас есть уже предобученная на ImageNet модель DiT с дискретным кол-вом классов. Нам нужно каким либо образом интегрировать текстовый кондишен в модель и в то же время избавиться от классового кондишена. Что мы делаем для этого?
1. Между слоями self-attention и FF слоем внедрен слой cross-attention для эффективного внедрения текстового кондишена в модель
2. Модуль AdaLN-single: Линейные проекции внутри модуля AdaLN DiT занимают 27% параметров, однако они не являются необходимыми для задач T2I, так как классовые условия не используются. Для решения этой проблемы авторы предалагают ввести новый слой AdaLN-single который имеет глобальный набор весов и смещений.
Стандартный блок:
Sᵢ =f(c+t), параметры - [β₁, β₂, γ₁, γ₂, α₁, α₂]
Модифицированный:
S̅ = f(t)
И теперь:
Sᵢ = g(S̅, Eᵢ),
g - функция суммирования
Eᵢ обучаемый эмбеддинг с таким же размером что и S̅
2. Репараметризация: Для использования предварительно обученных весов все Eᵢ инициализируются значениями, которые дают те же параметры что и DiT без классового кондишена для 500-го шага. Этот подход эффективно заменяет слой-специфические параметры глобальными, обеспечивая совместимость с предварительно обученными весами и сокращая размер модели.
Данные
LAION содержит большое кол-во изображений товаров с маркетплейсов с довольно скудными фонами, наверно это не то что будет радовать глаз пользователей, поэтому авторы решили добавить в обучающую выборку SAM датасет ориентированный на задачу сегментации с обильным кол-вом объектов. Все данные были переразмеченны LLaVA. Ну и для достижения эстетического удовольствия пользователей финальный тюн произведен на JourneyDB.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3
Будем рады услышать обратную связь о канале. Оставляйте идеи/пожелания в секции комментариев!)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13
SynCode: LLM Generation with Grammar Augmentation
Многострадальный guided generation, - подход, который позволяет мутировать логпробы на выходе ЛЛМок так, чтобы генерации подчинялись некоторому синтаксису. Именно благодаря guided generation ты можешь насильно заставить свою ЛЛМ генерировать, например, синтаксически валидный JSON. Или даже не просто синтаксически валидный, а валидный по отношению к какой-то конкретной схеме. Топик интересный и его довольно долгое время ковыряют: вон существуют Guidance, Outlines и ещё пачка инструментов.
SynCode - это очередной инструмент для guided generation. Но ребята предложили новую идею: в оффлайне строят DFA mask store, - карту ключ-значение, которая маппит каждое состояние DFAшки (конечный автомат лексера) в маски для логпроб токенов. Это дало свои плоды - генерация с Syncode быстрее генерации с Outlines или Llama.cpp в несколько раз.
Статья довольно большая, но любителям дискретки, жаждующим почитать что-нибудь про автоматы в мире DL, зайдёт.
👀 Link
🗿 Code
Многострадальный guided generation, - подход, который позволяет мутировать логпробы на выходе ЛЛМок так, чтобы генерации подчинялись некоторому синтаксису. Именно благодаря guided generation ты можешь насильно заставить свою ЛЛМ генерировать, например, синтаксически валидный JSON. Или даже не просто синтаксически валидный, а валидный по отношению к какой-то конкретной схеме. Топик интересный и его довольно долгое время ковыряют: вон существуют Guidance, Outlines и ещё пачка инструментов.
SynCode - это очередной инструмент для guided generation. Но ребята предложили новую идею: в оффлайне строят DFA mask store, - карту ключ-значение, которая маппит каждое состояние DFAшки (конечный автомат лексера) в маски для логпроб токенов. Это дало свои плоды - генерация с Syncode быстрее генерации с Outlines или Llama.cpp в несколько раз.
Статья довольно большая, но любителям дискретки, жаждующим почитать что-нибудь про автоматы в мире DL, зайдёт.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍2❤1
Emergent Agentic Transformer from Chain of Hindsight Experience
Довольно интересный пример ин-контекст рля, при этом без мета-рля (без генерализации на несколько задач/сред)+ частый пример, как авторы могут (умышленно или по невнимательности) завышать результаты метода
So, авторы придумали Agentic Transformer, осуществление ин-контекст рля за счет "chain of hindsight". Короче говоря, у них способ организации контекста внутри трансформера похож на то, что происходит в AD. Во время обучения траектории семплятся на рандоме из всего оффлайн датасета, а затем их сортируют по ретерну (это сумма наград за весь эпизод)
По результатам бьет не только Imitation learning алгоритмы, но и TD learning модели, которые являются доминантой
Однако эти результаты не совсем честны) Во время евала они берут не последний ретерн, который получается из ин-контекст роллаута, а максимальный. По сути они черрипикают + таким образом немножко ломают интуитивное понятие in-context reinforcement learning'а
Но идея все равно имеет место быть🙃
👀 LINK
Довольно интересный пример ин-контекст рля, при этом без мета-рля (без генерализации на несколько задач/сред)
So, авторы придумали Agentic Transformer, осуществление ин-контекст рля за счет "chain of hindsight". Короче говоря, у них способ организации контекста внутри трансформера похож на то, что происходит в AD. Во время обучения траектории семплятся на рандоме из всего оффлайн датасета, а затем их сортируют по ретерну (это сумма наград за весь эпизод)
По результатам бьет не только Imitation learning алгоритмы, но и TD learning модели, которые являются доминантой
Однако эти результаты не совсем честны) Во время евала они берут не последний ретерн, который получается из ин-контекст роллаута, а максимальный. По сути они черрипикают + таким образом немножко ломают интуитивное понятие in-context reinforcement learning'а
Но идея все равно имеет место быть
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation
Авторы показывают, как получить классную in-context conversational генерацию с помощью диффузии и мультимодальной LLM (MLLM). CoDi-2 состоит из текстового, картиночного и аудио энкодеров, MLLM и финального картиночного декодера. Для проекций фичей в общее пространство юзают MLP
Тренировка происходит с помощью композитного лосса, состоящего из стандратного лосса диффузии, лосса MLLM + LoRA для предикта некст токена и MSE между conditional фичей, сгенерированной MLLM и выходов диффузионого автоэнкодера (мультимодального в этом случае). Последняя часть как позволяет вместе тренировать MLLM и диффузию
Отдельная важная часть статьи - это данные💻 Тут у нас instruction пары (MIMIC-IT), мультимодальные пары (LAION, AudioSet, Webvid), а также для image composition задействован InstructPix2Pix и датасет из Kosmos-G
В итоге получаются прикольные conversational примеры как на картинке. Кстати, CoDi это статья про any-to-any генерацию с разными энкодерами, но важно знать, что сейчас ей 2 статьи с таким название (да, лол). Вторая про дистилляцию и тут мы уже про нее писали 😉
👀 LINK
Авторы показывают, как получить классную in-context conversational генерацию с помощью диффузии и мультимодальной LLM (MLLM). CoDi-2 состоит из текстового, картиночного и аудио энкодеров, MLLM и финального картиночного декодера. Для проекций фичей в общее пространство юзают MLP
Тренировка происходит с помощью композитного лосса, состоящего из стандратного лосса диффузии, лосса MLLM + LoRA для предикта некст токена и MSE между conditional фичей, сгенерированной MLLM и выходов диффузионого автоэнкодера (мультимодального в этом случае). Последняя часть как позволяет вместе тренировать MLLM и диффузию
Отдельная важная часть статьи - это данные
В итоге получаются прикольные conversational примеры как на картинке. Кстати, CoDi это статья про any-to-any генерацию с разными энкодерами, но важно знать, что сейчас ей 2 статьи с таким название (да, лол). Вторая про дистилляцию и тут мы уже про нее писали 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining
Для тех, кто любит теорию, теорию в рл, теорию в ин-контекст + рл😈
Мы уже упоминали один алгоритм ин-контекст рл (ICRL) - DPT, по нашим сведениям пока это единственный теоретически обоснованный такой алгоритм. Но возможно ли привести единую теорию под тот же AD? Чтобы перед эмпирическими результатами мы могли иметь хоть какое-то - не только интуитивное - представление о результатах?
Авторы смогли привести transformer-based модели к общей теории. Получили ожидаемые результаты о сходимости к оптимуму, что отлично, поскольку если было бы иначе - в теории не сходилось бы к оптимальной награде или что-то еще, то алгоритмы пришлось бы переделывать скорее всего)
Но, казалось бы, вся эта теория нужна только под AD, потому что это чисто эвристический алгоритм, в отличие от DPT. Но не совсем так - основные выводы таковы, что алгоритмы подойдут к оптимальному решению настолько, насколько это “позволяет” трейн датасет (приходят ли модели из оффлайн датасета к оптимальному решению или около-оптимальному) + необязательно получать для DPT оптимальные действия извне, при помощи оракула, которого почти невозможно получить в реальных задачах
DPT, как и AD, в качестве оптимальных действий достаточно получать то, что выдают обученные сингл-таск модельки ⇒ и то, и то сойдется
В принципе теория несложная, потому что исходит из постановки задачи как Supervised Learning’а. С нее частично можно начать вкатываться в современный рл имхо
👀LINK
Для тех, кто любит теорию, теорию в рл, теорию в ин-контекст + рл
Мы уже упоминали один алгоритм ин-контекст рл (ICRL) - DPT, по нашим сведениям пока это единственный теоретически обоснованный такой алгоритм. Но возможно ли привести единую теорию под тот же AD? Чтобы перед эмпирическими результатами мы могли иметь хоть какое-то - не только интуитивное - представление о результатах?
Авторы смогли привести transformer-based модели к общей теории. Получили ожидаемые результаты о сходимости к оптимуму, что отлично, поскольку если было бы иначе - в теории не сходилось бы к оптимальной награде или что-то еще, то алгоритмы пришлось бы переделывать скорее всего)
Но, казалось бы, вся эта теория нужна только под AD, потому что это чисто эвристический алгоритм, в отличие от DPT. Но не совсем так - основные выводы таковы, что алгоритмы подойдут к оптимальному решению настолько, насколько это “позволяет” трейн датасет (приходят ли модели из оффлайн датасета к оптимальному решению или около-оптимальному) + необязательно получать для DPT оптимальные действия извне, при помощи оракула, которого почти невозможно получить в реальных задачах
DPT, как и AD, в качестве оптимальных действий достаточно получать то, что выдают обученные сингл-таск модельки ⇒ и то, и то сойдется
В принципе теория несложная, потому что исходит из постановки задачи как Supervised Learning’а. С нее частично можно начать вкатываться в современный рл имхо
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🥰1
Generalization to New Sequential Decision Making Tasks with In-Context Learning
До этого ин-контекст рл проверяли на относительно простых, известных средах (Darkroom & MuJoCo). Авторы решили испытать на известных cвоей сложностью MiniHack & Procgen, которые также включают в себя задачи на эксплорейшн, навигацию/планирование и использование инструментов + много различных левелов в тасках
И встает вопрос - а возможно ли в этих, более сложных и вариативных средах, так же получить ин-контекст? При том такая постановка настолько сложна, что на трейновых средах играешь за рыбу🐠 и пытаетесь скушать как можно больше всего, а во время тестирования заставляют в качестве ниндзя🥷
Йо, и такое возможно! Но стоит сделать достаточно большой датасет (десятки тысяч траекторий с разных уровней на каждую таску, коих десятки), иметь доступ к оптимальным действиям (как обычно) и правильно аугментировать - семплить разные траектории из тех же уровней, чтобы нивелировать меморизацию и сподвигнуть к генерализации
К тому же в качестве контекста можно на пальцах пересчитать, сколько эпизодов нужно для достижения оптимума (7)😎
👀LINK
До этого ин-контекст рл проверяли на относительно простых, известных средах (Darkroom & MuJoCo). Авторы решили испытать на известных cвоей сложностью MiniHack & Procgen, которые также включают в себя задачи на эксплорейшн, навигацию/планирование и использование инструментов + много различных левелов в тасках
И встает вопрос - а возможно ли в этих, более сложных и вариативных средах, так же получить ин-контекст? При том такая постановка настолько сложна, что на трейновых средах играешь за рыбу
Йо, и такое возможно! Но стоит сделать достаточно большой датасет (десятки тысяч траекторий с разных уровней на каждую таску, коих десятки), иметь доступ к оптимальным действиям (как обычно) и правильно аугментировать - семплить разные траектории из тех же уровней, чтобы нивелировать меморизацию и сподвигнуть к генерализации
К тому же в качестве контекста можно на пальцах пересчитать, сколько эпизодов нужно для достижения оптимума (7)
👀LINK
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5