Forwarded from Соне нравится (или нет)
This media is not supported in your browser
VIEW IN TELEGRAM
Диффузионные модели начинают занимать лидирующую позицию и в задаче Motion Generation.
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model
Авторы данного подхода решили использовать свойство широкой вариативности и высокого качества генерации у диффузионных моделей для анимации движения человека с помощью текстовой подсказки и получили новую SOTA в данной задаче. Предыдущие решения не справлялись со сложным текстом или со стилизацией сгенерированных движений. Также авторы указали в своём пейпере, что их решение позволяет использовать очень точные текстовые описания, которые являлись сложными для предыдущих решений, потому что MotionDiffuse делит генерируемый скелет на верхнюю и нижнюю части. Поэтому можно получить качественных результат, к примеру, с помощью текста «a person is drinking water while walking» или «a person is walking and then running».
Но перейдём к более техническим деталям, которые заставляют это решение работать.
Скажу сразу, что многие идеи в пейпере переиспользуются из GLIDE, поэтому если вы не читали ещё пейпер про эту модель, то советую ознакомиться.
В MotionDiffuse вместо U-Net-подобной архитектуры был разработан Cross-Modality Linear Transformer, с помощью которого происходит генерация движений с произвольной длительностью, которая зависит от продолжительности генерируемого движения. Cross-Modality Linear Transformer подразумевает под собой обычный трансформер с энкодером и декодером, каждый блок такого трансфомера содержит: multi-head attention module (с residual connections) и feed-forward network (с тремя линейными преобразованиями и двумя GELU-слоями между ними). Для улучшения к обобщительной способности используются веса из CLIP для инициализации первых слоёв, которые зафризили и не обновляли в обучении.
Также были использованы Linear Self-attention для учёта связности анимации между кадрами и Linear Cross-attention для учёта текста в последовательности движения.
@sonya_aesthetics
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model
Авторы данного подхода решили использовать свойство широкой вариативности и высокого качества генерации у диффузионных моделей для анимации движения человека с помощью текстовой подсказки и получили новую SOTA в данной задаче. Предыдущие решения не справлялись со сложным текстом или со стилизацией сгенерированных движений. Также авторы указали в своём пейпере, что их решение позволяет использовать очень точные текстовые описания, которые являлись сложными для предыдущих решений, потому что MotionDiffuse делит генерируемый скелет на верхнюю и нижнюю части. Поэтому можно получить качественных результат, к примеру, с помощью текста «a person is drinking water while walking» или «a person is walking and then running».
Но перейдём к более техническим деталям, которые заставляют это решение работать.
Скажу сразу, что многие идеи в пейпере переиспользуются из GLIDE, поэтому если вы не читали ещё пейпер про эту модель, то советую ознакомиться.
В MotionDiffuse вместо U-Net-подобной архитектуры был разработан Cross-Modality Linear Transformer, с помощью которого происходит генерация движений с произвольной длительностью, которая зависит от продолжительности генерируемого движения. Cross-Modality Linear Transformer подразумевает под собой обычный трансформер с энкодером и декодером, каждый блок такого трансфомера содержит: multi-head attention module (с residual connections) и feed-forward network (с тремя линейными преобразованиями и двумя GELU-слоями между ними). Для улучшения к обобщительной способности используются веса из CLIP для инициализации первых слоёв, которые зафризили и не обновляли в обучении.
Также были использованы Linear Self-attention для учёта связности анимации между кадрами и Linear Cross-attention для учёта текста в последовательности движения.
@sonya_aesthetics
❤9
This media is not supported in your browser
VIEW IN TELEGRAM
Спасибо подписчик, это прекрасно
😁14👍1🤮1💩1
Forwarded from Rebryk Blog
🚀 Запуск на Product Hunt
Доброе утро, дамы и господа! Погода в Тбилиси сегодня солнечная, без осадков, ожидается запуск на Product Hunt уже через 2 минуты!
Мы с @serjobas подготовили для вас фановый пет-проектик -- Suggesty. Это Google Chrome Extension, который отвечает на гугловские запросы при помощи GPT-3.
Буду признателен, если вы наведете шороху на нашей странице - лайкните и оставите коммент.
Вот ссылочка ⬇️
https://www.producthunt.com/posts/suggesty-ai-search-tool
Потом напишу вам наши впечатления и выводы о запуске 😌
Доброе утро, дамы и господа! Погода в Тбилиси сегодня солнечная, без осадков, ожидается запуск на Product Hunt уже через 2 минуты!
Мы с @serjobas подготовили для вас фановый пет-проектик -- Suggesty. Это Google Chrome Extension, который отвечает на гугловские запросы при помощи GPT-3.
Буду признателен, если вы наведете шороху на нашей странице - лайкните и оставите коммент.
Вот ссылочка ⬇️
https://www.producthunt.com/posts/suggesty-ai-search-tool
Потом напишу вам наши впечатления и выводы о запуске 😌
Product Hunt
Suggesty: AI Search Tool: Get human-like answers to your Google searches with GPT-3 | Product Hunt
With our extension, there is no need to scroll through all Google results pages - you can get the answer straight away!
👍10❤2👎2🤔1🤮1
-Ну это очевидно задача минут на 20, их которых ты два часа будешь фиксить кривые зависимости.
-Ну те отдашь послезавтра?
-Не, давай до следующей среды.
-Ну те отдашь послезавтра?
-Не, давай до следующей среды.
😢36🔥7🤮2
Подписчик написал клёвый материал про dalle1, а ещё собрал имплементацию dalle1 на коленке
Хабр
Хабр
Хабр
Как работает DALL-E
В Январе 2021 года Open AI показали DALL-E, генерирующую любые изображения по текстовому описанию, на хабре уже успели разобрать тему генерации изображений нейросетями, но мне захотелось разобраться в...
❤16👍4🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
Спасибо подписчикам за контент
🤣48🔥9❤5🌚3👍2❤🔥1😁1
ОЧЕНЬ ВАЖНОЕ ИССЛЕДОВАНИЕ ВНИМАНИЕ ВСЕМ
Тут друзья пишут интересное исследование и попросили помочь, cобирают интересные идиомы, выражения, локальные версии обычных слов, таких как: мультифора, поребрик.
Если вы знаете такие слова на других языках - обязательно вписывайте, но не забудьте через тире указать значение
https://forms.gle/L9XorkrPgRaMYEt29
Тут друзья пишут интересное исследование и попросили помочь, cобирают интересные идиомы, выражения, локальные версии обычных слов, таких как: мультифора, поребрик.
Если вы знаете такие слова на других языках - обязательно вписывайте, но не забудьте через тире указать значение
https://forms.gle/L9XorkrPgRaMYEt29
Google Docs
Идиомы, интересные выражения и все что хочется на любом языке
Мы в рамках исследования собираем интересные словосочетания, выражения, аналоги привычных и устоявшихся в языке
👍12👎4
Однажды, сидя в коворкинге и попивая смузи, зумер сказал «буквально», вместо «literally». После этого он буквально обосрался и умер
🔥75😁22🤡9😱3💩3🤮2👍1🤯1
Forwarded from AbstractDL
Diffusion Models: A Comprehensive Survey
Отличная обзорная статья с таксономией диффузионных моделей и всех видов сэмплирования. Тут даже есть сравнение диффузии с остальными генеративными подходами (см. картинку).
Статья
Отличная обзорная статья с таксономией диффузионных моделей и всех видов сэмплирования. Тут даже есть сравнение диффузии с остальными генеративными подходами (см. картинку).
Статья
🔥16👍1
Forwarded from DLStories
Media is too big
VIEW IN TELEGRAM
Смотрите, какая штука стала популярной в Твиттере: Adept.ai обещают выпустить ATC-1: крутого диджитал-помощника на основе Transformer
ACT-1 — это расширение в Google Chrome. В небольшом окошке нужно ввести текст-описание того, что вы хотите сделать. Например, "найти дом в Сан Франциско для 4 человек с бюджетом до $600k” или “найти инфу, сколько раз Ди Каприо получал Оскар”. ACT-1 за вас проделает в браузере ту последовательность действий, которую сделал бы человек для реализации задачи. Пример работы — на видео к посту.
Короче, это как продвинутая Siri, только запросы вводятся (пока что) текстом и они могут быть довольно сложные. Дальше обещают добавить возможность уточнять запросы и даже учить ACT-1 делать действия, которые у нее не получаются. Например, научить ее использовать новую формулу в Excel или пользоваться поиском на новой веб-странице.
Судя по всему, ребята собрали датасет пар вида “текстовое описание действия в браузере — последовательность действий”, обучили на нем Transformer и поколдовали над скоростью инференса. Подробный технический пост скоро обещают. Мне лично интересно, как получилось собрать достаточное количество разнообразных данных, чтобы можно было так хорошо натренировать модель (если она действительно работает так хорошо, как выглядит на видео).
Вообще, adept.ai — лаба, основанная выходцами из Google Research и DeepMind. Двое из них в 2017 приложили руку к появлению на свет модели Transformer (первый и третий авторы статьи!). Так что я верю, что ACT-1 действительно работает и жду релиза) Почитать о создателях и истории Adept можно тут.
А в целом Adept заявляют, что они создают general intelligence. Посмотрим, как пойдет)
Ссылки:
Скоро должна выйти альфа-версия ACT-1, записаться в waitlist можно тут.
А на сайте — больше видео-демок работы ACT
ACT-1 — это расширение в Google Chrome. В небольшом окошке нужно ввести текст-описание того, что вы хотите сделать. Например, "найти дом в Сан Франциско для 4 человек с бюджетом до $600k” или “найти инфу, сколько раз Ди Каприо получал Оскар”. ACT-1 за вас проделает в браузере ту последовательность действий, которую сделал бы человек для реализации задачи. Пример работы — на видео к посту.
Короче, это как продвинутая Siri, только запросы вводятся (пока что) текстом и они могут быть довольно сложные. Дальше обещают добавить возможность уточнять запросы и даже учить ACT-1 делать действия, которые у нее не получаются. Например, научить ее использовать новую формулу в Excel или пользоваться поиском на новой веб-странице.
Судя по всему, ребята собрали датасет пар вида “текстовое описание действия в браузере — последовательность действий”, обучили на нем Transformer и поколдовали над скоростью инференса. Подробный технический пост скоро обещают. Мне лично интересно, как получилось собрать достаточное количество разнообразных данных, чтобы можно было так хорошо натренировать модель (если она действительно работает так хорошо, как выглядит на видео).
Вообще, adept.ai — лаба, основанная выходцами из Google Research и DeepMind. Двое из них в 2017 приложили руку к появлению на свет модели Transformer (первый и третий авторы статьи!). Так что я верю, что ACT-1 действительно работает и жду релиза) Почитать о создателях и истории Adept можно тут.
А в целом Adept заявляют, что они создают general intelligence. Посмотрим, как пойдет)
Ссылки:
Скоро должна выйти альфа-версия ACT-1, записаться в waitlist можно тут.
А на сайте — больше видео-демок работы ACT
👍25🍓3🤔1