* youtube
* paper
Приятная в своей изящной простоте и эффективности работа.
Что сделано
Набор сканов людей зарегистрирован в SMPL параметрическую модель. Получен датасет вида {меш с RGB значением для каждой вершины, набор фоток с разными известными параметрами камеры}, далее из этого сделаны рендеры в виде проекции RGB вершин и отдельным каналом глубины вершин, т.е. получены картинки (w,h,4) для каждой известной камеры.
Далее обучается pix2pix c юнетом, проецирующая рендеры в оригинальное фото без фона.
Применения
- Ebsynth для 3D рендеров. Художник может стилизировать один кадр в отрендеренной анимации, а остальные может дорисовать модель по последовательности поз и позиций камер.
- Если уже есть зарегистрированный в SMPL скан Пети, то можно сделать рендер толстого Пети.
- С имеющимися моделями маппинга SMPL моделей на видео, прямое редактирование SMPL моделей также может потенциально помочь редактировать видео.
#neural_rendering #smpl #avatars
* paper
Приятная в своей изящной простоте и эффективности работа.
Что сделано
Набор сканов людей зарегистрирован в SMPL параметрическую модель. Получен датасет вида {меш с RGB значением для каждой вершины, набор фоток с разными известными параметрами камеры}, далее из этого сделаны рендеры в виде проекции RGB вершин и отдельным каналом глубины вершин, т.е. получены картинки (w,h,4) для каждой известной камеры.
Далее обучается pix2pix c юнетом, проецирующая рендеры в оригинальное фото без фона.
Применения
- Ebsynth для 3D рендеров. Художник может стилизировать один кадр в отрендеренной анимации, а остальные может дорисовать модель по последовательности поз и позиций камер.
- Если уже есть зарегистрированный в SMPL скан Пети, то можно сделать рендер толстого Пети.
- С имеющимися моделями маппинга SMPL моделей на видео, прямое редактирование SMPL моделей также может потенциально помочь редактировать видео.
#neural_rendering #smpl #avatars
VOGUE: Try-On by StyleGAN Interpolation Optimization
* project page
* youtube
* paper
* demo
Abstract
* project page
* youtube
* paper
* demo
Abstract
Given an image of a target person and an image of another person wearing a garment, we automatically generate the target person in the given garment. At the core of our method is a pose-conditioned StyleGAN2 latent space interpolation, which seamlessly combines the areas of interest from each image, i.e., body shape, hair, and skin color are derived from the target person, while the garment with its folds, material properties, and shape comes from the garment image. By automatically optimizing for interpolation coefficients in the latent space and per layer, we can perform a seamless, yet true to source, merging of the garment and target person. Our algorithm allows for garments to deform according to the given body shape, while preserving pattern and material details. Experiments demonstrate state-of-the-art photo-realistic results at high resolution (512x512).
#ganhttps://twitter.com/advadnoun/status/1347807444190199808
DALL-E не релизнута, но вот что выходит на gradient ascent с помощью CLIP.
DALL-E не релизнута, но вот что выходит на gradient ascent с помощью CLIP.
echoinside
https://arxiv.org/pdf/2010.05334.pdf #gan
FreezeG
* github
Похоже на идею вот отсюда попыткой отделить генерацию формы от рендера, но здесь оно намного менее явно выражено. (Найдено у Саввы)
* github
Похоже на идею вот отсюда попыткой отделить генерацию формы от рендера, но здесь оно намного менее явно выражено. (Найдено у Саввы)
Inspired by the training footage of FreezeD trasfer learning. This is a pseudo translation method because the input image should be projected to the learned latent space first, and then the projected vector is propagated again to generate the target image. Therefore, the performance is limited to the in-domain images of the original GAN. I used StyleGAN2 implementation, and below are some of the results I've got. By also fixing the latent vector of the early layers and manipulating the ones that are fed into the last layers, the rendering style can be controlled separately.
#ganНемного политоты, но все же. Неужели дойдем до стадии, когда телега останется последним оплотом свободы слова и все такое?
Forwarded from Sci-Hub (Александра Элбакян)
Знаете ли вы?
Вчера в Твиттере забанили не только аккаунт Трампа, но и аккаунт Sci-Hub. Причем наш аккаунт забанили раньше, даже появились статьи, где люди возмущались в комментариях, что полезный Сайхаб забанили, а Трампа годами забанить не могут. Через несколько часов снесли аккаунт Трампа.
Формальная причина бана Sci-Hub в Твиттере - нарушение копирайта. Хотя 9 лет это никого не волновало. На момент блокировки было 183 тысячи подписчика, а твиты набирали тысячи репостов и комментариев, причем 90% в поддержку Sci-Hub. И вот все нажитое непосильным трудом пропало! Возможно, скрытой причиной блокировки аккаунта проекта стали протесты в США и активизация борьбы с русскими шпионами на этом фоне. Как известно, власти США подозревают меня в работе на ГРУ, а в Твиттере проекта Sci-Hub был закреплен большой плакат с Лениным.
Вчера в Твиттере забанили не только аккаунт Трампа, но и аккаунт Sci-Hub. Причем наш аккаунт забанили раньше, даже появились статьи, где люди возмущались в комментариях, что полезный Сайхаб забанили, а Трампа годами забанить не могут. Через несколько часов снесли аккаунт Трампа.
Формальная причина бана Sci-Hub в Твиттере - нарушение копирайта. Хотя 9 лет это никого не волновало. На момент блокировки было 183 тысячи подписчика, а твиты набирали тысячи репостов и комментариев, причем 90% в поддержку Sci-Hub. И вот все нажитое непосильным трудом пропало! Возможно, скрытой причиной блокировки аккаунта проекта стали протесты в США и активизация борьбы с русскими шпионами на этом фоне. Как известно, власти США подозревают меня в работе на ГРУ, а в Твиттере проекта Sci-Hub был закреплен большой плакат с Лениным.
Еще эксперименты с CLIP:
https://twitter.com/quasimondo/status/1348194907626856449
https://twitter.com/quasimondo/status/1348194907626856449
Twitter
Mario Klingemann
Searching #StyleGAN2 for "This person looks like Shrek". I also just realized that I can use CLIP to constrain the search area by keeping the similarity close to the starting point of the search. https://t.co/XqmCjw5zIA
For Age estimation
https://twitter.com/metasemantic/status/1348113145609465856
https://twitter.com/metasemantic/status/1348113145609465856
Twitter
Travis Hoppe
How rude! This bot thinks you're old. New experiment with @OpenAI 's CLIP. Model consistently overestimates both real and human-estimated ages by about 15 years, and is apparently *really* rough for some 20-year-olds (WHY?) 1/4
Forwarded from Метаверсище и ИИще
Компьютерное зрение и компьютерный слух.
Отличная идея - скормить нейросетками не только видео, но и всю акустическую "картину", для более точного восстановления модели 3Д-пространства.
Этакая фото-аудио-грамметрия.
Исследователи из Facebook, разработали нейросеть, которая использует визуальные и звуковые эффекты из короткого видеоклипа для восстановления плана целого этажа. Ее можно применять для визуализации пространств, планирования маршрутов и разработки архитектурных проектов. Во время съемки включаются разные неистовые звуки, отражения которых потом фиксируются и учитываются.
https://habr.com/ru/news/t/536534/
Отличная идея - скормить нейросетками не только видео, но и всю акустическую "картину", для более точного восстановления модели 3Д-пространства.
Этакая фото-аудио-грамметрия.
Исследователи из Facebook, разработали нейросеть, которая использует визуальные и звуковые эффекты из короткого видеоклипа для восстановления плана целого этажа. Ее можно применять для визуализации пространств, планирования маршрутов и разработки архитектурных проектов. Во время съемки включаются разные неистовые звуки, отражения которых потом фиксируются и учитываются.
https://habr.com/ru/news/t/536534/
random_vox128.gif
11.2 MB
InMoDeGAN: Interpretable Motion Decomposition Generative Adversarial Network for Video Generation
* project page
* github (coming soon, you know..)
* project page
* github (coming soon, you know..)
In this work, we introduce an unconditional video generative model, InMoDeGAN, targeted to (a) generate high quality videos, as well as to (b) allow for interpretation of the latent space. For the latter, we place emphasis on interpreting and manipulating motion. Towards this, we decompose motion into semantic sub-spaces, which allow for control of generated samples. We design the architecture of InMoDeGAN-generator in accordance to proposed Linear Motion Decomposition, which carries the assumption that motion can be represented by a dictionary, with related vectors forming an orthogonal basis in the latent space. Each vector in the basis represents a semantic sub-space.Forwarded from Grisha Sotnikov
RepVGG: Making VGG-style ConvNets Great Again
Прикол
https://arxiv.org/pdf/2101.03697.pdf
https://github.com/DingXiaoH/RepVGG
Прикол
On ImageNet, RepVGG reaches over 80% top-1 accuracy, which is the first time for a plain model, to the best of our knowledgehttps://arxiv.org/pdf/2101.03697.pdf
https://github.com/DingXiaoH/RepVGG
GitHub
GitHub - DingXiaoH/RepVGG: RepVGG: Making VGG-style ConvNets Great Again
RepVGG: Making VGG-style ConvNets Great Again. Contribute to DingXiaoH/RepVGG development by creating an account on GitHub.
Forwarded from Just links
Meta Pseudo Labels
https://twitter.com/quocleix/status/1349443438698143744
https://arxiv.org/abs/2003.10580
https://twitter.com/quocleix/status/1349443438698143744
https://arxiv.org/abs/2003.10580
Twitter
Quoc Le
Some nice improvement on ImageNet: 90% top-1 accuracy has been achieved :-) This result is possible by using Meta Pseudo Labels, a semi-supervised learning method, to train EfficientNet-L2. More details here: https://t.co/kiZzT4RNj7