Опубликованы экспериментальные облегченные #ControlNet модели для SDXL. Они занимают меньше места, 320 Мб младшие и 545 Мб средние. При этом, по первым отзывам пользователей, работают не так хорошо как полновесные модели.
Что еще интереснее, команда diffusers опубликовала скрипт для обучения моделей ControlNet и код бенчмаркинга. Ну, теперь заживем.
твиттер
canny-small
canny-mid
depth-small
depth-mid
скрипт обучения
код бенчмаркинга
Что еще интереснее, команда diffusers опубликовала скрипт для обучения моделей ControlNet и код бенчмаркинга. Ну, теперь заживем.
твиттер
canny-small
canny-mid
depth-small
depth-mid
скрипт обучения
код бенчмаркинга
ImageBind
Мультимодальная модель от запрещенной в РФ Meta AI обеспечивает машины целостным пониманием, которое связывает объекты на фотографии с тем, как они будут звучать, их трехмерной формой, насколько они теплые или холодные и как они движутся. Таким образом железки становятся на шаг ближе к человеческой способности обучаться одновременно на разных типах информации.
Модель в опенсорсе, доступен код.
Демонстрация
Код
#multimodal
Мультимодальная модель от запрещенной в РФ Meta AI обеспечивает машины целостным пониманием, которое связывает объекты на фотографии с тем, как они будут звучать, их трехмерной формой, насколько они теплые или холодные и как они движутся. Таким образом железки становятся на шаг ближе к человеческой способности обучаться одновременно на разных типах информации.
Модель в опенсорсе, доступен код.
Демонстрация
Код
#multimodal
👍4❤1
Media is too big
VIEW IN TELEGRAM
Relightable and Animatable Neural Avatar from Sparse-View Video
Создание анимируемых аватаров по видео с нескольких или с одного ракурса, с возможностью релайтинга.
Код обещают выложить
#video2avatar #humananimation #relighting
Создание анимируемых аватаров по видео с нескольких или с одного ракурса, с возможностью релайтинга.
Код обещают выложить
#video2avatar #humananimation #relighting
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing
Перенос движения на видео. Осуществляется за счет представления видео в виде Поля деформации контента (CoDeF). Оно состоит из поля каноничного статичного изображения и поля деформации. Казалось бы, звучит как обычный оптический поток. Но наверняка все сложнее. Если любите читать препринты и разберетесь, поделитесь в коментах.
Возможные применения
- стилизация видео, разумеется
- оживление изображений
- точечный трекинг
- сегментный трекинг
- трекинг неригидных объектов вроде дыма или жидкостей
- апскейл видео на основе каноничного апскейленного изображения
Код
Колаб
#video2video #tracking #image2video
Перенос движения на видео. Осуществляется за счет представления видео в виде Поля деформации контента (CoDeF). Оно состоит из поля каноничного статичного изображения и поля деформации. Казалось бы, звучит как обычный оптический поток. Но наверняка все сложнее. Если любите читать препринты и разберетесь, поделитесь в коментах.
Возможные применения
- стилизация видео, разумеется
- оживление изображений
- точечный трекинг
- сегментный трекинг
- трекинг неригидных объектов вроде дыма или жидкостей
- апскейл видео на основе каноничного апскейленного изображения
Код
Колаб
#video2video #tracking #image2video
This media is not supported in your browser
VIEW IN TELEGRAM
SceNeRFlow:Time-Consistent Reconstruction of General Dynamic Scenes
Исследователи (Meta Reality Labs Research, Институт Макса Планка и другие) научились восстанавливать динамическую 3D модель неригидных объектов и сцен по видео с нескольких статичных камер с известными параметрами оптики. Для этого, правда, им еще сначала нужна каноническая модель объекта, для которой рассчитывают деформацию чтобы получить движущуюся 3D модель и отрендерить ее волюметрически.
Кода, увы, нет
#videoto3D #nerf
Исследователи (Meta Reality Labs Research, Институт Макса Планка и другие) научились восстанавливать динамическую 3D модель неригидных объектов и сцен по видео с нескольких статичных камер с известными параметрами оптики. Для этого, правда, им еще сначала нужна каноническая модель объекта, для которой рассчитывают деформацию чтобы получить движущуюся 3D модель и отрендерить ее волюметрически.
Кода, увы, нет
#videoto3D #nerf
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
DragNUWA
генератор видео от Microsoft по тексту, изображению и траектории. Видимо, это развитие NUWA.
DragNUWA позволяет пользователям напрямую манипулировать фоном или объектами внутри изображений, а модель плавно преобразует эти действия в движения камеры или объекта, генерируя соответствующее видео.
[UPDATE]
Код
Демо
#image2video #text2video #trajectory2video
генератор видео от Microsoft по тексту, изображению и траектории. Видимо, это развитие NUWA.
DragNUWA позволяет пользователям напрямую манипулировать фоном или объектами внутри изображений, а модель плавно преобразует эти действия в движения камеры или объекта, генерируя соответствующее видео.
[UPDATE]
Код
Демо
#image2video #text2video #trajectory2video
Real-Time Neural Light Field on Mobile Devices
Рендер #nerf сцен на мобилке в реальном времени от Snap Research.
Пример применения - виртуальная примерка обуви. Ждем в снэпчате
Код
#realrime #rendering #mobile
Рендер #nerf сцен на мобилке в реальном времени от Snap Research.
Пример применения - виртуальная примерка обуви. Ждем в снэпчате
Код
#realrime #rendering #mobile
😁2👍1
Adobe обновили свой онлайн сервис Adobe Express, интегрировав в него FireFly
[update]
У меня на бесплатном тарифе кнопки Text to Image нет. Но нигде и не вижу чтобы это был платный функционал. Возможно они его не сразу для всех доступным сделали вопреки тому что говорят в пиаре.
На видео туториал от Крис Каштановой
Платный функционал на скриншоте - шаблоны, фото, шрифты, неограниченные посты в соцсети, 100Гб в облаке, ресайз, ластик и прочее
#design #text2image
[update]
У меня на бесплатном тарифе кнопки Text to Image нет. Но нигде и не вижу чтобы это был платный функционал. Возможно они его не сразу для всех доступным сделали вопреки тому что говорят в пиаре.
На видео туториал от Крис Каштановой
Платный функционал на скриншоте - шаблоны, фото, шрифты, неограниченные посты в соцсети, 100Гб в облаке, ресайз, ластик и прочее
#design #text2image
🤯2👍1🤔1
Flythroughs
У Luma AI новое приложение для генерации пролетов по обычному видео снятому так, будто вы показываете квартиру другу. Под капотом, помимо #NeRF, новая модель генерации плавных траекторий камеры.
AppStore
Для андроида, видимо, нет приложения
#video2nerf #video2video #rendering
У Luma AI новое приложение для генерации пролетов по обычному видео снятому так, будто вы показываете квартиру другу. Под капотом, помимо #NeRF, новая модель генерации плавных траекторий камеры.
AppStore
Для андроида, видимо, нет приложения
#video2nerf #video2video #rendering
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Mixbox 2.0
Натуральное пигментное смешивание цветов для цифровых художников.
Этот движок используется в Rebelle 5 Pro как Rebelle Pigments и в аддоне Flip Fluids для Blender.
Доступен на нескольких языках программирования.
Код
Демо
SIGGRAPH Asia 2021 Talk с объяснениями пигментного смешивания цветов
Натуральное пигментное смешивание цветов для цифровых художников.
Этот движок используется в Rebelle 5 Pro как Rebelle Pigments и в аддоне Flip Fluids для Blender.
Доступен на нескольких языках программирования.
Код
Демо
SIGGRAPH Asia 2021 Talk с объяснениями пигментного смешивания цветов
👍8🔥2
ControlLoRA и Revision
Stability AI выпустили Control-LoRA - соединение идей ControlNet и LoRA. Идея была предложена давно, полгода назад уже был код, но только сейчас дело дошло до релиза.
В релизе модели:
- карты глубины MiDaS и ClipDrop (портретная)
- Canny Edge
- Photograph and Sketch Colorizer (колоризация фото и эскизов)
- Human Pose
Revision - это новый подход использованию изображений вместо текста для генерации картинок (см последнюю картинку)
Control-LoRA уже реализовано в ComfyUI and StableSwarmUI
Код
#text2image #image2image
Stability AI выпустили Control-LoRA - соединение идей ControlNet и LoRA. Идея была предложена давно, полгода назад уже был код, но только сейчас дело дошло до релиза.
В релизе модели:
- карты глубины MiDaS и ClipDrop (портретная)
- Canny Edge
- Photograph and Sketch Colorizer (колоризация фото и эскизов)
- Human Pose
Revision - это новый подход использованию изображений вместо текста для генерации картинок (см последнюю картинку)
Control-LoRA уже реализовано в ComfyUI and StableSwarmUI
Код
#text2image #image2image
👍3