Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation
В полку ускоряторов прибыло.
Ускорение диффузных генераторов до нескольких шагов. В Демо ускоренный SD3
Код
Демо
#optimization
В полку ускоряторов прибыло.
Ускорение диффузных генераторов до нескольких шагов. В Демо ускоренный SD3
Код
Демо
#optimization
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
EscherNet: A Generative Model for Scalable View Synthesis
Генератор новых ракурсов объекта по входным нескольким ракурсам.
Код
Демо
#novelview #image2image
Генератор новых ракурсов объекта по входным нескольким ракурсам.
Код
Демо
#novelview #image2image
🔥9👍4
Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image
Генератор текстурированного меша по картинке.
Тест Бендера - хорошо.
Сетка - плохо
Код
Демо
#imageto3d
Генератор текстурированного меша по картинке.
Тест Бендера - хорошо.
Сетка - плохо
Код
Демо
#imageto3d
👍7❤1🔥1
Media is too big
VIEW IN TELEGRAM
SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound
Генератор пространственного звука по изображению или видео.
Идея интересная, звуки пока даже по смыслу часто не попадают😒
Код
Демо
#image2sound #video2sound #image2audio #video2audio
Генератор пространственного звука по изображению или видео.
Идея интересная, звуки пока даже по смыслу часто не попадают
Код
Демо
#image2sound #video2sound #image2audio #video2audio
Please open Telegram to view this post
VIEW IN TELEGRAM
👀3🔥1
Long Code Arena
Лидерборд языковых моделей на задачах, связанных с программированием
#coding #leaderboard
Лидерборд языковых моделей на задачах, связанных с программированием
#coding #leaderboard
👍6
CosmicMan: A Text-to-Image Foundation Model for Humans
Новая базовая модель для генерации портретов
Код
Демо
#text2image
Новая базовая модель для генерации портретов
Код
Демо
#text2image
👍8❤1
This media is not supported in your browser
VIEW IN TELEGRAM
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model
Управляемое оживление картинки по траектории, ключевым точкам, и, похоже, по входному аудио речи
Код
Демо (траектория)
#image2video
Управляемое оживление картинки по траектории, ключевым точкам, и, похоже, по входному аудио речи
Код
Демо (траектория)
#image2video
❤8🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing
Редактор видео. Считывает деформации, и по ним лепит результат.
Судя по демо, быстрый как понос.
- матчмувинг
- стилизация по тексту
- трекинг заданного сегмента
Код ждем
Демо
#videoediting #video2video #stylization #matchmoving #tracking
Редактор видео. Считывает деформации, и по ним лепит результат.
Судя по демо, быстрый как понос.
- матчмувинг
- стилизация по тексту
- трекинг заданного сегмента
Код ждем
Демо
#videoediting #video2video #stylization #matchmoving #tracking
👍4😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Programmable Motion Generation for Open-set Motion Control Tasks
Анимация персонажа по текстовому промпту
Код
#humananimation #characteranimation
Анимация персонажа по текстовому промпту
Код
#humananimation #characteranimation
👍7
Forwarded from эйай ньюз
⚡️Вау! Real-time генерация видео стала ближе к реальности.
Челики ускорили диффузию для видеогенерации в 10x раз! Утверждают, что качество при этом не теряется. На видео пример того, как они ускорили Open-Sora, например.
Генерация со скоростью 21 fps на 8 видеокартах. Для сравнения, до этого из восьми видеокарт с помощью tensor parallelism можно было выжать ускорение не более чем в 3-4 раза по сравнению с одной.
Если сейчас 60-сек генерации модели уровня Соры занимает по моим прикидкам от 20 минут до нескольких часов, то в ближайший год мы увидим ускорение этого процеса на 1 или 2 порядка. Pyramid Attention Broadcast делает шаг в этом направлении.
Идея базируется на тех же инсайтах, что мы вывели в нашей статье Cache me if you can о том, что выходы аттеншен слои могут быть закешированы и могут переиспользоваться во время шагов инференса. Или вот статья от господина Шмидхубера, где они кешируют cross-attention слои.
Ссылка на проект - Real-Time Video Generation with Pyramid Attention Broadcast
Статьи пока нет, но код уже есть тут.
@ai_newz
Челики ускорили диффузию для видеогенерации в 10x раз! Утверждают, что качество при этом не теряется. На видео пример того, как они ускорили Open-Sora, например.
Генерация со скоростью 21 fps на 8 видеокартах. Для сравнения, до этого из восьми видеокарт с помощью tensor parallelism можно было выжать ускорение не более чем в 3-4 раза по сравнению с одной.
Если сейчас 60-сек генерации модели уровня Соры занимает по моим прикидкам от 20 минут до нескольких часов, то в ближайший год мы увидим ускорение этого процеса на 1 или 2 порядка. Pyramid Attention Broadcast делает шаг в этом направлении.
Идея базируется на тех же инсайтах, что мы вывели в нашей статье Cache me if you can о том, что выходы аттеншен слои могут быть закешированы и могут переиспользоваться во время шагов инференса. Или вот статья от господина Шмидхубера, где они кешируют cross-attention слои.
Ссылка на проект - Real-Time Video Generation with Pyramid Attention Broadcast
Статьи пока нет, но код уже есть тут.
@ai_newz
❤2👍2
Upgraded Depth Anything V2 - UDAV2 16 bit
Мало того что Depth Anything v2 опять обновился, так теперь есть народная версия, работающая в 16 bit. Надеюсь не надо объяснять почему это хорошо?
И уже даже есть расширение для A1111!
Гитхаб
Реддит
#image2depth
Мало того что Depth Anything v2 опять обновился, так теперь есть народная версия, работающая в 16 bit. Надеюсь не надо объяснять почему это хорошо?
И уже даже есть расширение для A1111!
Гитхаб
Реддит
#image2depth
🔥18👍1🌚1