NEW BOT Телеграм, страница

Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation

В полку ускоряторов прибыло.
Ускорение диффузных генераторов до нескольких шагов. В Демо ускоренный SD3

Код
Демо

#optimization

👍5

1.43K views08:18

Нейронавт | Нейросети в творчестве

0:55

This media is not supported in your browser

VIEW IN TELEGRAM

EscherNet: A Generative Model for Scalable View Synthesis

Генератор новых ракурсов объекта по входным нескольким ракурсам.

Код
Демо

#novelview #image2image

🔥9👍4

1.42K views08:43

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image

Генератор текстурированного меша по картинке.
Тест Бендера - хорошо.
Сетка - плохо

Код
Демо

#imageto3d

👍7❤1🔥1

1.7K views09:09

Нейронавт | Нейросети в творчестве

1:17

Media is too big

VIEW IN TELEGRAM

SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

Генератор пространственного звука по изображению или видео.
Идея интересная, звуки пока даже по смыслу часто не попадают😒

Код
Демо

#image2sound #video2sound #image2audio #video2audio

Please open Telegram to view this post

VIEW IN TELEGRAM

👀3🔥1

1.3K views12:25

Нейронавт | Нейросети в творчестве

Long Code Arena

Лидерборд языковых моделей на задачах, связанных с программированием

#coding #leaderboard

👍6

1.45K views06:49

Нейронавт | Нейросети в творчестве

CosmicMan: A Text-to-Image Foundation Model for Humans

Новая базовая модель для генерации портретов

Код
Демо

#text2image

👍8❤1

1.23K views07:38

Нейронавт | Нейросети в творчестве

4 ИИ-персонажа реагируют на твиттер в рилтайме на твитче.
Стив Джобс, Эйнштейн, Майкл Джексон, Мэрилин Монро

Твитч

#live #news

👀6👍1

1.25K viewsedited 07:49

Нейронавт | Нейросети в творчестве

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

Управляемое оживление картинки по траектории, ключевым точкам, и, похоже, по входному аудио речи

Код
Демо (траектория)

#image2video

❤8🔥4👍1

1.39K views08:09

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

Редактор видео. Считывает деформации, и по ним лепит результат.
Судя по демо, быстрый как понос.
- матчмувинг
- стилизация по тексту
- трекинг заданного сегмента

Код ждем
Демо

#videoediting #video2video #stylization #matchmoving #tracking

👍4😁2

1.32K viewsedited 08:38

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Programmable Motion Generation for Open-set Motion Control Tasks

Анимация персонажа по текстовому промпту

Код

#humananimation #characteranimation

👍7

1.33K views09:06

Нейронавт | Нейросети в творчестве

Forwarded from эйай ньюз

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

0:01

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️Вау! Real-time генерация видео стала ближе к реальности.

Челики ускорили диффузию для видеогенерации в 10x раз! Утверждают, что качество при этом не теряется. На видео пример того, как они ускорили Open-Sora, например.

Генерация со скоростью 21 fps на 8 видеокартах. Для сравнения, до этого из восьми видеокарт с помощью tensor parallelism можно было выжать ускорение не более чем в 3-4 раза по сравнению с одной.

Если сейчас 60-сек генерации модели уровня Соры занимает по моим прикидкам от 20 минут до нескольких часов, то в ближайший год мы увидим ускорение этого процеса на 1 или 2 порядка. Pyramid Attention Broadcast делает шаг в этом направлении.

Идея базируется на тех же инсайтах, что мы вывели в нашей статье Cache me if you can о том, что выходы аттеншен слои могут быть закешированы и могут переиспользоваться во время шагов инференса. Или вот статья от господина Шмидхубера, где они кешируют cross-attention слои.

Ссылка на проект - Real-Time Video Generation with Pyramid Attention Broadcast

Статьи пока нет, но код уже есть тут.

@ai_newz

❤2👍2

922 views18:48

Нейронавт | Нейросети в творчестве

Upgraded Depth Anything V2 - UDAV2 16 bit

Мало того что Depth Anything v2 опять обновился, так теперь есть народная версия, работающая в 16 bit. Надеюсь не надо объяснять почему это хорошо?
И уже даже есть расширение для A1111!

Гитхаб
Реддит

#image2depth

🔥18👍1🌚1

1.51K views07:15

About

Blog

Apps

Platform