Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.47K photos
3.73K videos
41 files
4.77K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
L4GM: Large 4D Gaussian Reconstruction Model

Реконструкция 3D объектов в движении гауссианами по видео с одного ракурса.
Под капотом гауссианы. Работает шустро.

NVIDIA кодом не поделилась

#videoto3d #gaussian #video2animation
👍41
Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation

В полку ускоряторов прибыло.
Ускорение диффузных генераторов до нескольких шагов. В Демо ускоренный SD3

Код
Демо

#optimization
👍5
Media is too big
VIEW IN TELEGRAM
SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

Генератор пространственного звука по изображению или видео.
Идея интересная, звуки пока даже по смыслу часто не попадают😒

Код
Демо

#image2sound #video2sound #image2audio #video2audio
Please open Telegram to view this post
VIEW IN TELEGRAM
👀3🔥1
Long Code Arena

Лидерборд языковых моделей на задачах, связанных с программированием

#coding #leaderboard
👍6
CosmicMan: A Text-to-Image Foundation Model for Humans

Новая базовая модель для генерации портретов

Код
Демо

#text2image
👍81
4 ИИ-персонажа реагируют на твиттер в рилтайме на твитче.
Стив Джобс, Эйнштейн, Майкл Джексон, Мэрилин Монро

Твитч

#live #news
👀6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

Управляемое оживление картинки по траектории, ключевым точкам, и, похоже, по входному аудио речи

Код
Демо (траектория)

#image2video
8🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

Редактор видео. Считывает деформации, и по ним лепит результат.
Судя по демо, быстрый как понос.
- матчмувинг
- стилизация по тексту
- трекинг заданного сегмента

Код ждем
Демо

#videoediting #video2video #stylization #matchmoving #tracking
👍4😁2
Forwarded from эйай ньюз
⚡️Вау! Real-time генерация видео стала ближе к реальности.

Челики ускорили диффузию для видеогенерации в 10x раз! Утверждают, что качество при этом не теряется. На видео пример того, как они ускорили Open-Sora, например.

Генерация со скоростью 21 fps на 8 видеокартах. Для сравнения, до этого из восьми видеокарт с помощью tensor parallelism можно было выжать ускорение не более чем в 3-4 раза по сравнению с одной.

Если сейчас 60-сек генерации модели уровня Соры занимает по моим прикидкам от 20 минут до нескольких часов, то в ближайший год мы увидим ускорение этого процеса на 1 или 2 порядка. Pyramid Attention Broadcast делает шаг в этом направлении.

Идея базируется на тех же инсайтах, что мы вывели в нашей статье Cache me if you can о том, что выходы аттеншен слои могут быть закешированы и могут переиспользоваться во время шагов инференса. Или вот статья от господина Шмидхубера, где они кешируют cross-attention слои.

Ссылка на проект - Real-Time Video Generation with Pyramid Attention Broadcast

Статьи пока нет, но код уже есть тут.

@ai_newz
2👍2
Upgraded Depth Anything V2 - UDAV2 16 bit

Мало того что Depth Anything v2 опять обновился, так теперь есть народная версия, работающая в 16 bit. Надеюсь не надо объяснять почему это хорошо?
И уже даже есть расширение для A1111!

Гитхаб
Реддит

#image2depth
🔥18👍1🌚1