NEW BOT Телеграм, страница

0:26

LongVA

Конкурент Gemini в понимании длинных видео.
Демо периодически тупит, не видит загруженное видео.
Очень долго колупался пытаясь показать ей длинное видео - не получается. Делает вид что никакого видео не было. Спишем это на кривизну демки.

Иногда в порядке исключения видит и отвечает на вопросы.
Русский на видео, похоже, не понимает.

Гитхаб
Демо

#summary #VLM #video2text

👍5👀2😁1

1.16K views10:51

AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation

Мультиагентная платформу для многократной генерации повторяющихся персонажей, не требующая обучения.
Та самая консистентность персонажей, но какой ценой.

AutoStudio использует три агента на основе больших языковых моделей (#LLM) для управления взаимодействиями, а также агент на основе стабильной диффузии (SD) для генерации высококачественных изображений

Уже совместимо с SD1.5 и SDXL.
ConmyUI на подходе

Код

#personalization #consisency #text2image

👍11❤1

1.32K views11:34

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

Срыв покровов. Это внутрянка Rodin Gen-1

ControlNet и LoRA управляют изображением, вокселями облаком точек и баундинг боксом

Обещают релизнуть плагин для блендера

Код ждем
Демо

#imageto3D #tetxtto3D #text2scene #realtime

🔥6👍2

1.48K views11:58

AuraSR

Новый апскейлер на базе архитектуры GigaGAN

Код
Веса
AuraSR-ComfyUI
Демо

#gan #text2image #image2image #upscale

❤12👍3

1.39K viewsedited 12:54

ну такое, да

😁11👍2

1.14K views13:27

1:14

Media is too big

Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

Генератор карт глубины для 360-градусных панорам.
Скажем, есть у вас HDRI с площадки. Приятно будет бесплатно получить еще и грубую модель локации?

Код ждем
Демо

#image2depth #panorama2depth

👍3❤2

1.18K views13:48

ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance

Бустер разрешения для генеративных моделей, ограниченных небольшим разрешением

Код ждем

#text2imnage #highresolution

👍5👌2❤1

1.16K views14:09

0:02

0:02

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Клонирование движения без обучения при генерации видео

Код
Демо ждем

#text2video #motioncloning

🔥8👍1

1.29K views14:38

0:55

Media is too big

FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds

генератор звуковых эффектов по видео. Можно добавлять текстовый промпт

Код ждем
Демо

#video2audio #video2sound

🔥9👍2

1.37K viewsedited 15:55