NEW BOT Телеграм, страница

MoDA: Multi-modal Diffusion Architecture for Talking Head Generation

Оживлятор портретов по звуку с контролем эмоций от Alibaba

Умеет делать длинные видео, в примерах есть 4 минуты
Шевелит только голову.
Зубы шакалит, в остальном сойдет

Код
HF
Демо 1
Демо 2
Демо 3

#talkinghead #portraitanimation #speech2video

👎9👍3😈1

1.91K views16:19

Нейронавт | Нейросети в творчестве

DeepSeek-V3.1-Base

Обновку выложили на HF без официального релиза.

Контекстное окно увеличили до 128К.
Знания до июля 2024.

#news #assistant

huggingface.co

deepseek-ai/DeepSeek-V3.1-Base · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍3🔥1🤯1

1.71K views17:21

Нейронавт | Нейросети в творчестве

Оказывается у Qwen-Image-Edit чтото сломалось. Вчера разработчики починили и просят попробовать все заново.

Ну я и попробовал.
А заодно сравнил с nano-banana и Flux Kontext на арене.
Qwen понимает и слушается лучше контекста. Но похоже что банан еще круче

Промпт:

Give him an alike-looking sister wearing the same outfit, standing next to him, standing straight, hands in pockets, serious face. Keep the man unchanged, maintain his original pose, maintain original framing

Попробовать в чате - раньше он у меня даже не прогружался, сегодня даже выдает картинки

#imageediting #QWENIMAGE #shootout #comparison

😁10👍4😱1

1.7K views06:28

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval

Генератор интерактивных длинных видео с сохранением согласованности сцены. Иначе говоря, генератор игровых миров с хорошей памятью что где стояло. Про интерактивное управление речь не идет, но видимо предполагается использование в интерактивных системах (умничаю. В играх). Траектория камеры задается прямо координатами, а не размытыми направо-налево.

Умеет генерировать сцены по одной картинке

Код ждем

#text2world #image2world #image2video

👍7❤2

1.87K views07:32

Нейронавт | Нейросети в творчестве

1:23

This media is not supported in your browser

VIEW IN TELEGRAM

Локальный Qwen 2.5 Omni распознает аккорды по звуку с микрофона

Сделано в Gabber - Real-time AI Engine

Реддит

#assistant #music2text #realtime

👍11

1.86K viewsedited 08:11

Нейронавт | Нейросети в творчестве

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

Distilled-3DGS: Distilled 3D Gaussian Splatting

Сокращает примерно в десять раз количество гауссиан необходимых для высококачественного рендеринга сцен, без потери качества изображения.

Обеспечивает качество рендеринга, сравнимое с лучшими существующими методами (#SOTA) или даже превосходящее их

Код ждем

#gaussian #rendering #novelview

1👍12🔥4

1.82K views11:14

Нейронавт | Нейросети в творчестве

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

Видеопримерочная на VideoX-Fun / Wan2.1-I2V-14B
Для описания одежды используют Qwen2.5-VL-7B-Instruct.
Ну и еще там под капотом openpose, densepose и прочее.

Короче если ктото хотел затюнить WAN 2.1 под примерку то вот оно

Код

#tryon #image2video

👍7❤2

10.9K views12:16

Нейронавт | Нейросети в творчестве

1:24

Media is too big

VIEW IN TELEGRAM

OmniTry: Virtual Try-On Anything without Masks

Еще примерочная. Работает не только с одеждой, но и с аксессуарами

Под капотом FLUX.1-Fill-dev и лора. Вот так новый продукт делают, оказывается 👀

В BF16 требует 28Гб VRAM

Потыкал - смотрите сами что вышло

Код
Демо

#tryon

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁5👍4❤1

2.1K views13:16

About

Blog

Apps

Platform