StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
🥁🥁🥁 барабанная дробь
И у нас еще один оживлятор картинок по звуку от Microsoft Research Asia, Hunyuan, Tencent
Много примеров с пением, видимо фокус на эту нишу. Но есть и просто речь.
Обещают неограниченный по длительности оживляж с сохранением идентичности персонажа.
Мне кажется или липсинк не такой уж и синк, не попадает в речь?
Ну и конечно есть видео превосходства над #SOTA моделями-конкурентами
Построен на базе Wan2.1-1.3B
Разрешение: 512x512, 480x832, 832x480
5-секундное видео (480x832, fps=25) генерируется 3 минуты на 4090 и требует 18GB VRAM
Код
#lipsync #portraitanimation #characteranimation #speech2video #avatar
🥁🥁🥁 барабанная дробь
И у нас еще один оживлятор картинок по звуку от Microsoft Research Asia, Hunyuan, Tencent
Много примеров с пением, видимо фокус на эту нишу. Но есть и просто речь.
Обещают неограниченный по длительности оживляж с сохранением идентичности персонажа.
Мне кажется или липсинк не такой уж и синк, не попадает в речь?
Ну и конечно есть видео превосходства над #SOTA моделями-конкурентами
Построен на базе Wan2.1-1.3B
Разрешение: 512x512, 480x832, 832x480
5-секундное видео (480x832, fps=25) генерируется 3 минуты на 4090 и требует 18GB VRAM
Код
#lipsync #portraitanimation #characteranimation #speech2video #avatar
👍6🔥4❤1
Jan-v1
Модель для агентского мышления и решения задач, в частности для веб-поиска.
Опенсорсная альтернатива Perplexity
Построена на базе их же модели для мобильного веб-поиска Lucy и Qwen3-4B-thinking
Интегрируется с Jan App или llama.cpp
#macos / #windows / #linux
Веса
Веса GGUF
Гитхаб
#search #GGUF #agent #assistant
Модель для агентского мышления и решения задач, в частности для веб-поиска.
Опенсорсная альтернатива Perplexity
Построена на базе их же модели для мобильного веб-поиска Lucy и Qwen3-4B-thinking
Интегрируется с Jan App или llama.cpp
#macos / #windows / #linux
Веса
Веса GGUF
Гитхаб
#search #GGUF #agent #assistant
👍8❤3🔥3
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
Вторая версия интерактивного генератора игровых миров от Skywork
Работает в реальном времени, 25 fps на A100 / H100, 24ГБ VRAM. Управление клавиатурой и мышью.
Опенсоросный ответ Genie 3
Основан на WanX, но без текстовой ветки, предсказывает следующие кадры только на основе визуала и действий.
Моделирует динамику сцен и создавать длительные видео
Код
HF
#image2world #image2game #realtime
Вторая версия интерактивного генератора игровых миров от Skywork
Работает в реальном времени, 25 fps на A100 / H100, 24ГБ VRAM. Управление клавиатурой и мышью.
Опенсоросный ответ Genie 3
Основан на WanX, но без текстовой ветки, предсказывает следующие кадры только на основе визуала и действий.
Моделирует динамику сцен и создавать длительные видео
Код
HF
#image2world #image2game #realtime
🔥5👍3👎2👨💻1
ViPE: Video Pose Engine for 3D Geometric Perception
Трекер камеры и плотностной глубины видео от NVIDIA.
Скорость 3-5 кадров в секунду, обрабатывает кинематографические шоты, материал с видеорегистраторов и даже панорамы на 360°.
Уже используется в Gen3c и Cosmos. Вот решили выпустить в опенсорс
Под капотом есть Video Depth Anything но для экономии VRAM можно запускать без него с флагом
На сайте проекта есть интерактивный вьюер 4D-облаком точек, полюбопытствуйте
Код
#video2depth #tracking #camera
Трекер камеры и плотностной глубины видео от NVIDIA.
Скорость 3-5 кадров в секунду, обрабатывает кинематографические шоты, материал с видеорегистраторов и даже панорамы на 360°.
Уже используется в Gen3c и Cosmos. Вот решили выпустить в опенсорс
Под капотом есть Video Depth Anything но для экономии VRAM можно запускать без него с флагом
--pipeline no_vdaНа сайте проекта есть интерактивный вьюер 4D-облаком точек, полюбопытствуйте
Код
#video2depth #tracking #camera
👍6🔥3
Пока Perplexity пытается выкупить Chrome у Google за 34,5 млрд долларов, у нас новый игрок на рынке ИИ-браузеров
Основная фишка Strawberry - автоматизация. Он запоминает ваши действия и может повторять их. Ну и сам не промах - может исследовать компании, находить лиды в LinkedIn, работать с CRM, суммировать заметки, составлять последующие сообщения и автоматизировать задачи на любых сайтах.
Данные хранит локально, но при взаимодействии с AI-провайдерами (Google, OpenAI, Anthropic) информация обрабатывается через них.
Есть пробный период, а после его окончания доступ к функциям обойдётся в 30 долларов США в месяц.
Записаться в вейтлист
#browser #assistant
Основная фишка Strawberry - автоматизация. Он запоминает ваши действия и может повторять их. Ну и сам не промах - может исследовать компании, находить лиды в LinkedIn, работать с CRM, суммировать заметки, составлять последующие сообщения и автоматизировать задачи на любых сайтах.
Данные хранит локально, но при взаимодействии с AI-провайдерами (Google, OpenAI, Anthropic) информация обрабатывается через них.
Есть пробный период, а после его окончания доступ к функциям обойдётся в 30 долларов США в месяц.
Записаться в вейтлист
#browser #assistant
👍5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
Персонализация на видео от Tencent
генерация видео по текстовому описанию с сохранением идентичности персонажей (Identity-Preserving Text-to-Video Generation); 1
- создание видео с нечеловеческими субъектами
- генерация стилизованных видео
- замена лиц на видео
- генерация видео на основе заданной позы
Прикручено к WAN2.1. Ждем WAN2.2
Kijai уже интегрировал его в WanVideoWrapper, но имплементация отличается от оригинала, что может сказаться на результате. Авторы выпустили ноду препроцессора.
Код
HF
Stand-In Official Preprocessor ComfyUI Nodes
Kijai HF
воркфлоу
#workflow #comfyUI #personalization #referencing #faceswap #stylize
Персонализация на видео от Tencent
генерация видео по текстовому описанию с сохранением идентичности персонажей (Identity-Preserving Text-to-Video Generation); 1
- создание видео с нечеловеческими субъектами
- генерация стилизованных видео
- замена лиц на видео
- генерация видео на основе заданной позы
Прикручено к WAN2.1. Ждем WAN2.2
Kijai уже интегрировал его в WanVideoWrapper, но имплементация отличается от оригинала, что может сказаться на результате. Авторы выпустили ноду препроцессора.
Код
HF
Stand-In Official Preprocessor ComfyUI Nodes
Kijai HF
воркфлоу
#workflow #comfyUI #personalization #referencing #faceswap #stylize
🔥6👍2❤1
Qwen-Image Canny ControlNet
В полку контролнетов для #QwenImage прибыло.
Canny от команды DiffSynth-Studio
Если найдете ссылку на HF поделитесь пожалуйста чтоб не на китайском читать
[UPDATE]
HF
#controlnet
В полку контролнетов для #QwenImage прибыло.
Canny от команды DiffSynth-Studio
Если найдете ссылку на HF поделитесь пожалуйста чтоб не на китайском читать
[UPDATE]
HF
#controlnet
🔥9👍1
ComfyUI Wan2.2 Fun Native Support
Нативная поддержка Wan2.2-Fun (контролнет для видео) в #ComfyUI
+ поддержка Wan2.2 Fun InP - генерация видео от начального к конечному кадру
+поддержка LightX2V 4-Step LoRA
Ссылки на воркфлоу в статье
#controlnet #text2video #image2video #flf
Нативная поддержка Wan2.2-Fun (контролнет для видео) в #ComfyUI
+ поддержка Wan2.2 Fun InP - генерация видео от начального к конечному кадру
+поддержка LightX2V 4-Step LoRA
Ссылки на воркфлоу в статье
#controlnet #text2video #image2video #flf
🔥11👍4