This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
ByteDance снова что-то анимируют
Оживлятор человеческих (и не только) портретов любой крупности (лицо, поясной, полный рост) и соотношения сторон. Анимирует как фото, так и рисунки.
На вход помимо собственно портрета нужен сигнал для извлечения движения: звук, видео или их комбинация
Выглядит круто,
Кода нет
#portraitanimation #audio2video #audio2motion #motion2video #talkinghead #lipsync
ByteDance снова что-то анимируют
Оживлятор человеческих (и не только) портретов любой крупности (лицо, поясной, полный рост) и соотношения сторон. Анимирует как фото, так и рисунки.
На вход помимо собственно портрета нужен сигнал для извлечения движения: звук, видео или их комбинация
Выглядит круто,
Кода нет
#portraitanimation #audio2video #audio2motion #motion2video #talkinghead #lipsync
🔥21❤6👍4🥴1👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Хорошие новости для недомузыкантов вроде меня
Генератор музыки YuE можно установить локально в пару кликов в Pinokio
Для работы достаточно 10Гб VRAM, только Nvidia
Умеет принимать ваше аудио на вход!
#text2music #music #audio2music #music2music
Генератор музыки YuE можно установить локально в пару кликов в Pinokio
Для работы достаточно 10Гб VRAM, только Nvidia
Умеет принимать ваше аудио на вход!
#text2music #music #audio2music #music2music
👍10❤4
MatAnyone: Stable Video Matting with Consistent Memory Propagation
Создает маску на заданного человека на видео
На вход принимает маску в первом кадре. Но потеть не придется, целевая маска создается в несколько кликов.
Пока еще далеко от идеала, но надеюсь станет подспорьем в композе
Код и демо ждем на следующей неделе
#segmentation #matting #video2matte #video2mask
Создает маску на заданного человека на видео
На вход принимает маску в первом кадре. Но потеть не придется, целевая маска создается в несколько кликов.
Пока еще далеко от идеала, но надеюсь станет подспорьем в композе
Код и демо ждем на следующей неделе
#segmentation #matting #video2matte #video2mask
🔥11❤1👎1
Media is too big
VIEW IN TELEGRAM
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation
Генератор глубины разрешением до 4К для видео. Но не для любого, нужны данные с лидара. У потребительских лидаров, таких как в айфоне, например, очень кислое разрешение, что-то вроде 256x192. Эти данные плюс RGB видео используются как промпт для генерации высококачественной карты глубины
Код
Демо
Код неофициальный
Пример результата на rerun.io покрутить
#rgbd #video2depth
Генератор глубины разрешением до 4К для видео. Но не для любого, нужны данные с лидара. У потребительских лидаров, таких как в айфоне, например, очень кислое разрешение, что-то вроде 256x192. Эти данные плюс RGB видео используются как промпт для генерации высококачественной карты глубины
Код
Демо
Код неофициальный
Пример результата на rerun.io покрутить
#rgbd #video2depth
❤8
Media is too big
VIEW IN TELEGRAM
DiffVSR: Enhancing Real-World Video Super-Resolution with Diffusion Models for Advanced Visual Quality and Temporal Consistency
Ну-ка, ну-ка
Еще один апскейлер для видео от китайцев, хвалится консистентностью, на черрипиках хорош
Препринт (Ссылка на сайте не работает)
Код ждем
#upscale #upscalevideo #enhance
Ну-ка, ну-ка
Еще один апскейлер для видео от китайцев, хвалится консистентностью, на черрипиках хорош
Препринт (Ссылка на сайте не работает)
Код ждем
#upscale #upscalevideo #enhance
👍6🔥1
MVGD: Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion
Диффузный генератор новых консистентных ракурсов с картой глубины заданной сцены. На вход - любое количество ракурсов сцены.
Код ждем
#image2depth #novelview
Диффузный генератор новых консистентных ракурсов с картой глубины заданной сцены. На вход - любое количество ракурсов сцены.
Код ждем
#image2depth #novelview
👍4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Open Deep Research
Опенсорсный клон Deep Reserach вышел спустя 12 часов после презентации Open AI агента для исследований
Экономим $200 на подписке
#assistant #agent
Опенсорсный клон Deep Reserach вышел спустя 12 часов после презентации Open AI агента для исследований
Экономим $200 на подписке
#assistant #agent
👍9😁4🤔1
Qwen Video
Я писал про генерацию видео в Qwen2.5-1M, но она была недоступна. А на днях ее таки подключили видимо для всех
Если еще не пробовали, даю отмашку
#text2video #image2video
Я писал про генерацию видео в Qwen2.5-1M, но она была недоступна. А на днях ее таки подключили видимо для всех
Если еще не пробовали, даю отмашку
#text2video #image2video
👍6🎃2
This media is not supported in your browser
VIEW IN TELEGRAM
Срочные (нет) новости (нет)
Слышали про квадрат на Марсе?
Так вот, там целый датацентр уже построен и даже нанесен на гуглмапс с панорамами самим Гуглом1 апреля 2017 года
#оффтоп #humor
Слышали про квадрат на Марсе?
Так вот, там целый датацентр уже построен и даже нанесен на гуглмапс с панорамами самим Гуглом
#оффтоп #humor
😁27🔥6🤡2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Leapfusion Hunyuan Image-to-Video V2
Обновка опенсорсного генератора видео по картинке, разрешение 544p
воркфлоу
#image2video #ComfyUI
Обновка опенсорсного генератора видео по картинке, разрешение 544p
воркфлоу
#image2video #ComfyUI
🔥9👍5🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Dialog 1.0
Новая голосовая диалоговая модель от Play AI (aka PlayHT)
"Ультраэмоциональная"
Рилтайм, задержка 303 мс
30+ языков, русский есть
до 48КГц
Возможности:
- клонирование голоса
- ИИ подкасты из PDF, картинок, текстов
- голосовые агенты
- API
- рилтайм среда - диктор или диалог 2 голоса
Попробовать
#voicecloning #text2speech #tts #agent #podcast
Новая голосовая диалоговая модель от Play AI (aka PlayHT)
"Ультраэмоциональная"
Рилтайм, задержка 303 мс
30+ языков, русский есть
до 48КГц
Возможности:
- клонирование голоса
- ИИ подкасты из PDF, картинок, текстов
- голосовые агенты
- API
- рилтайм среда - диктор или диалог 2 голоса
Попробовать
#voicecloning #text2speech #tts #agent #podcast
👍11👎1
This media is not supported in your browser
VIEW IN TELEGRAM
BEN2: Background Erase Network
Удаление фона с изображений и видео
Ест 3.5 ГБ VRAM, скорость 3fps на RTX3090
Демоспейс выдает RGB mp4 с зеленкой, естественно без альфы
Демо
Код
Веса
Попробовать на офсайте
#bg #bgremoval #image2matte #video2matte
Удаление фона с изображений и видео
Ест 3.5 ГБ VRAM, скорость 3fps на RTX3090
Демоспейс выдает RGB mp4 с зеленкой, естественно без альфы
Демо
Код
Веса
Попробовать на офсайте
#bg #bgremoval #image2matte #video2matte
🔥11👍5🤔2💯2