ReconViaGen: Towards Accurate Multi-view 3D Object Reconstruction via Generation
Реконструкция 3D по нескольким видам
Код ждем
Демо
Спасибо @Dmitriy_Ru6ts0v
#image2scene #imageto3d #videoto3d #video2scene
Реконструкция 3D по нескольким видам
Код ждем
Демо
Спасибо @Dmitriy_Ru6ts0v
#image2scene #imageto3d #videoto3d #video2scene
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder
Ускорятор предобученных видеогенераторов. Позволяет повысить эффективность предварительно обученных моделей за счёт адаптации к пространству глубокой компрессии с лёгкой доработкой
Достигает сжатия в 32–64 раза в пространственном и в 4 раза во временном измерении, сохраняя качество реконструкции и возможность работы с более длинными видео
Для адаптации предварительно подготовленной модели Wan-2.1-14B к DC-VideoGen на графическом процессоре NVIDIA H100 требуется 10 дней — получаем снижение задержки вывода до 14,8 раз по сравнению с базовым Wan-2.1-14B
Один H100 может выдавать видео с разрешением до 2160x3840
Код и Веса ждем после юридического ревью
Спасибо @m_franz
#text2video #image2video #optimization
Ускорятор предобученных видеогенераторов. Позволяет повысить эффективность предварительно обученных моделей за счёт адаптации к пространству глубокой компрессии с лёгкой доработкой
Достигает сжатия в 32–64 раза в пространственном и в 4 раза во временном измерении, сохраняя качество реконструкции и возможность работы с более длинными видео
Для адаптации предварительно подготовленной модели Wan-2.1-14B к DC-VideoGen на графическом процессоре NVIDIA H100 требуется 10 дней — получаем снижение задержки вывода до 14,8 раз по сравнению с базовым Wan-2.1-14B
'без потери качества'Один H100 может выдавать видео с разрешением до 2160x3840
Код и Веса ждем после юридического ревью
Спасибо @m_franz
#text2video #image2video #optimization
🔥13😱6❤2🤔1
Image to Video Generator with Ovi
Демоспейс видеогенератора со звуком Ovi
Поскольку он навайбкоженный, работает криво. Там нужна дополнительная авторизация и она может глючить. В этом случае попробуйте другой браузер
#text2video #image2video #AV #text2Av #image2AV #sfx
Демоспейс видеогенератора со звуком Ovi
Поскольку он навайбкоженный, работает криво. Там нужна дополнительная авторизация и она может глючить. В этом случае попробуйте другой браузер
#text2video #image2video #AV #text2Av #image2AV #sfx
huggingface.co
Ovi - a Hugging Face Space by akhaliq
Upload an image and provide a text prompt describing the desired motion to create a synchronized video with audio. The app uses AI to bring your image to life.
👍4🔥1😁1
Qwen3-VL-30B-A3B-Instruct & Thinking
Qwen выпустил младшую версию Qwen3-VL на 30B параметров из которых только 3B активные.
При этом конкурирует с GPT-5-Mini и Claude4-Sonnet, а в некоторых случаях превосходит их.
Есть Выпущена FP8 (в том числе и для Qwen3-VL-235B-A22B)
Код
Демо
HF
Чат
API
#VLM #OCR #assistant #reasoning #video2text #image2text #chat
Qwen выпустил младшую версию Qwen3-VL на 30B параметров из которых только 3B активные.
При этом конкурирует с GPT-5-Mini и Claude4-Sonnet, а в некоторых случаях превосходит их.
Есть Выпущена FP8 (в том числе и для Qwen3-VL-235B-A22B)
Код
Демо
HF
Чат
API
#VLM #OCR #assistant #reasoning #video2text #image2text #chat
👍7😱3
MusicGPT
Сервис генерации / редактирования музыки и звука, в том числе речи
Похоже что можно использовать известные голоса и треки просто указывая их в промпте
Не знаю сколько сейчас дают кредитов на старте, я давно зарегался, тогда выдали 500. За одну генерацию забрали 100. Негусто учитывая что бесплатного тарифа нет. Да еще за скачивание берут 50 кредитов(mp3 можно сграбить из браузера бесплатно)
Сами понимаете - не разгуляешься тестить. Мой скоропалительный вердикт: музыку делает плохую (закину в комменты). Мало того что скучную, так еще и с фальшивыми нотами и звучит как секвенсер дешевых сэмплов. Так что сразу указывайте интересный референс.
Тестовый трек закину в комменты. Также можете заценить монолог идущего к реке в исполнении Моргана Фримена и Фредди Меркьюри. Промпт писал на русском
Просто пишешь в промпте "Голос Фредди Меркюри говорит на чистом русском языке ..."
Русские голоса или знает мало или не знает. Отказался говорить голосом Кроша, Всеволода Кузнецова, Сергея Чонишвили по причине что не нашел их в базе.
#musicediting #text2music #tts #text2audio
Сервис генерации / редактирования музыки и звука, в том числе речи
Похоже что можно использовать известные голоса и треки просто указывая их в промпте
Не знаю сколько сейчас дают кредитов на старте, я давно зарегался, тогда выдали 500. За одну генерацию забрали 100. Негусто учитывая что бесплатного тарифа нет. Да еще за скачивание берут 50 кредитов
Сами понимаете - не разгуляешься тестить. Мой скоропалительный вердикт: музыку делает плохую (закину в комменты). Мало того что скучную, так еще и с фальшивыми нотами и звучит как секвенсер дешевых сэмплов. Так что сразу указывайте интересный референс.
Тестовый трек закину в комменты. Также можете заценить монолог идущего к реке в исполнении Моргана Фримена и Фредди Меркьюри. Промпт писал на русском
Просто пишешь в промпте "Голос Фредди Меркюри говорит на чистом русском языке ..."
Русские голоса или знает мало или не знает. Отказался говорить голосом Кроша, Всеволода Кузнецова, Сергея Чонишвили по причине что не нашел их в базе.
#musicediting #text2music #tts #text2audio
Musicgpt
MusicGPT - AI Music and Sound Generator
Create music, instrumentals, beats, vocals, sounds, soundcapes with AI. World’s best. Edit files with AI. AI Voice Changer. AI Stem Splitter. AI Audio Enhancements
❤5👍3🤔1
NeuTTS Air
Говорилка текста с возможностью мгновенного клонирования голоса на 0.7B параметров. Предназначена для локального использования на различных устройствах, "отличается реалистичностью звучания"
Построена на базе языковой модели Qwen 0.5B и использует собственный аудиокодек NeuCodec для высокого качества звука при низком битрейте
Генерирует речь в реальном времени на устройствах среднего уровня
Клонирует голос, используя всего 3 секунды аудио
Но боюсь, владеет только английским, монолог идущего к реке закину в комменты
GGUF Q8 и Q4
Гитхаб
Демо
#tts #text2speech #voicecloning #mobile #realtime
Говорилка текста с возможностью мгновенного клонирования голоса на 0.7B параметров. Предназначена для локального использования на различных устройствах, "отличается реалистичностью звучания"
Построена на базе языковой модели Qwen 0.5B и использует собственный аудиокодек NeuCodec для высокого качества звука при низком битрейте
Генерирует речь в реальном времени на устройствах среднего уровня
Клонирует голос, используя всего 3 секунды аудио
Но боюсь, владеет только английским, монолог идущего к реке закину в комменты
GGUF Q8 и Q4
Гитхаб
Демо
#tts #text2speech #voicecloning #mobile #realtime
👍10🔥3👀3
This media is not supported in your browser
VIEW IN TELEGRAM
Chaplin
Визуальное распознавание речи (VSR), инструмент считывает движения губ в режиме реального времени и переводит в текст
Работает полностью локально.
#VSR #video2text #lipreading #realtime
Визуальное распознавание речи (VSR), инструмент считывает движения губ в режиме реального времени и переводит в текст
Работает полностью локально.
#VSR #video2text #lipreading #realtime
🔥14👍4😱4🥴1
Media is too big
VIEW IN TELEGRAM
ControlHair: Physically-based Video Diffusion for Controllable Dynamic Hair Rendering
Управляемый рендер динамических волос с использованием физически обоснованной видеодиффузии. Модель позволяет контролировать движение волос с помощью сигналов, генерируемых физическим симулятором
Сначала создает покадровую симуляцию с заданными исходными (направление ветра, жесткость волос, движение человека и т п), потом заворачивает ее с заданным ракурсом камеры в управляющий контролнет, а контролнет отдает видеогенератору.
Прикручено к модифицированному Wan 2.1
Код ждем
#simulation #controlnet #conditioning #image2video
Управляемый рендер динамических волос с использованием физически обоснованной видеодиффузии. Модель позволяет контролировать движение волос с помощью сигналов, генерируемых физическим симулятором
Сначала создает покадровую симуляцию с заданными исходными (направление ветра, жесткость волос, движение человека и т п), потом заворачивает ее с заданным ракурсом камеры в управляющий контролнет, а контролнет отдает видеогенератору.
Прикручено к модифицированному Wan 2.1
Код ждем
#simulation #controlnet #conditioning #image2video
🔥8👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Для лентяев вроде меня которые еще не установили себе Sora 2
Sora 2 добавили в дискорд FakeMe
Временно можно пользоваться бесплатно.
Использование:
Дискорд
#text2image
Sora 2 добавили в дискорд FakeMe
Временно можно пользоваться бесплатно.
Использование:
/sora2 prompt:"A dragon flying over a volcano"
опционально: aspect_ratio и quality
Дискорд
#text2image
😁7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
LanPaint 1.4 Wan 2.2 inpainting
В думающий инпейнтер LanPaint завезли инпейнтинг видео с #WAN22
Нюанс: жрет около 40ГБ VRAM
#inpainting #wan22 #workflow #videoinpainting
В думающий инпейнтер LanPaint завезли инпейнтинг видео с #WAN22
Нюанс: жрет около 40ГБ VRAM
#inpainting #wan22 #workflow #videoinpainting
1🔥12👍2
Wan Alpha in ComfyUI - Videos with Transparency / October 3rd, 2025
Стрим про Wan-Alpha
#RGBA #text2video #text2rgba #workflow
Стрим про Wan-Alpha
#RGBA #text2video #text2rgba #workflow
Telegram
Нейронавт | Нейросети в творчестве
Wan-Alpha
Кто хотел генерировать видео с альфа-каналом? Вот оно.
На базе Wan2.1-T2V-14B
К нему нужна ускорялка Lightx2v-T2V-14B
VAE свой - Wan-Alpha VAE. Для #ComfyUI - отдельно декодер RGB и отдельно декодер альфа канала
И своя RGBA Dora
То есть, к…
Кто хотел генерировать видео с альфа-каналом? Вот оно.
На базе Wan2.1-T2V-14B
К нему нужна ускорялка Lightx2v-T2V-14B
VAE свой - Wan-Alpha VAE. Для #ComfyUI - отдельно декодер RGB и отдельно декодер альфа канала
И своя RGBA Dora
То есть, к…
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Open Ai представили конструктор агентов Agent Builder
Стрим кажется еще идет
https://www.youtube.com/live/hS1YqcewH0c
#news #agent
Стрим кажется еще идет
https://www.youtube.com/live/hS1YqcewH0c
#news #agent
👍4
lightx2v Qwen-Image-Edit-2509-Lightning
Четырехшаговая и восьмишаговая ускорялка #QIE
Спасибо @john_eod
#lora #optimization #imageediting
Четырехшаговая и восьмишаговая ускорялка #QIE
Спасибо @john_eod
#lora #optimization #imageediting
huggingface.co
lightx2v/Qwen-Image-Lightning at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍7❤1
ComfyUI 0.3.63
Субграфы теперь можно публиковать - сохранять в бибилиотеку нод
Selection Toolbox был переработан: добавлены новые иконки для упрощения идентификации и расширяемое меню, которое открывает возможности для добавления новых функций в будущем. В дальнейшем может появиться возможность кастомизации функционала Selection Toolbox
#comfyUI
Субграфы теперь можно публиковать - сохранять в бибилиотеку нод
Selection Toolbox был переработан: добавлены новые иконки для упрощения идентификации и расширяемое меню, которое открывает возможности для добавления новых функций в будущем. В дальнейшем может появиться возможность кастомизации функционала Selection Toolbox
#comfyUI
🔥20👍2