This media is not supported in your browser
VIEW IN TELEGRAM
Sora 2
сделали мобильное приложение
Функция Cameo - Можно поместить себя в видео по короткому видеообразцу
Генерит сразу со звуком
весь ролик - генерация
Уже не успеваешь выйти в магазин - выходит новая #sota
#news
сделали мобильное приложение
Функция Cameo - Можно поместить себя в видео по короткому видеообразцу
Генерит сразу со звуком
весь ролик - генерация
Уже не успеваешь выйти в магазин - выходит новая #sota
#news
👍10👎4🥴4🔥2🌚2
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Kandinsky 5.0 Video Lite
Сбер выпустил видеогенератор в опенсорс.
2B параметров, 768 x 512, до 10 сек
Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.
За всего 2B параметров неплохо
Прикрутили туда всевозможные ускоряторы и оптимизаторы: MagCache там, CFG distill. Вероятно поэтому опенсорс? Или наоборот, решили делать опенсорс значит развязаны руки прикрутить все что есть
Подать заявку в бета-тестеры можно в телеграм боте @kandinsky_access_bot
статья на Хабре
Гитхаб
HF
#text2video
Сбер выпустил видеогенератор в опенсорс.
2B параметров, 768 x 512, до 10 сек
Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.
За всего 2B параметров неплохо
Прикрутили туда всевозможные ускоряторы и оптимизаторы: MagCache там, CFG distill. Вероятно поэтому опенсорс? Или наоборот, решили делать опенсорс значит развязаны руки прикрутить все что есть
Подать заявку в бета-тестеры можно в телеграм боте @kandinsky_access_bot
статья на Хабре
Гитхаб
HF
#text2video
👍19🔥3😁1
Нейронавт | Нейросети в творчестве
Wan2.2-Lightning Четырехшаговая дистилляция #WAN22 Ограничения: При очень интенсивном движении будут артефакты Сейчас только A14B по тексту (Wan2.2-T2V-A14B-NFE4-V1.1) и по картинке (Wan2.2-I2V-A14B-NFE4-V1) 5B готовят воркфлоу по ссылке в описании модели…
Media is too big
VIEW IN TELEGRAM
👍14🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
SANA-Video
Небольшая диффузионная модель для эффективной генерации видео от NVIDIA, MIT, KAUST и других
По тексту и по картинке.
Способна генерировать сложные нарративные видео с переходами между сценами.
разрешение до 720P, 16 fps, хронометраж до 1 минуты
5-секундное видео выдает за 60 сек.
На RTX 5090 с NVFP4 - за 29 секунд
Код ждем
#text2video #image2video
Небольшая диффузионная модель для эффективной генерации видео от NVIDIA, MIT, KAUST и других
По тексту и по картинке.
Способна генерировать сложные нарративные видео с переходами между сценами.
разрешение до 720P, 16 fps, хронометраж до 1 минуты
5-секундное видео выдает за 60 сек.
На RTX 5090 с NVFP4 - за 29 секунд
Код ждем
#text2video #image2video
👍17
Media is too big
VIEW IN TELEGRAM
DA2: Depth Anything in Any Direction (DA^2)
Оценка глубины по панорамным изображениям (360°×180°)
Код ждем
Демо ждем
#panorama2depth #image2depth
Оценка глубины по панорамным изображениям (360°×180°)
Код ждем
Демо ждем
#panorama2depth #image2depth
🔥5
Media is too big
VIEW IN TELEGRAM
Wan2.2 dyno
В репозитории lightx2v появилась модель Wan2.2-T2V-A14B-4steps-250928-dyno на 28.6 ГБ
Там же лежит json - предположительно воркфлоу
Официального описания нет. Это FP8. Похоже что бустит динамику и качество картинки.
В видео говорят что требует 80 ГБ VRAM, но не должен, навряд ли он потребляет больше чем обычный WAN2.2 FP8
Есть еще scaled версия у Kijai - 14.5 ГБ
воркфлоу на openart
#WAN22 #text2video #image2video
В репозитории lightx2v появилась модель Wan2.2-T2V-A14B-4steps-250928-dyno на 28.6 ГБ
Там же лежит json - предположительно воркфлоу
Официального описания нет. Это FP8. Похоже что бустит динамику и качество картинки.
В видео говорят что требует 80 ГБ VRAM, но не должен, навряд ли он потребляет больше чем обычный WAN2.2 FP8
Есть еще scaled версия у Kijai - 14.5 ГБ
воркфлоу на openart
#WAN22 #text2video #image2video
👍4❤2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Вот держите интересный эксперимент.
Берется картинка (ваш любимый мем) и кормится в Нанобанану вот с таким промптом:
"Show this scene one second in the future" (покажи эту сцену через секунду)
Нанабанана - не дура, понимает за время и пространство и выдает свою версию происходящего - новую картинку.
Дальше процесс повторяется с новым кадром.
Получаем кино, в котором сценарист и режиссер - Нанабанана. Она - художник и она так видит.
Только вот почему они становятся зелеными как Халк, я не понял...
Можете сами попробовать...
Сорс
@cgevent
Берется картинка (ваш любимый мем) и кормится в Нанобанану вот с таким промптом:
"Show this scene one second in the future" (покажи эту сцену через секунду)
Нанабанана - не дура, понимает за время и пространство и выдает свою версию происходящего - новую картинку.
Дальше процесс повторяется с новым кадром.
Получаем кино, в котором сценарист и режиссер - Нанабанана. Она - художник и она так видит.
Только вот почему они становятся зелеными как Халк, я не понял...
Можете сами попробовать...
Сорс
@cgevent
😁13❤3👍3🔥2
Опубликован код и веса генератора технических карт (пассов) DICEPTION
Под капотом #SD3 и своя модель на 4 ГБ
Код
Веса
Спасибо @Dmitriy_Ru6ts0v
#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation
Под капотом #SD3 и своя модель на 4 ГБ
Код
Веса
Спасибо @Dmitriy_Ru6ts0v
#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation
Telegram
Нейронавт | Нейросети в творчестве
DICEPTION: A Generalist Diffusion Model for Vision Perception
Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.
Сохраняет мелкие детали сегментации, такие как волосы.
Код ждем
Демо
Спасибо…
Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.
Сохраняет мелкие детали сегментации, такие как волосы.
Код ждем
Демо
Спасибо…
🔥7❤1
VibeVoice-Large-Q8
первая полностью рабочая модель VibeVoice с 8-битной квантизацией
✅ Отличный звук, идентичный оригинальной модели
✅ 11,6 ГБ вместо 18,7 ГБ (-38%)
✅ Используется ~12 ГБ видеопамяти вместо 20 ГБ
✅ Работает на GPU с 12 ГБ (RTX 3060, 4070 Ti и т.д.)
VibeVoice ComfyUI Nodes
#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui
первая полностью рабочая модель VibeVoice с 8-битной квантизацией
✅ Отличный звук, идентичный оригинальной модели
✅ 11,6 ГБ вместо 18,7 ГБ (-38%)
✅ Используется ~12 ГБ видеопамяти вместо 20 ГБ
✅ Работает на GPU с 12 ГБ (RTX 3060, 4070 Ti и т.д.)
VibeVoice ComfyUI Nodes
#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui
❤9👍2