Media is too big
VIEW IN TELEGRAM
DA2: Depth Anything in Any Direction (DA^2)
Оценка глубины по панорамным изображениям (360°×180°)
Код ждем
Демо ждем
#panorama2depth #image2depth
Оценка глубины по панорамным изображениям (360°×180°)
Код ждем
Демо ждем
#panorama2depth #image2depth
🔥5
Media is too big
VIEW IN TELEGRAM
Wan2.2 dyno
В репозитории lightx2v появилась модель Wan2.2-T2V-A14B-4steps-250928-dyno на 28.6 ГБ
Там же лежит json - предположительно воркфлоу
Официального описания нет. Это FP8. Похоже что бустит динамику и качество картинки.
В видео говорят что требует 80 ГБ VRAM, но не должен, навряд ли он потребляет больше чем обычный WAN2.2 FP8
Есть еще scaled версия у Kijai - 14.5 ГБ
воркфлоу на openart
#WAN22 #text2video #image2video
В репозитории lightx2v появилась модель Wan2.2-T2V-A14B-4steps-250928-dyno на 28.6 ГБ
Там же лежит json - предположительно воркфлоу
Официального описания нет. Это FP8. Похоже что бустит динамику и качество картинки.
В видео говорят что требует 80 ГБ VRAM, но не должен, навряд ли он потребляет больше чем обычный WAN2.2 FP8
Есть еще scaled версия у Kijai - 14.5 ГБ
воркфлоу на openart
#WAN22 #text2video #image2video
👍4❤2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Вот держите интересный эксперимент.
Берется картинка (ваш любимый мем) и кормится в Нанобанану вот с таким промптом:
"Show this scene one second in the future" (покажи эту сцену через секунду)
Нанабанана - не дура, понимает за время и пространство и выдает свою версию происходящего - новую картинку.
Дальше процесс повторяется с новым кадром.
Получаем кино, в котором сценарист и режиссер - Нанабанана. Она - художник и она так видит.
Только вот почему они становятся зелеными как Халк, я не понял...
Можете сами попробовать...
Сорс
@cgevent
Берется картинка (ваш любимый мем) и кормится в Нанобанану вот с таким промптом:
"Show this scene one second in the future" (покажи эту сцену через секунду)
Нанабанана - не дура, понимает за время и пространство и выдает свою версию происходящего - новую картинку.
Дальше процесс повторяется с новым кадром.
Получаем кино, в котором сценарист и режиссер - Нанабанана. Она - художник и она так видит.
Только вот почему они становятся зелеными как Халк, я не понял...
Можете сами попробовать...
Сорс
@cgevent
😁13❤3👍3🔥2
Опубликован код и веса генератора технических карт (пассов) DICEPTION
Под капотом #SD3 и своя модель на 4 ГБ
Код
Веса
Спасибо @Dmitriy_Ru6ts0v
#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation
Под капотом #SD3 и своя модель на 4 ГБ
Код
Веса
Спасибо @Dmitriy_Ru6ts0v
#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation
Telegram
Нейронавт | Нейросети в творчестве
DICEPTION: A Generalist Diffusion Model for Vision Perception
Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.
Сохраняет мелкие детали сегментации, такие как волосы.
Код ждем
Демо
Спасибо…
Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.
Сохраняет мелкие детали сегментации, такие как волосы.
Код ждем
Демо
Спасибо…
🔥7❤1
VibeVoice-Large-Q8
первая полностью рабочая модель VibeVoice с 8-битной квантизацией
✅ Отличный звук, идентичный оригинальной модели
✅ 11,6 ГБ вместо 18,7 ГБ (-38%)
✅ Используется ~12 ГБ видеопамяти вместо 20 ГБ
✅ Работает на GPU с 12 ГБ (RTX 3060, 4070 Ti и т.д.)
VibeVoice ComfyUI Nodes
#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui
первая полностью рабочая модель VibeVoice с 8-битной квантизацией
✅ Отличный звук, идентичный оригинальной модели
✅ 11,6 ГБ вместо 18,7 ГБ (-38%)
✅ Используется ~12 ГБ видеопамяти вместо 20 ГБ
✅ Работает на GPU с 12 ГБ (RTX 3060, 4070 Ti и т.д.)
VibeVoice ComfyUI Nodes
#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui
❤9👍2
Media is too big
VIEW IN TELEGRAM
Vidu Q2
Новая модель видеогенератора с фокусом на выразительность
Есть в API
На офсайте
и в мобильном приложении
iOS
Android
Из сторонних сервисов видел на Dzine
#text2video #image2video
Новая модель видеогенератора с фокусом на выразительность
Более четкие выражения, динамичные движения камеры, более высокая скорость, более глубокое понимание
Есть в API
На офсайте
и в мобильном приложении
iOS
Android
Из сторонних сервисов видел на Dzine
#text2video #image2video
👍6❤1
LucidFlux: Caption-Free Universal Image Restoration with a Large-Scale Diffusion Transformer
Реставрация изображений без промптов на основе #Flux
Код
HF
#imagerestoration #deblur #denoise
Реставрация изображений без промптов на основе #Flux
Код
HF
#imagerestoration #deblur #denoise
🔥10
CAP4D: Creating Animatable 4D Portrait Avatars with Morphable Multi-View Diffusion Models
Создание анимируемых портретных 4D-аватаров. Модель способна генерировать реалистичные 4D-аватары на основе любого количества эталонных изображений
Рендерится в реальном времени
На первом этапе создает много изображений с разных ракурсов при помощи SD 2.1. Далее собирает собственно 4D модель.
Под капотом 3D трекер лица FlowFace (код ждем), FLAME для выражений лица, GaussianAvatars для деформируемой головы на гауссианах
Аватар можно редактировать внешними средствами - упомянуты Stable-Makeup и IC-Light
Плюс ко всему, аватар может управляться звуком речи
Код - FlowFace работает в демо-режиме, только с лицами из демо-набора
#humanavatar #gaussian #head #portraitanimation #tracking #pose
Создание анимируемых портретных 4D-аватаров. Модель способна генерировать реалистичные 4D-аватары на основе любого количества эталонных изображений
Рендерится в реальном времени
На первом этапе создает много изображений с разных ракурсов при помощи SD 2.1. Далее собирает собственно 4D модель.
Под капотом 3D трекер лица FlowFace (код ждем), FLAME для выражений лица, GaussianAvatars для деформируемой головы на гауссианах
Аватар можно редактировать внешними средствами - упомянуты Stable-Makeup и IC-Light
Плюс ко всему, аватар может управляться звуком речи
Код - FlowFace работает в демо-режиме, только с лицами из демо-набора
#humanavatar #gaussian #head #portraitanimation #tracking #pose
🔥6👍5😁1
DeepSearch-1.5B
Модель для решения задач, требующих рассуждений и вычислений, новая #SOTA среди рассуждалок 1.5B параметров
На базе Nemotron-Research-Reasoning-Qwen-1.5B v2
Подходит для выполнения математических задач и решения логических головоломок, в образовательных и исследовательских целях, где требуется высокая точность и эффективность вычислений и оптимизация вычислительных ресурсов.
#assistant #reasoning
Модель для решения задач, требующих рассуждений и вычислений, новая #SOTA среди рассуждалок 1.5B параметров
На базе Nemotron-Research-Reasoning-Qwen-1.5B v2
Подходит для выполнения математических задач и решения логических головоломок, в образовательных и исследовательских целях, где требуется высокая точность и эффективность вычислений и оптимизация вычислительных ресурсов.
#assistant #reasoning
🔥8👍4
TTT3R: 3D Reconstruction as Test-Time Training
Метод улучшения 3D реконструкции CUT3R с использованием Test-Time Training (#TTT)
Вдвое улучшает оценку глобальной позы по сравнению с базовой моделью.
Обрабатывает тысячи изображений со скоростью 20 кадров в секунду, используя 6 ГБ VRAM
Пир этом избегает «забывания» данных
Гитхаб
#image2scene #video2scene #videoto4d #scenereconstruction #4d #novelview #imageto3d #image2scene #video2scene
Метод улучшения 3D реконструкции CUT3R с использованием Test-Time Training (#TTT)
Вдвое улучшает оценку глобальной позы по сравнению с базовой моделью.
Обрабатывает тысячи изображений со скоростью 20 кадров в секунду, используя 6 ГБ VRAM
Пир этом избегает «забывания» данных
Гитхаб
#image2scene #video2scene #videoto4d #scenereconstruction #4d #novelview #imageto3d #image2scene #video2scene
🔥11👍2
Dreamina AI Avatars
Dreamina запустила функцию оживления портрета по звуку и промпту.
Работает с людьми, животными, аниме и др.
——————————————
А также делали бесплатный доступ к Seedream 4.0 до 9 октября.
Но только для правильных стран. Заходите через 3 буквы. Польша не подошла
#portraitanimation #characteranimation #avatar #speech2video #image2video #humanavatar #text2image
Dreamina запустила функцию оживления портрета по звуку и промпту.
Работает с людьми, животными, аниме и др.
——————————————
А также делали бесплатный доступ к Seedream 4.0 до 9 октября.
Но только для правильных стран. Заходите через 3 буквы. Польша не подошла
#portraitanimation #characteranimation #avatar #speech2video #image2video #humanavatar #text2image
👍6
Нейронавт | Нейросети в творчестве
Kandinsky 5.0 Video Lite Сбер выпустил видеогенератор в опенсорс. 2B параметров, 768 x 512, до 10 сек Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке. За всего 2B параметров…
GitHub
Kandinsky-5/comfyui at main · ai-forever/Kandinsky-5
Kandinsky 5.0: A family of diffusion models for Video & Image generation - ai-forever/Kandinsky-5
1😁15🔥6❤3😱1
Мудрость из соседнего чата, проверить не могу ибо Соры у меня нет
Гайд: Как убрать водяной знак в Sora 2
Шаг 1: ➡️ Перейдите в веб-версию Sora ➡️ Нажмите «Use the Old Sora» (Использовать старую версию Sora)
Шаг 2:
➡️ Откройте раздел Activity Category (Активность)
➡️ Прямая ссылка:
sora.chatgpt.com/activity#sora
Шаг 3:
➡️ Выберите одно из ваших сгенерированных видео
➡️ Оно откроется в редакторе
Шаг 4:
➡️ В редакторе кликните правой кнопкой мыши и выберите нужный вариант
Способы сохранить видео:
✔️ Скопировать ссылку на видео
✔️ Сохранить видео напрямую
Спасибо @oxidizer05
Гайд: Как убрать водяной знак в Sora 2
Шаг 1: ➡️ Перейдите в веб-версию Sora ➡️ Нажмите «Use the Old Sora» (Использовать старую версию Sora)
Шаг 2:
➡️ Откройте раздел Activity Category (Активность)
➡️ Прямая ссылка:
sora.chatgpt.com/activity#sora
Шаг 3:
➡️ Выберите одно из ваших сгенерированных видео
➡️ Оно откроется в редакторе
Шаг 4:
➡️ В редакторе кликните правой кнопкой мыши и выберите нужный вариант
Способы сохранить видео:
✔️ Скопировать ссылку на видео
✔️ Сохранить видео напрямую
Спасибо @oxidizer05
Sora
Transform text and images into immersive videos. Animate stories, visualize ideas, and bring your concepts to life.
❤6👍5👨💻2🔥1
SINQ: Sinkhorn-Normalized Quantization for LLMs
В Huawei придумали новый метод квантования языковых моделей, снижающий требования к ресурсам без потери качества. Может работать как с равномерной, так и с неравномерной квантизацией, а также сочетаться с методами калибровки или работать без калибровки.
Метод совместим с различными архитектурами моделей и не требует взаимодействия между слоями, его удалось применить например и к MoE. Прямо об этом не сказано, но архитектурная независимость, видимо, позволит применять его и к видео / аeдио/ картинко-генераторам
Короче говоря, есть надежда что видео (и прочие) генераторыбудут более лучше квантоваться можно будет сжимать без потери качества чтобы впихнуть невпихуемое
#research #optimization
В Huawei придумали новый метод квантования языковых моделей, снижающий требования к ресурсам без потери качества. Может работать как с равномерной, так и с неравномерной квантизацией, а также сочетаться с методами калибровки или работать без калибровки.
Метод совместим с различными архитектурами моделей и не требует взаимодействия между слоями, его удалось применить например и к MoE. Прямо об этом не сказано, но архитектурная независимость, видимо, позволит применять его и к видео / аeдио/ картинко-генераторам
Короче говоря, есть надежда что видео (и прочие) генераторы
#research #optimization
👍17❤2🔥2
Wan2_2-Animate-14B_fp8_scaled_e4m3fn_KJ_v2
Kijai выложил вторую версию скейленных весов Animate
Спасибо @muxastarikov
#image2video #video2video #characteranimation #chracterswap #faceswap
Kijai выложил вторую версию скейленных весов Animate
Спасибо @muxastarikov
#image2video #video2video #characteranimation #chracterswap #faceswap
huggingface.co
Upload Wan2_2-Animate-14B_fp8_scaled_e4m3fn_KJ_v2.safetensors · Kijai/WanVideo_comfy_fp8_scaled at 0b4ddcf
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤9🔥2👍1
Media is too big
VIEW IN TELEGRAM
Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
И еще один видеогенератор на базе #WAN22
Создает видео со звуком, как VEO3. По тексту, по картинке.
Может создавать звуковые эффекты и музыку, соответствующие визуалу
Хронометраж 5 сек, 24 кадра в секунду, разрешением 720×720, с различными соотношениями сторон (9:16, 16:9, 1:1, и т.д.)
Обещают выпустить модель с повышенным разрешением, повысить хронометраж, дистилл для быстрого инференса и скрипты обучения.
Гитхаб
HF
Спасибо @m_franz
#text2video #image2video #AV #text2Av #image2AV #sfx
И еще один видеогенератор на базе #WAN22
Создает видео со звуком, как VEO3. По тексту, по картинке.
Может создавать звуковые эффекты и музыку, соответствующие визуалу
Хронометраж 5 сек, 24 кадра в секунду, разрешением 720×720, с различными соотношениями сторон (9:16, 16:9, 1:1, и т.д.)
Обещают выпустить модель с повышенным разрешением, повысить хронометраж, дистилл для быстрого инференса и скрипты обучения.
Гитхаб
HF
Спасибо @m_franz
#text2video #image2video #AV #text2Av #image2AV #sfx
🔥13👍3❤1