This media is not supported in your browser
VIEW IN TELEGRAM
ROSE: Remove Objects with Side Effects in Videos
Удаление объектов из видео (клинап, инпейнтинг) вместе с сопутствующими эффектами, такими как тени, отражения, изменения освещения и т д. Модель решает проблему, с которой сталкиваются существующие методы — сложность устранения побочных эффектов из-за нехватки парных видеоданных.
А откуда же у вас эти пары видеоданных которых ни у кого нет? А из синтетического датасета с 3D рендера.
Под капотом видеоинпейнтинг на основе Wan2.1
Код ждем
Демо
#cleanup #objectremoval #videoinpainting
Удаление объектов из видео (клинап, инпейнтинг) вместе с сопутствующими эффектами, такими как тени, отражения, изменения освещения и т д. Модель решает проблему, с которой сталкиваются существующие методы — сложность устранения побочных эффектов из-за нехватки парных видеоданных.
А откуда же у вас эти пары видеоданных которых ни у кого нет? А из синтетического датасета с 3D рендера.
Под капотом видеоинпейнтинг на основе Wan2.1
Код ждем
Демо
#cleanup #objectremoval #videoinpainting
🔥8👍1😱1
Media is too big
VIEW IN TELEGRAM
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space
Редактирование 3D-моделей без обучения в нативном латентном 3D пространстве по текстовым промптам и изображениям
Работает с геометрией, #Nerf и гауссианами
Код
Демо ждем
#3d #3dediting #gaussian
Редактирование 3D-моделей без обучения в нативном латентном 3D пространстве по текстовым промптам и изображениям
Работает с геометрией, #Nerf и гауссианами
Код
Демо ждем
#3d #3dediting #gaussian
👍6❤1
Тестирую тут ComfyUI-Copilot а заодно Qwen-Image-Edit (QIE)
У меня всего 16Gb VRAM, не разгуляешься.
Поэтому первой задачей было переписать стандартный воркфлоу из менюшки с темплейтами под GGUF модель - впихнуть невпихуемое.
С этим он справился успешно.
Следующее задание - переделать воркфлоу под два входных изображения.
Тут он сначала стал мне смешивать входные картинки и пришлось объяснить что надо их сшивать бок о бок, а не накладывать друг на друга полупрозрачно. Оказывается в комфи для этого есть специальная нода, а я и не знал. Короче, справился. Сам QIE при сборке по референсам теряет реализм, меняет лица и вообще путается. Полагаю, тут есть свои хитрости, которых я не знаю.
Удивительно, но QIE с малошаговой лорой Qwen-image-lightning-8steps справляется с заданием лучше чем без нее - см картинки со скамейкой. Монохромную голову выдал без лоры
Далее я замахнулся на Wan2.2-Fun-A14B-Control-GGUF
А то квантизованные модели есть, а воркфлоу только под fp8. А я ж не шарю за пресижны-квантизации, а они все между собой не дружат. Ну и вот после попыток десяти удалось собрать рабочий воркфлоу под GGUF. Да, вместо свидетеля нафантазировал свидетельницу, зато четко по позе ахах. Изначально располагайте персонажа по контролнету и уже потом пихайте в Fun-Control чтобы такого не было.
В общем для такого нуба как я Copilot оказался полезен. Хотя иногда выдает полную дичь. Токен дают бесплатно при активации. С моим количеством запросов я еще не сталкивался с ограничениями.
Кому надо, воркфлоу закину в коменты. Но сильно не радуйтесь, у меня они кривые и неупорядоченные.
#neuronaut_art #workflow #wan22 #qwenimage
У меня всего 16Gb VRAM, не разгуляешься.
Поэтому первой задачей было переписать стандартный воркфлоу из менюшки с темплейтами под GGUF модель - впихнуть невпихуемое.
С этим он справился успешно.
Следующее задание - переделать воркфлоу под два входных изображения.
Тут он сначала стал мне смешивать входные картинки и пришлось объяснить что надо их сшивать бок о бок, а не накладывать друг на друга полупрозрачно. Оказывается в комфи для этого есть специальная нода, а я и не знал. Короче, справился. Сам QIE при сборке по референсам теряет реализм, меняет лица и вообще путается. Полагаю, тут есть свои хитрости, которых я не знаю.
Удивительно, но QIE с малошаговой лорой Qwen-image-lightning-8steps справляется с заданием лучше чем без нее - см картинки со скамейкой. Монохромную голову выдал без лоры
Далее я замахнулся на Wan2.2-Fun-A14B-Control-GGUF
А то квантизованные модели есть, а воркфлоу только под fp8. А я ж не шарю за пресижны-квантизации, а они все между собой не дружат. Ну и вот после попыток десяти удалось собрать рабочий воркфлоу под GGUF. Да, вместо свидетеля нафантазировал свидетельницу, зато четко по позе ахах. Изначально располагайте персонажа по контролнету и уже потом пихайте в Fun-Control чтобы такого не было.
В общем для такого нуба как я Copilot оказался полезен. Хотя иногда выдает полную дичь. Токен дают бесплатно при активации. С моим количеством запросов я еще не сталкивался с ограничениями.
Кому надо, воркфлоу закину в коменты. Но сильно не радуйтесь, у меня они кривые и неупорядоченные.
#neuronaut_art #workflow #wan22 #qwenimage
❤9🔥4👍2
Pixie: Physics from Pixels
Модель добавляет физические свойства в 3D модели на #nerf и #gaussian
Мапит материалы с физическими свойствами на объекты на основе их внешнего вида за один форвард пасс, что позволяет проводить симуляции в реальном времени
Работает значительно быстрее (в 10³ раз) по сравнению с существующими методами
Код
Jupiter
#simulation #dymanics #material #physics
Модель добавляет физические свойства в 3D модели на #nerf и #gaussian
Мапит материалы с физическими свойствами на объекты на основе их внешнего вида за один форвард пасс, что позволяет проводить симуляции в реальном времени
Работает значительно быстрее (в 10³ раз) по сравнению с существующими методами
Код
Jupiter
#simulation #dymanics #material #physics
🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
Krea Realtime Video
Krea запускает генерацию видео в реальном времени (12+ fps). На вход принимает рисование, текстовые подсказки, веб-камеру или стрим экрана
Под капотом подход основан на современных идеях “модели мира”: системах, которые изучают, как развиваются события и как меняются действия во времени.
Записаться в вейтлист
Спасибо @Colorental
#realtime #video2video #sketch2video
Krea запускает генерацию видео в реальном времени (12+ fps). На вход принимает рисование, текстовые подсказки, веб-камеру или стрим экрана
Под капотом подход основан на современных идеях “модели мира”: системах, которые изучают, как развиваются события и как меняются действия во времени.
Записаться в вейтлист
Спасибо @Colorental
#realtime #video2video #sketch2video
🔥8👍3
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
Модель от ByteDance, наследник UNO.
Позволяет свободно комбинировать любые предметы с любыми стилями в различных сценариях
Есть режим Low VRAM, пиковое потребление 16GB (один референс) и ~18GB (мультиреференс)
Сама модель представляет собой лору для Flux.dev, так что и на 8Gb можно будет завести
Код
Демо
HF
#personalization #referencing #text2image #image2image
Модель от ByteDance, наследник UNO.
Позволяет свободно комбинировать любые предметы с любыми стилями в различных сценариях
Есть режим Low VRAM, пиковое потребление 16GB (один референс) и ~18GB (мультиреференс)
Сама модель представляет собой лору для Flux.dev, так что и на 8Gb можно будет завести
Код
Демо
HF
#personalization #referencing #text2image #image2image
1👍11❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Kimi Slides
В Kimi сделали генератор презентаций.
У меня на глазах сделал презу про Rock 'n' Roll: A Sonic Revolution. PPT кину в коменты
Обещают прикрутить адаптивную верстку, автопоиск картинок и агентные слайды (Что???👀 )
Попробовать
#assistant #text2slides #slides
В Kimi сделали генератор презентаций.
У меня на глазах сделал презу про Rock 'n' Roll: A Sonic Revolution. PPT кину в коменты
Обещают прикрутить адаптивную верстку, автопоиск картинок и агентные слайды (Что???
Попробовать
#assistant #text2slides #slides
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤2👍2
GMC: Global Motion Corresponder for 3D Point-Based Scene Interpolation under Large Motion
Интерполяция 3D сцен на гауссианах при большом движении.
Метод позволяет решать проблему некорректной работы традиционных техник при отклонениях от предположения о малых движениях между кадрами
Среди авторов Nvidia и Google
Код ждем
#gaussian
Интерполяция 3D сцен на гауссианах при большом движении.
Метод позволяет решать проблему некорректной работы традиционных техник при отклонениях от предположения о малых движениях между кадрами
Среди авторов Nvidia и Google
Код ждем
#gaussian
👍5