4KAgent: Agentic Any Image to 4K Super-Resolution
Думающий агентный апскейл изображений до 4K при участии Topaz Labs
Анализирует изображение, создает его детальное описание и выбирает стратегию в зависимости от домена, типа и степени повреждений.
Природа выглядит так себе, как фрактальный апскейл
Аэрофотосъемка - линии кривые, в остальном хорошо
Фэнтези - норм
Для установки требуется 50 ГБ на диске. От 2 GPU (>=24 GB VRAM - непонятно каждый или всего)
Код
#upscale #agent
Думающий агентный апскейл изображений до 4K при участии Topaz Labs
Анализирует изображение, создает его детальное описание и выбирает стратегию в зависимости от домена, типа и степени повреждений.
Природа выглядит так себе, как фрактальный апскейл
Аэрофотосъемка - линии кривые, в остальном хорошо
Фэнтези - норм
Для установки требуется 50 ГБ на диске. От 2 GPU (>=24 GB VRAM - непонятно каждый или всего)
Код
#upscale #agent
😁7👍3😱1
This media is not supported in your browser
VIEW IN TELEGRAM
TinyWorlds
Чел водиночку попытался воспроизвести архитектуру Genie в минималистичном виде. Потратил на это месяц. Вот что получилось.
С ним уже хотят пообщаться люди из команд разрабатывающих генераторы миров.
Твиттер
Гитхаб
#text2world #research #text2game
Чел водиночку попытался воспроизвести архитектуру Genie в минималистичном виде. Потратил на это месяц. Вот что получилось.
С ним уже хотят пообщаться люди из команд разрабатывающих генераторы миров.
Твиттер
Гитхаб
#text2world #research #text2game
🔥8❤1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Ух ты, Хуньяньский опенсорснул часть Hunyuan Studio ответственную за сегментацию полигональных объектов.
Там два метода:
P3-SAM: модель сегментации деталей в формате 3D.
X-Part: модель генерации деталей, обеспечивающая топовые результаты в области управляемости и качества формы.
Код https://github.com/Tencent-Hunyuan/Hunyuan3D-Part
Веса: https://huggingface.co/tencent/Hunyuan3D-Part
Подробнее тут:
https://murcherful.github.io/P3-SAM/
https://yanxinhao.github.io/Projects/X-Part/
@cgevent
Там два метода:
P3-SAM: модель сегментации деталей в формате 3D.
X-Part: модель генерации деталей, обеспечивающая топовые результаты в области управляемости и качества формы.
Код https://github.com/Tencent-Hunyuan/Hunyuan3D-Part
Веса: https://huggingface.co/tencent/Hunyuan3D-Part
Подробнее тут:
https://murcherful.github.io/P3-SAM/
https://yanxinhao.github.io/Projects/X-Part/
@cgevent
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Video models are zero-shot learners and reasoners
Выяснилось что Veo 3 способен решать многие визуальные задачи без дообучения
— может сегментировать объекты
— обнаруживает края
— редактирует изображения
— понимает физические свойства объектов
— распознаёт возможности использования объектов
— симулирует использование инструментов
— решает лабиринты
— определяет симметрию
— выявляет свойства материалов (например, воспламеняемость)
— моделирует преобразования жёстких и мягких тел
— работает с оптическими свойствами материалов (стекло, зеркала)
— удаляет фон
— выполняет перенос стиля
— раскрашивает изображения
— занимается дорисовкой и созданием новых видов сцен
— синтезирует новые ракурсы
— управляет манипуляциями с объектами (например, с банкой, при броске и ловле, с шарами Баодинг)
— распознаёт действия по визуальным инструкциям
Примеры по ссылке
Выходит, видеогенераторы могут стать базовой визуальной моделью подобно тому как LLM стали основой для обработки естественного языка
Исследование от Deepmind
#news #research
Выяснилось что Veo 3 способен решать многие визуальные задачи без дообучения
— может сегментировать объекты
— обнаруживает края
— редактирует изображения
— понимает физические свойства объектов
— распознаёт возможности использования объектов
— симулирует использование инструментов
— решает лабиринты
— определяет симметрию
— выявляет свойства материалов (например, воспламеняемость)
— моделирует преобразования жёстких и мягких тел
— работает с оптическими свойствами материалов (стекло, зеркала)
— удаляет фон
— выполняет перенос стиля
— раскрашивает изображения
— занимается дорисовкой и созданием новых видов сцен
— синтезирует новые ракурсы
— управляет манипуляциями с объектами (например, с банкой, при броске и ловле, с шарами Баодинг)
— распознаёт действия по визуальным инструкциям
Примеры по ссылке
Выходит, видеогенераторы могут стать базовой визуальной моделью подобно тому как LLM стали основой для обработки естественного языка
Исследование от Deepmind
#news #research
❤11👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Audio2Face-3D
NVIDIA выпустила в опенсорс свой аниматор говорящих 3D голов по звуку из 2022 года
Насколько помню, раньше она была доступна в Onmiverse
Видимо, технология уже не сильно актуальна?
В SDK есть плагины для #Maya и #UE
HF
#talkinghead #audio2animation #head #speech2animation #lipsync
NVIDIA выпустила в опенсорс свой аниматор говорящих 3D голов по звуку из 2022 года
Насколько помню, раньше она была доступна в Onmiverse
Видимо, технология уже не сильно актуальна?
В SDK есть плагины для #Maya и #UE
HF
#talkinghead #audio2animation #head #speech2animation #lipsync
❤3😁2👍1
Опубликованы модели и код видеоперсонализатора Lynx
Репозиторий содержит два варианта модели:
Модель Lynx Full (lynx_full): полная версия со всеми расширенными функциями и наилучшей производительностью
Модель Lynx Lite (lynx_lite): Облегченная версия, оптимизированная для сред с ограниченными ресурсами, с поддержкой видео со скоростью 24 кадра в секунду.
Гитхаб
HF
#personalization #referenceing #text2video #imge2video
Репозиторий содержит два варианта модели:
Модель Lynx Full (lynx_full): полная версия со всеми расширенными функциями и наилучшей производительностью
Модель Lynx Lite (lynx_lite): Облегченная версия, оптимизированная для сред с ограниченными ресурсами, с поддержкой видео со скоростью 24 кадра в секунду.
Гитхаб
HF
#personalization #referenceing #text2video #imge2video
Telegram
Нейронавт | Нейросети в творчестве
Lynx: Towards High-Fidelity Personalized Video Generation
ByteDance никак не угомонятся.
Видеогенератор с фокусом на персонализации на базе Wan 2.1, может быть интегрирован в существующие экосистемы
Сохраняет идентичность человека, используя два лёгких…
ByteDance никак не угомонятся.
Видеогенератор с фокусом на персонализации на базе Wan 2.1, может быть интегрирован в существующие экосистемы
Сохраняет идентичность человека, используя два лёгких…
❤5🔥1
Diffusion-Pipe In ComfyUI Custom Nodes
Кастом ноды для тренировки лор прямо в #ComfyUI
Список поддерживаемых моделей на скрине
#lora #finetuning #tools
Кастом ноды для тренировки лор прямо в #ComfyUI
Список поддерживаемых моделей на скрине
#lora #finetuning #tools
🔥21👍3
Pocket Comfy
Еще один интерфейс для удобного запуска генераций в #ComfyUI ориентированный на мобилки
Предусмотрена авторизация
#gui #tools #mobile
Еще один интерфейс для удобного запуска генераций в #ComfyUI ориентированный на мобилки
Предусмотрена авторизация
#gui #tools #mobile
👍5
VibeVoice-ComfyUI 1.5.0
Добавлена поддержка лор и контроль скорости речи: можно немного изменять скорость исходного аудио для приближения к желаемому темпу при клонировании голоса. Для лучших результатов рекомендуются образцы звука длиннее 20 секунд.
#podcast #voicecloning #tts #text2speech #text2podcast #comfyui
Добавлена поддержка лор и контроль скорости речи: можно немного изменять скорость исходного аудио для приближения к желаемому темпу при клонировании голоса. Для лучших результатов рекомендуются образцы звука длиннее 20 секунд.
#podcast #voicecloning #tts #text2speech #text2podcast #comfyui
🔥14
Media is too big
VIEW IN TELEGRAM
ByteDance опубликовали ресерч Seedream 4.0
А на сайте добавился видеоролик (его же раньше не было или я туплю?)
На арене открыли возможность сделать 5 генераций в день, но не факт что хоть в одну из них выпадет Seedream 4
Ну я поголосовал и на мой взгляд Seedream 4 уделывает всех по послушности, и картинка хорошая
#text2image #news
А на сайте добавился видеоролик (его же раньше не было или я туплю?)
На арене открыли возможность сделать 5 генераций в день, но не факт что хоть в одну из них выпадет Seedream 4
Ну я поголосовал и на мой взгляд Seedream 4 уделывает всех по послушности, и картинка хорошая
#text2image #news
👍6
Нейронавт | Нейросети в творчестве
Postshot v1 Вышел из беты инструмент полного цикла для работы с полями света (нерфы, гауссианы) Бета лицензия превратится в бесплатный тариф 26 сентября. На бесплатном тарифе рендер с вотермаком, входные изображения ограничены 8 бит. На двух платных тарифах…
Был недавно в Музее Арктики и Антакртики, снял модель медведя.
Запилил реконструкцию в PostShot, почистил в SuperSplat и там опубликовал
Делитесь своими поделками-экспериментами
#Neuronaut_art
Запилил реконструкцию в PostShot, почистил в SuperSplat и там опубликовал
Делитесь своими поделками-экспериментами
#Neuronaut_art
🔥23👍3❤2