This media is not supported in your browser
VIEW IN TELEGRAM
VidToMe: Video Token Merging for Zero-Shot Video Editing
Манипуляции с видео: стилизация, замена фона/объекта.
Под капотом, похоже, SD2+controlnet
Код
#video2video #stylization
Манипуляции с видео: стилизация, замена фона/объекта.
Под капотом, похоже, SD2+controlnet
Код
#video2video #stylization
👍8🥴1
IntraPaint
Редактор картинок на базе Forge/A1111 (запускать с ключом --api). В будущем - и на ComfyUI
Гитхаб
Видео
#tools #imageediting #text2image #image2image #inpainting
Редактор картинок на базе Forge/A1111 (запускать с ключом --api). В будущем - и на ComfyUI
Гитхаб
Видео
#tools #imageediting #text2image #image2image #inpainting
🔥5🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
Улучшенный SAM2 для сегментации длинных видео
Код
#segmentation #video2mask
Улучшенный SAM2 для сегментации длинных видео
Код
#segmentation #video2mask
🔥5
Flux.1 Lite alfa
альфа-версия Flux.1 Lite от Freepik с 8B параметров, дистилированной из FLUX.1-dev (а dev, напоминаю - дистилированная из pro). Эта версия использует на 7 ГБ меньше оперативной памяти и работает на 23% быстрее при сохранении той же точности (bfloat16), что и оригинальная модель.
Репозиторий на HF
#flux #text2image
альфа-версия Flux.1 Lite от Freepik с 8B параметров, дистилированной из FLUX.1-dev (а dev, напоминаю - дистилированная из pro). Эта версия использует на 7 ГБ меньше оперативной памяти и работает на 23% быстрее при сохранении той же точности (bfloat16), что и оригинальная модель.
Репозиторий на HF
#flux #text2image
❤7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
VistaDream: Sampling multiview consistent images for single-view scene reconstruction
Дерзко. Создает 3D сцену на гауссианах из одной картинки
Код
Галерея
#gaussian #image2scene #imageto3d #image2gaussian
Дерзко. Создает 3D сцену на гауссианах из одной картинки
Код
Галерея
#gaussian #image2scene #imageto3d #image2gaussian
🔥14🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
MFLUX-WEBUI
Для вас, маководы
GUI для работы с #Flux
Контролнет, интерграция с Civitai и прочие свистоперделки в комплекте
Есть в Pinokio
Гитхаб
#tools #mac
Для вас, маководы
GUI для работы с #Flux
Контролнет, интерграция с Civitai и прочие свистоперделки в комплекте
Есть в Pinokio
Гитхаб
#tools #mac
👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Computer Use - OOTB
Уже слышали про Claude Computer Use?
Приложение-агент от Anthropic для автоматизации любых задач на локальном компьютере?
Вот вам способ установки без докера. Бонусом - удаленное управление компом с мобилки.
Код
Альтернатива: agent.exe
#assistant #agent #tools
Уже слышали про Claude Computer Use?
Приложение-агент от Anthropic для автоматизации любых задач на локальном компьютере?
Вот вам способ установки без докера. Бонусом - удаленное управление компом с мобилки.
Код
Альтернатива: agent.exe
#assistant #agent #tools
👏2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
KlingAI Virtual Try-On
Если вам не хватало виртуальных примерочных то вот еще одна, на API клинга
Код
#image2image
Если вам не хватало виртуальных примерочных то вот еще одна, на API клинга
Код
#image2image
👍2❤1
OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent
Познакомьтесь с OmniParser — компактным модулем анализа экрана, который может преобразовывать скриншоты пользовательского интерфейса в структурированные элементы. OmniParser можно использовать с различными моделями для создания агентов, способных выполнять действия в пользовательских интерфейсах. При использовании с GPT-4V он значительно повышает способность агента генерировать точные действия для областей интерфейса.
Иначе говоря, OmniParser+GPT-4V = конкурент Claude Computer Use
Код
#screen2text #agent #assistant
Познакомьтесь с OmniParser — компактным модулем анализа экрана, который может преобразовывать скриншоты пользовательского интерфейса в структурированные элементы. OmniParser можно использовать с различными моделями для создания агентов, способных выполнять действия в пользовательских интерфейсах. При использовании с GPT-4V он значительно повышает способность агента генерировать точные действия для областей интерфейса.
Иначе говоря, OmniParser+GPT-4V = конкурент Claude Computer Use
Код
#screen2text #agent #assistant
👍3
Нейронавт | Нейросети в творчестве
OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent Познакомьтесь с OmniParser — компактным модулем анализа экрана, который может преобразовывать скриншоты пользовательского интерфейса в структурированные элементы. OmniParser можно использовать…
This media is not supported in your browser
VIEW IN TELEGRAM
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
Ну и оказывается, у Apple есть чем крыть.
Понималка мобильных интерфейсов.
Есть только препринт
#screen2text #agent #assistant
Ну и оказывается, у Apple есть чем крыть.
Понималка мобильных интерфейсов.
Есть только препринт
#screen2text #agent #assistant
👍2❤1🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Framer: Interactive Frame Interpolation
Интерполяция кадров с контролем траектории.
Кажется, пора уже вводить термин креативная интерполяция кадров
Код ждем 28 октября
Демо ждем
#frameinterpolation #slowmotion #motioncontrol
Интерполяция кадров с контролем траектории.
Кажется, пора уже вводить термин креативная интерполяция кадров
Код ждем 28 октября
Демо ждем
#frameinterpolation #slowmotion #motioncontrol
🔥8
Media is too big
VIEW IN TELEGRAM
❤28🔥3👍2💩2😱1
IC-Light V2
Вторая версия релайтера, на базе Flux
Умеет корректно работать со стилизованными изображениями, нативное высокое разрешение
Код ждем
Демо пробуем
#relighting
Вторая версия релайтера, на базе Flux
Умеет корректно работать со стилизованными изображениями, нативное высокое разрешение
Код ждем
Демо пробуем
#relighting
👍18🔥3