WAN Image
Оказалось что WAN отлично генерит картинки, даже
Цитата потому что я таких выводов не делал
какой-то воркфлоу
какой-то воркфлоу WAN 2.1FusionX_14B_Image Generator
Smartphone Snapshot Photo Reality - можно использовать лору
вокрфлоу с лорой
wan2.1 controlnets - можно и контролнеты
Видео от AItrepreneur
Спасибо за наводку @edyukov
#lora #text2image #workflow
Оказалось что WAN отлично генерит картинки, даже
лучше чем Flux и HiDream
Цитата потому что я таких выводов не делал
какой-то воркфлоу
какой-то воркфлоу WAN 2.1FusionX_14B_Image Generator
Smartphone Snapshot Photo Reality - можно использовать лору
вокрфлоу с лорой
wan2.1 controlnets - можно и контролнеты
Видео от AItrepreneur
Спасибо за наводку @edyukov
#lora #text2image #workflow
👍17🔥2❤1
PyVision: Agentic Vision with Dynamic Tooling
Так, агенты добрались и до визуального понимания.
PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.
Например, создает код на питоне для решения задачи
Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI
Код
Демо
#vlm #agent #image2text
Так, агенты добрались и до визуального понимания.
PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.
Например, создает код на питоне для решения задачи
Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI
Код
Демо
#vlm #agent #image2text
👍7
PromptTea: Let Prompts Tell TeaCache the Optimal Threshold
Новый метод ускорения видеогенерации
Модель анализирует промпты и на основе их сложности автоматически настраивает процесс генерации видео.
Для простых видео модель работает быстрее, а для сложных — более внимательно, сохраняя высокое качество
Ускорение генерации в 2,79 раз при минимальной потере качества.
Поддерживает CogVideoX1.5, HunyuanVideo и Wan2.1
Код
#optimization
Новый метод ускорения видеогенерации
Модель анализирует промпты и на основе их сложности автоматически настраивает процесс генерации видео.
Для простых видео модель работает быстрее, а для сложных — более внимательно, сохраняя высокое качество
Ускорение генерации в 2,79 раз при минимальной потере качества.
Поддерживает CogVideoX1.5, HunyuanVideo и Wan2.1
Код
#optimization
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
SpatialTrackerV2: 3D Point Tracking Made Easy
Ура, новый трекер. Создан при участии ByteDance
Определяет движение камеры, геометрию сцены и траектории точек в пространстве. Работает в режиме реального времени
Код
Демо
#tracking #realtime
Ура, новый трекер. Создан при участии ByteDance
Определяет движение камеры, геометрию сцены и траектории точек в пространстве. Работает в режиме реального времени
Код
Демо
#tracking #realtime
🔥11👍1
Media is too big
VIEW IN TELEGRAM
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS
Модель умеет быстро обрабатывать и понимать изображения в трёхмерном пространстве, используя язык. Находит объекты на картинках и определяет их местоположение с высокой точностью.
Был похожий проект
Код
#video2mask #segmentation #gaussian
Модель умеет быстро обрабатывать и понимать изображения в трёхмерном пространстве, используя язык. Находит объекты на картинках и определяет их местоположение с высокой точностью.
Был похожий проект
Код
#video2mask #segmentation #gaussian
👍10🔥1
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
Генератор картинок по тексту в 4K.
В деле замешаны SD3-2B и Flux-12B
Сайта нет, проект исследовательский
Код
#text2image
Генератор картинок по тексту в 4K.
В деле замешаны SD3-2B и Flux-12B
Сайта нет, проект исследовательский
Код
#text2image
👍13
Media is too big
VIEW IN TELEGRAM
Copart: Contextual Part Latents for 3D Generation
Очередной генератор 3D по частям
Сложные вещи разбивает на более простые части.
Учитывает как эти части связаны друг с другом, и может управлять каждой из них по отдельности.
Код
#imageto3d #3d
Очередной генератор 3D по частям
Сложные вещи разбивает на более простые части.
Учитывает как эти части связаны друг с другом, и может управлять каждой из них по отдельности.
Код
#imageto3d #3d
👍8
Небось уже слышали про робота Reachy Mini за $299 от HuggingFace, на котором можно запускать демоспейсы?
Теперь они выпускают в опенсорс проект роборуки HopeJR, которую можно напечатать на 3D принтере и собрать за $500
#robot
Теперь они выпускают в опенсорс проект роборуки HopeJR, которую можно напечатать на 3D принтере и собрать за $500
#robot
❤6👍2🔥2🥴2
Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models
Добавление объектов на изображение от NVIDIA
По текстовому описанию
Код
Демо
#imageediting #inpainting
Добавление объектов на изображение от NVIDIA
По текстовому описанию
Код
Демо
#imageediting #inpainting
❤8👍4
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering
Метод представления (и рендеринга) 3D сцен в виде сжатых токенов светового поля (CLiFT). Метод хорошо сохраняет геометрическую информацию.
На сайте есть сравнение с методами LVSM от Adobe и DepthSplat от Microsoft
Код ждем к 1 августа
#image2scene #rendering #novelview
Метод представления (и рендеринга) 3D сцен в виде сжатых токенов светового поля (CLiFT). Метод хорошо сохраняет геометрическую информацию.
На сайте есть сравнение с методами LVSM от Adobe и DepthSplat от Microsoft
Код ждем к 1 августа
#image2scene #rendering #novelview
🔥4👍1
PUSA V1.0: Surpassing Wan-I2V-14B with $500 Training Cost
Новый видеогенератор, использующий особый метод управления временем в видео (vectorized timestep adaptation). Благодаря этому при генерации использует меньше данных и ресурсов по сравнению с другими моделями.
Это затюненный всего за $500 Wan-T2V-14B на 4K датасете.
Побил своего папу Wan-T2V-14B на VBench-I2V с 10 шагами инференса.
Возможности:
- создание видео из одного или нескольких изображений
- продление существующих видео
- генерация по начальному и конечному кадрам
- ну и создание видео по текстовому описанию.
Ждем кванты и дистиллы
Код
Веса
#text2video #image2video #videoediting
Новый видеогенератор, использующий особый метод управления временем в видео (vectorized timestep adaptation). Благодаря этому при генерации использует меньше данных и ресурсов по сравнению с другими моделями.
Это затюненный всего за $500 Wan-T2V-14B на 4K датасете.
Побил своего папу Wan-T2V-14B на VBench-I2V с 10 шагами инференса.
Возможности:
- создание видео из одного или нескольких изображений
- продление существующих видео
- генерация по начальному и конечному кадрам
- ну и создание видео по текстовому описанию.
Ждем кванты и дистиллы
Код
Веса
#text2video #image2video #videoediting
👍13🔥3🤔3❤1