Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation
Сегментация 3D-объектов с открытым словарём.
На вход принимает RGBD или 3D сцены
Модель из 2024 года, но держит #SOTA на наборах данных ScanNet200 и Replica.
Hаботает в 16 раз быстрее, чем лучшие существующие методы
Использует только 2D-обнаружение объектов на многовидовых RGB-изображениях, без необходимости применять ресурсоёмкие 2D базовые модели вроде Segment Anything (SAM) и CLIP
Код
#segmentation #segmentation3d
Сегментация 3D-объектов с открытым словарём.
На вход принимает RGBD или 3D сцены
Модель из 2024 года, но держит #SOTA на наборах данных ScanNet200 и Replica.
Hаботает в 16 раз быстрее, чем лучшие существующие методы
Использует только 2D-обнаружение объектов на многовидовых RGB-изображениях, без необходимости применять ресурсоёмкие 2D базовые модели вроде Segment Anything (SAM) и CLIP
Код
#segmentation #segmentation3d
🔥5
Wan2.2-I2V-A14B-Moe-Distill-Lightx2v
На днях вышла какая-то непонятная обновка Distill-Lightx2v лоры, без описания. Вернее с описанием о от обычной Distill-Lightx2v
Люди советуют пользоваться версией Kijai
Обсуждение на реддит
Спасибо @rekonkast
#wan22 #lora
На днях вышла какая-то непонятная обновка Distill-Lightx2v лоры, без описания. Вернее с описанием о от обычной Distill-Lightx2v
Люди советуют пользоваться версией Kijai
Обсуждение на реддит
Спасибо @rekonkast
#wan22 #lora
huggingface.co
lightx2v/Wan2.2-I2V-A14B-Moe-Distill-Lightx2v · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍7
Rex-Omni: Detect Anything via Next Point Prediction
Детектор объектов на изображении на базе Based on Qwen2.5-VL-3B
Помимо прочих обычнх задач детектора определяет ключевые точки (например, 17 суставов у людей и животных), создавая структурированные представления поз.
Гитхаб
HF
Демо
#detection #vlm
Детектор объектов на изображении на базе Based on Qwen2.5-VL-3B
Помимо прочих обычнх задач детектора определяет ключевые точки (например, 17 суставов у людей и животных), создавая структурированные представления поз.
Гитхаб
HF
Демо
#detection #vlm
👍7🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
ComfyUI SeC Nodes
Кастом ноды июльского сегментатора SeC
Новые веса модели - удобно как мы любим, в одном фале. Есть fp16, fp8, bf16, fp32
Туториал от ArtOficial
воркфлоу
#workflow #tutorial #segmentation #video2mask
Кастом ноды июльского сегментатора SeC
Новые веса модели - удобно как мы любим, в одном фале. Есть fp16, fp8, bf16, fp32
Туториал от ArtOficial
воркфлоу
#workflow #tutorial #segmentation #video2mask
🔥9👍6
MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos
Точная быстрая реконструкция параметров камеры и карт глубины по обычным видеозаписям динамичных сцен. Проект при участии Google Research.
Обрабатывает видео с частотой примерно 0,7 кадра в секунду (на Nvidia A100)
На сайте есть интерактивная галерея результатов
Код
#segmentation
Точная быстрая реконструкция параметров камеры и карт глубины по обычным видеозаписям динамичных сцен. Проект при участии Google Research.
Обрабатывает видео с частотой примерно 0,7 кадра в секунду (на Nvidia A100)
На сайте есть интерактивная галерея результатов
Код
#segmentation
👍5
TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
Отслеживание объектов на видео.
Когда эту штуку выложат в опенсорс, ее загрузят роботам в мозги чтобы они более лучше нас преследовали
#tracking #research
Отслеживание объектов на видео.
Когда эту штуку выложат в опенсорс, ее загрузят роботам в мозги чтобы они более лучше нас преследовали
#tracking #research
😁5❤2😱2
Qwen-Image-Edit-Rapid-AIO обновился
Добавили v4 и v5
#optimization #imageediting #workflow #nsfw
Добавили v4 и v5
v4: Сочетание множества редакторов Qwen Edit и базовых ускорителей Qwen, которые, как мне кажется, дают лучшие результаты. Добавлена небольшая коррекция кожи LORA. 4-5 шагов: используйте sa_solver/simple, lcm/beta или euler_a/beta и 6-8 шагов: используйте только lcm/beta или euler_a/beta.
v5: Варианты использования NSFW и SFWW слишком сильно мешали друг другу, поэтому я разделил их, чтобы специализироваться на их вариантах использования. В версии 5 были значительно изменены настройки NSFW LoRa, а также некоторые настройки ускорителя. обычно рекомендуется использовать lcm/beta или er_sde/beta. Пожалуйста, поэкспериментируйте! Хотите получить реалистичный и/или "откровенный" вид без использования входных изображений? Попробуйте lcm/ddim_uniform с моделью NSFW!
#optimization #imageediting #workflow #nsfw
Telegram
Нейронавт | Нейросети в творчестве
Qwen-Image-Edit-Rapid-AIO
Мердж ускорителей, VAE и CLIP #QIE для быстрого редактирования изображений. Если использовать без входных изображений, будет просто создавать изображения по тексту.
Три версии по 29 ГБ каждая
V1: Qwen-Image-Edit-2509 и 4-step…
Мердж ускорителей, VAE и CLIP #QIE для быстрого редактирования изображений. Если использовать без входных изображений, будет просто создавать изображения по тексту.
Три версии по 29 ГБ каждая
V1: Qwen-Image-Edit-2509 и 4-step…
👍12👎1
VEO 3.1 завезли в API ноды ComfyUI
А в Google Flow появилась функция редактирования видео.
#news #text2video #image2video #videoediting
А в Google Flow появилась функция редактирования видео.
#news #text2video #image2video #videoediting
🔥11👎2
This media is not supported in your browser
VIEW IN TELEGRAM
FLASHVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
Апскейл-реставрация видео в реальном времени на базе WAN 2.1
∼17 FPS for 768 × 1408 на одном A100 GPU
Рекомендуют всегда делать апскейл 4x для лучших результатов
Использует три ключевых инновации: трёхэтапный процесс дистилляции для потокового суперразрешения, локально ограниченное разрежённое внимание для сокращения избыточных вычислений и крошечный условный декодер для ускорения реконструкции без потери качества
Уже добавлен в #ComfyUI
HF
Гитхаб
Воркфлоу уже у нас в чате
Веса у Kijai для Comfy
Спасибо @Qwinty
#upscale #upscalevideo #videorestoration #superresolution #workflow #realtime
Апскейл-реставрация видео в реальном времени на базе WAN 2.1
∼17 FPS for 768 × 1408 на одном A100 GPU
Рекомендуют всегда делать апскейл 4x для лучших результатов
Использует три ключевых инновации: трёхэтапный процесс дистилляции для потокового суперразрешения, локально ограниченное разрежённое внимание для сокращения избыточных вычислений и крошечный условный декодер для ускорения реконструкции без потери качества
Уже добавлен в #ComfyUI
HF
Гитхаб
Воркфлоу уже у нас в чате
Веса у Kijai для Comfy
Спасибо @Qwinty
#upscale #upscalevideo #videorestoration #superresolution #workflow #realtime
👍13🔥8❤1
FlashWorld: High-quality 3D Scene Generation within Seconds
Генератор 3D-сцен из одного изображения или текстового запроса.
Работает быстрее аналогов и обеспечивает более высокое качество рендеринга.
Под капотом гауссианы, но при этом авторы постарались избавиться от неконсистентности которую они дают.
Генерирует сцену за 7 секунд на одном GPU
Код
#image2scene #imageto3d #gaussian
Генератор 3D-сцен из одного изображения или текстового запроса.
Работает быстрее аналогов и обеспечивает более высокое качество рендеринга.
Под капотом гауссианы, но при этом авторы постарались избавиться от неконсистентности которую они дают.
Генерирует сцену за 7 секунд на одном GPU
Код
#image2scene #imageto3d #gaussian
👍7🔥4❤1
Нейронавт | Нейросети в творчестве
FLASHVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution Апскейл-реставрация видео в реальном времени на базе WAN 2.1 ∼17 FPS for 768 × 1408 на одном A100 GPU Рекомендуют всегда делать апскейл 4x для лучших результатов Использует три…
This media is not supported in your browser
VIEW IN TELEGRAM
офигеть! всего 115 секунд на моей 4060
Я думал ну полчаса подожду
ДА, лицо, буквы, лого и цвет исказил но я впечатлен!
Я думал ну полчаса подожду
ДА, лицо, буквы, лого и цвет исказил но я впечатлен!
🔥8👍3❤1😐1