Rex-Omni: Detect Anything via Next Point Prediction
Детектор объектов на изображении на базе Based on Qwen2.5-VL-3B
Помимо прочих обычнх задач детектора определяет ключевые точки (например, 17 суставов у людей и животных), создавая структурированные представления поз.
Гитхаб
HF
Демо
#detection #vlm
Детектор объектов на изображении на базе Based on Qwen2.5-VL-3B
Помимо прочих обычнх задач детектора определяет ключевые точки (например, 17 суставов у людей и животных), создавая структурированные представления поз.
Гитхаб
HF
Демо
#detection #vlm
👍7🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
ComfyUI SeC Nodes
Кастом ноды июльского сегментатора SeC
Новые веса модели - удобно как мы любим, в одном фале. Есть fp16, fp8, bf16, fp32
Туториал от ArtOficial
воркфлоу
#workflow #tutorial #segmentation #video2mask
Кастом ноды июльского сегментатора SeC
Новые веса модели - удобно как мы любим, в одном фале. Есть fp16, fp8, bf16, fp32
Туториал от ArtOficial
воркфлоу
#workflow #tutorial #segmentation #video2mask
🔥9👍6
MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos
Точная быстрая реконструкция параметров камеры и карт глубины по обычным видеозаписям динамичных сцен. Проект при участии Google Research.
Обрабатывает видео с частотой примерно 0,7 кадра в секунду (на Nvidia A100)
На сайте есть интерактивная галерея результатов
Код
#segmentation
Точная быстрая реконструкция параметров камеры и карт глубины по обычным видеозаписям динамичных сцен. Проект при участии Google Research.
Обрабатывает видео с частотой примерно 0,7 кадра в секунду (на Nvidia A100)
На сайте есть интерактивная галерея результатов
Код
#segmentation
👍5
TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
Отслеживание объектов на видео.
Когда эту штуку выложат в опенсорс, ее загрузят роботам в мозги чтобы они более лучше нас преследовали
#tracking #research
Отслеживание объектов на видео.
Когда эту штуку выложат в опенсорс, ее загрузят роботам в мозги чтобы они более лучше нас преследовали
#tracking #research
😁5❤2😱2
Qwen-Image-Edit-Rapid-AIO обновился
Добавили v4 и v5
#optimization #imageediting #workflow #nsfw
Добавили v4 и v5
v4: Сочетание множества редакторов Qwen Edit и базовых ускорителей Qwen, которые, как мне кажется, дают лучшие результаты. Добавлена небольшая коррекция кожи LORA. 4-5 шагов: используйте sa_solver/simple, lcm/beta или euler_a/beta и 6-8 шагов: используйте только lcm/beta или euler_a/beta.
v5: Варианты использования NSFW и SFWW слишком сильно мешали друг другу, поэтому я разделил их, чтобы специализироваться на их вариантах использования. В версии 5 были значительно изменены настройки NSFW LoRa, а также некоторые настройки ускорителя. обычно рекомендуется использовать lcm/beta или er_sde/beta. Пожалуйста, поэкспериментируйте! Хотите получить реалистичный и/или "откровенный" вид без использования входных изображений? Попробуйте lcm/ddim_uniform с моделью NSFW!
#optimization #imageediting #workflow #nsfw
Telegram
Нейронавт | Нейросети в творчестве
Qwen-Image-Edit-Rapid-AIO
Мердж ускорителей, VAE и CLIP #QIE для быстрого редактирования изображений. Если использовать без входных изображений, будет просто создавать изображения по тексту.
Три версии по 29 ГБ каждая
V1: Qwen-Image-Edit-2509 и 4-step…
Мердж ускорителей, VAE и CLIP #QIE для быстрого редактирования изображений. Если использовать без входных изображений, будет просто создавать изображения по тексту.
Три версии по 29 ГБ каждая
V1: Qwen-Image-Edit-2509 и 4-step…
👍12👎1
VEO 3.1 завезли в API ноды ComfyUI
А в Google Flow появилась функция редактирования видео.
#news #text2video #image2video #videoediting
А в Google Flow появилась функция редактирования видео.
#news #text2video #image2video #videoediting
🔥11👎2
This media is not supported in your browser
VIEW IN TELEGRAM
FLASHVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution
Апскейл-реставрация видео в реальном времени на базе WAN 2.1
∼17 FPS for 768 × 1408 на одном A100 GPU
Рекомендуют всегда делать апскейл 4x для лучших результатов
Использует три ключевых инновации: трёхэтапный процесс дистилляции для потокового суперразрешения, локально ограниченное разрежённое внимание для сокращения избыточных вычислений и крошечный условный декодер для ускорения реконструкции без потери качества
Уже добавлен в #ComfyUI
HF
Гитхаб
Воркфлоу уже у нас в чате
Веса у Kijai для Comfy
Спасибо @Qwinty
#upscale #upscalevideo #videorestoration #superresolution #workflow #realtime
Апскейл-реставрация видео в реальном времени на базе WAN 2.1
∼17 FPS for 768 × 1408 на одном A100 GPU
Рекомендуют всегда делать апскейл 4x для лучших результатов
Использует три ключевых инновации: трёхэтапный процесс дистилляции для потокового суперразрешения, локально ограниченное разрежённое внимание для сокращения избыточных вычислений и крошечный условный декодер для ускорения реконструкции без потери качества
Уже добавлен в #ComfyUI
HF
Гитхаб
Воркфлоу уже у нас в чате
Веса у Kijai для Comfy
Спасибо @Qwinty
#upscale #upscalevideo #videorestoration #superresolution #workflow #realtime
👍13🔥8❤1
FlashWorld: High-quality 3D Scene Generation within Seconds
Генератор 3D-сцен из одного изображения или текстового запроса.
Работает быстрее аналогов и обеспечивает более высокое качество рендеринга.
Под капотом гауссианы, но при этом авторы постарались избавиться от неконсистентности которую они дают.
Генерирует сцену за 7 секунд на одном GPU
Код
#image2scene #imageto3d #gaussian
Генератор 3D-сцен из одного изображения или текстового запроса.
Работает быстрее аналогов и обеспечивает более высокое качество рендеринга.
Под капотом гауссианы, но при этом авторы постарались избавиться от неконсистентности которую они дают.
Генерирует сцену за 7 секунд на одном GPU
Код
#image2scene #imageto3d #gaussian
👍7🔥4❤1
Нейронавт | Нейросети в творчестве
FLASHVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution Апскейл-реставрация видео в реальном времени на базе WAN 2.1 ∼17 FPS for 768 × 1408 на одном A100 GPU Рекомендуют всегда делать апскейл 4x для лучших результатов Использует три…
This media is not supported in your browser
VIEW IN TELEGRAM
офигеть! всего 115 секунд на моей 4060
Я думал ну полчаса подожду
ДА, лицо, буквы, лого и цвет исказил но я впечатлен!
Я думал ну полчаса подожду
ДА, лицо, буквы, лого и цвет исказил но я впечатлен!
🔥8👍3❤1😐1
This media is not supported in your browser
VIEW IN TELEGRAM
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
Унифицированная модель для глубокого понимания изображений и видео от ByteDance
Сочетает SAM2 с LLaVA для #SOTA в сегментации и обсуждения визуального контента.
Линейка от 1.5B до 7B на базе Qwen2.5-VL и InternVL2.5/3
Гитхаб
Демо
Демо градио - сейчас не работает
#segmentation #vlm #assistant #video2text #vide2mask #captiopning
Унифицированная модель для глубокого понимания изображений и видео от ByteDance
Сочетает SAM2 с LLaVA для #SOTA в сегментации и обсуждения визуального контента.
Линейка от 1.5B до 7B на базе Qwen2.5-VL и InternVL2.5/3
Гитхаб
Демо
Демо градио - сейчас не работает
#segmentation #vlm #assistant #video2text #vide2mask #captiopning
🔥4
MobileLLM-P1
Компактная LLM для мобилок от Meta (запрещено в РФ) на 2.2 ГБ
Контекстное окно до 128 тысяч токенов
Использует комбинацию локального и глобального внимания, сокращая время предварительного заполнения и уменьшая размер кэша KV
Есть базовая модель и Instruct. Обе видимо квантованые
Русского, похоже, не знает, но вообще для крохотной модельки хорош
Доступ к весам по запросу. Попробовать в чате можно на HF:
Демо
#assistant #mobile
Компактная LLM для мобилок от Meta (запрещено в РФ) на 2.2 ГБ
Контекстное окно до 128 тысяч токенов
Использует комбинацию локального и глобального внимания, сокращая время предварительного заполнения и уменьшая размер кэша KV
Есть базовая модель и Instruct. Обе видимо квантованые
Русского, похоже, не знает, но вообще для крохотной модельки хорош
Доступ к весам по запросу. Попробовать в чате можно на HF:
Демо
#assistant #mobile
👍6