Moondream 3 Preview
Превью 3 версии VLM для описания (и не только) изображений
— может отвечать на открытые вопросы об изображениях
— создаёт описания изображений разной длины: короткие, стандартные и длинные
— определяет координаты конкретных объектов на изображении
— предоставляет bounding boxes (ограничивающие рамки) для объектов на изображении
— поддерживает предварительное кодирование изображений для ускорения многократных запросов
— работает как с изображениями, так и как универсальная текстовая модель
Плейграунд попробовать
Демо HF
API
#vlm #captioning #detection #moe #cv #image2text
Превью 3 версии VLM для описания (и не только) изображений
— может отвечать на открытые вопросы об изображениях
— создаёт описания изображений разной длины: короткие, стандартные и длинные
— определяет координаты конкретных объектов на изображении
— предоставляет bounding boxes (ограничивающие рамки) для объектов на изображении
— поддерживает предварительное кодирование изображений для ускорения многократных запросов
— работает как с изображениями, так и как универсальная текстовая модель
Плейграунд попробовать
Демо HF
API
#vlm #captioning #detection #moe #cv #image2text
👍7❤3🔥1
Wan 2.2 Animate in ComfyUI
Вчерашний стрим #ComfyUI по Wan 2.2 Animate
Воркфлоу тот который вчера выкладывал
#image2video #video2video #characteranimation #chracterswap #faceswap
Вчерашний стрим #ComfyUI по Wan 2.2 Animate
Воркфлоу тот который вчера выкладывал
#image2video #video2video #characteranimation #chracterswap #faceswap
YouTube
Wan 2.2 Animate in ComfyUI with Flipping Sigmas
Special Guest: @FlippingSigmas
Join us live as we explore Wan2.2-Animate inside ComfyUI—a unified model designed for character animation and replacement, complete with naturalistic movement and expression replication.
We’ll dive into how Animate lets you…
Join us live as we explore Wan2.2-Animate inside ComfyUI—a unified model designed for character animation and replacement, complete with naturalistic movement and expression replication.
We’ll dive into how Animate lets you…
👍17
ARC-Qwen-Video
Версия ARC-Hunyuan-Video-7B с Qwen2.5-VL-7B-Instruct в качестве базовой модели.
Мультимодальная модель для понимания коротких видеороликов из реального мира. Обрабатывает визуальные, аудио- и текстовые сигналы
Синхронизирует визуальные и аудиосигналы, что позволяет отвечать на сложные вопросы, которые невозможно решить, используя только один тип данных
Определяет не только, что происходит в видео, но и когда это происходит, поддерживает детализированную временную разметку и обобщение событий
Знает китайский и английский
На скриншоте транскрибация демонстрационного видео (перевод с китайского)
ARC-Qwen-Video-7B
ARC-Qwen-Video-7B-Narrator - выдает описания видео с таймкодами, определяет личности говорящих в видео, распознаёт и транскрибирует речь
Гитхаб
Демо - вход по китайскому телефону
#vlm #assistant #video2text #asr #speech2text #stt
Версия ARC-Hunyuan-Video-7B с Qwen2.5-VL-7B-Instruct в качестве базовой модели.
Мультимодальная модель для понимания коротких видеороликов из реального мира. Обрабатывает визуальные, аудио- и текстовые сигналы
Синхронизирует визуальные и аудиосигналы, что позволяет отвечать на сложные вопросы, которые невозможно решить, используя только один тип данных
Определяет не только, что происходит в видео, но и когда это происходит, поддерживает детализированную временную разметку и обобщение событий
Знает китайский и английский
На скриншоте транскрибация демонстрационного видео (перевод с китайского)
ARC-Qwen-Video-7B
ARC-Qwen-Video-7B-Narrator - выдает описания видео с таймкодами, определяет личности говорящих в видео, распознаёт и транскрибирует речь
Гитхаб
Демо - вход по китайскому телефону
#vlm #assistant #video2text #asr #speech2text #stt
👍10
Media is too big
VIEW IN TELEGRAM
Vidu Q1 Reference to Image
Давно не заглядывали в Vidu?
Они прокачали генерацию видео по референсам. Чего-то там больше, что-то там лучше
Функция доступна на сайте и в мобильном приложении
#referencing #image2video #text2video
Давно не заглядывали в Vidu?
Они прокачали генерацию видео по референсам. Чего-то там больше, что-то там лучше
Функция доступна на сайте и в мобильном приложении
#referencing #image2video #text2video
👍9🍾1
This media is not supported in your browser
VIEW IN TELEGRAM
Давно не заглядывали в Morphic?
А у них теперь есть генерация видео по аннотациям на картинке
#annotate2video #image2video #sketch2video
А у них теперь есть генерация видео по аннотациям на картинке
#annotate2video #image2video #sketch2video
👍14😁1
Вот куда вы точно давно не заглядывали так это на Artbreeder
Они там конечно наплодили инструментов похожих один на другой для смешивания персонажей
Даже какой-то оживлятор персонажей есть
#referencing #inage2image #characteranimation
Они там конечно наплодили инструментов похожих один на другой для смешивания персонажей
Даже какой-то оживлятор персонажей есть
#referencing #inage2image #characteranimation
👀6❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Кожаные пытаются заставить робота перестать танцевать нижний брейк потому что он слишком невыносимо хорош
#humor #robot
#humor #robot
😁17😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Recraft Chat Mode
Recraft запустил бета-тестирование создания и редактирования картинок в чате.
У Reve есть, у Krea есть, значит у рекрафта тоже должно быть. скоро будет везде.
Записаться в вейтлист
#imageediting
Recraft запустил бета-тестирование создания и редактирования картинок в чате.
У Reve есть, у Krea есть, значит у рекрафта тоже должно быть. скоро будет везде.
Записаться в вейтлист
#imageediting
👍7🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration
Реставратор видео от Alibaba - Taobao, улучшает качество видео, сохраняя реалистичность текстур и временную согласованность
Для согласованности и контроля используют контролнет
Базовая модель CogVideoX1.5-5B
Для реставрации 121 кадра видео требуется примерно 43 ГБ VRAM
Если хотите уменьшить использование VRAM, замените "pipe.enable_model_cpu_offload" на "pipe.enable_sequential_cpu_offload" в ./VRDiT/inference.py - потребление сокращается до 25 ГБ за счет скорости
Код
Спасибо @m_franz
#videorestoration #video2video #upscale
Реставратор видео от Alibaba - Taobao, улучшает качество видео, сохраняя реалистичность текстур и временную согласованность
Для согласованности и контроля используют контролнет
Базовая модель CogVideoX1.5-5B
Для реставрации 121 кадра видео требуется примерно 43 ГБ VRAM
Если хотите уменьшить использование VRAM, замените "pipe.enable_model_cpu_offload" на "pipe.enable_sequential_cpu_offload" в ./VRDiT/inference.py - потребление сокращается до 25 ГБ за счет скорости
Код
Спасибо @m_franz
#videorestoration #video2video #upscale
🔥11👍7
MVSEP
Сервис для разделения музыки на стемы
Разделяет на вокал, бас, ударные, гитару, фортепиано и остальное - 6 стемов.
Недавно добавили в парк моделей BS-RoFormer, модели уже 2 года, но недавно была обновка. А вообще ее спонсировали Stability AI и HuggingFace, и на изоляции вокала там #SOTA (не знаю удержалил ли трон к настоящему времени)
Есть бесплатный тариф
#audioseparation #demix #unmix
Сервис для разделения музыки на стемы
Разделяет на вокал, бас, ударные, гитару, фортепиано и остальное - 6 стемов.
Недавно добавили в парк моделей BS-RoFormer, модели уже 2 года, но недавно была обновка. А вообще ее спонсировали Stability AI и HuggingFace, и на изоляции вокала там #SOTA (не знаю удержалил ли трон к настоящему времени)
Есть бесплатный тариф
#audioseparation #demix #unmix
👍8🔥3👎1
MiMo-Audio
Универсальная генеративная аудио-языковая модель, которая работает с текстовыми и аудиоданными.
Бьет Gemini-2.5-Flash на понимании аудио
Бьет GPT-4o-Audio на комплексном рассуждении
Всего 7B параметров, опенсорс
— понимает аудио и рассуждает
— ведёт диалоги и распознаёт эмоции
— описывает аудиоконтент
— работает с разными языками и диалектами - упоминается английский, есть пирмер приветствия на трех языках. Вангую что с русским у него пока неважно.
— продолжает речь в разных стилях
— обучается на основе инструкций
Гитхаб
HF - есть MiMo-Audio-Tokenizer, MiMo-Audio-7B-Base и MiMo-Audio-7B-Instruct
Демо - сейчас какие-то проблемы с соединением
#audio #audio2audio #reasoning #assistant #voicemode #speech2peech #audio2text #captioning
Универсальная генеративная аудио-языковая модель, которая работает с текстовыми и аудиоданными.
Бьет Gemini-2.5-Flash на понимании аудио
Бьет GPT-4o-Audio на комплексном рассуждении
Всего 7B параметров, опенсорс
— понимает аудио и рассуждает
— ведёт диалоги и распознаёт эмоции
— описывает аудиоконтент
— работает с разными языками и диалектами - упоминается английский, есть пирмер приветствия на трех языках. Вангую что с русским у него пока неважно.
— продолжает речь в разных стилях
— обучается на основе инструкций
Гитхаб
HF - есть MiMo-Audio-Tokenizer, MiMo-Audio-7B-Base и MiMo-Audio-7B-Instruct
Демо - сейчас какие-то проблемы с соединением
#audio #audio2audio #reasoning #assistant #voicemode #speech2peech #audio2text #captioning
👍7🔥2👀1
QuantStack Wan2.2-Animate-14B-GGUF
Полный зоопарк ггуфов Wan2_2_Animate
————————————————
Wan2_2_Animate_14B_Q4_K_M.gguf
У Kijai добавился GGUF Q4 Wan2_2_Animate ~12.6 ГБ
#image2video #video2video #characteranimation #chracterswap #faceswap #gguf
Полный зоопарк ггуфов Wan2_2_Animate
————————————————
Wan2_2_Animate_14B_Q4_K_M.gguf
У Kijai добавился GGUF Q4 Wan2_2_Animate ~12.6 ГБ
#image2video #video2video #characteranimation #chracterswap #faceswap #gguf
huggingface.co
Wan22Animate/Wan2_2_Animate_14B_Q4_K_M.gguf · Kijai/WanVideo_comfy_GGUF at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍9
ComfyAudio: ComfyUI for Audio
Форк #ComfyUI для работы со звуком
Не совсем понимаю зачем, не пробовал работать со звуком в комфи, там же есть ноды для звука
#audio
Форк #ComfyUI для работы со звуком
Не совсем понимаю зачем, не пробовал работать со звуком в комфи, там же есть ноды для звука
#audio
GitHub
GitHub - comfyuiAudio/ComfyAudio: ComfyUI for Audio
ComfyUI for Audio. Contribute to comfyuiAudio/ComfyAudio development by creating an account on GitHub.
👍4❤1🥴1
AIO Mega v3
Обновился мердж все-в-одном WAN2.2-14B-Rapid-AllInOne
На сей раз в базе взят SkyReels 2.133%
И сверху WAN 2.2 66%
Подробнее на реддите
HF ~24 ГБ
GGUF
#text2video #image2video #controlnet #gguf #wan22
Обновился мердж все-в-одном WAN2.2-14B-Rapid-AllInOne
На сей раз в базе взят SkyReels 2.133%
И сверху WAN 2.2 66%
Подробнее на реддите
HF ~24 ГБ
GGUF
#text2video #image2video #controlnet #gguf #wan22
huggingface.co
Phr00t/WAN2.2-14B-Rapid-AllInOne · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍6🤔4😱1💯1