Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
И у нас новый лидер (SOTA, если не врут) в оценке глубины изображения
Код
Демо
#image2depth
И у нас новый лидер (SOTA, если не врут) в оценке глубины изображения
Код
Демо
#image2depth
👍14🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Feat2GS: Probing Visual Foundation Models with Gaussian Splatting
Интересная работа, оценка понимания базовыми визуальными моделями объемного мира при помощи гауссовых сплатов
Оценивают рендер новых ракурсов, геометрию, текстуры
При этом, как я понял, Feat2GS и сам умеет воссоздавать сцены на гауссианах, иначе как бы они сравнивали свою модель с InstantSplat
Код
Демо
#gaussian #comparison #shootout #image2scene
Интересная работа, оценка понимания базовыми визуальными моделями объемного мира при помощи гауссовых сплатов
Оценивают рендер новых ракурсов, геометрию, текстуры
При этом, как я понял, Feat2GS и сам умеет воссоздавать сцены на гауссианах, иначе как бы они сравнивали свою модель с InstantSplat
Код
Демо
#gaussian #comparison #shootout #image2scene
👍2
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
Реконструкция 3D сцены за один проход от Facebook Research. Обрабатывает много изображений параллельно, тогда как обычно для этой задачи входные изображения обрабатывают попарно за много проходов.
Код
Демо
#imageto3d #videoto3d #photogrammetry
Реконструкция 3D сцены за один проход от Facebook Research. Обрабатывает много изображений параллельно, тогда как обычно для этой задачи входные изображения обрабатывают попарно за много проходов.
Код
Демо
#imageto3d #videoto3d #photogrammetry
👍6🔥3
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Я буквально три дня назад посмотрел фильм Земекиса — Here, о котором писал вот тут. Фильм снят полностью на статичную камеру.
И я, кстати, не ошибся с точки зрения применения новых генеративных технологий.🦸
Сам фильм неплох, как эксперимент.
Смотрел я его... Сейчас треснет жопа сэра Ридли Скотта... ДА НА МОБИЛКЕ!
Но даже через маленький экран была видна очень посредственная графика. А сегодня я наткнулся на пост Javi Lopez, фаундера Magnific_AI, о том, как применялись FX для этого фильма.
Ну, во-первых, FaceSwap и DeAge, о которых я думал, подтвердились. Нельзя так плохо сделать классическими пайплайнами. Кстати, упоминается Nuke как тулза для композитинга — хоть тут классика. Задники за окном дома делались на LED и прогонялись через апскейлеры, что тоже очень удобно и логично.
Пайплайн апскейлеров всем знакомый, всего с двумя параметрами:
1. Креативность.
2. Сходство.
Так как в разных шотах легко можно было нарваться на артефакты и галлюцинации, удачные куски объединяли в Photoshop. Это и экономично, и грустно одновременно — даже для фильма не написали никаких более удобных тулзовин.
Среди недостающих инструментов при использовании ИИ в кино не хватало генеративного HDR, чтобы иметь дополнительные возможности в битности и точках чёрного и белого при редактировании. Хоть за PNG и то спасибо.
Почему всё так? Потому что быстро и дёшево. У фильма не было достаточного бюджета на FX.
Добро пожаловать в дешёвое будущее!
YT
@CGIT_Vines
И я, кстати, не ошибся с точки зрения применения новых генеративных технологий.
Сам фильм неплох, как эксперимент.
Смотрел я его... Сейчас треснет жопа сэра Ридли Скотта... ДА НА МОБИЛКЕ!
Но даже через маленький экран была видна очень посредственная графика. А сегодня я наткнулся на пост Javi Lopez, фаундера Magnific_AI, о том, как применялись FX для этого фильма.
Ну, во-первых, FaceSwap и DeAge, о которых я думал, подтвердились. Нельзя так плохо сделать классическими пайплайнами. Кстати, упоминается Nuke как тулза для композитинга — хоть тут классика. Задники за окном дома делались на LED и прогонялись через апскейлеры, что тоже очень удобно и логично.
Пайплайн апскейлеров всем знакомый, всего с двумя параметрами:
1. Креативность.
2. Сходство.
Так как в разных шотах легко можно было нарваться на артефакты и галлюцинации, удачные куски объединяли в Photoshop. Это и экономично, и грустно одновременно — даже для фильма не написали никаких более удобных тулзовин.
Среди недостающих инструментов при использовании ИИ в кино не хватало генеративного HDR, чтобы иметь дополнительные возможности в битности и точках чёрного и белого при редактировании. Хоть за PNG и то спасибо.
Почему всё так? Потому что быстро и дёшево. У фильма не было достаточного бюджета на FX.
Добро пожаловать в дешёвое будущее!
YT
@CGIT_Vines
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4👍3
Microsoft опубликовали код мультимодальной модели агентов Magma
Код
Спасибо @Dmitriy_Ru6ts0v
#agent #vlm
Код
Спасибо @Dmitriy_Ru6ts0v
#agent #vlm
Telegram
Нейронавт | Нейросети в творчестве
Magma: A Foundation Model for Multimodal AI Agents
Опенсорсная мультимодальная модель для агентов от Microsoft.
- понимает видео
- ориентируется в пространстве
- управляет компом и роботами
Гитхаб - код ждем
#agent #vlm
Опенсорсная мультимодальная модель для агентов от Microsoft.
- понимает видео
- ориентируется в пространстве
- управляет компом и роботами
Гитхаб - код ждем
#agent #vlm
❤6🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Audio Open + Arm Kleidi
Stability AI объявили о партнерстве с ARM в области генерации аудио на мобильных устройствах.
Вы конечно уже забыли что у них есть генератор звука Stable Audio Open. В самом деле, им кто-нибудь пользовался?
Так вот, женят этот генератор с библиотекой Kleidi для быстрого инференса на процессорах ARM
Ни демо, ни саму библиотеку я не нашел где посмотреть, тем более мобильное приложение...
Продолжаем вялое наблюдение
#news #mobile
Stability AI объявили о партнерстве с ARM в области генерации аудио на мобильных устройствах.
Вы конечно уже забыли что у них есть генератор звука Stable Audio Open. В самом деле, им кто-нибудь пользовался?
Так вот, женят этот генератор с библиотекой Kleidi для быстрого инференса на процессорах ARM
Ни демо, ни саму библиотеку я не нашел где посмотреть, тем более мобильное приложение...
Продолжаем вялое наблюдение
#news #mobile
👍6🤷♂2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGarment: Garment Estimation, Generation and Editing via Large Language Models
Визуально-языковая модель для работы с 3D одеждой: генерация, выкройка, редактирование
Код
#cloth #garment #vlm #assistant
Визуально-языковая модель для работы с 3D одеждой: генерация, выкройка, редактирование
Код
#cloth #garment #vlm #assistant
👍7❤1🔥1
Wan2.1 GP
А может и революция
Доступная негерация видео на всего 12 ГБ видеопамяти старшей (14B) моделью генератора Wan2.1, квантизованной или неквантизованной. Хоть по тексту, хоть по картинке
До 5 секунд 720p. А для 5 секунд 480p будет достаточно 8Гб (это все еще 14B)
Уже в Pinokio
#text2video #image2video
А может и революция
Доступная негерация видео на всего 12 ГБ видеопамяти старшей (14B) моделью генератора Wan2.1, квантизованной или неквантизованной. Хоть по тексту, хоть по картинке
До 5 секунд 720p. А для 5 секунд 480p будет достаточно 8Гб (это все еще 14B)
Уже в Pinokio
#text2video #image2video
GitHub
GitHub - deepbeepmeep/Wan2GP: A fast AI Video Generator for the GPU Poor. Supports Wan 2.1/2.2, Qwen Image, Hunyuan Video, LTX…
A fast AI Video Generator for the GPU Poor. Supports Wan 2.1/2.2, Qwen Image, Hunyuan Video, LTX Video and Flux. - deepbeepmeep/Wan2GP
🔥25🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
Phidias : A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion
генератор 3D моделей по картинке, по тексту, по референсной 3D модели
Код - тестировали на RTX 4090 и A100
#textto3d #imageto3d #3dto3d
генератор 3D моделей по картинке, по тексту, по референсной 3D модели
Код - тестировали на RTX 4090 и A100
#textto3d #imageto3d #3dto3d
🔥7👍6👎1
CogView4-6B
Генератор картинок
Конкурент flux
Поддерживает очень длинный контекст, хорошо следует промпту
Выходное разрешение от 512 до 2048 пикселей с шагом 32
По потреблению памяти терпимо. Главный вопрос что с кастомизацией?
Гитхаб
Демо
#text2image
Генератор картинок
Конкурент flux
Поддерживает очень длинный контекст, хорошо следует промпту
Выходное разрешение от 512 до 2048 пикселей с шагом 32
По потреблению памяти терпимо. Главный вопрос что с кастомизацией?
Гитхаб
Демо
#text2image
🔥10👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Pandora3D
Генератор текстурированных 3D моделей от Tencent.
По тексту, по изображению, по набору изображений с разных ракурсов
В архиве 100Гб
Код
#textto3d #imageto3d
Генератор текстурированных 3D моделей от Tencent.
По тексту, по изображению, по набору изображений с разных ракурсов
В архиве 100Гб
Код
#textto3d #imageto3d
🔥4🥴4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
Генератор музыки в опенсорсе
Очень быстрый
Отличительная особенность - можно задавать тайминги для текста
Но всего два языка - английский и китайский
Сейчас доступна модель DiffRhythm-base (1m35s)
Старшую DiffRhythm-full (4m45s) выложат позже
Код
Демо
#music #text2music
Генератор музыки в опенсорсе
Очень быстрый
Отличительная особенность - можно задавать тайминги для текста
Но всего два языка - английский и китайский
Сейчас доступна модель DiffRhythm-base (1m35s)
Старшую DiffRhythm-full (4m45s) выложат позже
Код
Демо
#music #text2music
👍6🔥4🥴2
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro Web
Веб версия генератора речи Kokoro
Можно пользоваться онлайн или установить локально. Для локальной версии есть API, совместимый с Open AI
Русского языка по прежнему нет
Код
#tts #text2speech
Веб версия генератора речи Kokoro
Можно пользоваться онлайн или установить локально. Для локальной версии есть API, совместимый с Open AI
Русского языка по прежнему нет
Код
#tts #text2speech
🔥2👍1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
HunyuanVideo-I2V
Допилили наконец видео по картинке
С блэкждеком, ComfyUI и лорами
Запасайтесь VRAM? для 720p нужно 60Гб
Веса
Код
#image2video
Допилили наконец видео по картинке
С блэкждеком, ComfyUI и лорами
Запасайтесь VRAM? для 720p нужно 60Гб
Веса
Код
#image2video
🔥16🥴4👍3❤2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
LTX-Video v0.9.5
Обновка видеогенератора
- Поддержка ключевых кадров и продолжения видео
- нативная поддержка в #ComfyUI
- Поддержка более высоких разрешений
- Улучшенное понимание промптов
- Улучшенный VAE
- Новое интерактивное веб-приложение в LTX-Studio
- Автоматическое улучшение промптов
Кому интересно, оно без цензуры
Гитхаб
ComfyUI
Попробовать на офсайте (притворитесь что вы не в России)
Обновка видеогенератора
- Поддержка ключевых кадров и продолжения видео
- нативная поддержка в #ComfyUI
- Поддержка более высоких разрешений
- Улучшенное понимание промптов
- Улучшенный VAE
- Новое интерактивное веб-приложение в LTX-Studio
- Автоматическое улучшение промптов
Кому интересно, оно без цензуры
Гитхаб
ComfyUI
Попробовать на офсайте (притворитесь что вы не в России)
❤6👍2🔥2
Нейронавт | Нейросети в творчестве
HunyuanVideo-I2V Допилили наконец видео по картинке С блэкждеком, ComfyUI и лорами Запасайтесь VRAM? для 720p нужно 60Гб Веса Код #image2video
HunyuanVideo-I2V GGUF / FP8
Уже есть квантизованные версии
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_I2V-Q4_K_S.gguf
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_I2V-Q6_K.gguf
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_I2V-Q8_0.gguf
https://huggingface.co/Kijai/HunyuanVideo_comfy/resolve/main/hunyuan_video_I2V_fp8_e4m3fn.safetensors
Спасибо @kuvshin8
Уже есть квантизованные версии
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_I2V-Q4_K_S.gguf
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_I2V-Q6_K.gguf
https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_I2V-Q8_0.gguf
https://huggingface.co/Kijai/HunyuanVideo_comfy/resolve/main/hunyuan_video_I2V_fp8_e4m3fn.safetensors
Спасибо @kuvshin8
huggingface.co
hunyuan_video_I2V-Q4_K_S.gguf · Kijai/HunyuanVideo_comfy at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥13❤3