This media is not supported in your browser
VIEW IN TELEGRAM
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
Эффективная визуально-языковая модель.
Понимает изображения и видео.
на обработку одной картинки уходит 40 мс. А на обработку трехчасового видео хватит 24Гб VRAM.
Изображение кодируется одним единственным токеном, за счет чего и эффективность. Холмс, но как?
Код
Веса
#vlm #assistant
Эффективная визуально-языковая модель.
Понимает изображения и видео.
на обработку одной картинки уходит 40 мс. А на обработку трехчасового видео хватит 24Гб VRAM.
Изображение кодируется одним единственным токеном, за счет чего и эффективность. Холмс, но как?
Код
Веса
#vlm #assistant
👍11🤷♂2
VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment
Реконструкция 3D сцен по длинным видео.
Разбивает видео на фрагменты, чем еще отличается от 3DGS непонятно
Код ждем
#gaussian #videoto3d #video2gaussian
Реконструкция 3D сцен по длинным видео.
Разбивает видео на фрагменты, чем еще отличается от 3DGS непонятно
Код ждем
#gaussian #videoto3d #video2gaussian
👍11
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
TransPixar: Advancing Text-to-Video Generation with Transparency
Adobe придумали метод генерации видео с альфа каналом. Для тех кто не в курсе - это маска прозрачности.
Генерация по тексту и по картинке
Прикрутили к CogvideoX и mochi
Код
Демо
#text2video #image2video #RGBA
Adobe придумали метод генерации видео с альфа каналом. Для тех кто не в курсе - это маска прозрачности.
Генерация по тексту и по картинке
Прикрутили к CogvideoX и mochi
Код
Демо
#text2video #image2video #RGBA
🔥8❤2👍1
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images
Новинка от Stability AI
Быстрая реконструкция 3D модели по одному изображению с промежуточной генерацией облака точек.
На основе SF3D
Позволяет интерактивно редактировать модель
Код
Демо
#imageto3d #image2mesh
Новинка от Stability AI
Быстрая реконструкция 3D модели по одному изображению с промежуточной генерацией облака точек.
На основе SF3D
Позволяет интерактивно редактировать модель
Код
Демо
#imageto3d #image2mesh
👍8🤯1
Media is too big
VIEW IN TELEGRAM
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
Апскейлер видео от ByteDance
Они там придумали как апскейлить видео при помощи видеогенераторов, сохраняя консистентность во времени.
Основано на I2VGen-XL, VEnhancer, CogVideoX и OpenVid-1M
Прикручено к I2VGen-XL и CogVideoX-5B
Претрейн на CogVideX-5B поддерживает исходники только 720x480
Иyфу по потреблению VRAM не нашел
Код
Демо
#upscale #enhance #video2video
Апскейлер видео от ByteDance
Они там придумали как апскейлить видео при помощи видеогенераторов, сохраняя консистентность во времени.
Основано на I2VGen-XL, VEnhancer, CogVideoX и OpenVid-1M
Прикручено к I2VGen-XL и CogVideoX-5B
Претрейн на CogVideX-5B поддерживает исходники только 720x480
Иyфу по потреблению VRAM не нашел
Код
Демо
#upscale #enhance #video2video
👍12🔥4🤔1
Нейронавт | Нейросети в творчестве
покажу лучший вариант
Applio
Инструмент преобразования голоса.
Умеет переводить текст в речь, клонировать голос, смешивать голоса.
Есть поддержка плагинов
Есть рулька скорости произношения.
Работает быстрее чем ebook2audiobook
Applio есть в Pinokio
Сделал небольшое видео как перевести скан учебника в аудиокнигу
Сайт
Демо
Код
Колаб
Дискорд
#tts #text2speech #voicecloning #tutorial
Инструмент преобразования голоса.
Умеет переводить текст в речь, клонировать голос, смешивать голоса.
Есть поддержка плагинов
Есть рулька скорости произношения.
Работает быстрее чем ebook2audiobook
Applio есть в Pinokio
Сделал небольшое видео как перевести скан учебника в аудиокнигу
Сайт
Демо
Код
Колаб
Дискорд
#tts #text2speech #voicecloning #tutorial
YouTube
Быстро загружаем учебник в мозг для экзамена
Делаем сжатую аудиокнигу из отсканированного учебника.
Ссылки:
https://notebooklm.google.com
https://chat.mistral.ai
https://github.com/IAHispano/Applio
Мой телеграм:
https://news.1rj.ru/str/+2VsYoqohonBhNGMy
Ссылки:
https://notebooklm.google.com
https://chat.mistral.ai
https://github.com/IAHispano/Applio
Мой телеграм:
https://news.1rj.ru/str/+2VsYoqohonBhNGMy
🔥18👍5❤1👏1
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Оценка позы по изображению и по видео
Код
Веса
Демо по картинке
Демо по видео/картинке
Колаб
#poseestimation #image2pose #video2pose
Оценка позы по изображению и по видео
Код
Веса
Демо по картинке
Демо по видео/картинке
Колаб
#poseestimation #image2pose #video2pose
👍5🔥1