Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Эффективная визуально-языковая модель.
Понимает изображения и видео.

на обработку одной картинки уходит 40 мс. А на обработку трехчасового видео хватит 24Гб VRAM.

Изображение кодируется одним единственным токеном, за счет чего и эффективность. Холмс, но как?

Код
Веса

#vlm #assistant
👍11🤷‍♂2
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

Новинка от Stability AI

Быстрая реконструкция 3D модели по одному изображению с промежуточной генерацией облака точек.

На основе SF3D

Позволяет интерактивно редактировать модель

Код
Демо

#imageto3d #image2mesh
👍8🤯1
Grok iOS

Мобильное приложение вышло в AppStore в США

Веб-версию ждем

#assistant #mobile #ios
👍4🔥2
Media is too big
VIEW IN TELEGRAM
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Апскейлер видео от ByteDance

Они там придумали как апскейлить видео при помощи видеогенераторов, сохраняя консистентность во времени.

Основано на I2VGen-XL, VEnhancer, CogVideoX и OpenVid-1M

Прикручено к I2VGen-XL и CogVideoX-5B

Претрейн на CogVideX-5B поддерживает исходники только 720x480

Иyфу по потреблению VRAM не нашел

Код
Демо

#upscale #enhance #video2video
👍12🔥4🤔1
Нейронавт | Нейросети в творчестве
покажу лучший вариант
Applio

Инструмент преобразования голоса.
Умеет переводить текст в речь, клонировать голос, смешивать голоса.

Есть поддержка плагинов

Есть рулька скорости произношения.

Работает быстрее чем ebook2audiobook

Applio есть в Pinokio

Сделал небольшое видео как перевести скан учебника в аудиокнигу

Сайт
Демо
Код
Колаб
Дискорд

#tts #text2speech #voicecloning #tutorial
🔥18👍51👏1
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

Оценка позы по изображению и по видео

Код
Веса
Демо по картинке
Демо по видео/картинке
Колаб

#poseestimation #image2pose #video2pose
👍5🔥1