Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.48K photos
3.76K videos
41 files
4.8K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Kandinsky 5.0 Video Lite

Сбер выпустил видеогенератор в опенсорс.

2B параметров, 768 x 512, до 10 сек

Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.

За всего 2B параметров неплохо

Прикрутили туда всевозможные ускоряторы и оптимизаторы: MagCache там, CFG distill. Вероятно поэтому опенсорс? Или наоборот, решили делать опенсорс значит развязаны руки прикрутить все что есть

Подать заявку в бета-тестеры можно в телеграм боте @kandinsky_access_bot

статья на Хабре

Гитхаб
HF

#text2video
👍19🔥3😁1
SANA-Video

Небольшая диффузионная модель для эффективной генерации видео от NVIDIA, MIT, KAUST и других

По тексту и по картинке.

Способна генерировать сложные нарративные видео с переходами между сценами.

разрешение до 720P, 16 fps, хронометраж до 1 минуты

5-секундное видео выдает за 60 сек.

На RTX 5090 с NVFP4 - за 29 секунд

Код ждем

#text2video #image2video
👍17
Media is too big
VIEW IN TELEGRAM
DA2: Depth Anything in Any Direction (DA^2)

Оценка глубины по панорамным изображениям (360°×180°)

Код ждем
Демо ждем

#panorama2depth #image2depth
🔥5
Media is too big
VIEW IN TELEGRAM
Wan2.2 dyno

В репозитории lightx2v появилась модель Wan2.2-T2V-A14B-4steps-250928-dyno на 28.6 ГБ
Там же лежит json - предположительно воркфлоу

Официального описания нет. Это FP8. Похоже что бустит динамику и качество картинки.

В видео говорят что требует 80 ГБ VRAM, но не должен, навряд ли он потребляет больше чем обычный WAN2.2 FP8

Есть еще scaled версия у Kijai - 14.5 ГБ

воркфлоу на openart

#WAN22 #text2video #image2video
👍42
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Вот держите интересный эксперимент.

Берется картинка (ваш любимый мем) и кормится в Нанобанану вот с таким промптом:

"Show this scene one second in the future" (покажи эту сцену через секунду)

Нанабанана - не дура, понимает за время и пространство и выдает свою версию происходящего - новую картинку.

Дальше процесс повторяется с новым кадром.

Получаем кино, в котором сценарист и режиссер - Нанабанана. Она - художник и она так видит.

Только вот почему они становятся зелеными как Халк, я не понял...

Можете сами попробовать...

Сорс

@cgevent
😁133👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
— Да не бойтесь, он не куса убивает, он просто хочет поиграть

#humor #robot
😁251
VibeVoice-Large-Q8

первая полностью рабочая модель VibeVoice с 8-битной квантизацией

Отличный звук, идентичный оригинальной модели
11,6 ГБ вместо 18,7 ГБ (-38%)
Используется ~12 ГБ видеопамяти вместо 20 ГБ
Работает на GPU с 12 ГБ (RTX 3060, 4070 Ti и т.д.)

VibeVoice ComfyUI Nodes

#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui
9👍2
Media is too big
VIEW IN TELEGRAM
Vidu Q2

Новая модель видеогенератора с фокусом на выразительность

Более четкие выражения, динамичные движения камеры, более высокая скорость, более глубокое понимание

Есть в API
На офсайте
и в мобильном приложении
iOS
Android

Из сторонних сервисов видел на Dzine

#text2video #image2video
👍61
CAP4D: Creating Animatable 4D Portrait Avatars with Morphable Multi-View Diffusion Models

Создание анимируемых портретных 4D-аватаров. Модель способна генерировать реалистичные 4D-аватары на основе любого количества эталонных изображений

Рендерится в реальном времени

На первом этапе создает много изображений с разных ракурсов при помощи SD 2.1. Далее собирает собственно 4D модель.

Под капотом 3D трекер лица FlowFace (код ждем), FLAME для выражений лица, GaussianAvatars для деформируемой головы на гауссианах

Аватар можно редактировать внешними средствами - упомянуты Stable-Makeup и IC-Light

Плюс ко всему, аватар может управляться звуком речи

Код - FlowFace работает в демо-режиме, только с лицами из демо-набора

#humanavatar #gaussian #head #portraitanimation #tracking #pose
🔥6👍5😁1
DeepSearch-1.5B

Модель для решения задач, требующих рассуждений и вычислений, новая #SOTA среди рассуждалок 1.5B параметров

На базе Nemotron-Research-Reasoning-Qwen-1.5B v2

Подходит для выполнения математических задач и решения логических головоломок, в образовательных и исследовательских целях, где требуется высокая точность и эффективность вычислений и оптимизация вычислительных ресурсов.

#assistant #reasoning
🔥8👍4