Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.48K photos
3.75K videos
41 files
4.78K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Sora 2

сделали мобильное приложение

Функция Cameo - Можно поместить себя в видео по короткому видеообразцу

Генерит сразу со звуком

весь ролик - генерация

Уже не успеваешь выйти в магазин - выходит новая #sota

#news
👍10👎4🥴4🔥2🌚2
Kandinsky 5.0 Video Lite

Сбер выпустил видеогенератор в опенсорс.

2B параметров, 768 x 512, до 10 сек

Из особенностей стоит отметить что модель учитывает элементы русской культуры при генерации и формирует текст на английском языке.

За всего 2B параметров неплохо

Прикрутили туда всевозможные ускоряторы и оптимизаторы: MagCache там, CFG distill. Вероятно поэтому опенсорс? Или наоборот, решили делать опенсорс значит развязаны руки прикрутить все что есть

Подать заявку в бета-тестеры можно в телеграм боте @kandinsky_access_bot

статья на Хабре

Гитхаб
HF

#text2video
👍19🔥3😁1
SANA-Video

Небольшая диффузионная модель для эффективной генерации видео от NVIDIA, MIT, KAUST и других

По тексту и по картинке.

Способна генерировать сложные нарративные видео с переходами между сценами.

разрешение до 720P, 16 fps, хронометраж до 1 минуты

5-секундное видео выдает за 60 сек.

На RTX 5090 с NVFP4 - за 29 секунд

Код ждем

#text2video #image2video
👍17
Media is too big
VIEW IN TELEGRAM
DA2: Depth Anything in Any Direction (DA^2)

Оценка глубины по панорамным изображениям (360°×180°)

Код ждем
Демо ждем

#panorama2depth #image2depth
🔥5
Media is too big
VIEW IN TELEGRAM
Wan2.2 dyno

В репозитории lightx2v появилась модель Wan2.2-T2V-A14B-4steps-250928-dyno на 28.6 ГБ
Там же лежит json - предположительно воркфлоу

Официального описания нет. Это FP8. Похоже что бустит динамику и качество картинки.

В видео говорят что требует 80 ГБ VRAM, но не должен, навряд ли он потребляет больше чем обычный WAN2.2 FP8

Есть еще scaled версия у Kijai - 14.5 ГБ

воркфлоу на openart

#WAN22 #text2video #image2video
👍42
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Вот держите интересный эксперимент.

Берется картинка (ваш любимый мем) и кормится в Нанобанану вот с таким промптом:

"Show this scene one second in the future" (покажи эту сцену через секунду)

Нанабанана - не дура, понимает за время и пространство и выдает свою версию происходящего - новую картинку.

Дальше процесс повторяется с новым кадром.

Получаем кино, в котором сценарист и режиссер - Нанабанана. Она - художник и она так видит.

Только вот почему они становятся зелеными как Халк, я не понял...

Можете сами попробовать...

Сорс

@cgevent
😁133👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
— Да не бойтесь, он не куса убивает, он просто хочет поиграть

#humor #robot
😁251
VibeVoice-Large-Q8

первая полностью рабочая модель VibeVoice с 8-битной квантизацией

Отличный звук, идентичный оригинальной модели
11,6 ГБ вместо 18,7 ГБ (-38%)
Используется ~12 ГБ видеопамяти вместо 20 ГБ
Работает на GPU с 12 ГБ (RTX 3060, 4070 Ti и т.д.)

VibeVoice ComfyUI Nodes

#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui
9👍2