Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.71K videos
41 files
4.75K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Forwarded from Tensor Banana
Ускоряем Hunyuan video fast еще в 2 раза на винде

Есть оригинальный Hunyuan-video-13B, он работает за 20-30 шагов (20-30 минут на видео), а есть дистиллированный Hunyuan fast, который работает за 6-10 шагов. 6 шагов мне не нравятся, 10 выглядят намного лучше (10 минут на генерацию 1 видео в 720p, 2 секунды, 48 кадров).

Недавно вышел waveSpeed, который ускоряет flux, LTX и hunyuan в 1.5-2 раза в comfy на видюхах 3000 серии и новее с помощью двух технологий: first-block-cache и torch-model-compile+. На моей 3090 прирост скорости относительно Hunyuan fast - в 2 раза, до 4.6 минуты на 1 видео. Поддерживается воркфлоу от comfyanonymous. Воркфлоу от kijai пока не поддерживается.

Hunyuan из коробки умеет nsfw. Верх довольно неплохой, низ слегка зацензурен, но лучше, чем в дефолтном flux. Но умельцы уже наделели 100+ лор для Hunyuan на civitai для разных nsfw поз, движений, персонажей и стилей (в https://civitai.com/models ставим 2 фильтра: LoRA + Hunyuan video).

fast model, fp8: 
48 frames, 48s/it, 10 min, 19 GB vram, 39 GB RAM

fast model, sage-attention, first-block-cache:
48 frames, 25s/it, 5.6 min, 20 GB vram, 38 GB RAM

sage-attention, first-block-cache, compile+:
25 frames, 10s/it, 2.1 min, 18 GB vram, 29 GB RAM
48 frames, 22s/it, 4.7 min, 20 GB vram, 38 GB RAM
61 frames, 34s/it, 6.7 min
65 frames - OOM


Но compile+ ускоряет генерацию не всегда. Иногда torch compile занимает дополнительные 47 секунд. Перекомпилируется модель периодически, 1 раз в 2-3 генерации. Хз как побороть, скорее всего, vram мало, возможно, надо сделать меньше разрешение или количество кадров.

Предположу, что для работы Hunyuan хватит 32 GB RAM. У меня просто еще xtts+wav2lip в памяти висят. Если у вас в самом конце comfy вылетает без ошибок - снизьте разрешение или кол-во кадров.
Видел отзывы, что Hunyuan работает на 12 GB vram. Пока не тестил.


УСТАНОВКА

Нужен тритон и видюха 3000 серии или новее. 2000 серия nvidia не поддерживается. cuda toolkit 12.4+.
1. обновляем comfy через update_comfyui.bat

2. как установить тритон и sage-attention в комфи на винду:
https://www.reddit.com/r/StableDiffusion/comments/1h7hunp/how_to_run_hunyuanvideo_on_a_single_24gb_vram_card/
Первый шаг в этой инструкции пропускаем (установка нод kijai/ComfyUI-HunyuanVideoWrapper можно пропустить, мы будем использовать официальные ноды встроенные в комфи. Были отзывы, что в нодах от kijai пока не поддерживаются лоры при работе с first-block-cache). Выполняем пункты 2-4, включаем переводчик, если надо. Последние пункты 5-8 со скачиванием моделей не выполняем, мы скачаем другие, они меньше и быстрее.

3. Качаем clip_l.safetensors and llava_llama3_fp8_scaled и hunyuan_video_vae_bf16.safetensors: https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/
Качаем hunyuan fast: https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_FastVideo_720_fp8_e4m3fn.safetensors и кладем в diffusion_models

4. в run_nvidia_gpu.bat для запуска comfy надо добавить флаг --use-sage-attention вот так:
.\python_embeded\python.exe -s ComfyUI\main.py --windows-standalone-build --use-sage-attention

5. Устанавливаем custom node через comfyui manager -> install via GIT URL:
https://github.com/chengzeyi/Comfy-WaveSpeed

6. Hunyuan воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/hunyuan_fast_wave_speed_with_lora.json
Flux воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/flux_wave_speed.json

Советы:
- 1280x720, 720x1280, 544x960, 960x544 - рекомендуемые разрешения. В остальных могут быть артефакты.
- при малом количестве кадров анимация может работать хуже и с артефактами, рекомендую 25 и 49 кадров (1 и 2 сек)
- img2video пока нет, но разрабы обещают. Есть video2video и IPadapter2video от kijai.


- FLUX dev (bonus) -
1024x1024 20 steps

FLUX - 1.26s/it, 26 s.
FBC - 1.21it/s, 17 s.
FBC + compile+ - 1.20it/s, 17 s.

Прирост скорости во флаксе + waveSpeed составил 35%.

Во флаксе compile+ не работает на 3000 серии с flux-fp8, но работает с bf16, из-за этого прироста скорости не заметно. В hunyuan compile+ работает и дает прирост.
👍111😈1
This media is not supported in your browser
VIEW IN TELEGRAM
VLC automatic subnoscripts

Опенсорсный плеер VLC анонсировал локальную автоматическую генерацию и перевод субтитров. Когда - пока неизвестно.

Твиттер

#news #audio2text #subnoscripts
👍15🔥61
Нейронавт | Нейросети в творчестве
jenmusic.ai Оказывается, у генератора/редактора музыки JEN-1 уже есть онлайн сервис На старте дают 300 кредитов, по 3 кредита на генерацию. В генерации два варианта 45-секундного трека. Трек потом можно продлить Этакий конкурент Suno/Udio на минималках...…
JEN-1.5

Генератор/редактор музыки jenmusic.ai уже в публичной бете.

Много интересных фич, большинство из них платные. Звучание оставляет пока желать лучшего, вокала нет. Но эй, это альтернатива суно/юдио

- контроль жанра
- StyleFilters - что-то про стили звучания
- продолжение трека
- инпейнтинг музыкального фрагмента
- STRUCTUR3 - меняет структуру трека - интро/куплет/припев
- R3IMAGINE - самое интересное - преобразует звук (да хоть ваше мычание) в заданный муз инструмент
- скачивание трека отдельными стемами (разбивает на муз инструменты)

#text2music #audioinpainting #music2music
👍71
Hailuo S2V-01

новая модель видеогенератора Minimax

Основная фишка - консистентность персонажей.
Достаточно всего по одной референсной картинке на каждого персонажа

#text2video #image2video #personalization
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
FaceLift: Single Image to 3D Head with View Generation and GS-LRM

Реконструкция человеческой головы по одному фото или по видео от Adobe.

В случае с видео модель обрабатывает каждый кадр и делает из них последовательность моделей, то есть некое 4D видео, где можно посмотреть на объект с любого ракурса

На презентационном видео это смотрится весьма палевно, в самом конце. Хотя для автара вполне сгодится если будет работать в реальном времени

Кроме этого предлагают комбинировать модель с Liveportrait для 3D анимации портрета

Код ждем или хз

#imageto3d #videoto4d #gaussian #head #humanhead #humanavatar
👍83
MicroDiT

Эксперимент Sony по обучению картинкогенератора с нуля максимально дешево.

1.16B параметров, обучен на 37М изображений. И это стоило всего $1890

Обучили за 2,5 дня, используя 8 графических процессоров H100

512*512, чекпойнты по 4.7Гб
Что-то напоминает

Хотите свой SD с блекджеком и лорами? сделайте за выходные и $1890

Код
Веса

#text2image
10😁3
This media is not supported in your browser
VIEW IN TELEGRAM
InstantSplat прокачался, качественно реконструирует поверхность по нескольким ракурсам за секунды

Код
Демо

#gaussian #imageto3d #image2scene
5👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro TTS

Передовая качественная голосовая модель, основанная на архитектуре StyleTTS. Опенсорс
Всего 82М параметров, 327Мб
Звучит живо

А теперь о минусах: русского пока нет

Демо
Дискорд

Бонус: арена голосовых моделей TTS Arena

#tts #text2speech #leaderboard
👍13👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Codestral 25.01

Обновка ИИ-программиста от Mistral в топе на LMsys Copilot Arena

Попробовать можно через плагин continue.dev в VS Code и JetBrains (выберите выберите Codestral 25.01)

Нужно зайти на https://console.mistral.ai/codestral, зарегатся и получить бесплатный API key. В настройках continue.dev (https://github.com/continuedev/continue) в VS Code ставишь codestral. И работаешь бесплатно.


спасибо @A_Nikolaeff

#coding
👍6🤯1