NEW BOT Телеграм, страница

Нейро-Эмма - Моя любовь чат джипити (infiniteTalk)

слова: tensorbanana & gemini-2.5-pro
песня: udio-1.5-allegro
картинки: wan2.2 t2i
анимация: wan2.2 i2v
липсинк: infiniteTalk video2video
консистентность: лора+детальное описание

gemini-2.5-pro, наверное, лучше всех пишет стихи на русском. На самые жирные бэнгеры пришлось самому придумывать.
udio-1.5-allegro (бесплатный) - удивил, он намного лучше бесплатного suno. Платные модели suno я не тестил, но те что стоят в бесплатном режиме - это просто прошлый век по сравнению с udio.

Сгенерировал одну стартовую картинку с гитарой, далее просто продолжал ее через image2video и движение камеры.

Лоры на движение камеры:
зум вперед: https://civitai.com/models/1784288/motion-lora-camera-push-in-wan-14b-720p-i2v
вправо-влево: https://civitai.com/models/1892318/whip-pan

Еще пробовал через первый-последний кадр в vace, но выходило плохо с движением камеры, забил на это. Надо попробовать в wan-fun, но мне было лень качать. Также просил gemini-image (nano-banana) скомпоновать новый кадр со старыми персонажами, но тот отказался (скорее всего, ему топик не понравился).

Робот танцует через vace video2video с dwpose.

infiniteTalk video2video от kijai жрет кучу врам. При 720p со скользящим окном в 49 кадров - 34 GB (уходит в виртуальную vram). Все видео делится на куски по 49 кадров с перехлестом в 9 кадров и отправляется на липсинк. Чем больше окно, тем лучше консистеность, при 49 будут видны склейки. Окно в 65 и 81 кадр в 720p у меня падают по OOM ошибке. Если мало vram - пробуйте побольше blockswap, поменьше окно и 480p. Предположу, что на 12 GB должно запуститься, но это не точно.

Скорость infiniteTalk: 28 секунд 720p видео генерируется за 40 минут на 3090.

infiniteTalk работает на 2-х шагах с фиксированным деноизом 50%, а значит мелкие детали в исходном видео будут изменены. Например, в одном прогоне он сожрал барабанные палочки, Эмма просто махала руками. Поэтому нужно прописывать такие мелкие детали в промпт: Emma Watson woman is singing and playing at drum kit with 2 drum sticks in her hands, rock music, energetic music, fast movements

wan-s2v пока не тестил, но он и не поддерживает режим video2video (там только одна говорящая картинка). А с infiniteTalk можно делать динамичные сцены.

Сделал все за 3 вечера.

Воркфлоу infiniteTalk video2video: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_infinitetalk_video2video_720p_49f.json

41🔥60👍12👎6❤5⚡3😁2💔1

3.96K views21:18

Tensor Banana

1:09

This media is not supported in your browser

VIEW IN TELEGRAM

Прикрутил потоковый режим для vibeVoice-7b в комфи

vibeVoice-7b - лучшая открытая TTS для русского языка на данный момент. Ударения практически идеальные.

Потоковый режим воспроизводит аудио напрямую в колонки по мере того, как оно генерируется.

Скорости 3090 не хватает на реалтайм инференс 7b. Видюха примерно в 2 раза медленнее, чем надо. 1.5b тоже не идет в реалтайме, там есть какие-то проблемы со скоростью, я пока не разбирался.

vibeVoice-7b практически идеально ставит ударения в русской речи.
vibeVoice-1.5b тоже неплох, но присутствует сильный английский акцент, режет слух. Для английского - прикольно.

Скорость vibeVoice-7b на 3090:
для генерации длинного аудио длиной 30 секунд:
- 53 секунда - без стриминга
- 36 секунд со стримингом, до воспроизведения и буфером 20s

для генерации короткого аудио длиной 15 секунд:
- 27 секунд - без стриминга
- 19 секунд со стримингом, до воспроизведения и буфером 10s

Можно сократить время до воспроизведения, поставив буфер 3s, но тогда речь будет прерываться каждые 3 секунды на буферизацию. Возможно, на новых видюхах 5000 серии такого буфера хватит для реалтайм инференса.

Галка free_memory_after_generate:False сокращает время инференса на 10 секунд, но с ней модель будет проблематично выгрузить из памяти комфи (она там намертво загружается). Для тестов ставьте галку в True, модель будет освобождать память в конце.

Требования:
Для 7b:
в 7b_bf16 и 7b_fp16 требует 19 Гигов vram. В режиме bnb_nf4 - требование всего 9.2 GB.
На 3090 рекомендую инференс в режиме fp16 - он на 10-15% быстрее, чем bf16. Если vram мало, то ставьте bnb_nf4. Для новых видюх 4000 и 5000 серии пробуйте fp8 (не тестил).

Для 1.5b:
1.5b_bf16 требует 6 гигов vram. 1.5b_nf4 требует - 3.2 GB. Но nf4 медленнее в 2 раза чем bf16 и fp16.

Уже сейчас этот воркфлоу можно прокинуть в sillyTavern, будет и потоковое аудио и wav2lip в конце (не потоковый).
В планах далее прикрутить сюда потоковый wav2lip, чтобы видео генерировалось сразу по мере готовности аудио, а не в конце.

Модельки автоматом скачиваются в комфи. Если надо вручную, в вф есть ссылки на HF.

воркфлоу VibeVoice_streaming + wav2lip: https://github.com/Mozer/VibeVoice-ComfyUI/blob/main/examples/vibevoice_streaming_and_wav2lip.json

мои ноды VibeVoice: https://github.com/Mozer/VibeVoice-ComfyUI

мой wav2lip для комфи: https://github.com/Mozer/ComfyUI_wav2lip

32🔥54👍16❤6😭1

5.3K views21:12

vibevoice-7b-exl3 с реалтайм скоростью

Оригинал работает так: 2 прохода LLM (позитив+негатив) + диффузия на основе этих проходов.

## Оптимизация
- заменил LLM движок HF-transformers на exllamav3 (LLM стала быстрее в 3 раза)
- заменил 2 прохода LLM на один, но с кэшем для негативного прохода
- уменьшил число шагов до 5 (чуть меньше вариативности)
- прикрутил разделение входного текста на абзацы (т.к. на длинном тексте начинает глючить)
- диффузию не трогал, думаю прикрутить TeaCache
- добавил стриминг с буфером 1s. Воспроизведение теперь начинается почти мгновенно

## Требования:
- nvidia 3000+ (2000 серия не подойдет для exllamav3, но ноду можно запустить и без exllamav3)
- от 8 GB vram (лучше 12)
- flash-attention-2 (без него exllamav3 не работает)
- моя exllamav3
- модель должна полностью входить в vram, частичной выгрузки нет

## Потребление vram
- 7b-exl-8bit + no-llm-bf16 - 12.6GB
- 7b-exl-4bit + no-llm-bf16 - 9.5GB (реалтайм на 3090, 9.00 it/s)
- 7b-exl-4bit + no-llm-nf4 - 7.3GB (nf4 в 1.5 раза медленнее)
- 1.5b-exl-8bit + no-llm-nf4 - 4.7GB

- exl3 кванты по скорости +- одинаковые. Но 4bit у меня чуть-чуть быстрее.
- nvidia 3060 всего на 20% процентов медленее чем 3090.

## Установка
Винда: flash-attention-2 + exllamav3 + мои ноды
Linux: только ноды

Под виндой компилировать трудно, поэтому вот ссылки на скомпилированные whl.
flash-attention-2 whl: https://huggingface.co/lldacing/flash-attention-windows-wheel/tree/main
моя exllamav3 whl: https://github.com/Mozer/exllamav3/releases/tag/v0.0.6

Узнать вашу версию питона, торча и куды можно в comfyui - меню - Help - about

Ниже я все ставлю на свой python 3.11, torch 2.6.0, cuda126. Для других версий, ищите сами по ссылкам выше (или компилируйте). Для flash-attention важно совпадение версии питона, торча и cuda. Для exllama главное, чтобы версия питона совпадала, на остальное - пофиг.

cd C:\DATA\SD\ComfyUI_windows_portable_nvidia\ComfyUI_windows_portable\python_embeded
python.exe -m pip install https://huggingface.co/lldacing/flash-attention-windows-wheel/resolve/main/flash_attn-2.7.4%2Bcu126torch2.6.0cxx11abiFALSE-cp311-cp311-win_amd64.whl

# exllamav3-v0.0.6 выбираем whl под свою версию питона (главное чтобы версия питона совпадала, на остальное пофиг):

# удаляем старую exllamav3, если она у вас есть:
python.exe -m pip uninstall exllamav3

# ставим мою exllamav3 (тут ссылка на 3.11 версию питона):
python.exe -m pip install https://github.com/Mozer/exllamav3/releases/download/v0.0.6/exllamav3-0.0.6+cu128.torch2.7.0-cp311-cp311-win_amd64.whl

python.exe -m pip install -U "triton-windows<3.5

После этого ставим мои ноды через comfyui manager - install via git url:
https://github.com/mozer/comfyUI-vibevoice-exl3
Либо через: cd ComfyUI/custom_nodes && git clone https://github.com/mozer/comfyUI-vibevoice-exl3
Перезапустить комфи.

## Воркфлоу

Воркфлоу с wav2lip (опционально): https://github.com/Mozer/ComfyUI-VibeVoice-exl3/blob/main/examples/vibevoice_exl3_with_wav2lip.json
Модельки качать вручную не надо. Но если сильно хочется, то они тут: https://huggingface.co/collections/tensorbanana/vibevoice-68cd1bac5766dc65e90380c1
Если вручную - изучите структуру папок: /models/vibevoice/models--tensorbanana--vibevoice-1.5b-exl3-8bit/snapshots/badfbb16dd63a1a8e633ba6eb138a21303ed1325/model.safetensors

- Грузить в ноду надо сразу 2 модельки, пример: VibeVoice-7B-no-llm-bf16 (3.2GB) + vibevoice-7b-exl3-4bit (4.4 GB).
- Если шум в аудио на выходе - снизьте значение negative_llm_steps_to_cache до 1-2 или совсем до 0 (как в оригинале, но будет медленнее). Чем длинее кусок - тем больше вероятность шума.
- Используйте split_by_newline:True для разбиения текста на куски по абзацам. Разбивать на куски по предложениям я не советую, интонация будет разная в каждом предложении.

66❤30🔥25👍7🤔2🤝2👏1🤣1

4.15K viewsedited 19:53

Tensor Banana

Треним лоры для qwen/qwen-edit в fp8 в musubi-tuner под виндой

Лоры для qwen-image также работают в qwen-image-edit.

Musubi также поддерживает тренировку qwen-edit с 3 картинками: до, после и маска. Подробнее тут (я пока не тестил): https://github.com/kohya-ss/musubi-tuner/blob/main/docs/qwen_image.md

Рекомендую тренить в разрешении 1024x1024, 3000 шагов, затем дополнительно в 1300x1300 еще 1000 шагов. Так будет более универсальная поддержка разных разрешений на выходе. За пару дней натренил 5 лор (стиль, концепт, персонажи), выкладываю 2. Для лоры на лицо можно использовать селфи, за 5000 шагов квен выучивает лицо очень неплохо.

1000-2000 шагов для квена - это слишком мало, надо 3000 минимум и на стиль и на персонажа. За ночь (~10 часов) у меня выходит 4000-5000 шагов на 3090 при 1024. На 3060 - в 16 раз медленнее.

Датасет:
20-100 картинок с txt описанием в хорошем качестве и разрешении. В каком разрешении треним, в таком и делаем инференс для максимального качества. Список разрешений ваших картинок выводится в консоли в начале тренировки.

Для лоры на персонажа:
- датасет 30-40 картинок
- фото не мелкие, разные ракурсы. Можно селфи.
- если будут шумные (зерно) - на выходе тоже получите шумные
- 3000 шагов минимум, я тренил 5000 шагов, 1024x1024 + 1300x1300
- в txt описании лучше делать полные описания. Уникальное имя (A13xandra) + в чем одета и что делает.

# Требования:
32 RAM + 24 GB vram (на 12 слишком медленно)

На 3090-24GB:
768x768   block_swap 0, 22.6 vram,  4.17 s/it
1024x1024 block_swap 0, 23.9 vram,  8.50 s/it
1300x1300 block_swap 8, 24.2 vram, 16.41 s/it
На 3060-12GB:
1024x1024 block_swap 40, 11.8 vram, 140.0 s/it

musubi не поддерживает nf4. Если у вас нет 24GB - попробуйте https://github.com/Nerogar/OneTrainer, он поддерживает nf4 и работает с виндой.

# Установка

git clone https://github.com/kohya-ss/musubi-tuner
cd musubi-tuner
conda create musubi
conda activate musubi
(musubi) C:\DATA\SD\musubi-tuner>pip install -e

модельки (нужны именно bf16 версии):
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/diffusion_models/qwen_image_bf16.safetensors
https://huggingface.co/Qwen/Qwen-Image/blob/main/vae/diffusion_pytorch_model.safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors

# Тренировка:
- мой toml файл датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_hand_grab.toml
- комманды запуска (в пост не влезли): https://github.com/Mozer/comfy_stuff/blob/main/musubi/musubi_qwen_commands.txt
- при изменении разрешения тренировки надо заново создать кэш vae

# Инференс:
для qwen-image рекомендую сэмплер dpmpp_2m + beta либо res_2s + bong_tangent. Они показывают лучшую реалистичность
832x1248 или 1056x1600, cfg 3.0, 25 steps
для qwen-image-edit я не нашел реалистичных сэмплеров, пока юзаю dpmpp_2m + beta.
ВФ для qwen-edit: https://github.com/Mozer/comfy_stuff/blob/main/workflows/qwen_edit_hand_grab_25_steps.json

lightning лора 4, 8 steps сильно ухудшает качество и реализм, по возможности не используйте её. Но будет медленно, 20-25 шагов - оптимально (2 минуты на картинку для qwen-edit).

Мои qwen лоры:
- marat safin style (стиль под пленку): https://civitai.com/models/1894150?modelVersionId=2353000
- hand grab (POV рука трогает объект): https://civitai.com/models/2081019?modelVersionId=2354652
- лора на русский язык еще тренится

2👍30🔥12👏7❤2🤝1

3.04K views13:09

Tensor Banana

Генерируем картинку и печатаем на 3d принтере

# картинка:
qwen-image + моя cosplay лора. 30 шагов, 1056x1600, dpmpp_2m beta
cosplay лора: https://civitai.com/models/2138214
Картинка подойдет почти любая, даже фотка. Главное, чтобы объект полностью влазил в кадр (иначе будет обрезан). А если не влазит - попросите qwen-edit и nano banana, чтобы отдалили камеру. Опционально можно почистить фон, чтобы ничего лишнего не попало в 3d. Или наоборот добавить, например, стул или банан.

# Сервисы imageTo3d (коммерческие и опенсорс):
- Hunyuan3D-3.0 - топовое качество, 20 бесплатных генераций в день. Цензуру пока не встречал, но и не особо старался. Рекомендую. Есть возможность сгенерировать текстуру для этой модельки, но я пока не понял, как ее скачать. Еще можно скелет вставить внутрь (не тестил)
https://3d.hunyuan.tencent.com/

- Hunyuan3D-2.1: opensource, низкое разрешение, 10-15 генераций в день на HF
https://huggingface.co/spaces/tencent/Hunyuan3D-2.1

- meshy.ai - 5-10 бесплатных генераций в месяц, сильная цензура, в бикини не дает генерировать. Не дает скачивать бесплатно модельки, созданные в версиях 5 и 6, а только там топовое качество. Качество в 4 версии сильно хуже, что-то на уровне опенсорсного Hunyuan3D-2.1.

- Miscrosoft Trellis - opensource, качество совсем так себе, 10-15 в день на HF
https://huggingface.co/spaces/trellis-community/TRELLIS

Вывод: если нужно качество - Hunyuan3D-3.0 на сайте. Если нужна приватность - локальная Hunyuan3D-2.1.

# Обработка 3d:
После сохранения 3d файла из сервиса Hunyuan3D я открываю его в блендере и пересохраняю с большим масштабом (исходно он слишком мелкий и почему-то не отображается в Cura). Далее открываю в приложении Cura, проверяю размеры и отдаю на печать (через microSD флешку). Никаких проблем с Non-manifold (дырявая геометрия) с такими модельками нет. (Если будете качать 3d модельки с сайтов с 3d моделями, созданными для игр, у вас очень часто будут проблемы со странной геометрией фигурок. Это когда принтер не знает, как такие дырявые и плоские части печатать.)

# 3d печать
Мой 3d принтер: Elegoo Neptune 3 pro (брал год назад за 20к рублей на али, сейчас вижу за 11.5к рублей)
https://aliexpress.ru/popular/elegoo-neptune-3-pro

Печтаю пластиком PLA, сопло 0.2 mm. Другие пластики пока не тестил. Говорят, PETG лучше подходит для аниме фигурок. Но если нужно совсем топовое качество, как у профессиональных фигурок, смотрите в сторону фотополимерных 3d принтеров. Но они не для квартиры - соседи будут жаловаться из-за запаха (испарения вредные).

Печать фигурки высотой 11 см длится около 3-х часов. Потом еще нужно с помощью бокорезов обрезать поддержки (над нависающими элементами). Займет полчаса.

Опционально можно покрасить - я крашу кожу акриловой краской + акриловые маркеры + перманентные маркеры с тонким жалом. За раскраску сильно не пинайте, я в художку не ходил =)

🔥38👍15❤6

17.5K views16:39

Tensor Banana

Tongyi z-image-turbo-6B - 9.5 секунд на картинку

Только text2image. Редактировать пока не умеет (обещают)

Умеет в базовый nsfw и знает знаменитостей (в отличие от flux2)

nsfw примеры тут:
https://news.1rj.ru/str/+UzijD4bV1M8wODEy

Использует vae от Flux1_dev + qwen3_4b

turbo версия имеет фиксированный CFG и 9 шагов, за счет этого быстрая. Также обещают выпустить полную версию.

Скорость:
768x1280 - 9.5 секунд на картинку на 3090 (9 шагов)

Потребление vram: z-image в fp8 + qwen-fp16 = 20 GB vram
Сам чекпоинт в fp8 весит 6 гигов (должен влезть в 8 GB vram).

Кириллицу умеет, но чуть хуже чем flux2_dev.

Похоже, что натренирована на реализм из коробоки.

Поддерживает разрешения:
+ 1056x1600 (15s, хорошая композиция)
x 1600x2200 (34s, композиция чуть хуже, текст сильно хуже)
x 1600x2560 (40s, появляются артефакты и дублирование)

Промпты взял c civitai.

комфи: https://comfyanonymous.github.io/ComfyUI_examples/z_image/

Fp8: https://huggingface.co/T5B/Z-Image-Turbo-FP8/tree/main

spaсe: https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo

👍26🔥12❤2😢1🍓1🤝1

1.28K views10:30

About

Blog

Apps

Platform