Media is too big
VIEW IN TELEGRAM
Нейро-Эмма - Моя любовь чат джипити (infiniteTalk)
слова: tensorbanana & gemini-2.5-pro
песня: udio-1.5-allegro
картинки: wan2.2 t2i
анимация: wan2.2 i2v
липсинк: infiniteTalk video2video
консистентность: лора+детальное описание
gemini-2.5-pro, наверное, лучше всех пишет стихи на русском. На самые жирные бэнгеры пришлось самому придумывать.
udio-1.5-allegro (бесплатный) - удивил, он намного лучше бесплатного suno. Платные модели suno я не тестил, но те что стоят в бесплатном режиме - это просто прошлый век по сравнению с udio.
Сгенерировал одну стартовую картинку с гитарой, далее просто продолжал ее через image2video и движение камеры.
Лоры на движение камеры:
зум вперед: https://civitai.com/models/1784288/motion-lora-camera-push-in-wan-14b-720p-i2v
вправо-влево: https://civitai.com/models/1892318/whip-pan
Еще пробовал через первый-последний кадр в vace, но выходило плохо с движением камеры, забил на это. Надо попробовать в wan-fun, но мне было лень качать. Также просил gemini-image (nano-banana) скомпоновать новый кадр со старыми персонажами, но тот отказался (скорее всего, ему топик не понравился).
Робот танцует через vace video2video с dwpose.
infiniteTalk video2video от kijai жрет кучу врам. При 720p со скользящим окном в 49 кадров - 34 GB (уходит в виртуальную vram). Все видео делится на куски по 49 кадров с перехлестом в 9 кадров и отправляется на липсинк. Чем больше окно, тем лучше консистеность, при 49 будут видны склейки. Окно в 65 и 81 кадр в 720p у меня падают по OOM ошибке. Если мало vram - пробуйте побольше blockswap, поменьше окно и 480p. Предположу, что на 12 GB должно запуститься, но это не точно.
Скорость infiniteTalk: 28 секунд 720p видео генерируется за 40 минут на 3090.
infiniteTalk работает на 2-х шагах с фиксированным деноизом 50%, а значит мелкие детали в исходном видео будут изменены. Например, в одном прогоне он сожрал барабанные палочки, Эмма просто махала руками. Поэтому нужно прописывать такие мелкие детали в промпт: Emma Watson woman is singing and playing at drum kit with 2 drum sticks in her hands, rock music, energetic music, fast movements
wan-s2v пока не тестил, но он и не поддерживает режим video2video (там только одна говорящая картинка). А с infiniteTalk можно делать динамичные сцены.
Сделал все за 3 вечера.
Воркфлоу infiniteTalk video2video: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_infinitetalk_video2video_720p_49f.json
слова: tensorbanana & gemini-2.5-pro
песня: udio-1.5-allegro
картинки: wan2.2 t2i
анимация: wan2.2 i2v
липсинк: infiniteTalk video2video
консистентность: лора+детальное описание
gemini-2.5-pro, наверное, лучше всех пишет стихи на русском. На самые жирные бэнгеры пришлось самому придумывать.
udio-1.5-allegro (бесплатный) - удивил, он намного лучше бесплатного suno. Платные модели suno я не тестил, но те что стоят в бесплатном режиме - это просто прошлый век по сравнению с udio.
Сгенерировал одну стартовую картинку с гитарой, далее просто продолжал ее через image2video и движение камеры.
Лоры на движение камеры:
зум вперед: https://civitai.com/models/1784288/motion-lora-camera-push-in-wan-14b-720p-i2v
вправо-влево: https://civitai.com/models/1892318/whip-pan
Еще пробовал через первый-последний кадр в vace, но выходило плохо с движением камеры, забил на это. Надо попробовать в wan-fun, но мне было лень качать. Также просил gemini-image (nano-banana) скомпоновать новый кадр со старыми персонажами, но тот отказался (скорее всего, ему топик не понравился).
Робот танцует через vace video2video с dwpose.
infiniteTalk video2video от kijai жрет кучу врам. При 720p со скользящим окном в 49 кадров - 34 GB (уходит в виртуальную vram). Все видео делится на куски по 49 кадров с перехлестом в 9 кадров и отправляется на липсинк. Чем больше окно, тем лучше консистеность, при 49 будут видны склейки. Окно в 65 и 81 кадр в 720p у меня падают по OOM ошибке. Если мало vram - пробуйте побольше blockswap, поменьше окно и 480p. Предположу, что на 12 GB должно запуститься, но это не точно.
Скорость infiniteTalk: 28 секунд 720p видео генерируется за 40 минут на 3090.
infiniteTalk работает на 2-х шагах с фиксированным деноизом 50%, а значит мелкие детали в исходном видео будут изменены. Например, в одном прогоне он сожрал барабанные палочки, Эмма просто махала руками. Поэтому нужно прописывать такие мелкие детали в промпт: Emma Watson woman is singing and playing at drum kit with 2 drum sticks in her hands, rock music, energetic music, fast movements
wan-s2v пока не тестил, но он и не поддерживает режим video2video (там только одна говорящая картинка). А с infiniteTalk можно делать динамичные сцены.
Сделал все за 3 вечера.
Воркфлоу infiniteTalk video2video: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_infinitetalk_video2video_720p_49f.json
41🔥60👍12👎6❤5⚡3😁2💔1
This media is not supported in your browser
VIEW IN TELEGRAM
Прикрутил потоковый режим для vibeVoice-7b в комфи
vibeVoice-7b - лучшая открытая TTS для русского языка на данный момент. Ударения практически идеальные.
Потоковый режим воспроизводит аудио напрямую в колонки по мере того, как оно генерируется.
Скорости 3090 не хватает на реалтайм инференс 7b. Видюха примерно в 2 раза медленнее, чем надо. 1.5b тоже не идет в реалтайме, там есть какие-то проблемы со скоростью, я пока не разбирался.
vibeVoice-7b практически идеально ставит ударения в русской речи.
vibeVoice-1.5b тоже неплох, но присутствует сильный английский акцент, режет слух. Для английского - прикольно.
Скорость vibeVoice-7b на 3090:
для генерации длинного аудио длиной 30 секунд:
- 53 секунда - без стриминга
- 36 секунд со стримингом, до воспроизведения и буфером 20s
для генерации короткого аудио длиной 15 секунд:
- 27 секунд - без стриминга
- 19 секунд со стримингом, до воспроизведения и буфером 10s
Можно сократить время до воспроизведения, поставив буфер 3s, но тогда речь будет прерываться каждые 3 секунды на буферизацию. Возможно, на новых видюхах 5000 серии такого буфера хватит для реалтайм инференса.
Галка free_memory_after_generate:False сокращает время инференса на 10 секунд, но с ней модель будет проблематично выгрузить из памяти комфи (она там намертво загружается). Для тестов ставьте галку в True, модель будет освобождать память в конце.
Требования:
Для 7b:
в 7b_bf16 и 7b_fp16 требует 19 Гигов vram. В режиме bnb_nf4 - требование всего 9.2 GB.
На 3090 рекомендую инференс в режиме fp16 - он на 10-15% быстрее, чем bf16. Если vram мало, то ставьте bnb_nf4. Для новых видюх 4000 и 5000 серии пробуйте fp8 (не тестил).
Для 1.5b:
1.5b_bf16 требует 6 гигов vram. 1.5b_nf4 требует - 3.2 GB. Но nf4 медленнее в 2 раза чем bf16 и fp16.
Уже сейчас этот воркфлоу можно прокинуть в sillyTavern, будет и потоковое аудио и wav2lip в конце (не потоковый).
В планах далее прикрутить сюда потоковый wav2lip, чтобы видео генерировалось сразу по мере готовности аудио, а не в конце.
Модельки автоматом скачиваются в комфи. Если надо вручную, в вф есть ссылки на HF.
воркфлоу VibeVoice_streaming + wav2lip: https://github.com/Mozer/VibeVoice-ComfyUI/blob/main/examples/vibevoice_streaming_and_wav2lip.json
мои ноды VibeVoice: https://github.com/Mozer/VibeVoice-ComfyUI
мой wav2lip для комфи: https://github.com/Mozer/ComfyUI_wav2lip
vibeVoice-7b - лучшая открытая TTS для русского языка на данный момент. Ударения практически идеальные.
Потоковый режим воспроизводит аудио напрямую в колонки по мере того, как оно генерируется.
Скорости 3090 не хватает на реалтайм инференс 7b. Видюха примерно в 2 раза медленнее, чем надо. 1.5b тоже не идет в реалтайме, там есть какие-то проблемы со скоростью, я пока не разбирался.
vibeVoice-7b практически идеально ставит ударения в русской речи.
vibeVoice-1.5b тоже неплох, но присутствует сильный английский акцент, режет слух. Для английского - прикольно.
Скорость vibeVoice-7b на 3090:
для генерации длинного аудио длиной 30 секунд:
- 53 секунда - без стриминга
- 36 секунд со стримингом, до воспроизведения и буфером 20s
для генерации короткого аудио длиной 15 секунд:
- 27 секунд - без стриминга
- 19 секунд со стримингом, до воспроизведения и буфером 10s
Можно сократить время до воспроизведения, поставив буфер 3s, но тогда речь будет прерываться каждые 3 секунды на буферизацию. Возможно, на новых видюхах 5000 серии такого буфера хватит для реалтайм инференса.
Галка free_memory_after_generate:False сокращает время инференса на 10 секунд, но с ней модель будет проблематично выгрузить из памяти комфи (она там намертво загружается). Для тестов ставьте галку в True, модель будет освобождать память в конце.
Требования:
Для 7b:
в 7b_bf16 и 7b_fp16 требует 19 Гигов vram. В режиме bnb_nf4 - требование всего 9.2 GB.
На 3090 рекомендую инференс в режиме fp16 - он на 10-15% быстрее, чем bf16. Если vram мало, то ставьте bnb_nf4. Для новых видюх 4000 и 5000 серии пробуйте fp8 (не тестил).
Для 1.5b:
1.5b_bf16 требует 6 гигов vram. 1.5b_nf4 требует - 3.2 GB. Но nf4 медленнее в 2 раза чем bf16 и fp16.
Уже сейчас этот воркфлоу можно прокинуть в sillyTavern, будет и потоковое аудио и wav2lip в конце (не потоковый).
В планах далее прикрутить сюда потоковый wav2lip, чтобы видео генерировалось сразу по мере готовности аудио, а не в конце.
Модельки автоматом скачиваются в комфи. Если надо вручную, в вф есть ссылки на HF.
воркфлоу VibeVoice_streaming + wav2lip: https://github.com/Mozer/VibeVoice-ComfyUI/blob/main/examples/vibevoice_streaming_and_wav2lip.json
мои ноды VibeVoice: https://github.com/Mozer/VibeVoice-ComfyUI
мой wav2lip для комфи: https://github.com/Mozer/ComfyUI_wav2lip
32🔥54👍16❤6😭1
Media is too big
VIEW IN TELEGRAM
vibevoice-7b-exl3 с реалтайм скоростью
Оригинал работает так: 2 прохода LLM (позитив+негатив) + диффузия на основе этих проходов.
## Оптимизация
- заменил LLM движок HF-transformers на exllamav3 (LLM стала быстрее в 3 раза)
- заменил 2 прохода LLM на один, но с кэшем для негативного прохода
- уменьшил число шагов до 5 (чуть меньше вариативности)
- прикрутил разделение входного текста на абзацы (т.к. на длинном тексте начинает глючить)
- диффузию не трогал, думаю прикрутить TeaCache
- добавил стриминг с буфером 1s. Воспроизведение теперь начинается почти мгновенно
## Требования:
- nvidia 3000+ (2000 серия не подойдет для exllamav3, но ноду можно запустить и без exllamav3)
- от 8 GB vram (лучше 12)
- flash-attention-2 (без него exllamav3 не работает)
- моя exllamav3
- модель должна полностью входить в vram, частичной выгрузки нет
## Потребление vram
- 7b-exl-8bit + no-llm-bf16 - 12.6GB
- 7b-exl-4bit + no-llm-bf16 - 9.5GB (реалтайм на 3090, 9.00 it/s)
- 7b-exl-4bit + no-llm-nf4 - 7.3GB (nf4 в 1.5 раза медленнее)
- 1.5b-exl-8bit + no-llm-nf4 - 4.7GB
- exl3 кванты по скорости +- одинаковые. Но 4bit у меня чуть-чуть быстрее.
- nvidia 3060 всего на 20% процентов медленее чем 3090.
## Установка
Винда: flash-attention-2 + exllamav3 + мои ноды
Linux: только ноды
Под виндой компилировать трудно, поэтому вот ссылки на скомпилированные whl.
flash-attention-2 whl: https://huggingface.co/lldacing/flash-attention-windows-wheel/tree/main
моя exllamav3 whl: https://github.com/Mozer/exllamav3/releases/tag/v0.0.6
Узнать вашу версию питона, торча и куды можно в comfyui - меню - Help - about
Ниже я все ставлю на свой python 3.11, torch 2.6.0, cuda126. Для других версий, ищите сами по ссылкам выше (или компилируйте). Для flash-attention важно совпадение версии питона, торча и cuda. Для exllama главное, чтобы версия питона совпадала, на остальное - пофиг.
После этого ставим мои ноды через comfyui manager - install via git url:
https://github.com/mozer/comfyUI-vibevoice-exl3
Либо через: cd ComfyUI/custom_nodes && git clone https://github.com/mozer/comfyUI-vibevoice-exl3
Перезапустить комфи.
## Воркфлоу
Воркфлоу с wav2lip (опционально): https://github.com/Mozer/ComfyUI-VibeVoice-exl3/blob/main/examples/vibevoice_exl3_with_wav2lip.json
Модельки качать вручную не надо. Но если сильно хочется, то они тут: https://huggingface.co/collections/tensorbanana/vibevoice-68cd1bac5766dc65e90380c1
Если вручную - изучите структуру папок: /models/vibevoice/models--tensorbanana--vibevoice-1.5b-exl3-8bit/snapshots/badfbb16dd63a1a8e633ba6eb138a21303ed1325/model.safetensors
- Грузить в ноду надо сразу 2 модельки, пример: VibeVoice-7B-no-llm-bf16 (3.2GB) + vibevoice-7b-exl3-4bit (4.4 GB).
- Если шум в аудио на выходе - снизьте значение negative_llm_steps_to_cache до 1-2 или совсем до 0 (как в оригинале, но будет медленнее). Чем длинее кусок - тем больше вероятность шума.
- Используйте split_by_newline:True для разбиения текста на куски по абзацам. Разбивать на куски по предложениям я не советую, интонация будет разная в каждом предложении.
Оригинал работает так: 2 прохода LLM (позитив+негатив) + диффузия на основе этих проходов.
## Оптимизация
- заменил LLM движок HF-transformers на exllamav3 (LLM стала быстрее в 3 раза)
- заменил 2 прохода LLM на один, но с кэшем для негативного прохода
- уменьшил число шагов до 5 (чуть меньше вариативности)
- прикрутил разделение входного текста на абзацы (т.к. на длинном тексте начинает глючить)
- диффузию не трогал, думаю прикрутить TeaCache
- добавил стриминг с буфером 1s. Воспроизведение теперь начинается почти мгновенно
## Требования:
- nvidia 3000+ (2000 серия не подойдет для exllamav3, но ноду можно запустить и без exllamav3)
- от 8 GB vram (лучше 12)
- flash-attention-2 (без него exllamav3 не работает)
- моя exllamav3
- модель должна полностью входить в vram, частичной выгрузки нет
## Потребление vram
- 7b-exl-8bit + no-llm-bf16 - 12.6GB
- 7b-exl-4bit + no-llm-bf16 - 9.5GB (реалтайм на 3090, 9.00 it/s)
- 7b-exl-4bit + no-llm-nf4 - 7.3GB (nf4 в 1.5 раза медленнее)
- 1.5b-exl-8bit + no-llm-nf4 - 4.7GB
- exl3 кванты по скорости +- одинаковые. Но 4bit у меня чуть-чуть быстрее.
- nvidia 3060 всего на 20% процентов медленее чем 3090.
## Установка
Винда: flash-attention-2 + exllamav3 + мои ноды
Linux: только ноды
Под виндой компилировать трудно, поэтому вот ссылки на скомпилированные whl.
flash-attention-2 whl: https://huggingface.co/lldacing/flash-attention-windows-wheel/tree/main
моя exllamav3 whl: https://github.com/Mozer/exllamav3/releases/tag/v0.0.6
Узнать вашу версию питона, торча и куды можно в comfyui - меню - Help - about
Ниже я все ставлю на свой python 3.11, torch 2.6.0, cuda126. Для других версий, ищите сами по ссылкам выше (или компилируйте). Для flash-attention важно совпадение версии питона, торча и cuda. Для exllama главное, чтобы версия питона совпадала, на остальное - пофиг.
cd C:\DATA\SD\ComfyUI_windows_portable_nvidia\ComfyUI_windows_portable\python_embeded
python.exe -m pip install https://huggingface.co/lldacing/flash-attention-windows-wheel/resolve/main/flash_attn-2.7.4%2Bcu126torch2.6.0cxx11abiFALSE-cp311-cp311-win_amd64.whl
# exllamav3-v0.0.6 выбираем whl под свою версию питона (главное чтобы версия питона совпадала, на остальное пофиг):
# удаляем старую exllamav3, если она у вас есть:
python.exe -m pip uninstall exllamav3
# ставим мою exllamav3 (тут ссылка на 3.11 версию питона):
python.exe -m pip install https://github.com/Mozer/exllamav3/releases/download/v0.0.6/exllamav3-0.0.6+cu128.torch2.7.0-cp311-cp311-win_amd64.whl
python.exe -m pip install -U "triton-windows<3.5
После этого ставим мои ноды через comfyui manager - install via git url:
https://github.com/mozer/comfyUI-vibevoice-exl3
Либо через: cd ComfyUI/custom_nodes && git clone https://github.com/mozer/comfyUI-vibevoice-exl3
Перезапустить комфи.
## Воркфлоу
Воркфлоу с wav2lip (опционально): https://github.com/Mozer/ComfyUI-VibeVoice-exl3/blob/main/examples/vibevoice_exl3_with_wav2lip.json
Модельки качать вручную не надо. Но если сильно хочется, то они тут: https://huggingface.co/collections/tensorbanana/vibevoice-68cd1bac5766dc65e90380c1
Если вручную - изучите структуру папок: /models/vibevoice/models--tensorbanana--vibevoice-1.5b-exl3-8bit/snapshots/badfbb16dd63a1a8e633ba6eb138a21303ed1325/model.safetensors
- Грузить в ноду надо сразу 2 модельки, пример: VibeVoice-7B-no-llm-bf16 (3.2GB) + vibevoice-7b-exl3-4bit (4.4 GB).
- Если шум в аудио на выходе - снизьте значение negative_llm_steps_to_cache до 1-2 или совсем до 0 (как в оригинале, но будет медленнее). Чем длинее кусок - тем больше вероятность шума.
- Используйте split_by_newline:True для разбиения текста на куски по абзацам. Разбивать на куски по предложениям я не советую, интонация будет разная в каждом предложении.
66❤30🔥25👍7🤔2🤝2👏1🤣1
Треним лоры для qwen/qwen-edit в fp8 в musubi-tuner под виндой
Лоры для qwen-image также работают в qwen-image-edit.
Musubi также поддерживает тренировку qwen-edit с 3 картинками: до, после и маска. Подробнее тут (я пока не тестил): https://github.com/kohya-ss/musubi-tuner/blob/main/docs/qwen_image.md
Рекомендую тренить в разрешении 1024x1024, 3000 шагов, затем дополнительно в 1300x1300 еще 1000 шагов. Так будет более универсальная поддержка разных разрешений на выходе. За пару дней натренил 5 лор (стиль, концепт, персонажи), выкладываю 2. Для лоры на лицо можно использовать селфи, за 5000 шагов квен выучивает лицо очень неплохо.
1000-2000 шагов для квена - это слишком мало, надо 3000 минимум и на стиль и на персонажа. За ночь (~10 часов) у меня выходит 4000-5000 шагов на 3090 при 1024. На 3060 - в 16 раз медленнее.
Датасет:
20-100 картинок с txt описанием в хорошем качестве и разрешении. В каком разрешении треним, в таком и делаем инференс для максимального качества. Список разрешений ваших картинок выводится в консоли в начале тренировки.
Для лоры на персонажа:
- датасет 30-40 картинок
- фото не мелкие, разные ракурсы. Можно селфи.
- если будут шумные (зерно) - на выходе тоже получите шумные
- 3000 шагов минимум, я тренил 5000 шагов, 1024x1024 + 1300x1300
- в txt описании лучше делать полные описания. Уникальное имя (A13xandra) + в чем одета и что делает.
# Требования:
32 RAM + 24 GB vram (на 12 слишком медленно)
musubi не поддерживает nf4. Если у вас нет 24GB - попробуйте https://github.com/Nerogar/OneTrainer, он поддерживает nf4 и работает с виндой.
# Установка
модельки (нужны именно bf16 версии):
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/diffusion_models/qwen_image_bf16.safetensors
https://huggingface.co/Qwen/Qwen-Image/blob/main/vae/diffusion_pytorch_model.safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors
# Тренировка:
- мой toml файл датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_hand_grab.toml
- комманды запуска (в пост не влезли): https://github.com/Mozer/comfy_stuff/blob/main/musubi/musubi_qwen_commands.txt
- при изменении разрешения тренировки надо заново создать кэш vae
# Инференс:
для qwen-image рекомендую сэмплер dpmpp_2m + beta либо res_2s + bong_tangent. Они показывают лучшую реалистичность
832x1248 или 1056x1600, cfg 3.0, 25 steps
для qwen-image-edit я не нашел реалистичных сэмплеров, пока юзаю dpmpp_2m + beta.
ВФ для qwen-edit: https://github.com/Mozer/comfy_stuff/blob/main/workflows/qwen_edit_hand_grab_25_steps.json
lightning лора 4, 8 steps сильно ухудшает качество и реализм, по возможности не используйте её. Но будет медленно, 20-25 шагов - оптимально (2 минуты на картинку для qwen-edit).
Мои qwen лоры:
- marat safin style (стиль под пленку): https://civitai.com/models/1894150?modelVersionId=2353000
- hand grab (POV рука трогает объект): https://civitai.com/models/2081019?modelVersionId=2354652
- лора на русский язык еще тренится
Лоры для qwen-image также работают в qwen-image-edit.
Musubi также поддерживает тренировку qwen-edit с 3 картинками: до, после и маска. Подробнее тут (я пока не тестил): https://github.com/kohya-ss/musubi-tuner/blob/main/docs/qwen_image.md
Рекомендую тренить в разрешении 1024x1024, 3000 шагов, затем дополнительно в 1300x1300 еще 1000 шагов. Так будет более универсальная поддержка разных разрешений на выходе. За пару дней натренил 5 лор (стиль, концепт, персонажи), выкладываю 2. Для лоры на лицо можно использовать селфи, за 5000 шагов квен выучивает лицо очень неплохо.
1000-2000 шагов для квена - это слишком мало, надо 3000 минимум и на стиль и на персонажа. За ночь (~10 часов) у меня выходит 4000-5000 шагов на 3090 при 1024. На 3060 - в 16 раз медленнее.
Датасет:
20-100 картинок с txt описанием в хорошем качестве и разрешении. В каком разрешении треним, в таком и делаем инференс для максимального качества. Список разрешений ваших картинок выводится в консоли в начале тренировки.
Для лоры на персонажа:
- датасет 30-40 картинок
- фото не мелкие, разные ракурсы. Можно селфи.
- если будут шумные (зерно) - на выходе тоже получите шумные
- 3000 шагов минимум, я тренил 5000 шагов, 1024x1024 + 1300x1300
- в txt описании лучше делать полные описания. Уникальное имя (A13xandra) + в чем одета и что делает.
# Требования:
32 RAM + 24 GB vram (на 12 слишком медленно)
На 3090-24GB:
768x768 block_swap 0, 22.6 vram, 4.17 s/it
1024x1024 block_swap 0, 23.9 vram, 8.50 s/it
1300x1300 block_swap 8, 24.2 vram, 16.41 s/it
На 3060-12GB:
1024x1024 block_swap 40, 11.8 vram, 140.0 s/it
musubi не поддерживает nf4. Если у вас нет 24GB - попробуйте https://github.com/Nerogar/OneTrainer, он поддерживает nf4 и работает с виндой.
# Установка
git clone https://github.com/kohya-ss/musubi-tuner
cd musubi-tuner
conda create musubi
conda activate musubi
(musubi) C:\DATA\SD\musubi-tuner>pip install -e
модельки (нужны именно bf16 версии):
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/diffusion_models/qwen_image_bf16.safetensors
https://huggingface.co/Qwen/Qwen-Image/blob/main/vae/diffusion_pytorch_model.safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors
# Тренировка:
- мой toml файл датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_hand_grab.toml
- комманды запуска (в пост не влезли): https://github.com/Mozer/comfy_stuff/blob/main/musubi/musubi_qwen_commands.txt
- при изменении разрешения тренировки надо заново создать кэш vae
# Инференс:
для qwen-image рекомендую сэмплер dpmpp_2m + beta либо res_2s + bong_tangent. Они показывают лучшую реалистичность
832x1248 или 1056x1600, cfg 3.0, 25 steps
для qwen-image-edit я не нашел реалистичных сэмплеров, пока юзаю dpmpp_2m + beta.
ВФ для qwen-edit: https://github.com/Mozer/comfy_stuff/blob/main/workflows/qwen_edit_hand_grab_25_steps.json
lightning лора 4, 8 steps сильно ухудшает качество и реализм, по возможности не используйте её. Но будет медленно, 20-25 шагов - оптимально (2 минуты на картинку для qwen-edit).
Мои qwen лоры:
- marat safin style (стиль под пленку): https://civitai.com/models/1894150?modelVersionId=2353000
- hand grab (POV рука трогает объект): https://civitai.com/models/2081019?modelVersionId=2354652
- лора на русский язык еще тренится
2👍30🔥12👏7❤2🤝1
Генерируем картинку и печатаем на 3d принтере
# картинка:
qwen-image + моя cosplay лора. 30 шагов, 1056x1600, dpmpp_2m beta
cosplay лора: https://civitai.com/models/2138214
Картинка подойдет почти любая, даже фотка. Главное, чтобы объект полностью влазил в кадр (иначе будет обрезан). А если не влазит - попросите qwen-edit и nano banana, чтобы отдалили камеру. Опционально можно почистить фон, чтобы ничего лишнего не попало в 3d. Или наоборот добавить, например, стул или банан.
# Сервисы imageTo3d (коммерческие и опенсорс):
- Hunyuan3D-3.0 - топовое качество, 20 бесплатных генераций в день. Цензуру пока не встречал, но и не особо старался. Рекомендую. Есть возможность сгенерировать текстуру для этой модельки, но я пока не понял, как ее скачать. Еще можно скелет вставить внутрь (не тестил)
https://3d.hunyuan.tencent.com/
- Hunyuan3D-2.1: opensource, низкое разрешение, 10-15 генераций в день на HF
https://huggingface.co/spaces/tencent/Hunyuan3D-2.1
- meshy.ai - 5-10 бесплатных генераций в месяц, сильная цензура, в бикини не дает генерировать. Не дает скачивать бесплатно модельки, созданные в версиях 5 и 6, а только там топовое качество. Качество в 4 версии сильно хуже, что-то на уровне опенсорсного Hunyuan3D-2.1.
- Miscrosoft Trellis - opensource, качество совсем так себе, 10-15 в день на HF
https://huggingface.co/spaces/trellis-community/TRELLIS
Вывод: если нужно качество - Hunyuan3D-3.0 на сайте. Если нужна приватность - локальная Hunyuan3D-2.1.
# Обработка 3d:
После сохранения 3d файла из сервиса Hunyuan3D я открываю его в блендере и пересохраняю с большим масштабом (исходно он слишком мелкий и почему-то не отображается в Cura). Далее открываю в приложении Cura, проверяю размеры и отдаю на печать (через microSD флешку). Никаких проблем с Non-manifold (дырявая геометрия) с такими модельками нет. (Если будете качать 3d модельки с сайтов с 3d моделями, созданными для игр, у вас очень часто будут проблемы со странной геометрией фигурок. Это когда принтер не знает, как такие дырявые и плоские части печатать.)
# 3d печать
Мой 3d принтер: Elegoo Neptune 3 pro (брал год назад за 20к рублей на али, сейчас вижу за 11.5к рублей)
https://aliexpress.ru/popular/elegoo-neptune-3-pro
Печтаю пластиком PLA, сопло 0.2 mm. Другие пластики пока не тестил. Говорят, PETG лучше подходит для аниме фигурок. Но если нужно совсем топовое качество, как у профессиональных фигурок, смотрите в сторону фотополимерных 3d принтеров. Но они не для квартиры - соседи будут жаловаться из-за запаха (испарения вредные).
Печать фигурки высотой 11 см длится около 3-х часов. Потом еще нужно с помощью бокорезов обрезать поддержки (над нависающими элементами). Займет полчаса.
Опционально можно покрасить - я крашу кожу акриловой краской + акриловые маркеры + перманентные маркеры с тонким жалом. За раскраску сильно не пинайте, я в художку не ходил =)
# картинка:
qwen-image + моя cosplay лора. 30 шагов, 1056x1600, dpmpp_2m beta
cosplay лора: https://civitai.com/models/2138214
Картинка подойдет почти любая, даже фотка. Главное, чтобы объект полностью влазил в кадр (иначе будет обрезан). А если не влазит - попросите qwen-edit и nano banana, чтобы отдалили камеру. Опционально можно почистить фон, чтобы ничего лишнего не попало в 3d. Или наоборот добавить, например, стул или банан.
# Сервисы imageTo3d (коммерческие и опенсорс):
- Hunyuan3D-3.0 - топовое качество, 20 бесплатных генераций в день. Цензуру пока не встречал, но и не особо старался. Рекомендую. Есть возможность сгенерировать текстуру для этой модельки, но я пока не понял, как ее скачать. Еще можно скелет вставить внутрь (не тестил)
https://3d.hunyuan.tencent.com/
- Hunyuan3D-2.1: opensource, низкое разрешение, 10-15 генераций в день на HF
https://huggingface.co/spaces/tencent/Hunyuan3D-2.1
- meshy.ai - 5-10 бесплатных генераций в месяц, сильная цензура, в бикини не дает генерировать. Не дает скачивать бесплатно модельки, созданные в версиях 5 и 6, а только там топовое качество. Качество в 4 версии сильно хуже, что-то на уровне опенсорсного Hunyuan3D-2.1.
- Miscrosoft Trellis - opensource, качество совсем так себе, 10-15 в день на HF
https://huggingface.co/spaces/trellis-community/TRELLIS
Вывод: если нужно качество - Hunyuan3D-3.0 на сайте. Если нужна приватность - локальная Hunyuan3D-2.1.
# Обработка 3d:
После сохранения 3d файла из сервиса Hunyuan3D я открываю его в блендере и пересохраняю с большим масштабом (исходно он слишком мелкий и почему-то не отображается в Cura). Далее открываю в приложении Cura, проверяю размеры и отдаю на печать (через microSD флешку). Никаких проблем с Non-manifold (дырявая геометрия) с такими модельками нет. (Если будете качать 3d модельки с сайтов с 3d моделями, созданными для игр, у вас очень часто будут проблемы со странной геометрией фигурок. Это когда принтер не знает, как такие дырявые и плоские части печатать.)
# 3d печать
Мой 3d принтер: Elegoo Neptune 3 pro (брал год назад за 20к рублей на али, сейчас вижу за 11.5к рублей)
https://aliexpress.ru/popular/elegoo-neptune-3-pro
Печтаю пластиком PLA, сопло 0.2 mm. Другие пластики пока не тестил. Говорят, PETG лучше подходит для аниме фигурок. Но если нужно совсем топовое качество, как у профессиональных фигурок, смотрите в сторону фотополимерных 3d принтеров. Но они не для квартиры - соседи будут жаловаться из-за запаха (испарения вредные).
Печать фигурки высотой 11 см длится около 3-х часов. Потом еще нужно с помощью бокорезов обрезать поддержки (над нависающими элементами). Займет полчаса.
Опционально можно покрасить - я крашу кожу акриловой краской + акриловые маркеры + перманентные маркеры с тонким жалом. За раскраску сильно не пинайте, я в художку не ходил =)
🔥38👍15❤6
Tongyi z-image-turbo-6B - 9.5 секунд на картинку
Только text2image. Редактировать пока не умеет (обещают)
Умеет в базовый nsfw и знает знаменитостей (в отличие от flux2)
nsfw примеры тут:
https://news.1rj.ru/str/+UzijD4bV1M8wODEy
Использует vae от Flux1_dev + qwen3_4b
turbo версия имеет фиксированный CFG и 9 шагов, за счет этого быстрая. Также обещают выпустить полную версию.
Скорость:
768x1280 - 9.5 секунд на картинку на 3090 (9 шагов)
Потребление vram: z-image в fp8 + qwen-fp16 = 20 GB vram
Сам чекпоинт в fp8 весит 6 гигов (должен влезть в 8 GB vram).
Кириллицу умеет, но чуть хуже чем flux2_dev.
Похоже, что натренирована на реализм из коробоки.
Поддерживает разрешения:
+ 1056x1600 (15s, хорошая композиция)
x 1600x2200 (34s, композиция чуть хуже, текст сильно хуже)
x 1600x2560 (40s, появляются артефакты и дублирование)
Промпты взял c civitai.
комфи: https://comfyanonymous.github.io/ComfyUI_examples/z_image/
Fp8: https://huggingface.co/T5B/Z-Image-Turbo-FP8/tree/main
spaсe: https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo
Только text2image. Редактировать пока не умеет (обещают)
Умеет в базовый nsfw и знает знаменитостей (в отличие от flux2)
nsfw примеры тут:
https://news.1rj.ru/str/+UzijD4bV1M8wODEy
Использует vae от Flux1_dev + qwen3_4b
turbo версия имеет фиксированный CFG и 9 шагов, за счет этого быстрая. Также обещают выпустить полную версию.
Скорость:
768x1280 - 9.5 секунд на картинку на 3090 (9 шагов)
Потребление vram: z-image в fp8 + qwen-fp16 = 20 GB vram
Сам чекпоинт в fp8 весит 6 гигов (должен влезть в 8 GB vram).
Кириллицу умеет, но чуть хуже чем flux2_dev.
Похоже, что натренирована на реализм из коробоки.
Поддерживает разрешения:
+ 1056x1600 (15s, хорошая композиция)
x 1600x2200 (34s, композиция чуть хуже, текст сильно хуже)
x 1600x2560 (40s, появляются артефакты и дублирование)
Промпты взял c civitai.
комфи: https://comfyanonymous.github.io/ComfyUI_examples/z_image/
Fp8: https://huggingface.co/T5B/Z-Image-Turbo-FP8/tree/main
spaсe: https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo
👍26🔥12❤2😢1🍓1🤝1