Треним лоры для qwen/qwen-edit в fp8 в musubi-tuner под виндой
Лоры для qwen-image также работают в qwen-image-edit.
Musubi также поддерживает тренировку qwen-edit с 3 картинками: до, после и маска. Подробнее тут (я пока не тестил): https://github.com/kohya-ss/musubi-tuner/blob/main/docs/qwen_image.md
Рекомендую тренить в разрешении 1024x1024, 3000 шагов, затем дополнительно в 1300x1300 еще 1000 шагов. Так будет более универсальная поддержка разных разрешений на выходе. За пару дней натренил 5 лор (стиль, концепт, персонажи), выкладываю 2. Для лоры на лицо можно использовать селфи, за 5000 шагов квен выучивает лицо очень неплохо.
1000-2000 шагов для квена - это слишком мало, надо 3000 минимум и на стиль и на персонажа. За ночь (~10 часов) у меня выходит 4000-5000 шагов на 3090 при 1024. На 3060 - в 16 раз медленнее.
Датасет:
20-100 картинок с txt описанием в хорошем качестве и разрешении. В каком разрешении треним, в таком и делаем инференс для максимального качества. Список разрешений ваших картинок выводится в консоли в начале тренировки.
Для лоры на персонажа:
- датасет 30-40 картинок
- фото не мелкие, разные ракурсы. Можно селфи.
- если будут шумные (зерно) - на выходе тоже получите шумные
- 3000 шагов минимум, я тренил 5000 шагов, 1024x1024 + 1300x1300
- в txt описании лучше делать полные описания. Уникальное имя (A13xandra) + в чем одета и что делает.
# Требования:
32 RAM + 24 GB vram (на 12 слишком медленно)
musubi не поддерживает nf4. Если у вас нет 24GB - попробуйте https://github.com/Nerogar/OneTrainer, он поддерживает nf4 и работает с виндой.
# Установка
модельки (нужны именно bf16 версии):
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/diffusion_models/qwen_image_bf16.safetensors
https://huggingface.co/Qwen/Qwen-Image/blob/main/vae/diffusion_pytorch_model.safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors
# Тренировка:
- мой toml файл датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_hand_grab.toml
- комманды запуска (в пост не влезли): https://github.com/Mozer/comfy_stuff/blob/main/musubi/musubi_qwen_commands.txt
- при изменении разрешения тренировки надо заново создать кэш vae
# Инференс:
для qwen-image рекомендую сэмплер dpmpp_2m + beta либо res_2s + bong_tangent. Они показывают лучшую реалистичность
832x1248 или 1056x1600, cfg 3.0, 25 steps
для qwen-image-edit я не нашел реалистичных сэмплеров, пока юзаю dpmpp_2m + beta.
ВФ для qwen-edit: https://github.com/Mozer/comfy_stuff/blob/main/workflows/qwen_edit_hand_grab_25_steps.json
lightning лора 4, 8 steps сильно ухудшает качество и реализм, по возможности не используйте её. Но будет медленно, 20-25 шагов - оптимально (2 минуты на картинку для qwen-edit).
Мои qwen лоры:
- marat safin style (стиль под пленку): https://civitai.com/models/1894150?modelVersionId=2353000
- hand grab (POV рука трогает объект): https://civitai.com/models/2081019?modelVersionId=2354652
- лора на русский язык еще тренится
Лоры для qwen-image также работают в qwen-image-edit.
Musubi также поддерживает тренировку qwen-edit с 3 картинками: до, после и маска. Подробнее тут (я пока не тестил): https://github.com/kohya-ss/musubi-tuner/blob/main/docs/qwen_image.md
Рекомендую тренить в разрешении 1024x1024, 3000 шагов, затем дополнительно в 1300x1300 еще 1000 шагов. Так будет более универсальная поддержка разных разрешений на выходе. За пару дней натренил 5 лор (стиль, концепт, персонажи), выкладываю 2. Для лоры на лицо можно использовать селфи, за 5000 шагов квен выучивает лицо очень неплохо.
1000-2000 шагов для квена - это слишком мало, надо 3000 минимум и на стиль и на персонажа. За ночь (~10 часов) у меня выходит 4000-5000 шагов на 3090 при 1024. На 3060 - в 16 раз медленнее.
Датасет:
20-100 картинок с txt описанием в хорошем качестве и разрешении. В каком разрешении треним, в таком и делаем инференс для максимального качества. Список разрешений ваших картинок выводится в консоли в начале тренировки.
Для лоры на персонажа:
- датасет 30-40 картинок
- фото не мелкие, разные ракурсы. Можно селфи.
- если будут шумные (зерно) - на выходе тоже получите шумные
- 3000 шагов минимум, я тренил 5000 шагов, 1024x1024 + 1300x1300
- в txt описании лучше делать полные описания. Уникальное имя (A13xandra) + в чем одета и что делает.
# Требования:
32 RAM + 24 GB vram (на 12 слишком медленно)
На 3090-24GB:
768x768 block_swap 0, 22.6 vram, 4.17 s/it
1024x1024 block_swap 0, 23.9 vram, 8.50 s/it
1300x1300 block_swap 8, 24.2 vram, 16.41 s/it
На 3060-12GB:
1024x1024 block_swap 40, 11.8 vram, 140.0 s/it
musubi не поддерживает nf4. Если у вас нет 24GB - попробуйте https://github.com/Nerogar/OneTrainer, он поддерживает nf4 и работает с виндой.
# Установка
git clone https://github.com/kohya-ss/musubi-tuner
cd musubi-tuner
conda create musubi
conda activate musubi
(musubi) C:\DATA\SD\musubi-tuner>pip install -e
модельки (нужны именно bf16 версии):
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/diffusion_models/qwen_image_bf16.safetensors
https://huggingface.co/Qwen/Qwen-Image/blob/main/vae/diffusion_pytorch_model.safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors
# Тренировка:
- мой toml файл датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_hand_grab.toml
- комманды запуска (в пост не влезли): https://github.com/Mozer/comfy_stuff/blob/main/musubi/musubi_qwen_commands.txt
- при изменении разрешения тренировки надо заново создать кэш vae
# Инференс:
для qwen-image рекомендую сэмплер dpmpp_2m + beta либо res_2s + bong_tangent. Они показывают лучшую реалистичность
832x1248 или 1056x1600, cfg 3.0, 25 steps
для qwen-image-edit я не нашел реалистичных сэмплеров, пока юзаю dpmpp_2m + beta.
ВФ для qwen-edit: https://github.com/Mozer/comfy_stuff/blob/main/workflows/qwen_edit_hand_grab_25_steps.json
lightning лора 4, 8 steps сильно ухудшает качество и реализм, по возможности не используйте её. Но будет медленно, 20-25 шагов - оптимально (2 минуты на картинку для qwen-edit).
Мои qwen лоры:
- marat safin style (стиль под пленку): https://civitai.com/models/1894150?modelVersionId=2353000
- hand grab (POV рука трогает объект): https://civitai.com/models/2081019?modelVersionId=2354652
- лора на русский язык еще тренится
2👍30🔥12👏7❤2🤝1
Генерируем картинку и печатаем на 3d принтере
# картинка:
qwen-image + моя cosplay лора. 30 шагов, 1056x1600, dpmpp_2m beta
cosplay лора: https://civitai.com/models/2138214
Картинка подойдет почти любая, даже фотка. Главное, чтобы объект полностью влазил в кадр (иначе будет обрезан). А если не влазит - попросите qwen-edit и nano banana, чтобы отдалили камеру. Опционально можно почистить фон, чтобы ничего лишнего не попало в 3d. Или наоборот добавить, например, стул или банан.
# Сервисы imageTo3d (коммерческие и опенсорс):
- Hunyuan3D-3.0 - топовое качество, 20 бесплатных генераций в день. Цензуру пока не встречал, но и не особо старался. Рекомендую. Есть возможность сгенерировать текстуру для этой модельки, но я пока не понял, как ее скачать. Еще можно скелет вставить внутрь (не тестил)
https://3d.hunyuan.tencent.com/
- Hunyuan3D-2.1: opensource, низкое разрешение, 10-15 генераций в день на HF
https://huggingface.co/spaces/tencent/Hunyuan3D-2.1
- meshy.ai - 5-10 бесплатных генераций в месяц, сильная цензура, в бикини не дает генерировать. Не дает скачивать бесплатно модельки, созданные в версиях 5 и 6, а только там топовое качество. Качество в 4 версии сильно хуже, что-то на уровне опенсорсного Hunyuan3D-2.1.
- Miscrosoft Trellis - opensource, качество совсем так себе, 10-15 в день на HF
https://huggingface.co/spaces/trellis-community/TRELLIS
Вывод: если нужно качество - Hunyuan3D-3.0 на сайте. Если нужна приватность - локальная Hunyuan3D-2.1.
# Обработка 3d:
После сохранения 3d файла из сервиса Hunyuan3D я открываю его в блендере и пересохраняю с большим масштабом (исходно он слишком мелкий и почему-то не отображается в Cura). Далее открываю в приложении Cura, проверяю размеры и отдаю на печать (через microSD флешку). Никаких проблем с Non-manifold (дырявая геометрия) с такими модельками нет. (Если будете качать 3d модельки с сайтов с 3d моделями, созданными для игр, у вас очень часто будут проблемы со странной геометрией фигурок. Это когда принтер не знает, как такие дырявые и плоские части печатать.)
# 3d печать
Мой 3d принтер: Elegoo Neptune 3 pro (брал год назад за 20к рублей на али, сейчас вижу за 11.5к рублей)
https://aliexpress.ru/popular/elegoo-neptune-3-pro
Печтаю пластиком PLA, сопло 0.2 mm. Другие пластики пока не тестил. Говорят, PETG лучше подходит для аниме фигурок. Но если нужно совсем топовое качество, как у профессиональных фигурок, смотрите в сторону фотополимерных 3d принтеров. Но они не для квартиры - соседи будут жаловаться из-за запаха (испарения вредные).
Печать фигурки высотой 11 см длится около 3-х часов. Потом еще нужно с помощью бокорезов обрезать поддержки (над нависающими элементами). Займет полчаса.
Опционально можно покрасить - я крашу кожу акриловой краской + акриловые маркеры + перманентные маркеры с тонким жалом. За раскраску сильно не пинайте, я в художку не ходил =)
# картинка:
qwen-image + моя cosplay лора. 30 шагов, 1056x1600, dpmpp_2m beta
cosplay лора: https://civitai.com/models/2138214
Картинка подойдет почти любая, даже фотка. Главное, чтобы объект полностью влазил в кадр (иначе будет обрезан). А если не влазит - попросите qwen-edit и nano banana, чтобы отдалили камеру. Опционально можно почистить фон, чтобы ничего лишнего не попало в 3d. Или наоборот добавить, например, стул или банан.
# Сервисы imageTo3d (коммерческие и опенсорс):
- Hunyuan3D-3.0 - топовое качество, 20 бесплатных генераций в день. Цензуру пока не встречал, но и не особо старался. Рекомендую. Есть возможность сгенерировать текстуру для этой модельки, но я пока не понял, как ее скачать. Еще можно скелет вставить внутрь (не тестил)
https://3d.hunyuan.tencent.com/
- Hunyuan3D-2.1: opensource, низкое разрешение, 10-15 генераций в день на HF
https://huggingface.co/spaces/tencent/Hunyuan3D-2.1
- meshy.ai - 5-10 бесплатных генераций в месяц, сильная цензура, в бикини не дает генерировать. Не дает скачивать бесплатно модельки, созданные в версиях 5 и 6, а только там топовое качество. Качество в 4 версии сильно хуже, что-то на уровне опенсорсного Hunyuan3D-2.1.
- Miscrosoft Trellis - opensource, качество совсем так себе, 10-15 в день на HF
https://huggingface.co/spaces/trellis-community/TRELLIS
Вывод: если нужно качество - Hunyuan3D-3.0 на сайте. Если нужна приватность - локальная Hunyuan3D-2.1.
# Обработка 3d:
После сохранения 3d файла из сервиса Hunyuan3D я открываю его в блендере и пересохраняю с большим масштабом (исходно он слишком мелкий и почему-то не отображается в Cura). Далее открываю в приложении Cura, проверяю размеры и отдаю на печать (через microSD флешку). Никаких проблем с Non-manifold (дырявая геометрия) с такими модельками нет. (Если будете качать 3d модельки с сайтов с 3d моделями, созданными для игр, у вас очень часто будут проблемы со странной геометрией фигурок. Это когда принтер не знает, как такие дырявые и плоские части печатать.)
# 3d печать
Мой 3d принтер: Elegoo Neptune 3 pro (брал год назад за 20к рублей на али, сейчас вижу за 11.5к рублей)
https://aliexpress.ru/popular/elegoo-neptune-3-pro
Печтаю пластиком PLA, сопло 0.2 mm. Другие пластики пока не тестил. Говорят, PETG лучше подходит для аниме фигурок. Но если нужно совсем топовое качество, как у профессиональных фигурок, смотрите в сторону фотополимерных 3d принтеров. Но они не для квартиры - соседи будут жаловаться из-за запаха (испарения вредные).
Печать фигурки высотой 11 см длится около 3-х часов. Потом еще нужно с помощью бокорезов обрезать поддержки (над нависающими элементами). Займет полчаса.
Опционально можно покрасить - я крашу кожу акриловой краской + акриловые маркеры + перманентные маркеры с тонким жалом. За раскраску сильно не пинайте, я в художку не ходил =)
🔥38👍15❤6
Tongyi z-image-turbo-6B - 9.5 секунд на картинку
Только text2image. Редактировать пока не умеет (обещают)
Умеет в базовый nsfw и знает знаменитостей (в отличие от flux2)
nsfw примеры тут:
https://news.1rj.ru/str/+UzijD4bV1M8wODEy
Использует vae от Flux1_dev + qwen3_4b
turbo версия имеет фиксированный CFG и 9 шагов, за счет этого быстрая. Также обещают выпустить полную версию.
Скорость:
768x1280 - 9.5 секунд на картинку на 3090 (9 шагов)
Потребление vram: z-image в fp8 + qwen-fp16 = 20 GB vram
Сам чекпоинт в fp8 весит 6 гигов (должен влезть в 8 GB vram).
Кириллицу умеет, но чуть хуже чем flux2_dev.
Похоже, что натренирована на реализм из коробоки.
Поддерживает разрешения:
+ 1056x1600 (15s, хорошая композиция)
x 1600x2200 (34s, композиция чуть хуже, текст сильно хуже)
x 1600x2560 (40s, появляются артефакты и дублирование)
Промпты взял c civitai.
комфи: https://comfyanonymous.github.io/ComfyUI_examples/z_image/
Fp8: https://huggingface.co/T5B/Z-Image-Turbo-FP8/tree/main
spaсe: https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo
Только text2image. Редактировать пока не умеет (обещают)
Умеет в базовый nsfw и знает знаменитостей (в отличие от flux2)
nsfw примеры тут:
https://news.1rj.ru/str/+UzijD4bV1M8wODEy
Использует vae от Flux1_dev + qwen3_4b
turbo версия имеет фиксированный CFG и 9 шагов, за счет этого быстрая. Также обещают выпустить полную версию.
Скорость:
768x1280 - 9.5 секунд на картинку на 3090 (9 шагов)
Потребление vram: z-image в fp8 + qwen-fp16 = 20 GB vram
Сам чекпоинт в fp8 весит 6 гигов (должен влезть в 8 GB vram).
Кириллицу умеет, но чуть хуже чем flux2_dev.
Похоже, что натренирована на реализм из коробоки.
Поддерживает разрешения:
+ 1056x1600 (15s, хорошая композиция)
x 1600x2200 (34s, композиция чуть хуже, текст сильно хуже)
x 1600x2560 (40s, появляются артефакты и дублирование)
Промпты взял c civitai.
комфи: https://comfyanonymous.github.io/ComfyUI_examples/z_image/
Fp8: https://huggingface.co/T5B/Z-Image-Turbo-FP8/tree/main
spaсe: https://huggingface.co/spaces/Tongyi-MAI/Z-Image-Turbo
👍25🔥12❤2🍓1🤝1