NEW BOT Телеграм, страница - 912727787

Tensor Banana

2.84K subscribers

547 photos

127 videos

117 links

Нейросети и всё такое. https://youtube.com/@tensorbanana
Чат по нейронкам: https://news.1rj.ru/str/+zFDiHuL1iVA1YWMy
Чат с ботами: https://news.1rj.ru/str/+m2TQ5VJLhIRiY2U6
Написать админу и донаты: @talkllamabot

Download Telegram

About

Blog

Apps

Platform

2.84K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

T-one STT (распознавание речи на русском) под виндой (без WSL и докера) на CPU

- размер очень маленький - 71M параметров (whisper large - 1500M), поэтому быстрый.
- по первым ощущениям, уровень ошибок на уровне whisper-large.
- но по метрикам превосходит все существующие модули распознавания речи для русского.
- по умолчанию работает на CPU и довольно быстро. Намного быстрее виспера на cpu
- на ГПУ запускать лень, надо triton-inference-server поднимать. Пишут, что для GPU нужно 8 GB vram
- не ставит знаки препинания (а виспер ставит)
- обычное голосовое сообщение умеренного качества, записанное на улице, длиной 74 секунды он распознал за 12 секунд на CPU. Работает потоково. Первая фраза появилась уже через 1 секунду. Итого: 10 ошибок, в основном, пропуск слов, которые плохо слышно, иногда неверные окончания.

Установка под виндой

(для linux или wsl - используйте официальную инструкцию)

git clone https://github.com/voicekit-team/T-one.git
cd T-one
python -m venv .venv
.venv\Scripts\activate

в файле pyproject.toml удаляем или комментируем (#) строчку 16:
"kenlm (>=0.2.0,<1.0.0)",

git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
bootstrap-vcpkg.sh
vcpkg integrate install
vcpkg install kenlm

cd ..
pip install poetry  
poetry lock
poetry install -E demo
pip install kenlm

uvicorn --host 127.0.0.1 --port 8081 tone.demo.website:app --reload

открываем 127.0.0.1:8081 в браузере

По умолчанию демо работает на CPU. Чтобы запустить на GPU нужно ставить TensorRT и triton-inference-server. Там свои сложности, под винду есть только некоторые версии сервера. Официальная инструкция (я не тестил) https://github.com/voicekit-team/T-one/blob/main/docs/triton_inference_server.ru.md

гитхаб: https://github.com/voicekit-team/T-one

HF: https://huggingface.co/t-tech/T-one

1👍32🔥6❤5🤔3

3.96K views11:33

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Wan2.2 A14B 3-шаговый воркфлоу для t2v, t2i, img2img и апскейла видео

- 3 шага подходят для малого числа кадров: от 1 до 65 при 720р. При 81+ кадре этого уже не хватает, будет цветной шум, надо больше шагов. Чем больше разрешение и число кадров - тем больше шагов. Для 480р трёх шагов хватит на 81 кадр.
- если виден цветной шум: увеличить силу лоры FusionX у обоих моделей, либо увеличить число шагов.
- фото лучше делать в разрешении 1920х1080 и 1080х1536. Детализация офигенная. Пример в хайрез: https://raw.githubusercontent.com/Mozer/comfy_stuff/refs/heads/main/output/ComfyUI_06056_.png
- Вертикальные фото/видео с высотой больше 1500 лучше не делать, будут искажения геометрии.
- в исходном воркфлоу от comfy anonymous стоят верные настройки для передачи шума между сэмплерами. В популярных на реддите воркфлоу на 4 шага - стоят неканонические зачения. В них страдает детализация и текстура кожи.
- малая модель на 5B мне не понравилась, похожа на 1.3b по качеству.
- странный факт: 5B работает в 24fps и A14B в 16fps
- промпты для видео брал с сайтов Вана: https://wan.video/explore и flow tv (Veo): https://labs.google/flow/tv/channels
- cсылки на Лоры (fusionx, lightxt2, smartphone) внутри воркфлоу.
- озвучку делал в mmaudio: https://huggingface.co/spaces/hkchengrex/MMAudio
- если не считать отсутствие звука и речи, то визуально ван 2.2 очень похож на veo3.
- с img2img прикольно переделывать аниме в реализм и обновлять графику старым играм (можно попроботь через video2video для старых игр). Регулировать силу исходной картинки приходится с помощью числа шагов и их соотношения на первом сэмплере.
- апскейл видео слегка меняет лицо. чем больше шагов тем чётче картинка, но дальше от оригинала. 1+2 и 1+3 шага - оптимальны.
- weight_dtype fp8e5m не работает на 3090 (шумит), используйте fp8_e4m3fn_fast
- старые лоры - работают.

Скорость на 3090:
- видео 1280x720 49 кадров, 1+2 шага: 6 минут с интерполяцией
- фото 1920х1088 2+2 шага: 1 минута
- video2video 480p 97 кадров 1+3 шага: 6 минут с интерполяцией
- на 16 гигах врам пойдет, но не надо ставить разрешение 720р и 121 кадр - иначе время генерации будет 14 часов.
- ещё ждём teaCache для скорости.

Примеры промптов:

- Икеа:

Cinematic shot of a sunlit empty Scandinavian bedroom. A sealed IKEA box trembles, opens, and flat pack furniture assembles rapidly into a stylish IKEA bedroom with bed, table, chair and other furniture. fixed wide angle, lighting: natural warm with cool accents, room: Scandinavian bedroom, elements: IKEA box (logo visible), Start: empty room at the beginning, then box opens, furniture assembles precisely and rapidly, ending: calm, modern bedroom with yellow IKEA accent. Furniture at the end: bed with yellow throw, bedside tables, lamps, wardrobe, shelves, mirror, art, rug, curtains, reading chair, plants

- Бабка и яма:

A TV news report from the streets of the Russian hinterland. The news anchor woman speaks into a microphone in Russian: "A huge pit has appeared in our city for three years now." At this time, in the background, a Russian grandmother with two heavy bags walks down the street and falls into a huge pit filled with water. The atmosphere is comical, with a deliberately serious tone of reporting. Photorealistic 4k 60fps video

- куклы за столом:

In a dimly lit Victorian-style living room, lace curtains flutter gently. muppets toys (kermit and others) sit around a round table, their figures illuminated by flickering candlelight. A whisper makes the porcelain teacups tremble, and the eyes in the paintings shift uneasily. Each slow, deliberate stop-motion frame heightens the tension. The camera pans slowly to the right, capturing every subtle movement of the puppets, enhancing the eerie atmosphere. The furniture and decorations in the background are clearly detailed.

мои воркфлоу для A14B: https://github.com/Mozer/comfy_stuff/tree/main/workflows/wan2.2

попробовать wan2.2 (i2v - бесплатно, долго; t2v - 10 кредитов): https://wan.video/generate

30🔥34👍9❤7👌1

4.33K views21:49

This media is not supported in your browser

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Говорящий видео аватар в Silly Tavern (F5 TTS + Float / wav2lip)

- wav2lip (первое видео) - делает липсинк по видео + аудио (старый, быстрый, можно дать видео на вход, на выходе разрешение небольшое, видео размытое)
- Float (второе видео) - делает липсинк по картинке + аудио (новый, не очень быстрый, не умеет брать видео на вход, на выход квадрат 512х512)

# Установка

Нужно:
- свежая версия Silly Tavern (1.13.2, вышла 3 недели назад. До этого поддержки видео не было)
- ComfyUI и кастомные ноды: ComfyUI-F5-TTS, ComfyUI_wav2lip, ComfyUI-FLOAT_Optimized. Ноды устанавливать через ComfyUI Manager - via URL.

Русский язык в F5-TTS в комфи
нода: https://github.com/niknah/ComfyUI-F5-TTS
скачать русский файнтюн от misha24-10:
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base_v2/model_last_inference.safetensors
https://huggingface.co/Misha24-10/F5-TTS_RUSSIAN/blob/main/F5TTS_v1_Base/vocab.txt
оба файла положить в папку models/checkpoints/F5-TTS/
оба файла переименовать в ru.safetensors и ru.txt

Референсное аудио для F5 должно быть коротким, 6-8 c. При 11 c - речь становится слишком быстрой.
в папку /comfyUI/input положить 2 файла emma_ru_xtts_3.wav и emma_ru_xtts_3.txt: https://github.com/Mozer/comfy_stuff/tree/main/input
в emma_ru_xtts_3.txt лежит текст сказанный в wav файле.
в комфи в ноде F5 TTS audio advanced выбрать:
model model:///ru.safetensors
model_type: F5TTS_v1_Base
sample_audio: emma_ru_xtts_3

# Float (говорящая голова по одной картинке) в комфи
- нода: https://github.com/set-soft/ComfyUI-FLOAT_Optimized
- на входе лицо должно смотреть строго прямо. Сверху кадра должно оставаться немного свободного места.
- галка face_align обрежет лицо как надо. Без нее будут артефакты.
- нет video2video, на вход только картинка
- Потоковый режим я пока не прикрутил. С ним можно сократить время ожидания в 2 раза.
- модельки скачаются сами при первом запуске
- пример головы: https://github.com/Mozer/comfy_stuff/blob/main/input/ComfyUI_00463_2(2).jpg

# Wav2lip в комфи
- моя нода: https://github.com/Mozer/ComfyUI_wav2lip - прикрутил кэширование для скорости и пару настроек для удобства.
- скачать модельку https://huggingface.co/Nekochu/Wav2Lip/blob/main/wav2lip_gan.pth и положить в \custom_nodes\ComfyUI_wav2lip\Wav2Lip\checkpoints
- без модели нода не запустится. Перезагрузить ComfyUI (restart).
- при первом запуске с новым видео обнаружение лица занимает около минуты.
- примера видео не дам, сами найдете

# Мои воркфлоу:
(F5 + Wav2lip) и (F5 + Float): https://github.com/Mozer/comfy_stuff/tree/main/workflows/silly_tavern
Скачать нужный ВФ и запустить в комфи. Проверить, что все работает, и он видит вашу картинку/видео. Затем нажать: верхнее меню - workflow -> Export (API)
Далее ВАШ воркфлоу можно импортировать в silly Tavern. Мой ВФ импортировать в ST не надо, там указаны мои имена файлов, их у вас нет.

# Настройка SillyTavern
Меню Extensions -> Image generation:
Source: comfyUI
URL: http://127.0.0.1:8188
Очищаем поля "Common prompt prefix" и "Negative common prompt prefix"
ComfyUI Workflow: жмем +. Пишем "F5_Wav2lip", вставляем ваш экспортированный воркфлоу.
Проверяем/заменяем, что вместо "speech": "Какой-то текст", стоит "speech": "%prompt%", так мы будем передавать текст сообщения из silly в comfy.
Верхнее меню - User Settings - Expand Message Actions (для удобства)

- Вместо F5 TTS можно поставить XTTSv2 (в комфи я не тестил, но видел ноды).
- на видео LLM - sainemo-remix-12b

Скорость на 3090 для аудио длиной 13-17 секунд:
- F5 + wav2lip - 17 секунд генерации, связка жрет 3 GB VRAM
- F5 + Float - 55 секунд генерации, связка жрет 10 GB VRAM
- На 3060: на 5 секунд дольше.

Планирую добавить стриминг режим для Float, будет в 2 раза быстрее, но видео будет отображаться в отельном окне.

42🔥30👍8❤6🏆1

3.7K views20:16

Media is too big

VIEW IN TELEGRAM

Нейро-Эмма - Моя любовь чат джипити (infiniteTalk)

слова: tensorbanana & gemini-2.5-pro
песня: udio-1.5-allegro
картинки: wan2.2 t2i
анимация: wan2.2 i2v
липсинк: infiniteTalk video2video
консистентность: лора+детальное описание

gemini-2.5-pro, наверное, лучше всех пишет стихи на русском. На самые жирные бэнгеры пришлось самому придумывать.
udio-1.5-allegro (бесплатный) - удивил, он намного лучше бесплатного suno. Платные модели suno я не тестил, но те что стоят в бесплатном режиме - это просто прошлый век по сравнению с udio.

Сгенерировал одну стартовую картинку с гитарой, далее просто продолжал ее через image2video и движение камеры.

Лоры на движение камеры:
зум вперед: https://civitai.com/models/1784288/motion-lora-camera-push-in-wan-14b-720p-i2v
вправо-влево: https://civitai.com/models/1892318/whip-pan

Еще пробовал через первый-последний кадр в vace, но выходило плохо с движением камеры, забил на это. Надо попробовать в wan-fun, но мне было лень качать. Также просил gemini-image (nano-banana) скомпоновать новый кадр со старыми персонажами, но тот отказался (скорее всего, ему топик не понравился).

Робот танцует через vace video2video с dwpose.

infiniteTalk video2video от kijai жрет кучу врам. При 720p со скользящим окном в 49 кадров - 34 GB (уходит в виртуальную vram). Все видео делится на куски по 49 кадров с перехлестом в 9 кадров и отправляется на липсинк. Чем больше окно, тем лучше консистеность, при 49 будут видны склейки. Окно в 65 и 81 кадр в 720p у меня падают по OOM ошибке. Если мало vram - пробуйте побольше blockswap, поменьше окно и 480p. Предположу, что на 12 GB должно запуститься, но это не точно.

Скорость infiniteTalk: 28 секунд 720p видео генерируется за 40 минут на 3090.

infiniteTalk работает на 2-х шагах с фиксированным деноизом 50%, а значит мелкие детали в исходном видео будут изменены. Например, в одном прогоне он сожрал барабанные палочки, Эмма просто махала руками. Поэтому нужно прописывать такие мелкие детали в промпт: Emma Watson woman is singing and playing at drum kit with 2 drum sticks in her hands, rock music, energetic music, fast movements

wan-s2v пока не тестил, но он и не поддерживает режим video2video (там только одна говорящая картинка). А с infiniteTalk можно делать динамичные сцены.

Сделал все за 3 вечера.

Воркфлоу infiniteTalk video2video: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_infinitetalk_video2video_720p_49f.json

41🔥60👍12👎6❤5⚡3😁2💔1

3.96K views21:18

This media is not supported in your browser

VIEW IN TELEGRAM

Прикрутил потоковый режим для vibeVoice-7b в комфи

vibeVoice-7b - лучшая открытая TTS для русского языка на данный момент. Ударения практически идеальные.

Потоковый режим воспроизводит аудио напрямую в колонки по мере того, как оно генерируется.

Скорости 3090 не хватает на реалтайм инференс 7b. Видюха примерно в 2 раза медленнее, чем надо. 1.5b тоже не идет в реалтайме, там есть какие-то проблемы со скоростью, я пока не разбирался.

vibeVoice-7b практически идеально ставит ударения в русской речи.
vibeVoice-1.5b тоже неплох, но присутствует сильный английский акцент, режет слух. Для английского - прикольно.

Скорость vibeVoice-7b на 3090:
для генерации длинного аудио длиной 30 секунд:
- 53 секунда - без стриминга
- 36 секунд со стримингом, до воспроизведения и буфером 20s

для генерации короткого аудио длиной 15 секунд:
- 27 секунд - без стриминга
- 19 секунд со стримингом, до воспроизведения и буфером 10s

Можно сократить время до воспроизведения, поставив буфер 3s, но тогда речь будет прерываться каждые 3 секунды на буферизацию. Возможно, на новых видюхах 5000 серии такого буфера хватит для реалтайм инференса.

Галка free_memory_after_generate:False сокращает время инференса на 10 секунд, но с ней модель будет проблематично выгрузить из памяти комфи (она там намертво загружается). Для тестов ставьте галку в True, модель будет освобождать память в конце.

Требования:
Для 7b:
в 7b_bf16 и 7b_fp16 требует 19 Гигов vram. В режиме bnb_nf4 - требование всего 9.2 GB.
На 3090 рекомендую инференс в режиме fp16 - он на 10-15% быстрее, чем bf16. Если vram мало, то ставьте bnb_nf4. Для новых видюх 4000 и 5000 серии пробуйте fp8 (не тестил).

Для 1.5b:
1.5b_bf16 требует 6 гигов vram. 1.5b_nf4 требует - 3.2 GB. Но nf4 медленнее в 2 раза чем bf16 и fp16.

Уже сейчас этот воркфлоу можно прокинуть в sillyTavern, будет и потоковое аудио и wav2lip в конце (не потоковый).
В планах далее прикрутить сюда потоковый wav2lip, чтобы видео генерировалось сразу по мере готовности аудио, а не в конце.

Модельки автоматом скачиваются в комфи. Если надо вручную, в вф есть ссылки на HF.

воркфлоу VibeVoice_streaming + wav2lip: https://github.com/Mozer/VibeVoice-ComfyUI/blob/main/examples/vibevoice_streaming_and_wav2lip.json

мои ноды VibeVoice: https://github.com/Mozer/VibeVoice-ComfyUI

мой wav2lip для комфи: https://github.com/Mozer/ComfyUI_wav2lip

32🔥54👍16❤6😭1

5.3K views21:12

Media is too big

VIEW IN TELEGRAM

vibevoice-7b-exl3 с реалтайм скоростью

Оригинал работает так: 2 прохода LLM (позитив+негатив) + диффузия на основе этих проходов.

## Оптимизация
- заменил LLM движок HF-transformers на exllamav3 (LLM стала быстрее в 3 раза)
- заменил 2 прохода LLM на один, но с кэшем для негативного прохода
- уменьшил число шагов до 5 (чуть меньше вариативности)
- прикрутил разделение входного текста на абзацы (т.к. на длинном тексте начинает глючить)
- диффузию не трогал, думаю прикрутить TeaCache
- добавил стриминг с буфером 1s. Воспроизведение теперь начинается почти мгновенно

## Требования:
- nvidia 3000+ (2000 серия не подойдет для exllamav3, но ноду можно запустить и без exllamav3)
- от 8 GB vram (лучше 12)
- flash-attention-2 (без него exllamav3 не работает)
- моя exllamav3
- модель должна полностью входить в vram, частичной выгрузки нет

## Потребление vram
- 7b-exl-8bit + no-llm-bf16 - 12.6GB
- 7b-exl-4bit + no-llm-bf16 - 9.5GB (реалтайм на 3090, 9.00 it/s)
- 7b-exl-4bit + no-llm-nf4 - 7.3GB (nf4 в 1.5 раза медленнее)
- 1.5b-exl-8bit + no-llm-nf4 - 4.7GB

- exl3 кванты по скорости +- одинаковые. Но 4bit у меня чуть-чуть быстрее.
- nvidia 3060 всего на 20% процентов медленее чем 3090.

## Установка
Винда: flash-attention-2 + exllamav3 + мои ноды
Linux: только ноды

Под виндой компилировать трудно, поэтому вот ссылки на скомпилированные whl.
flash-attention-2 whl: https://huggingface.co/lldacing/flash-attention-windows-wheel/tree/main
моя exllamav3 whl: https://github.com/Mozer/exllamav3/releases/tag/v0.0.6

Узнать вашу версию питона, торча и куды можно в comfyui - меню - Help - about

Ниже я все ставлю на свой python 3.11, torch 2.6.0, cuda126. Для других версий, ищите сами по ссылкам выше (или компилируйте). Для flash-attention важно совпадение версии питона, торча и cuda. Для exllama главное, чтобы версия питона совпадала, на остальное - пофиг.

cd C:\DATA\SD\ComfyUI_windows_portable_nvidia\ComfyUI_windows_portable\python_embeded
python.exe -m pip install https://huggingface.co/lldacing/flash-attention-windows-wheel/resolve/main/flash_attn-2.7.4%2Bcu126torch2.6.0cxx11abiFALSE-cp311-cp311-win_amd64.whl

# exllamav3-v0.0.6 выбираем whl под свою версию питона (главное чтобы версия питона совпадала, на остальное пофиг):

# удаляем старую exllamav3, если она у вас есть:
python.exe -m pip uninstall exllamav3

# ставим мою exllamav3 (тут ссылка на 3.11 версию питона):
python.exe -m pip install https://github.com/Mozer/exllamav3/releases/download/v0.0.6/exllamav3-0.0.6+cu128.torch2.7.0-cp311-cp311-win_amd64.whl

python.exe -m pip install -U "triton-windows<3.5

После этого ставим мои ноды через comfyui manager - install via git url:
https://github.com/mozer/comfyUI-vibevoice-exl3
Либо через: cd ComfyUI/custom_nodes && git clone https://github.com/mozer/comfyUI-vibevoice-exl3
Перезапустить комфи.

## Воркфлоу

Воркфлоу с wav2lip (опционально): https://github.com/Mozer/ComfyUI-VibeVoice-exl3/blob/main/examples/vibevoice_exl3_with_wav2lip.json
Модельки качать вручную не надо. Но если сильно хочется, то они тут: https://huggingface.co/collections/tensorbanana/vibevoice-68cd1bac5766dc65e90380c1
Если вручную - изучите структуру папок: /models/vibevoice/models--tensorbanana--vibevoice-1.5b-exl3-8bit/snapshots/badfbb16dd63a1a8e633ba6eb138a21303ed1325/model.safetensors

- Грузить в ноду надо сразу 2 модельки, пример: VibeVoice-7B-no-llm-bf16 (3.2GB) + vibevoice-7b-exl3-4bit (4.4 GB).
- Если шум в аудио на выходе - снизьте значение negative_llm_steps_to_cache до 1-2 или совсем до 0 (как в оригинале, но будет медленнее). Чем длинее кусок - тем больше вероятность шума.
- Используйте split_by_newline:True для разбиения текста на куски по абзацам. Разбивать на куски по предложениям я не советую, интонация будет разная в каждом предложении.

66❤30🔥25👍7🤔2🤝2👏1🤣1

4.15K viewsedited 19:53

Треним лоры для qwen/qwen-edit в fp8 в musubi-tuner под виндой

Лоры для qwen-image также работают в qwen-image-edit.

Musubi также поддерживает тренировку qwen-edit с 3 картинками: до, после и маска. Подробнее тут (я пока не тестил): https://github.com/kohya-ss/musubi-tuner/blob/main/docs/qwen_image.md

Рекомендую тренить в разрешении 1024x1024, 3000 шагов, затем дополнительно в 1300x1300 еще 1000 шагов. Так будет более универсальная поддержка разных разрешений на выходе. За пару дней натренил 5 лор (стиль, концепт, персонажи), выкладываю 2. Для лоры на лицо можно использовать селфи, за 5000 шагов квен выучивает лицо очень неплохо.

1000-2000 шагов для квена - это слишком мало, надо 3000 минимум и на стиль и на персонажа. За ночь (~10 часов) у меня выходит 4000-5000 шагов на 3090 при 1024. На 3060 - в 16 раз медленнее.

Датасет:
20-100 картинок с txt описанием в хорошем качестве и разрешении. В каком разрешении треним, в таком и делаем инференс для максимального качества. Список разрешений ваших картинок выводится в консоли в начале тренировки.

Для лоры на персонажа:
- датасет 30-40 картинок
- фото не мелкие, разные ракурсы. Можно селфи.
- если будут шумные (зерно) - на выходе тоже получите шумные
- 3000 шагов минимум, я тренил 5000 шагов, 1024x1024 + 1300x1300
- в txt описании лучше делать полные описания. Уникальное имя (A13xandra) + в чем одета и что делает.

# Требования:
32 RAM + 24 GB vram (на 12 слишком медленно)

На 3090-24GB:
768x768   block_swap 0, 22.6 vram,  4.17 s/it
1024x1024 block_swap 0, 23.9 vram,  8.50 s/it
1300x1300 block_swap 8, 24.2 vram, 16.41 s/it
На 3060-12GB:
1024x1024 block_swap 40, 11.8 vram, 140.0 s/it

musubi не поддерживает nf4. Если у вас нет 24GB - попробуйте https://github.com/Nerogar/OneTrainer, он поддерживает nf4 и работает с виндой.

# Установка

git clone https://github.com/kohya-ss/musubi-tuner
cd musubi-tuner
conda create musubi
conda activate musubi
(musubi) C:\DATA\SD\musubi-tuner>pip install -e

модельки (нужны именно bf16 версии):
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/diffusion_models/qwen_image_bf16.safetensors
https://huggingface.co/Qwen/Qwen-Image/blob/main/vae/diffusion_pytorch_model.safetensors
https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/blob/main/split_files/text_encoders/qwen_2.5_vl_7b.safetensors

# Тренировка:
- мой toml файл датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_hand_grab.toml
- комманды запуска (в пост не влезли): https://github.com/Mozer/comfy_stuff/blob/main/musubi/musubi_qwen_commands.txt
- при изменении разрешения тренировки надо заново создать кэш vae

# Инференс:
для qwen-image рекомендую сэмплер dpmpp_2m + beta либо res_2s + bong_tangent. Они показывают лучшую реалистичность
832x1248 или 1056x1600, cfg 3.0, 25 steps
для qwen-image-edit я не нашел реалистичных сэмплеров, пока юзаю dpmpp_2m + beta.
ВФ для qwen-edit: https://github.com/Mozer/comfy_stuff/blob/main/workflows/qwen_edit_hand_grab_25_steps.json

lightning лора 4, 8 steps сильно ухудшает качество и реализм, по возможности не используйте её. Но будет медленно, 20-25 шагов - оптимально (2 минуты на картинку для qwen-edit).

Мои qwen лоры:
- marat safin style (стиль под пленку): https://civitai.com/models/1894150?modelVersionId=2353000
- hand grab (POV рука трогает объект): https://civitai.com/models/2081019?modelVersionId=2354652
- лора на русский язык еще тренится

2👍30🔥12👏7❤2🤝1

3.04K views13:09

Генерируем картинку и печатаем на 3d принтере

# картинка:
qwen-image + моя cosplay лора. 30 шагов, 1056x1600, dpmpp_2m beta
cosplay лора: https://civitai.com/models/2138214
Картинка подойдет почти любая, даже фотка. Главное, чтобы объект полностью влазил в кадр (иначе будет обрезан). А если не влазит - попросите qwen-edit и nano banana, чтобы отдалили камеру. Опционально можно почистить фон, чтобы ничего лишнего не попало в 3d. Или наоборот добавить, например, стул или банан.

# Сервисы imageTo3d (коммерческие и опенсорс):
- Hunyuan3D-3.0 - топовое качество, 20 бесплатных генераций в день. Цензуру пока не встречал, но и не особо старался. Рекомендую. Есть возможность сгенерировать текстуру для этой модельки, но я пока не понял, как ее скачать. Еще можно скелет вставить внутрь (не тестил)
https://3d.hunyuan.tencent.com/

- Hunyuan3D-2.1: opensource, низкое разрешение, 10-15 генераций в день на HF
https://huggingface.co/spaces/tencent/Hunyuan3D-2.1

- meshy.ai - 5-10 бесплатных генераций в месяц, сильная цензура, в бикини не дает генерировать. Не дает скачивать бесплатно модельки, созданные в версиях 5 и 6, а только там топовое качество. Качество в 4 версии сильно хуже, что-то на уровне опенсорсного Hunyuan3D-2.1.

- Miscrosoft Trellis - opensource, качество совсем так себе, 10-15 в день на HF
https://huggingface.co/spaces/trellis-community/TRELLIS

Вывод: если нужно качество - Hunyuan3D-3.0 на сайте. Если нужна приватность - локальная Hunyuan3D-2.1.

# Обработка 3d:
После сохранения 3d файла из сервиса Hunyuan3D я открываю его в блендере и пересохраняю с большим масштабом (исходно он слишком мелкий и почему-то не отображается в Cura). Далее открываю в приложении Cura, проверяю размеры и отдаю на печать (через microSD флешку). Никаких проблем с Non-manifold (дырявая геометрия) с такими модельками нет. (Если будете качать 3d модельки с сайтов с 3d моделями, созданными для игр, у вас очень часто будут проблемы со странной геометрией фигурок. Это когда принтер не знает, как такие дырявые и плоские части печатать.)

# 3d печать
Мой 3d принтер: Elegoo Neptune 3 pro (брал год назад за 20к рублей на али, сейчас вижу за 11.5к рублей)
https://aliexpress.ru/popular/elegoo-neptune-3-pro

Печтаю пластиком PLA, сопло 0.2 mm. Другие пластики пока не тестил. Говорят, PETG лучше подходит для аниме фигурок. Но если нужно совсем топовое качество, как у профессиональных фигурок, смотрите в сторону фотополимерных 3d принтеров. Но они не для квартиры - соседи будут жаловаться из-за запаха (испарения вредные).

Печать фигурки высотой 11 см длится около 3-х часов. Потом еще нужно с помощью бокорезов обрезать поддержки (над нависающими элементами). Займет полчаса.

Опционально можно покрасить - я крашу кожу акриловой краской + акриловые маркеры + перманентные маркеры с тонким жалом. За раскраску сильно не пинайте, я в художку не ходил =)

🔥38👍15❤6

17.5K views16:39