AART.NEURAL – Telegram
AART.NEURAL
43 subscribers
20 photos
5 links
Заметки о использовании нейросетей для архитектора.
Download Telegram
Channel created
Привет!
Данный канал задуман мной как заметки по работе с нейросетями для архитектора:

https://news.1rj.ru/str/aartneural

Сюда я буду выкладывать полезные ссылки на модели, информацию по последовательности работы с нейросетями и результаты работы.

Также есть чат для обсуждения и общения:

https://news.1rj.ru/str/+INGKLNPcjlpiNmU6
🔥4
Вводный пост

Скачивание, установка и запуск portable ComfyUI:


1. Переходим на GitHub по ссылке: https://github.com/comfyanonymous/ComfyUI.

2. Спускаемся до раздела Installing, Windows, и хуячим по Direct link to download.

3. Пока скачивается, создаем отдельную папку на своем диске C или D и называем, например «SD» (в пути папки не использовать кириллицу).

4. Вставляем и распаковываем в созданную папку скачанный архив.

5. После разархивации, заходим в полученную папку и запускаем:
а) если у вас Nvidia, то run_nvidia_gpu;
б) если у вас не Nvidia, то run_cpu.

6. После запуска откроется командная строка и просто ждем, пока запустится интерфейс в браузере.

Поздравляю! Вы прекрасны
2👍2🔥2
Теория

С первым запуском мы имеем базовую систему нод, в каждую записан код, выполняющий определенную функцию.
Разберем по порядку:

1. Загрузить контрольную точку. Загружает модель Stable Diffusion, используемую для генерации изображений. Это «движок» создания изображений. Моделей огромное множество и обучены они под разные задачи.

2. Кодирование текста Clip. Туда вписывает текстовый запрос (промт). Позитивный (хотим видеть) и негативный (не хотим видеть). Данная нода преобразует язык человеческий в язык, понятный для нейросети.

3. Ksampler. Управляющий пульт генерации. Генерирует изображение на основе выбранной модели, промта и заданных параметров. Это - «художник».

4. Пустое латентное изображение. Создает «Холст» для генерации изображения с заданными размерами. Для начала стоит выбирать 512х512.

5. Декодирование VAE. Преобразует латентное изображение, с которым работает модель в готовое изображение. Визуальный переводчик для человека.

6. Сохранить изображение. Выводит готовое изображение.
2👍2
#Проблема:
нет главной синей кнопки "Выполнить" в интерфейсе.
Решение:
1. Очистить историю, куки файлы и кеш браузера, в котором запускается ComfyUI.
2. Отключить блокировщики рекламы.
3. Очистить компьютер от мусора через Ccleaner или аналог.
4. Перезагрузка машины.
2
Stable Diffusion (SD)

Самая популярная версия модели для генерации изображений - Stable Diffusion 1.5.
Она стала основой для множества моделей (checkpoints), которые были дообучены под конкретные задачи.
Например, существуют модели, специализирующиеся на: архитектуре, портретах, киберпанке.
Модели SD обучаются на наборах данных, которые включают изображения и текстовые описания.
Обычно изображения имеют разрешение 512x512, что является стандартом для обучения моделей на основе SD 1.5.
Также существуют модели, поддерживающие генерацию 1024х1024 и выше (SD XL).

В процессе обучения модель изучает характерные черты изображений:
атмосфера (настроение, эмоции), композиция (расположение объектов в кадре), цветовая палитра (сочетание цветов), свет и тени (освещение, контраст), стиль (реализм, абстракция и т.д.).

Еще существуют LoRa (кастомизатор) — это метод дообучения нейросетей, который позволяет адаптировать большую модель, такую как SD, к новым стилям, персонажам или объектам, не изменяя основной чекпоинт (меньше весит, гибкость без изменения основной модели, возможность комбинации нескольких LoRa.)

Минимальные системные требования для генерации:
оперативная память от 8 ГБ. Видеокарта с памятью от 6 ГБ. Свободное место на диске: от 20 ГБ.

Библиотека с моделями SD:
https://civitai.com/
Фильтры при поиске: Model Type – Checkpoint либо LoRa Base Model – SD 1.5.
После выбора необходимой модели скачиваем файл.
Скачанный файл вставляем по следующему пути: Твой_Диск\Твоя_папка\ComfyUI_windows_portable\ComfyUI\models\checkpoints

В следующем посте рассмотрим генерацию Text to Image, напишем первый промт, выставим необходимые параметры генерации и получим изображение.
4
2
Text to image.

Вызвать библиотеку шаблонов генераций:
В интерфейсе ComfyUI «W» на клавиатуре -> посмотреть примеры шаблонов -> image generation

Позитивный промт (нода кодирование текста CLIP Text Encode): основной объект, детали объекта, стиль изображения, атмосфера, дополнительные элементы, технические параметры.

Негативный промт (нода кодирование текста CLIP): размытые детали, низкое качество, искаженные пропорции, артефакты.

Для перевода промта используй DeepL.

KSampler:


Steps (количество шагов, итераций при генерации):
20–30 шагов: Быстрая генерация.
50–80 шагов: Оптимальный баланс.
100+ шагов: Максимальная детализация.

CFG Scale (Чем выше значение, тем строже модель следует промту):
7–12: Стандартный диапазон.
>12: Может привести к переобучению и артефактам.
<7: Результат будет более креативным, но менее соответствующим промту.

Sampler (Алгоритм, который используется для генерации изображения):
Euler a: Быстрый и качественный, подходит для большинства задач.
DPM++ 2M Karras: Хорош для детализации, работает на среднем количестве шагов.
DDIM: Медленнее, но даёт чёткие результаты, особенно на большом количестве шагов.

Scheduler (Алгоритм, который управляет процессом генерации на каждом шаге):
normal: Стандартная схема.
karras: Улучшенная схема для более плавной генерации.

Seed (Число, которое определяет начальное состояние генератора случайных чисел)

Denoise (Параметр, который контролирует уровень шума в изображении):
1.0: Полная генерация с нуля.
<1.0: Частичная генерация (например, для доработки существующего изображения).
3
Positive Promt:
architectural photo of modern minimalist white stone villa with large glazing and flat roof, clean geometry, simple composition, Alvar Aalto style, ArchDaily, clear lines, sunny day, soft light, trees around, high detail, photorealism, rich colors, 4K.

Negative Promt:
people, artifacts, low quality, blurred details, distorted proportions.

Model: ArchitectureRealMix_v11.safetensors.
Steps - 35
CFG scale - 7,6
Sampler - euler
Scheduler - carras
denoise - 0.99
2🔥2
Text to image cоветы:

1. Чем конкретнее, тем лучше.

2. Используй слова-триггеры: фотореализм, высокое качество, высокая детализация и т.д.

3. Нейросеть понимает стили, например в позитивный промт можно вписывать имена известных архитекторов.

4. Экспериментируй с порядком слов в промте, это может давать хорошие результаты.

5. Экспериментируй с sampler, пробуй разные, это влияет на результат.

6. Оптимальное соотношение CGF Scale и Steps подбирается ситуативно в указанных рамках.
2🔥2
Image to image.

Вызвать библиотеку шаблонов генераций:
В интерфейсе ComfyUI «W» на клавиатуре -> посмотреть примеры шаблонов -> image to image.

В контексте генерации image to image рассматривается использование базового изображения, на основании которого генерируется последующее.

Принцип остается аналогичным: пишем позитивный и негативный промты, выставляем начальные параметры в ноде KSampler.
НО
Ключевым параметром в таком виде генерации является параметр Denoise.
В данном случае Denoise используется на значениях >0,3, но <1.0, так как позволяет частично сохранить базовое изображение при генерации последующего.

Используем ноду «Масштабировать изображение» для масштабирования базовой картинки до 512х512 (два раза ЛКМ по интерфейсу и в поиске пишем наименование ноды).
Отличие в построение нод в данном случае является то, что вместо ноды «латентное изображение», в ноду KSampler подключается базовое изображение через «масштабировать изображение» и «кодировать VAE».

Рассмотрим это на примере «преобразования».
Используем модель interiordesignsuperm_v2

За базовое изображение возьму один из проунов Эля Лисицкого и преобразую его в интерьер библиотеки.

Данный инструмент может пригодится на этапе поиска концепции и вдохновения.

Советую поэкспериментировать со значением Denoise.
🔥6