AART.NEURAL – Telegram
AART.NEURAL
43 subscribers
20 photos
5 links
Заметки о использовании нейросетей для архитектора.
Download Telegram
Channel created
Привет!
Данный канал задуман мной как заметки по работе с нейросетями для архитектора:

https://news.1rj.ru/str/aartneural

Сюда я буду выкладывать полезные ссылки на модели, информацию по последовательности работы с нейросетями и результаты работы.

Также есть чат для обсуждения и общения:

https://news.1rj.ru/str/+INGKLNPcjlpiNmU6
🔥4
Вводный пост

Скачивание, установка и запуск portable ComfyUI:


1. Переходим на GitHub по ссылке: https://github.com/comfyanonymous/ComfyUI.

2. Спускаемся до раздела Installing, Windows, и хуячим по Direct link to download.

3. Пока скачивается, создаем отдельную папку на своем диске C или D и называем, например «SD» (в пути папки не использовать кириллицу).

4. Вставляем и распаковываем в созданную папку скачанный архив.

5. После разархивации, заходим в полученную папку и запускаем:
а) если у вас Nvidia, то run_nvidia_gpu;
б) если у вас не Nvidia, то run_cpu.

6. После запуска откроется командная строка и просто ждем, пока запустится интерфейс в браузере.

Поздравляю! Вы прекрасны
2👍2🔥2
Теория

С первым запуском мы имеем базовую систему нод, в каждую записан код, выполняющий определенную функцию.
Разберем по порядку:

1. Загрузить контрольную точку. Загружает модель Stable Diffusion, используемую для генерации изображений. Это «движок» создания изображений. Моделей огромное множество и обучены они под разные задачи.

2. Кодирование текста Clip. Туда вписывает текстовый запрос (промт). Позитивный (хотим видеть) и негативный (не хотим видеть). Данная нода преобразует язык человеческий в язык, понятный для нейросети.

3. Ksampler. Управляющий пульт генерации. Генерирует изображение на основе выбранной модели, промта и заданных параметров. Это - «художник».

4. Пустое латентное изображение. Создает «Холст» для генерации изображения с заданными размерами. Для начала стоит выбирать 512х512.

5. Декодирование VAE. Преобразует латентное изображение, с которым работает модель в готовое изображение. Визуальный переводчик для человека.

6. Сохранить изображение. Выводит готовое изображение.
2👍2
#Проблема:
нет главной синей кнопки "Выполнить" в интерфейсе.
Решение:
1. Очистить историю, куки файлы и кеш браузера, в котором запускается ComfyUI.
2. Отключить блокировщики рекламы.
3. Очистить компьютер от мусора через Ccleaner или аналог.
4. Перезагрузка машины.
2
Stable Diffusion (SD)

Самая популярная версия модели для генерации изображений - Stable Diffusion 1.5.
Она стала основой для множества моделей (checkpoints), которые были дообучены под конкретные задачи.
Например, существуют модели, специализирующиеся на: архитектуре, портретах, киберпанке.
Модели SD обучаются на наборах данных, которые включают изображения и текстовые описания.
Обычно изображения имеют разрешение 512x512, что является стандартом для обучения моделей на основе SD 1.5.
Также существуют модели, поддерживающие генерацию 1024х1024 и выше (SD XL).

В процессе обучения модель изучает характерные черты изображений:
атмосфера (настроение, эмоции), композиция (расположение объектов в кадре), цветовая палитра (сочетание цветов), свет и тени (освещение, контраст), стиль (реализм, абстракция и т.д.).

Еще существуют LoRa (кастомизатор) — это метод дообучения нейросетей, который позволяет адаптировать большую модель, такую как SD, к новым стилям, персонажам или объектам, не изменяя основной чекпоинт (меньше весит, гибкость без изменения основной модели, возможность комбинации нескольких LoRa.)

Минимальные системные требования для генерации:
оперативная память от 8 ГБ. Видеокарта с памятью от 6 ГБ. Свободное место на диске: от 20 ГБ.

Библиотека с моделями SD:
https://civitai.com/
Фильтры при поиске: Model Type – Checkpoint либо LoRa Base Model – SD 1.5.
После выбора необходимой модели скачиваем файл.
Скачанный файл вставляем по следующему пути: Твой_Диск\Твоя_папка\ComfyUI_windows_portable\ComfyUI\models\checkpoints

В следующем посте рассмотрим генерацию Text to Image, напишем первый промт, выставим необходимые параметры генерации и получим изображение.
4
2
Text to image.

Вызвать библиотеку шаблонов генераций:
В интерфейсе ComfyUI «W» на клавиатуре -> посмотреть примеры шаблонов -> image generation

Позитивный промт (нода кодирование текста CLIP Text Encode): основной объект, детали объекта, стиль изображения, атмосфера, дополнительные элементы, технические параметры.

Негативный промт (нода кодирование текста CLIP): размытые детали, низкое качество, искаженные пропорции, артефакты.

Для перевода промта используй DeepL.

KSampler:


Steps (количество шагов, итераций при генерации):
20–30 шагов: Быстрая генерация.
50–80 шагов: Оптимальный баланс.
100+ шагов: Максимальная детализация.

CFG Scale (Чем выше значение, тем строже модель следует промту):
7–12: Стандартный диапазон.
>12: Может привести к переобучению и артефактам.
<7: Результат будет более креативным, но менее соответствующим промту.

Sampler (Алгоритм, который используется для генерации изображения):
Euler a: Быстрый и качественный, подходит для большинства задач.
DPM++ 2M Karras: Хорош для детализации, работает на среднем количестве шагов.
DDIM: Медленнее, но даёт чёткие результаты, особенно на большом количестве шагов.

Scheduler (Алгоритм, который управляет процессом генерации на каждом шаге):
normal: Стандартная схема.
karras: Улучшенная схема для более плавной генерации.

Seed (Число, которое определяет начальное состояние генератора случайных чисел)

Denoise (Параметр, который контролирует уровень шума в изображении):
1.0: Полная генерация с нуля.
<1.0: Частичная генерация (например, для доработки существующего изображения).
3