NEW BOT Телеграм, страница

Forwarded from Stable Diffusion | Text2img

Предрелизнулась новая модель text2image - DeepFloyd (IF) от одного из подразделений наших любимых StabilityAI. Это бесплатная модель с открытым исходным кодом по новому подходит к генерациям. Сначала создаётся база будущей картинки - размером 64x64 пикселей. Затем, при помощи двух разных СуперСкалеров, картинка увеличивается сначала до 256х256, а после - до 1024х1024. Естественно, на каждом из этапов модель дополнительно регулируется слоями UNet, что бы базовая картинка и промт не "потерялись". Разработчики заявляют об отличной фотореалистичности и детализированности "из коробки", плюс беспрецедентное следование вашему текстовому запросу - 6.66 FID-очков по датасету COCO, если вам это о чём-нибудь говорит. (мне это мало что говорит, но разработчики счастливы от такой цифры, говорят что лучше всех аналогов на текущий момент 🥸). Так же эта модель отлично генерирует текст и, опять же по заявлениям разработчиков, благодаря обновлённому подходу в генерациях избавлена от "детских болячек" прошлых нейросетей - очень плохих рук и сливания деталей в общую кучу. В общем, нужно проверять на практике, но предрелизные картинки, которые выкладывали авторы с начала текущего года - действительно неплохи.
По системным требованиям. К сожалению новая технология требует "новых" ресурсов. Пока (я подчеркнул, да), системные требования видны на картинке 3. Да, 24 гигабайта для картинки 1024х1024. С небольшими вывертами это всё входит в 16 гигабайт бесплатного коллаба, блог об этом. Надеемся на сообщество и разработчиков - что бы завезли побольше оптимизаций, для домашнего использования моделей.
Код модели здесь.
Модели (веса) будут тут (они уже выложены, но пока скрыты от обычных пользователей).
Демка, что бы всё попробовать будет здесь.

🔥3👍2

247 views19:22