Forwarded from Мишин Лернинг
🚀 Встречайте новую SOTA Text-2-Image eDiffi: Диффузионные "Эксперты" от NVIDIA
Новый Text-to-Image. В данном случае на классических диффузионных пиксельных каскадах. Модель является гибридом DALL-E от OpenAI 2 и Imagen от Google.
Модель по прежнему использует 3 каскада:
1) Text-To-64pix
2) 64pix-To-256pix
3) 256pix-to-1024pix
Но в данном случае все три модели могут брать любую комбинацию кондишенов из следующих моделей:
— T5 XXL
— CLIP-L/14 Text
— CLIP-L/14 Image
Это позволяет использовать сеть в режиме генерации вариаций (Привет DALL-E 2), а так же юзать легковесный CLIP вместо T5 XXL (который имхо весит неоправданно много). Вообще интересно показано, что T5 работает в связке с CLIP-L/14 Text лучше, чем просто T5. И (спойлер) это действительно так (не скажу откуда знаю).
Кроме того, сеть использует модели — Диффузионные Эксперты для разных этапов денойзинга. Тут смысл такой, если не жалко видеопамять, то можно сделать моделт под разные этапы денойза, например одну под первые 256 шагов, вторую под следующие 256 и так далее. Такие 4 модели буду работать лучше, чем одна. Но и в памяти нужно будет держать их всех.
👑 Используя все эти фишки Karrasи компания добились того, что
eDiffi-Config-D 9.1B (Вместе с CLIP-L/14 и T5-XXL Enc) бьет Zero-shot FID ↓ на COCO-30K 2014 valid SOTA:
GLIDE : 5B - 12.24 FID ↓
MakeAScene : 4B - 11.84 FID ↓
DALL·E 2 : 6.5B - 10.39 FID ↓
StableD : 1.4B - 8.59 FID ↓
Imagen : 7.9B - 7.27 FID ↓
Parti : 20B - 7.23 FID ↓
eDiffi D: 9.1B - 7.04 FID ↓
Ну вот такие новости. Очень много полезных вещей попробовали, советую почитать статью.
🥑 eDiffi от NVIDIA
📇 Paper eDiffi
@ м и ш и н л е р н и н г
Новый Text-to-Image. В данном случае на классических диффузионных пиксельных каскадах. Модель является гибридом DALL-E от OpenAI 2 и Imagen от Google.
Модель по прежнему использует 3 каскада:
1) Text-To-64pix
2) 64pix-To-256pix
3) 256pix-to-1024pix
Но в данном случае все три модели могут брать любую комбинацию кондишенов из следующих моделей:
— T5 XXL
— CLIP-L/14 Text
— CLIP-L/14 Image
Это позволяет использовать сеть в режиме генерации вариаций (Привет DALL-E 2), а так же юзать легковесный CLIP вместо T5 XXL (который имхо весит неоправданно много). Вообще интересно показано, что T5 работает в связке с CLIP-L/14 Text лучше, чем просто T5. И (спойлер) это действительно так (не скажу откуда знаю).
Кроме того, сеть использует модели — Диффузионные Эксперты для разных этапов денойзинга. Тут смысл такой, если не жалко видеопамять, то можно сделать моделт под разные этапы денойза, например одну под первые 256 шагов, вторую под следующие 256 и так далее. Такие 4 модели буду работать лучше, чем одна. Но и в памяти нужно будет держать их всех.
👑 Используя все эти фишки Karrasи компания добились того, что
eDiffi-Config-D 9.1B (Вместе с CLIP-L/14 и T5-XXL Enc) бьет Zero-shot FID ↓ на COCO-30K 2014 valid SOTA:
GLIDE : 5B - 12.24 FID ↓
MakeAScene : 4B - 11.84 FID ↓
DALL·E 2 : 6.5B - 10.39 FID ↓
StableD : 1.4B - 8.59 FID ↓
Imagen : 7.9B - 7.27 FID ↓
Parti : 20B - 7.23 FID ↓
eDiffi D: 9.1B - 7.04 FID ↓
Ну вот такие новости. Очень много полезных вещей попробовали, советую почитать статью.
🥑 eDiffi от NVIDIA
📇 Paper eDiffi
@ м и ш и н л е р н и н г
🔥11👍4🎉2
Forwarded from Ai molodca (Dobrokotov)
Немного рандомных генераций с #Midjourney V4.
Повбивал старые промты. Из быстрых выводов: то, чего я раньше часами пытался добиться, получается с первого раза. Понимание запроса великолепно.
Повбивал старые промты. Из быстрых выводов: то, чего я раньше часами пытался добиться, получается с первого раза. Понимание запроса великолепно.
🔥31👍3😁1