Forwarded from Love. Death. Transformers.
миллионы долларов, сотни человекочасов были потрачены чтобы получить это
украдено из twitter
модель сделали @deepfloydai
украдено из twitter
модель сделали @deepfloydai
🕊15☃2
как думаете, с какой опенсорс лицензией будет правильно выкатить IF?
все в списке не запрещают коммерцию и не забирают права на генеративные изображения!
все в списке не запрещают коммерцию и не забирают права на генеративные изображения!
Anonymous Poll
42%
GNU GPL - запрет на создание модификаций, если автор не поделился в опенсорс, НЕТ закрытым продуктам
18%
openRAIL - запрет с учетом AI-этики в критических и вредных областях (т.е. порно и дипфейки нельзя)
21%
CC - нет запретов, но тогда корпорации смогут улучшать свои закрытые продукты —> больше неравентва
19%
посмотреть результаты и/или отвечу свой вариант в комментах
Forwarded from Ai molodca (Dobrokotov)
Media is too big
VIEW IN TELEGRAM
Экспериментируя с моделью #DeepFloyd (которая, напоминаю, умеет в текст) я подумал: “Блин, это же отличный инструмент для Lyric video!”. И сделал тест — первый куплет The Smiths - There Is a Light That Never Goes Out. Хотел передать ощущение от трека, когда едешь немного пьяненький (как пассажир) в машине и засматриваешься на вывески и огни ночного города. Ссылка на ютуб, если вдруг хотите пошерить со знакомым клипмейкером вне Телеграма.
🕊33☃3👨💻2
сильно ждете “IF”?
готовлю в опенсорс фичи из прошлых опросов - оказалось, что IF в zeroshot’е (без дообучения) может делать:
👨🎨 перенос стиля/домена
🔧 контролировать степень переноса стиля/домена, как для генерации с нуля, так и для редактирования изображения
🎨 инпейнтинг
отредактировал свою аватарку: добавил НЛО и пурпурное облако в хорошем фотореализме. и селфи в GTA)
P.S. это результаты в текстовом zeroshot, а что же будет, если потюнить на искусстве, сделать смешивание двух картинок, а еще потренить аналогично новому InstructPix2Pix🍿
@DeepFloydAI
готовлю в опенсорс фичи из прошлых опросов - оказалось, что IF в zeroshot’е (без дообучения) может делать:
👨🎨 перенос стиля/домена
🔧 контролировать степень переноса стиля/домена, как для генерации с нуля, так и для редактирования изображения
🎨 инпейнтинг
отредактировал свою аватарку: добавил НЛО и пурпурное облако в хорошем фотореализме. и селфи в GTA)
P.S. это результаты в текстовом zeroshot, а что же будет, если потюнить на искусстве, сделать смешивание двух картинок, а еще потренить аналогично новому InstructPix2Pix
@DeepFloydAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👨💻24☃3
что из мультимодального полезнее развивать [April 2023]?
Anonymous Poll
24%
text-to-image
28%
text-to-3D
35%
text-to-video
14%
text-to-audio
38%
multi-task
Forwarded from DeepFloyd
⚡️ Our Astronomy Domine (Daria) and Interstellar Overdrive (Misha) shed light on the DeepFloyd IF's architecture and performance at the Weights & Biases MLOps virtual conference, Fully Connected 2023.
IF LARGE TEXT-TO-IMAGE MODELS WERE OPEN-SOURCE, Fully Connected 2023 (YouTube)
IF LARGE TEXT-TO-IMAGE MODELS WERE OPEN-SOURCE, Fully Connected 2023 (YouTube)
YouTube
Building The Next Large Model: DeepFloyd LLM + Text-to-Image = IF (Stability AI)
*From Fully Connected 2023*
Daria Bakshandeava and Misha Konstantinov of DeepFloyd discuss large language modeling for text-image models, with a focus on their soon-to-be open-source, state-of-the-art text-to-image diffusion model.
Daria Bakshandeava and Misha Konstantinov of DeepFloyd discuss large language modeling for text-image models, with a focus on their soon-to-be open-source, state-of-the-art text-to-image diffusion model.
👨💻18🕊3
Forwarded from Мишин Лернинг
👾 Мы DeepFloyd (Research AI Lab at StabilityAI) зарелизили лучшую Text-to-Image модель DeepFloyd IF
DeepFloyd IF это новая каскадная диффузионная модель основанная на идеи Imagen от Google:
— Текст кодируется T5 XXL v1.1
— Далее интерпретируется в пиксели через IF-I-XL (4.3B UNet), генерирующий изображения в 64х64
— IF-II-L (1.2B кастомный Optimal UNet) апскелит изображения 64х64 в 256х256, используя T5
— Для финальной картинки в 1024х1024, благодаря модульному подходу, можно использовать IF-III-L (пока не опенсорснут) или Stable x4
Благодаря тому, что:
— Модель параметризирована сильнее чем GLIDE, DALL-E 2, Imagen, eDiff-I: 2B против 4.3B у DeepFloyd IF
— Апскейлеры больше и имеют более оптимальную архитектуру в сравнение с Image и DALL-E 2
🏆 DeepFloyd IF выбивает Zero-Shot COCO@30K SOTA, тем самым являсь лучшей Text-to-Image моделью не только в опен-сорсе, но и вообще!
💻 Сайт лабы DeepFloyd
🤖 Страница нейроки DeepFloyd IF
👽 DeepFloyd Дискорд
🖥 GitHub
🤗 HuggingFace
👾 Генерить тут: Demo 👈
DeepFloyd IF это новая каскадная диффузионная модель основанная на идеи Imagen от Google:
— Текст кодируется T5 XXL v1.1
— Далее интерпретируется в пиксели через IF-I-XL (4.3B UNet), генерирующий изображения в 64х64
— IF-II-L (1.2B кастомный Optimal UNet) апскелит изображения 64х64 в 256х256, используя T5
— Для финальной картинки в 1024х1024, благодаря модульному подходу, можно использовать IF-III-L (пока не опенсорснут) или Stable x4
Благодаря тому, что:
— Модель параметризирована сильнее чем GLIDE, DALL-E 2, Imagen, eDiff-I: 2B против 4.3B у DeepFloyd IF
— Апскейлеры больше и имеют более оптимальную архитектуру в сравнение с Image и DALL-E 2
🏆 DeepFloyd IF выбивает Zero-Shot COCO@30K SOTA, тем самым являсь лучшей Text-to-Image моделью не только в опен-сорсе, но и вообще!
💻 Сайт лабы DeepFloyd
🤖 Страница нейроки DeepFloyd IF
👽 DeepFloyd Дискорд
🖥 GitHub
🤗 HuggingFace
👾 Генерить тут: Demo 👈
☃17🕊9👨💻4