Там недавно подвезли код для невероятно крутого алгоритма нейро-рендеринга из этого поста
Код
Папирус
Видео на ютубе
Код
Папирус
Видео на ютубе
Telegram
Denis Sexy IT 🤖
Смотрите какая офигенная демонстрация алгоритма рендера сцены из кучи фотографий – то есть вы фотографируете объект или какое-то место с разных сторон, а он вам возвращает 3D-пространство в котором можно подвигать камеру.
Кода пока нет, но это лучший результат…
Кода пока нет, но это лучший результат…
На paperswithcode.com тем временем уже более 5000 датасетов. Майлстоун, который нам нужен, но которого мы не заслуживаем!
huggingface.co
Trending Papers - Hugging Face
Your daily dose of AI research from AK
Forwarded from Мишин Лернинг
🥑 DALL-E ждали? Всем ruDALL-E!
Высшая точка генерации text2image: DALL-E. В отличие от CLIP + (VQGAN / Diffusion / StyleGAN3), модели DALL-E изначально созданы (а не приспособлены) для генерации изображений из текста, архитектурно являясь GPT.
При обучении таких моделей большие изображения (256x256 или 512х512) сжимаются при помощи энкодеров dVAE или VQGAN до последовательности визуальных токенов (e.g.: 32x32). GPT теперь может работать как и текстовыми, так и с визуальными токенам. Это можно интерпретировать как последовательность, длинную строку.
Потом GPT-like архитектура принимает текстовое описание и учится генерировать эти визуальные токены, которые потом “проявляются” в высоком разрешении при помощи декодеров dVAE или VQGAN.
Запустить колаб и получить свою генерацию очень просто! Достаточно прейти по ссылке и, вписав что-то свое в поле текст (вместо text = 'изображение радуги на фоне ночного города’), выбрать Runtime -> Run all (среда выполнения -> выполнить все).
🔮colab 💻Git
Высшая точка генерации text2image: DALL-E. В отличие от CLIP + (VQGAN / Diffusion / StyleGAN3), модели DALL-E изначально созданы (а не приспособлены) для генерации изображений из текста, архитектурно являясь GPT.
При обучении таких моделей большие изображения (256x256 или 512х512) сжимаются при помощи энкодеров dVAE или VQGAN до последовательности визуальных токенов (e.g.: 32x32). GPT теперь может работать как и текстовыми, так и с визуальными токенам. Это можно интерпретировать как последовательность, длинную строку.
Потом GPT-like архитектура принимает текстовое описание и учится генерировать эти визуальные токены, которые потом “проявляются” в высоком разрешении при помощи декодеров dVAE или VQGAN.
Запустить колаб и получить свою генерацию очень просто! Достаточно прейти по ссылке и, вписав что-то свое в поле текст (вместо text = 'изображение радуги на фоне ночного города’), выбрать Runtime -> Run all (среда выполнения -> выполнить все).
🔮colab 💻Git
Очень крутой результат!
Тыкать тут, но нужно запастись терпением.
з.ы. вы не могли бы пока банкинг в сбере выключить, штоб быстрее картинки генерилиьс?
Тыкать тут, но нужно запастись терпением.
з.ы. вы не могли бы пока банкинг в сбере выключить, штоб быстрее картинки генерилиьс?
Для поддержания баланса фото и рисунков в мире я конвертирую обратно фотки из этого поста. AI-Thanos.