GigaGAN: Scaling up GANs for Text-to-Image Synthesis
GAN'ы возвращаются.
GigaGAN генерирует картинку 512 x 512 за 0.13 секунды, превосходит Stable Diffusion v1.5, DALL·E 2, и Parti-750M по FID (сам не знаю что это). Под капотом миллиард параметров, и работает все это на порядки быстрее авторегрессионных и диффузионных моделей. Ну и конечно, бонусом все прелести непрерывного латентного пространства - красивая анимация без этих всех кипящих фликеров.
А еще волшебный апскейлер!
Смешивание текстовых промптов
Замена грубого стиля на детальный
Кода нет 😢
#gan #text2image #image2image #upscale
GAN'ы возвращаются.
GigaGAN генерирует картинку 512 x 512 за 0.13 секунды, превосходит Stable Diffusion v1.5, DALL·E 2, и Parti-750M по FID (сам не знаю что это). Под капотом миллиард параметров, и работает все это на порядки быстрее авторегрессионных и диффузионных моделей. Ну и конечно, бонусом все прелести непрерывного латентного пространства - красивая анимация без этих всех кипящих фликеров.
А еще волшебный апскейлер!
Смешивание текстовых промптов
Замена грубого стиля на детальный
Кода нет 😢
#gan #text2image #image2image #upscale
Media is too big
VIEW IN TELEGRAM
VideoLoop3D: 3D Video Loops from Asynchronous Input
Генератор зацикленного видео с новых ракурсов.
На вход нужно несколько видео
Код
Демка (покрутите мышкой)
#video2video #videoto3D
Генератор зацикленного видео с новых ракурсов.
На вход нужно несколько видео
Код
Демка (покрутите мышкой)
#video2video #videoto3D
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.
Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:
1) отправки и получения не только текстовых сообщений, но и изображений
2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!
3) предоставление обратной связи и запрос исправлений.
Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).
Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).
Самый понятный юзкейс - это заменить дизайнера на правках от заказчика🙂 , хех, когда говорят "ну давайте поиграем со шрифтами и цветами" или "поменяем объект А на Б?"
GitHub проекта: https://github.com/microsoft/visual-chatgpt
Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.
Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:
1) отправки и получения не только текстовых сообщений, но и изображений
2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!
3) предоставление обратной связи и запрос исправлений.
Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).
Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).
Самый понятный юзкейс - это заменить дизайнера на правках от заказчика
GitHub проекта: https://github.com/microsoft/visual-chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
X-Avatar: Expressive Human Avatars
Анимируемый аватар человека пригодный для использования в AR/VR и т. п.
На вход принимает 3D скан или RGB-D, то есть, видео с каналом глубины.
Анимацию на аватар можно перенести с другого видео.
Код (пока пусто)
#imageto3D #videoto3D #videoavatar #humananimation #3Davatar
Анимируемый аватар человека пригодный для использования в AR/VR и т. п.
На вход принимает 3D скан или RGB-D, то есть, видео с каналом глубины.
Анимацию на аватар можно перенести с другого видео.
Код (пока пусто)
#imageto3D #videoto3D #videoavatar #humananimation #3Davatar
Forwarded from тоже моушн
This media is not supported in your browser
VIEW IN TELEGRAM
ну очень горячие пирожки!
серьезно, чел запостил скрипт для весьма плавной анимации с помощью контролнет - 17 часов назад
го тестить)
богатый может поддержать автора скрипта долларомно если что - скриптик в комментах
@тоже_моушн
серьезно, чел запостил скрипт для весьма плавной анимации с помощью контролнет - 17 часов назад
го тестить)
богатый может поддержать автора скрипта долларом
🔥2
Media is too big
VIEW IN TELEGRAM
Wonder Studio
Магия!
Персонажная анимация, лайтинг, композитинг.
И все это в браузере.
Серьезное кино не вывезет, а для продакшена на коленке или черновых проходов - бомба.
Подробности на английском
Видео 2K на vimeo
Попросить доступ
#characteranimation #compositing #lighting
Магия!
Персонажная анимация, лайтинг, композитинг.
И все это в браузере.
Серьезное кино не вывезет, а для продакшена на коленке или черновых проходов - бомба.
Подробности на английском
Видео 2K на vimeo
Попросить доступ
#characteranimation #compositing #lighting
Нейронавт | Нейросети в творчестве
Видео в аниме от Corridor Digital. Мастер-класс как сделать хорошо там где у всех получается кипящая каша. Но забавно как инновационная часть пайплайна устарела еще две недели назад с появлением #Controlnet. Настала эпоха когда нет времени вынашивать трендовые…
чтобы вы не подумали что аниме теперь делается легко и просто, в свежем видео Нико говорит что работа над этим аниме началась в октябре прошлого года
https://www.youtube.com/watch?v=jQ_DfORb3kw
https://www.youtube.com/watch?v=jQ_DfORb3kw
YouTube
Animators React 11: Mulan, Aladdin, Anime Rock Paper Scissors
Squarespace ► Head to http://squarespace.com/corridorcrew to save 10% off your first purchase!
Our videos are made possible by our amazing website subscribers. Consider joining us! ► http://corridordigital.com/
Niko is joined by Veteran Animators & Directors…
Our videos are made possible by our amazing website subscribers. Consider joining us! ► http://corridordigital.com/
Niko is joined by Veteran Animators & Directors…
👍2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Кому генеративного 360 и виарчика?
Stable Diffusion + ControlNet + Skybox и вот уже рисуем в 3д и получаем почти 3д.
Выглядит убойно. В комментах обещают глубину и ещё больше 3д.
Яна, тебе понравится.
https://twitter.com/BlockadeLabs/status/1634578058287132674
Здесь ещё слаще:
https://www.blockadelabs.com/
Stable Diffusion + ControlNet + Skybox и вот уже рисуем в 3д и получаем почти 3д.
Выглядит убойно. В комментах обещают глубину и ещё больше 3д.
Яна, тебе понравится.
https://twitter.com/BlockadeLabs/status/1634578058287132674
Здесь ещё слаще:
https://www.blockadelabs.com/
🤯2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney V5 + NeRF + RunwayML GEN-1
text-to-3D придет через другую калитку.
И пока #kaedim нанимает кожаных индусов, чтобы за 15 минут моделить меши в блендере по текстовым запросам, в дверь уверенно стучится вот такой пайплайн.
Генерация сцены в 2Д с разных ракурсов.
Запихивание результата в NeRF.
Профит.
Как пишет автор "Большая часть дрожания возникает из-за интерполяции кадров, а не из-за модели. В настоящее время есто ограничение на 95 кадров, поэтому для получения более длинных клипов вам нужно пропускать кадры."
Подвскипание все равно есть, но так как это не соседние кадры, то с этим уже можно что-то делать.
Выглядит многообещающе.
https://twitter.com/giffboake/status/1634373301773451264
text-to-3D придет через другую калитку.
И пока #kaedim нанимает кожаных индусов, чтобы за 15 минут моделить меши в блендере по текстовым запросам, в дверь уверенно стучится вот такой пайплайн.
Генерация сцены в 2Д с разных ракурсов.
Запихивание результата в NeRF.
Профит.
Как пишет автор "Большая часть дрожания возникает из-за интерполяции кадров, а не из-за модели. В настоящее время есто ограничение на 95 кадров, поэтому для получения более длинных клипов вам нужно пропускать кадры."
Подвскипание все равно есть, но так как это не соседние кадры, то с этим уже можно что-то делать.
Выглядит многообещающе.
https://twitter.com/giffboake/status/1634373301773451264
Киллер-фича ZOOM ENHANCE теперь в Automatic1111
Появилась она в обновлении расширения unprompted.
При генерации изображения она автоматически находит детали требующие улучшения, такие как лица, глаза, руки (по умолчанию лица) - и отправляет их на генерацию в увеличенном разрешении. Затем встраивает обратно в вашу генерацию. Все это происходит за кулисами. Работает значительно быстрее чем Hires.Fix и не меняет остальную часть изображения.
При этом может потребоваться некоторый промтинг. Описание и инструкция на реддит
А вообще загляните на вкладку доступных расширений в автоматике, там еще интересные штуки появились
#tools
Появилась она в обновлении расширения unprompted.
При генерации изображения она автоматически находит детали требующие улучшения, такие как лица, глаза, руки (по умолчанию лица) - и отправляет их на генерацию в увеличенном разрешении. Затем встраивает обратно в вашу генерацию. Все это происходит за кулисами. Работает значительно быстрее чем Hires.Fix и не меняет остальную часть изображения.
При этом может потребоваться некоторый промтинг. Описание и инструкция на реддит
А вообще загляните на вкладку доступных расширений в автоматике, там еще интересные штуки появились
#tools
❤4👍1
STYLEGANEX - манипуляции с лицом.
Недавно я писал про похожий проект 3DAvatarGAN. И вот опять GAN.
- редактирование лиц
- редактирование видео
- апскейл/суперрезолюшн (увеличение детализации)
- генерация лиц по наброску и по маскам
- стилизация
Код
Колаб
#facialanimation #avatar #talkingface #image2video #image2avatar #talkinghead #facialanimation
Недавно я писал про похожий проект 3DAvatarGAN. И вот опять GAN.
- редактирование лиц
- редактирование видео
- апскейл/суперрезолюшн (увеличение детализации)
- генерация лиц по наброску и по маскам
- стилизация
Код
Колаб
#facialanimation #avatar #talkingface #image2video #image2avatar #talkinghead #facialanimation