Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.43K photos
3.7K videos
41 files
4.74K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
GigaGAN: Scaling up GANs for Text-to-Image Synthesis

GAN'ы возвращаются.
GigaGAN генерирует картинку 512 x 512 за 0.13 секунды, превосходит Stable Diffusion v1.5, DALL·E 2, и Parti-750M по FID (сам не знаю что это). Под капотом миллиард параметров, и работает все это на порядки быстрее авторегрессионных и диффузионных моделей. Ну и конечно, бонусом все прелести непрерывного латентного пространства - красивая анимация без этих всех кипящих фликеров.

А еще волшебный апскейлер!
Смешивание текстовых промптов
Замена грубого стиля на детальный

Кода нет 😢

#gan #text2image #image2image #upscale
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.

Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:
1) отправки и получения не только текстовых сообщений, но и изображений
2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!
3) предоставление обратной связи и запрос исправлений.

Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).

Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).

Самый понятный юзкейс - это заменить дизайнера на правках от заказчика 🙂, хех, когда говорят "ну давайте поиграем со шрифтами и цветами" или "поменяем объект А на Б?"

GitHub проекта: https://github.com/microsoft/visual-chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
X-Avatar: Expressive Human Avatars

Анимируемый аватар человека пригодный для использования в AR/VR и т. п.
На вход принимает 3D скан или RGB-D, то есть, видео с каналом глубины.
Анимацию на аватар можно перенести с другого видео.

Код (пока пусто)

#imageto3D #videoto3D #videoavatar #humananimation #3Davatar
Forwarded from тоже моушн
This media is not supported in your browser
VIEW IN TELEGRAM
ну очень горячие пирожки!

серьезно, чел запостил скрипт для весьма плавной анимации с помощью контролнет - 17 часов назад

го тестить)

богатый может поддержать автора скрипта долларом но если что - скриптик в комментах

@тоже_моушн
🔥2
Media is too big
VIEW IN TELEGRAM
Wonder Studio
Магия!
Персонажная анимация, лайтинг, композитинг.
И все это в браузере.
Серьезное кино не вывезет, а для продакшена на коленке или черновых проходов - бомба.
Подробности на английском

Видео 2K на vimeo
Попросить доступ

#characteranimation #compositing #lighting
Вечер пятницы, приехал грузовик с шутками
👍3
карта инструментов SD

реддит
🔥3
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Кому генеративного 360 и виарчика?

Stable Diffusion + ControlNet + Skybox и вот уже рисуем в 3д и получаем почти 3д.

Выглядит убойно. В комментах обещают глубину и ещё больше 3д.

Яна, тебе понравится.

https://twitter.com/BlockadeLabs/status/1634578058287132674

Здесь ещё слаще:
https://www.blockadelabs.com/
🤯2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney V5 + NeRF + RunwayML GEN-1

text-to-3D
придет через другую калитку.
И пока #kaedim нанимает кожаных индусов, чтобы за 15 минут моделить меши в блендере по текстовым запросам, в дверь уверенно стучится вот такой пайплайн.

Генерация сцены в 2Д с разных ракурсов.
Запихивание результата в NeRF.
Профит.

Как пишет автор "Большая часть дрожания возникает из-за интерполяции кадров, а не из-за модели. В настоящее время есто ограничение на 95 кадров, поэтому для получения более длинных клипов вам нужно пропускать кадры."

Подвскипание все равно есть, но так как это не соседние кадры, то с этим уже можно что-то делать.

Выглядит многообещающе.
https://twitter.com/giffboake/status/1634373301773451264
Прилетело!
Кто уже получил доступ к GEN-1, скажите, россиян не банят?
👍2
Киллер-фича ZOOM ENHANCE теперь в Automatic1111

Появилась она в обновлении расширения unprompted.
При генерации изображения она автоматически находит детали требующие улучшения, такие как лица, глаза, руки (по умолчанию лица) - и отправляет их на генерацию в увеличенном разрешении. Затем встраивает обратно в вашу генерацию. Все это происходит за кулисами. Работает значительно быстрее чем Hires.Fix и не меняет остальную часть изображения.

При этом может потребоваться некоторый промтинг. Описание и инструкция на реддит

А вообще загляните на вкладку доступных расширений в автоматике, там еще интересные штуки появились

#tools
4👍1
STYLEGANEX - манипуляции с лицом.
Недавно я писал про похожий проект 3DAvatarGAN. И вот опять GAN.

- редактирование лиц
- редактирование видео
- апскейл/суперрезолюшн (увеличение детализации)
- генерация лиц по наброску и по маскам
- стилизация

Код
Колаб

#facialanimation #avatar #talkingface #image2video #image2avatar #talkinghead #facialanimation