Forwarded from эйай ньюз
Среди недавних релизов OpenAI больше всего в мое сердечко запал их новый декодер для LDM - Consistency Decoder.
Напомню, что Stable Diffusion генерирует изображения в Latent пространстве, которое затем декодируется VQ-VAE декодером (на картинке выше, кажется, его назвали GAN Decoder). Такой декодер довольно легковесен, но он не может точно восстанавливать мелки детали типа лиц людей на заднем плане. Поэтому парни из OpenAI решили натренировать еще одну диффузию вместо VAE декодера.
Но диффузия работает медленно и требует много шагов во время инференса... Тут на помощь пришла дистилляция из диффузии в Consistency Model, которая может неплохо работать за 1-2 шага,
В статье про Dalle-3 было вскользь упомянуто, что в новой архитектуре для перевода скрытого кода в RGB они как раз используют такой Consistency Decoder, который работает за 2 шага.
Consistency Decoder - это тоже Unet, и довольно большой, 620 M параметров (для сравнения SD 1.5 ~900M параметров). Но это все равно допустимая жертва ради улучшенного качества восстановления лиц, мелких деталей и регулярных линий.
Жаль, только, что кода тренировки нет, и остается только заниматься реверс-инженирингом и экспериментировать, чтобы понять как они натренировали этот декодер. Выложили только инференс и веса декодера, который совместим с базовым Stable Diffusion 1.x - 2x и может использоваться как drop-in replacement вместо стандартного декодера.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
Forwarded from Aamir Khan
https://github.com/AUTOMATIC1111/stable-diffusion-webui/tree/consistency-dec - ветка автоматика с этим декодером VAE type for decode поменять на Consistency Decoderв настройках.
https://colab.research.google.com/drive/1k3ejvTOraWFbuxj17dPFYDAULliDW0JN?usp=sharing
вот колаб
помоему в статье всеже чери пикинг но результат есть и меньше мешанины в кадре. Но я только на 1.5 стандартной тестил возможно с другими моделями лучше пойдет
https://colab.research.google.com/drive/1k3ejvTOraWFbuxj17dPFYDAULliDW0JN?usp=sharing
вот колаб
помоему в статье всеже чери пикинг но результат есть и меньше мешанины в кадре. Но я только на 1.5 стандартной тестил возможно с другими моделями лучше пойдет
🔥4👎2
Media is too big
VIEW IN TELEGRAM
В Южной Корее робот убил сотрудника завода, потому что идентифицировал его как картонную коробку
Погибший — 40-летний рабочий центра распределения сельскохозяйственной продукции, задачей которого было проверять датчики роботизированных машин. Поздно ночью мужчина провел тестовый запуск робота — он должен был погрузить коробку с болгарским перцем на поддон, но произошла техническая ошибка. Роботизированная рука схватила человека и прижала его к конвейерной ленте.
Сотрудника экстренно увезли в больницу, где он и умер. Сейчас руководство завода призвало создать точные и безопасные системы, чтобы предотвратить новые аварии.
the Guardian
#яниначтоненамекаю
Погибший — 40-летний рабочий центра распределения сельскохозяйственной продукции, задачей которого было проверять датчики роботизированных машин. Поздно ночью мужчина провел тестовый запуск робота — он должен был погрузить коробку с болгарским перцем на поддон, но произошла техническая ошибка. Роботизированная рука схватила человека и прижала его к конвейерной ленте.
Сотрудника экстренно увезли в больницу, где он и умер. Сейчас руководство завода призвало создать точные и безопасные системы, чтобы предотвратить новые аварии.
the Guardian
#яниначтоненамекаю
the Guardian
Industrial robot crushes man to death in South Korean distribution centre
Machine apparently identified man inspecting it as one of the boxes it was stacking
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
MotionBrush
Многие генераторы видео повысили разрешение и качество генерации.
А RunwayML показал еще и новый инструмент - выделение области для движения.
Инструмент пока недоступен.
Твиттер
#mask2motion #image2video
Многие генераторы видео повысили разрешение и качество генерации.
А RunwayML показал еще и новый инструмент - выделение области для движения.
Инструмент пока недоступен.
Твиттер
#mask2motion #image2video
👍7❤3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Mirror
Локальная визуально-языковая модель. Получает картинку с вашей вебки, дальше - насколько хватит фантазии. Работает без интернета.
Ее можно установить в один клик в браузере Pinokio
Код
Ссылка для установки в Pinokio
#VLM #assistant
Локальная визуально-языковая модель. Получает картинку с вашей вебки, дальше - насколько хватит фантазии. Работает без интернета.
Ее можно установить в один клик в браузере Pinokio
Код
Ссылка для установки в Pinokio
#VLM #assistant
👍7
This media is not supported in your browser
VIEW IN TELEGRAM
ControlAnimate
Генерация консистентного по времени видео на сонове входного видео. AnimateDiff + Multi-ControlNet.
Поддерживает LCM и LCM-LoRA.
Для работы требуется 16GB VRAM
Код
#video2video
Генерация консистентного по времени видео на сонове входного видео. AnimateDiff + Multi-ControlNet.
Поддерживает LCM и LCM-LoRA.
Для работы требуется 16GB VRAM
Код
#video2video
❤3
This media is not supported in your browser
VIEW IN TELEGRAM
AnimateDiff Motion Module (beta version) on SDXL
SDXL Модуль движения, бета версия. А это значит, доступны разрешения SDXL
И уже есть инструкция по запуску/использованию
Гитхаб
#image2video
SDXL Модуль движения, бета версия. А это значит, доступны разрешения SDXL
И уже есть инструкция по запуску/использованию
Гитхаб
#image2video
❤3
This media is not supported in your browser
VIEW IN TELEGRAM
FLARE: Fast Learning of Animatable andRelightable Mesh Avatars
Создание аватаров с высококачественной геометрией и внешним видом из одного видео. Пригодных для релайтинга и рендера традиционными движками.
Протестировано на 80GB A100 GPU и NVIDIA RTX A5000 24 GB
Код
#humanavatar #video2avatar #talkinghead #relighting
Создание аватаров с высококачественной геометрией и внешним видом из одного видео. Пригодных для релайтинга и рендера традиционными движками.
Протестировано на 80GB A100 GPU и NVIDIA RTX A5000 24 GB
Код
#humanavatar #video2avatar #talkinghead #relighting
This media is not supported in your browser
VIEW IN TELEGRAM
У ProPainter обновки
Улучшение качества и пара новых демоспейсов
Гитхаб
Демо1
Демо2
#video2video #cleanup #inpainting #outpainting
Улучшение качества и пара новых демоспейсов
Гитхаб
Демо1
Демо2
#video2video #cleanup #inpainting #outpainting
❤1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за курсы по блендору и техническую поддержку.
А в общем-то за любые курсы, инструкторов и вот эти вот проверки заданий, ответы на вопросы, живые, блин, созвоны, и все, что продается как ценность очередных курсов.
Вот вы же шарили экран на зум-созвонах? Ну или были в ситуации типа "покажи свой экран, я быстро скажу, что надо сделать".
Теперь вы просто можете пошарить свой экран с ИИ, и поговорить с ним об этом, голосом. Чем ИИ хуже кожаного?
Поглядите - на видео обобщенный Радж шарит свой экран с chatGPT и спрашивает голосом(!) самый главный вопрос трехмерщиков - как превратить кубик в шарик. В Блендоре.
Просто разговаривает с ним, делает, что ему говорят, спрашивает "ичодальше", получает ответы.
Я три месяца назад охреневал о того, как мне chatGPT рассказал за вечер, как перенести блендшейпы из майки в юнити и научил прикручивать слайдеры к деформации. А теперь это можно делать на совершенно другом уровне.
Явшоке.
P.S. Тут напрашивается сначала пост про то, что проще не только шарить экран, а сразу давать управление, пусть наведет порядок и превратит все кубики в шарики.
Ну и все идет в эту сторону, как сказал Билл Гейтс, у нас у всех в ухе будет ассистент, который будет шептать нам полезные ситуации в моменте.
А шарить с ним мы будем все, что с нами происходит.
Шаринг жизни, в общем.
А в общем-то за любые курсы, инструкторов и вот эти вот проверки заданий, ответы на вопросы, живые, блин, созвоны, и все, что продается как ценность очередных курсов.
Вот вы же шарили экран на зум-созвонах? Ну или были в ситуации типа "покажи свой экран, я быстро скажу, что надо сделать".
Теперь вы просто можете пошарить свой экран с ИИ, и поговорить с ним об этом, голосом. Чем ИИ хуже кожаного?
Поглядите - на видео обобщенный Радж шарит свой экран с chatGPT и спрашивает голосом(!) самый главный вопрос трехмерщиков - как превратить кубик в шарик. В Блендоре.
Просто разговаривает с ним, делает, что ему говорят, спрашивает "ичодальше", получает ответы.
Я три месяца назад охреневал о того, как мне chatGPT рассказал за вечер, как перенести блендшейпы из майки в юнити и научил прикручивать слайдеры к деформации. А теперь это можно делать на совершенно другом уровне.
Явшоке.
P.S. Тут напрашивается сначала пост про то, что проще не только шарить экран, а сразу давать управление, пусть наведет порядок и превратит все кубики в шарики.
Ну и все идет в эту сторону, как сказал Билл Гейтс, у нас у всех в ухе будет ассистент, который будет шептать нам полезные ситуации в моменте.
А шарить с ним мы будем все, что с нами происходит.
Шаринг жизни, в общем.
❤11🔥3
LRM: Large Reconstruction Model for Single Image to 3D
Реконструкция 3D объекта по одному изображению, на выходе #nerf. Про геометрию и текстуры ничего не нашел на сайте.
Там можно интерактивно покрутить несколько примеров, выглядит впечатляюще.
Кода, демо нет
#image2nerf #imageto3D
Реконструкция 3D объекта по одному изображению, на выходе #nerf. Про геометрию и текстуры ничего не нашел на сайте.
Там можно интерактивно покрутить несколько примеров, выглядит впечатляюще.
Кода, демо нет
#image2nerf #imageto3D
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Music ControlNet:Multiple Time-varying Controls for Music Generation
Мощная музыкальная нейронка.
- генерация музыки по образцу мелодии и текстовлму описанию
- контроль динамики
- контроль ритма
На сайте много примеров всевозможных комбинаций входных параметров. Кода, к сожалению, нет
Полное видео, 2 минуты
#music2music #text2music
Мощная музыкальная нейронка.
- генерация музыки по образцу мелодии и текстовлму описанию
- контроль динамики
- контроль ритма
На сайте много примеров всевозможных комбинаций входных параметров. Кода, к сожалению, нет
Полное видео, 2 минуты
#music2music #text2music
🔥8