This media is not supported in your browser
VIEW IN TELEGRAM
Vid2DensePose
Здесь можно сделать из видео DensePose чтобы перенести анимацию в MagicAnimate
Гитхаб
Колаб
Демо
#video2motion #video2pose
Здесь можно сделать из видео DensePose чтобы перенести анимацию в MagicAnimate
Гитхаб
Колаб
Демо
#video2motion #video2pose
🔥6👍1
Много работ появляется на оптимизацию диффузии. Некогда было писать, хорошо что соседний канал уже написал
#optimization #text2image
#optimization #text2image
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
⚡DeepCache: Accelerating Diffusion Models for Free
Во время инференса диффузионной модели мы делаем десятки шагов солвера, чтобы сгенерить одну картинку. Понятно, что это не очень эффективно. Отсюда растут ноги у многих работ по ускорению диффузии и уменьшению количества шагов на инференсе. Хочется как-то уменьшить количество компьюта требуемых для генерации одной картинки.
Тут как раз вышла работа про кеширование промежуточных активаций в Latent Diffusion. Хай-левел суть в том, что можно закешировать часть выходов блоков с предыдущих шагов и переиспользовать их на следующих шагах солвера. Активации более шлубоких блоков, те что работают на более низком разрешении, сильно коррелированы между двумя последовательными шагами. А вот активации первых и последних блоков как правило меняются довольно сильно от шагу. Вот авторы и предложили не пересчитывать акттвации глубокизх блоков, а кешировать их.
Это позволяет ускорить инференс SD v1.5 до 2-3 раз без существенной потери качества.
Прикол в том, что мы написали статью на очень схожую тему (тоже про кешинг) - она скоро появится на архиве. Китайцы нас слегка опередили с загрузкой на Arxiv.
На гифке результаты SD v1.5. Слева: 50 PLMS шагов.
Справа: 2.3x ускорение 50 PLMS шагов с кешем.
Статья
Код
@ai_newz
Во время инференса диффузионной модели мы делаем десятки шагов солвера, чтобы сгенерить одну картинку. Понятно, что это не очень эффективно. Отсюда растут ноги у многих работ по ускорению диффузии и уменьшению количества шагов на инференсе. Хочется как-то уменьшить количество компьюта требуемых для генерации одной картинки.
Тут как раз вышла работа про кеширование промежуточных активаций в Latent Diffusion. Хай-левел суть в том, что можно закешировать часть выходов блоков с предыдущих шагов и переиспользовать их на следующих шагах солвера. Активации более шлубоких блоков, те что работают на более низком разрешении, сильно коррелированы между двумя последовательными шагами. А вот активации первых и последних блоков как правило меняются довольно сильно от шагу. Вот авторы и предложили не пересчитывать акттвации глубокизх блоков, а кешировать их.
Это позволяет ускорить инференс SD v1.5 до 2-3 раз без существенной потери качества.
На гифке результаты SD v1.5. Слева: 50 PLMS шагов.
Справа: 2.3x ускорение 50 PLMS шагов с кешем.
Статья
Код
@ai_newz
🔥3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Из Wonder Studio теперь можно экспортировать сцену в формате USD для цивилизованного редактирования в вашем любимом 3D пакете
#characteranimation #compositing #lighting #rendering #tools
#characteranimation #compositing #lighting #rendering #tools
👍1
ReconFusion: 3D Reconstruction with Diffusion Priors
Метод восстановления сцены на основе #nerf, но ему нужно всего несколько исходных изображений (на сайте проекта - от всего 3 до 81), остальное он досинтезирует.
Из разнящихся несогласованных исходников (ветка качнулась между снимками, сменила положение) делает согласованную модель - см третье видео
Кода нет ☹️
#image2scene #imageto3D
Метод восстановления сцены на основе #nerf, но ему нужно всего несколько исходных изображений (на сайте проекта - от всего 3 до 81), остальное он досинтезирует.
Из разнящихся несогласованных исходников (ветка качнулась между снимками, сменила положение) делает согласованную модель - см третье видео
Кода нет ☹️
#image2scene #imageto3D
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
DragVideo: Interactive Drag-style Video Editing
Тренд: техники обработки статичных изображений должны перейти на видео.
Редактирование видео перетаскиванием - вдохновлено DragGAN/DragonDiffusion
Пейпер
Кода нет
#video2video
Тренд: техники обработки статичных изображений должны перейти на видео.
Редактирование видео перетаскиванием - вдохновлено DragGAN/DragonDiffusion
Пейпер
Кода нет
#video2video
This media is not supported in your browser
VIEW IN TELEGRAM
DemoFusion: Democratising High-Resolution Image Generation With No $$$
Генерация изображений высокого разрешения
SDXL может синтезировать изображения с разрешением до 1024 × 1024, в то время как DemoFusion позволяет SDXL генерировать изображения с разрешением 4 ×, 16 × и даже выше без какой-либо настройки и значительных требований к памяти. Все сгенерированные изображения создаются с использованием одного RTX 3090
Код
Демо
Демо2
Колаб
#upscale #text2image
Генерация изображений высокого разрешения
SDXL может синтезировать изображения с разрешением до 1024 × 1024, в то время как DemoFusion позволяет SDXL генерировать изображения с разрешением 4 ×, 16 × и даже выше без какой-либо настройки и значительных требований к памяти. Все сгенерированные изображения создаются с использованием одного RTX 3090
Код
Демо
Демо2
Колаб
#upscale #text2image
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
ArtSpew
Для тех кому нужна скорость.
Скоростная генерация картинок, 150шт в секунду на 4090.
4 step LCM, 512x512
реддит
Гитхаб
#text2image #realtime
Для тех кому нужна скорость.
Скоростная генерация картинок, 150шт в секунду на 4090.
4 step LCM, 512x512
реддит
Гитхаб
#text2image #realtime
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
LivePhoto: Real Image Animation with Text-guided Motion Control
Управление генерацией видео посредством текста
Код ждем
#image2video #text2video
Управление генерацией видео посредством текста
Код ждем
#image2video #text2video
👍2
Forwarded from Сиолошная
Свершилось, Google разродился своей моделью-конкурентом GPT-4.
https://blog.google/technology/ai/google-gemini-ai/
Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano (самая шустрая).
Заявляется State-of-the-Art качество на широком круге задач, но огромных разрывов на текстовых задачах нет (хотя в парочке всё же приятные приросты).
Модели семейства Gemini мультимодальны — поддерживают и картинки, и аудио, и даже видео. Например, распознавание голоса работает гораздо лучше, чем у OpenAI Whisper V2/V3.
PDF с тех. репортом: тык, но деталей вроде размера модели нет (однако, рассказывают про железо).
И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. В начале 2025го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!
https://blog.google/technology/ai/google-gemini-ai/
Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano (самая шустрая).
Заявляется State-of-the-Art качество на широком круге задач, но огромных разрывов на текстовых задачах нет (хотя в парочке всё же приятные приросты).
Модели семейства Gemini мультимодальны — поддерживают и картинки, и аудио, и даже видео. Например, распознавание голоса работает гораздо лучше, чем у OpenAI Whisper V2/V3.
PDF с тех. репортом: тык, но деталей вроде размера модели нет (однако, рассказывают про железо).
И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. В начале 2025го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!
❤5😁3🎃1
Forwarded from Сиолошная
UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat
НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял Browsec, вот ссылка для Google Chrome.
2️⃣ нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (
НО! Есть два предварительных шага:
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Bard has been updated in English with Gemini Pro.Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (
cmd/ctrl+shift+R ) и не забыть про cookies.Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔1
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Может, я не понимаю маркетинг, может, не знают работяги в Google, а может технология очень сырая и появится не скоро — но я чуть не пропустил ОЧЕНЬ крутую фичу, которую представили вместе с Gemini. На странице анонса модели и в ключевом видео просто места не уделили...ужас.
Предлагаю посмотреть видео📹 , а не читать слова...но если вы остались тут, то ОК!
Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke🤔 ) веб-сайт с разными блоками. И с каждым из них пользователь может углубить взаимодействие — выделить, попросить дописать или переписать.
Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.
Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.
Как думаете, зря не показали всем?)
Предлагаю посмотреть видео
Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke
Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.
Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.
Как думаете, зря не показали всем?)
Please open Telegram to view this post
VIEW IN TELEGRAM
Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians
Сегодня пройдемся по головам.
Реконструкция аватара головы по нескольким ракурсам, вместе с мимикой и деформациями. В деле замешаны гауссианы.
На выходе - рендер разрешением 2К, не без помощи апскейлера. Но вы его тут видите?
Кодждем есть
#gaussian #image2head #rendering #imageto3D #head
Сегодня пройдемся по головам.
Реконструкция аватара головы по нескольким ракурсам, вместе с мимикой и деформациями. В деле замешаны гауссианы.
На выходе - рендер разрешением 2К, не без помощи апскейлера. Но вы его тут видите?
Код
#gaussian #image2head #rendering #imageto3D #head
🔥9👍2
GAIA: Zero-shot Talking Avatar Generation
Теперь разработка Microsoft.
Говорящая голова. На вход нужна одна картинка и звук речи. Можно управлять позой, подать на вход управляющее видео или текст. А что еще можно придумать для управления говорящей головой?
Код ждем
#talkinghead #humananimation #humanavatar #image2head #image2video #head
Теперь разработка Microsoft.
Говорящая голова. На вход нужна одна картинка и звук речи. Можно управлять позой, подать на вход управляющее видео или текст. А что еще можно придумать для управления говорящей головой?
Код ждем
#talkinghead #humananimation #humanavatar #image2head #image2video #head
❤6👍1