This media is not supported in your browser
VIEW IN TELEGRAM
DemoFusion: Democratising High-Resolution Image Generation With No $$$
Генерация изображений высокого разрешения
SDXL может синтезировать изображения с разрешением до 1024 × 1024, в то время как DemoFusion позволяет SDXL генерировать изображения с разрешением 4 ×, 16 × и даже выше без какой-либо настройки и значительных требований к памяти. Все сгенерированные изображения создаются с использованием одного RTX 3090
Код
Демо
Демо2
Колаб
#upscale #text2image
Генерация изображений высокого разрешения
SDXL может синтезировать изображения с разрешением до 1024 × 1024, в то время как DemoFusion позволяет SDXL генерировать изображения с разрешением 4 ×, 16 × и даже выше без какой-либо настройки и значительных требований к памяти. Все сгенерированные изображения создаются с использованием одного RTX 3090
Код
Демо
Демо2
Колаб
#upscale #text2image
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
ArtSpew
Для тех кому нужна скорость.
Скоростная генерация картинок, 150шт в секунду на 4090.
4 step LCM, 512x512
реддит
Гитхаб
#text2image #realtime
Для тех кому нужна скорость.
Скоростная генерация картинок, 150шт в секунду на 4090.
4 step LCM, 512x512
реддит
Гитхаб
#text2image #realtime
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
LivePhoto: Real Image Animation with Text-guided Motion Control
Управление генерацией видео посредством текста
Код ждем
#image2video #text2video
Управление генерацией видео посредством текста
Код ждем
#image2video #text2video
👍2
Forwarded from Сиолошная
Свершилось, Google разродился своей моделью-конкурентом GPT-4.
https://blog.google/technology/ai/google-gemini-ai/
Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano (самая шустрая).
Заявляется State-of-the-Art качество на широком круге задач, но огромных разрывов на текстовых задачах нет (хотя в парочке всё же приятные приросты).
Модели семейства Gemini мультимодальны — поддерживают и картинки, и аудио, и даже видео. Например, распознавание голоса работает гораздо лучше, чем у OpenAI Whisper V2/V3.
PDF с тех. репортом: тык, но деталей вроде размера модели нет (однако, рассказывают про железо).
И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. В начале 2025го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!
https://blog.google/technology/ai/google-gemini-ai/
Доступны модели 3 форм-факторов: Ultra (самая большая), Pro и Nano (самая шустрая).
Заявляется State-of-the-Art качество на широком круге задач, но огромных разрывов на текстовых задачах нет (хотя в парочке всё же приятные приросты).
Модели семейства Gemini мультимодальны — поддерживают и картинки, и аудио, и даже видео. Например, распознавание голоса работает гораздо лучше, чем у OpenAI Whisper V2/V3.
PDF с тех. репортом: тык, но деталей вроде размера модели нет (однако, рассказывают про железо).
И конечно же, Geminin станет новой моделью под капотом Google Bard — там лежит Pro модель, поиграться можно тут. В начале 2025го года появится Bard Advanced, и там, как легко догадаться, будет модель Ultra.
А 13го декабря обещают доступ к API!
❤5😁3🎃1
Forwarded from Сиолошная
UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat
НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял Browsec, вот ссылка для Google Chrome.
2️⃣ нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (
НО! Есть два предварительных шага:
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Bard has been updated in English with Gemini Pro.Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша (
cmd/ctrl+shift+R ) и не забыть про cookies.Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔1
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
Может, я не понимаю маркетинг, может, не знают работяги в Google, а может технология очень сырая и появится не скоро — но я чуть не пропустил ОЧЕНЬ крутую фичу, которую представили вместе с Gemini. На странице анонса модели и в ключевом видео просто места не уделили...ужас.
Предлагаю посмотреть видео📹 , а не читать слова...но если вы остались тут, то ОК!
Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke🤔 ) веб-сайт с разными блоками. И с каждым из них пользователь может углубить взаимодействие — выделить, попросить дописать или переписать.
Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.
Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.
Как думаете, зря не показали всем?)
Предлагаю посмотреть видео
Фича называется Bespoke UI, суть в том, что на ваш запрос модель сначала генерирует ИНТЕРФЕЙС, а затем его наполняет (реальным или сгенерированным контентом). По сути это такой маленький сделанный на заказ (bespoke
Причём, по ходу этой генерации под капотом модель (сама? из-за тренировки? через промпты?) раскладывает весь процесс на шаги, вытягивая их в цепочку. Например, перед генерацией «сайта» модель сначала уточнит, а что а как а чего (по контенту ответа, не по форме сайта), потом, как сочтёт, что деталей достаточно — выдаст PRD (Product Requirements Document), и шаблон для наполнения. Здесь, мол, одна кликабельная карточка, у неё есть заголовок, основной текст, а также ссылка на открытие полного блока с информацией.
Так как LLM в некотором приближении это дистилляция всего интернета (плюс, Gemini умеет гуглить и «смотреть» видео на ютубе), то можно с натяжкой и верой в будущее сказать, что это — новый способ взаимодействия с сайтами: убрать всё лишнее, добавить контекстную рекламу (сгенерированную???), и выдать исключительно концентрированный контент. А если нужно что-то уточнить — выделяешь, просишь сгенерировать новую страницу, и всё.
Как думаете, зря не показали всем?)
Please open Telegram to view this post
VIEW IN TELEGRAM
Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians
Сегодня пройдемся по головам.
Реконструкция аватара головы по нескольким ракурсам, вместе с мимикой и деформациями. В деле замешаны гауссианы.
На выходе - рендер разрешением 2К, не без помощи апскейлера. Но вы его тут видите?
Кодждем есть
#gaussian #image2head #rendering #imageto3D #head
Сегодня пройдемся по головам.
Реконструкция аватара головы по нескольким ракурсам, вместе с мимикой и деформациями. В деле замешаны гауссианы.
На выходе - рендер разрешением 2К, не без помощи апскейлера. Но вы его тут видите?
Код
#gaussian #image2head #rendering #imageto3D #head
🔥9👍2
GAIA: Zero-shot Talking Avatar Generation
Теперь разработка Microsoft.
Говорящая голова. На вход нужна одна картинка и звук речи. Можно управлять позой, подать на вход управляющее видео или текст. А что еще можно придумать для управления говорящей головой?
Код ждем
#talkinghead #humananimation #humanavatar #image2head #image2video #head
Теперь разработка Microsoft.
Говорящая голова. На вход нужна одна картинка и звук речи. Можно управлять позой, подать на вход управляющее видео или текст. А что еще можно придумать для управления говорящей головой?
Код ждем
#talkinghead #humananimation #humanavatar #image2head #image2video #head
❤6👍1
Diffusion AvatarsDeferred Diffusion for High-fidelity 3D Head Avatars
Управляемый аватар головы с реалистичной мимикой.
Анимацей управляет управляющее видео или параметрическая модель (NPHM).
Diffusion Avatars обучали на датасете голов, снятых 16 камерами с разных ракурсов. Предположительно, для того чтобы использовать Diffusion Avatars на своих задачах, понадобится или многоракурсный датасет или соответствующий набор 3D данных.
[Update] Код
Полное видео, 3 минуты
#talkinghead #humananimation #humanavatar #image2head #image2video #head
Управляемый аватар головы с реалистичной мимикой.
Анимацей управляет управляющее видео или параметрическая модель (NPHM).
Diffusion Avatars обучали на датасете голов, снятых 16 камерами с разных ракурсов. Предположительно, для того чтобы использовать Diffusion Avatars на своих задачах, понадобится или многоракурсный датасет или соответствующий набор 3D данных.
[Update] Код
Полное видео, 3 минуты
#talkinghead #humananimation #humanavatar #image2head #image2video #head
И снова Gemini.
Мне удалось зайти в обновленный Bard по инструкции Сиолошной. Есть плагин для анализа видео с YouTube. Но он упрямо не может получить доступ к большинству видео. Пятое видео согласился обработать, задумался уже минут на 5. Так что пока печально. Зато бесплатный анализ видео. Ну и в Барде сейчас не старшая модель, а старшую выкатят позже.
Теперь о хорошем. Если вы не видели вот это видео с официального канала Google, обязательно посмотрите, у меня сносит крышу
https://youtu.be/UIZAiXYceBI?si=kVlJjRIbbXxdHUde
Мне удалось зайти в обновленный Bard по инструкции Сиолошной. Есть плагин для анализа видео с YouTube. Но он упрямо не может получить доступ к большинству видео. Пятое видео согласился обработать, задумался уже минут на 5. Так что пока печально. Зато бесплатный анализ видео. Ну и в Барде сейчас не старшая модель, а старшую выкатят позже.
Теперь о хорошем. Если вы не видели вот это видео с официального канала Google, обязательно посмотрите, у меня сносит крышу
https://youtu.be/UIZAiXYceBI?si=kVlJjRIbbXxdHUde
YouTube
The capabilities of multimodal AI | Gemini Demo
Our natively multimodal AI model Gemini is capable of reasoning across text, images, audio, video and code. Here are favorite moments with Gemini Learn more and try the model: https://deepmind.google/gemini
Explore Gemini: https://goo.gle/how-its-made…
Explore Gemini: https://goo.gle/how-its-made…
This media is not supported in your browser
VIEW IN TELEGRAM
Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
Новый инструмент точной оценки глубины на основе SD. Круче чем все что я видел
Код
Демо
Колаб
#image2depth
Новый инструмент точной оценки глубины на основе SD. Круче чем все что я видел
Код
Демо
Колаб
#image2depth
🔥12
This media is not supported in your browser
VIEW IN TELEGRAM
PatchFusion: An End-to-End Tile-Based Framework for High-Resolution Monocular Metric Depth Estimation
И его конкурент. Берет грубое предсказание глубины, например от ZoeDepth. Бьет картинку на патчи и поверх грубого делает более точную оценку.
Есть желающие экспериментально выяснить кто лучший из этих двух?
Код
Демо
#image2depth
И его конкурент. Берет грубое предсказание глубины, например от ZoeDepth. Бьет картинку на патчи и поверх грубого делает более точную оценку.
Есть желающие экспериментально выяснить кто лучший из этих двух?
Код
Демо
#image2depth
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
pose.rip
Пляшем. Magic Animate для всех.
Тут можно сделать и DensePose и анимацию.
Накидывайте результаты в комменты
#tools #image2video #video2motion #video2pose
Пляшем. Magic Animate для всех.
Тут можно сделать и DensePose и анимацию.
Накидывайте результаты в комменты
#tools #image2video #video2motion #video2pose
❤1👍1
Поздравляю всех причастных к VFX индустрии! Сегодня наш официальный праздник!
Организаторы запланировали бесчисленное количество лекций и стримов, подробности: worldvfxday.com
Организаторы запланировали бесчисленное количество лекций и стримов, подробности: worldvfxday.com
👍4