Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image
Посмотрим как справляется с этой же задачей чемпион прошлогоднего весеннего челленджа по предсказанию глубины на CVPR 2023.
Кажется, не хуже. Еще и карту нормалей выдает
Код
Демо
#image2depth
Посмотрим как справляется с этой же задачей чемпион прошлогоднего весеннего челленджа по предсказанию глубины на CVPR 2023.
Кажется, не хуже. Еще и карту нормалей выдает
Код
Демо
#image2depth
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
ActAnywhere: Subject-Aware Video Background Generation
Adobe смастерили генератор видео, который понимает переднеплановый объект и генерит соответствующий задний план под него. Да так, что они еще могут и взаимодействовать! В качестве задания можно подать начальный кадр задника, по видимому текст. Можно заменять и переднеплановый объект.
Короче, это ближе к той кнопке
#text2video #video2video
Adobe смастерили генератор видео, который понимает переднеплановый объект и генерит соответствующий задний план под него. Да так, что они еще могут и взаимодействовать! В качестве задания можно подать начальный кадр задника, по видимому текст. Можно заменять и переднеплановый объект.
Короче, это ближе к той кнопке
Сделать Красиво, которую мы хотим в кинопроизводстве. Ждем новую фичу в ПО Adobe#text2video #video2video
🔥5❤1👍1
Forwarded from AI для Всех (Artemii)
This media is not supported in your browser
VIEW IN TELEGRAM
Скрейпинг веб страниц в эпоху GPT-Vision
Последние пару недель, я много эксперементировал с парсингом и скрейпингом веб страниц. В итоге я пришел к выводу, что сайты были сделаны для того что бы на них смотрели глазами, и соответственно парсить их эффкетивнее всего тоже будет глазами.
Собрал для вас старый добрый Colab, с помощью которого можно сделать summary любой страницы в интернете (в пределах того, на что не обидится OpenAI).
Как это работает:
- с помощью selenium я делаю скриншоты сайта
- объединяю их в одну картинку
- отправляю эту картинку в GPT-vision
- получаю summary
🚀 Google Colab
Приглашаю всех попробовать и присылать PR c новыми функциями, исправлением багов и прочими правками.
В качестве бонуса (для продвинутых пользователей), добавил в pipeline создание эмбедингов поверх полученных summary.
Если пойдет, может быть сделаем крутого open-source Web-scrapping Assistant или типа того
Последние пару недель, я много эксперементировал с парсингом и скрейпингом веб страниц. В итоге я пришел к выводу, что сайты были сделаны для того что бы на них смотрели глазами, и соответственно парсить их эффкетивнее всего тоже будет глазами.
Собрал для вас старый добрый Colab, с помощью которого можно сделать summary любой страницы в интернете (в пределах того, на что не обидится OpenAI).
Как это работает:
- с помощью selenium я делаю скриншоты сайта
- объединяю их в одну картинку
- отправляю эту картинку в GPT-vision
- получаю summary
🚀 Google Colab
Приглашаю всех попробовать и присылать PR c новыми функциями, исправлением багов и прочими правками.
В качестве бонуса (для продвинутых пользователей), добавил в pipeline создание эмбедингов поверх полученных summary.
Если пойдет, может быть сделаем крутого open-source Web-scrapping Assistant или типа того
❤14👍4🔥3
dewatermark.ai
Удаление вотермарков с изображений. Говорят что бесплатно. Сервис умный, сам находит вотермарки, но можно выделить и кистью
#tools #inpainting #restoration
Удаление вотермарков с изображений. Говорят что бесплатно. Сервис умный, сам находит вотермарки, но можно выделить и кистью
#tools #inpainting #restoration
❤5🔥3👍2
Наверстываю упущенное из-за поездки на премьеру
Для InstantID опубликован код, демоспейс. Да он даже уже в Pinokio есть
Он сохраняет узнаваемость лучше чем Photomaker. И уже придумали как его ускорить при помощи LCM-Lora
Код
Демо
Демо на некоммерческом GPU-кластере
#text2image #image2image #stylization #personalization
Для InstantID опубликован код, демоспейс. Да он даже уже в Pinokio есть
Он сохраняет узнаваемость лучше чем Photomaker. И уже придумали как его ускорить при помощи LCM-Lora
Код
Демо
Демо на некоммерческом GPU-кластере
#text2image #image2image #stylization #personalization
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Human-LRM: Single-View 3D Human Digitalization with Large Reconstruction Models
#Nerf-реконструкция человека в 3D по одному изображению за 5 секунд. Связность на видео.
Как думаете, куда Adobe прикрутит эту штуку?
#imageto3D #videoavatar #image2avatar #image2nerf #video2nerf #novelview #rendering
#Nerf-реконструкция человека в 3D по одному изображению за 5 секунд. Связность на видео.
Как думаете, куда Adobe прикрутит эту штуку?
#imageto3D #videoavatar #image2avatar #image2nerf #video2nerf #novelview #rendering
❤4
LUMIERE: A Space-Time Diffusion Model for Realistic Video Generation
Генератор видео от Google.
- по тексту
- по изображению
- inpainting
- стилизация
- синемаграфия - анимация отдельных объектов
Шикарно, что с доступом, Google?
#text2video #image2video #inpainting #stylization
Генератор видео от Google.
- по тексту
- по изображению
- inpainting
- стилизация
- синемаграфия - анимация отдельных объектов
Шикарно, что с доступом, Google?
#text2video #image2video #inpainting #stylization
❤3
FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring
Улучшайзер-энхенсер-апскейлер видео. Из мыльного видео низкого разрешения делает четкое видео высокого разрешения.
Новый лидер в этом типе задач.
Код ждем
#video2video #enhance #upscale #superresolution
Улучшайзер-энхенсер-апскейлер видео. Из мыльного видео низкого разрешения делает четкое видео высокого разрешения.
Новый лидер в этом типе задач.
Код ждем
#video2video #enhance #upscale #superresolution
👏2
RPG: Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
Фреймворк, использующий MLLM (GPT4, Gemini-Pro) в качестве переписчика промтов и планировщика композиции изображения по регионам. Гибкий, прикручивается к разным диффузиям, в т.ч. SDXL, SDv1.5. Не требует дообучения и выдает топовые результаты высокого разрешения на генерации изображений. В деле замешаны Pika.
Планируют выпустить версию с контролнет, прикрутить редактирование изображений и запустить демоспейс.
Код
#text2image
Фреймворк, использующий MLLM (GPT4, Gemini-Pro) в качестве переписчика промтов и планировщика композиции изображения по регионам. Гибкий, прикручивается к разным диффузиям, в т.ч. SDXL, SDv1.5. Не требует дообучения и выдает топовые результаты высокого разрешения на генерации изображений. В деле замешаны Pika.
Планируют выпустить версию с контролнет, прикрутить редактирование изображений и запустить демоспейс.
Код
#text2image
🔥11
UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion
В Baidu тоже придумали как улучшить генерацию картинок при помощи мультимодальных языковых моделей (MLLM).
Тут вам и персонализация, и сложные сцены с несколькими объектами.
Код ждем
#text2image #image2image #personalization
В Baidu тоже придумали как улучшить генерацию картинок при помощи мультимодальных языковых моделей (MLLM).
Тут вам и персонализация, и сложные сцены с несколькими объектами.
Код ждем
#text2image #image2image #personalization
👍3
Вонка
Посмотрел на днях новый мюзикл. Запал он мне в сердечко. Милый и добрый. Да, много наивных моментов, но это сказка, а для жанра важны песни, визуалка и доброта, а не железная логика.
И Шаламе со своим театральным опытом тут как нельзя кстати.
#оффтоп
Посмотрел на днях новый мюзикл. Запал он мне в сердечко. Милый и добрый. Да, много наивных моментов, но это сказка, а для жанра важны песни, визуалка и доброта, а не железная логика.
И Шаламе со своим театральным опытом тут как нельзя кстати.
#оффтоп
Кинопоиск
«Вонка» (Wonka, 2023)
🎬 Мечтая открыть магазин в городе, известном своим шоколадом, молодой и бедный Вилли Вонка обнаруживает, что индустрией управляет картель жадных шоколатье. Подробная информация о фильме Вонка на сайте Кинопоиск.
👎8👍6🔥2❤1
Forwarded from AI для Всех (Artemii)
Translator Agent
Друзья, мне сегодня понадобилось переводить много документов и приделывать к ним Certificate of Translation.
Конечно же я решил эту задачу с помощью LLM, и что бы добру не пропадать даром - выложил свой скрипт в Open Source.
Что умеет Translator Agent?
Он умеет взять PDF (например сохраненку с веб-страницы) -> перевести ее без всякого лишнего (типа навигации по странице) и пришлепнуть сертификат перевода, который останется только подписать (ну и проверить тщательно конечно же).
Пожалуйста распространите, и не стесняйтесь контрибьютить и расширять функционал (например добавить сохранение веб-страницы в pdf)!
🖥 Git-repo
Друзья, мне сегодня понадобилось переводить много документов и приделывать к ним Certificate of Translation.
Конечно же я решил эту задачу с помощью LLM, и что бы добру не пропадать даром - выложил свой скрипт в Open Source.
Что умеет Translator Agent?
Он умеет взять PDF (например сохраненку с веб-страницы) -> перевести ее без всякого лишнего (типа навигации по странице) и пришлепнуть сертификат перевода, который останется только подписать (ну и проверить тщательно конечно же).
Пожалуйста распространите, и не стесняйтесь контрибьютить и расширять функционал (например добавить сохранение веб-страницы в pdf)!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤1