Нейронавт | Нейросети в творчестве – Telegram
Нейронавт | Нейросети в творчестве
10.6K subscribers
4.45K photos
3.72K videos
41 files
4.76K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image

Посмотрим как справляется с этой же задачей чемпион прошлогоднего весеннего челленджа по предсказанию глубины на CVPR 2023.

Кажется, не хуже. Еще и карту нормалей выдает

Код
Демо

#image2depth
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
ActAnywhere: Subject-Aware Video Background Generation

Adobe смастерили генератор видео, который понимает переднеплановый объект и генерит соответствующий задний план под него. Да так, что они еще могут и взаимодействовать! В качестве задания можно подать начальный кадр задника, по видимому текст. Можно заменять и переднеплановый объект.

Короче, это ближе к той кнопке Сделать Красиво, которую мы хотим в кинопроизводстве. Ждем новую фичу в ПО Adobe

#text2video #video2video
🔥51👍1
Forwarded from AI для Всех (Artemii)
This media is not supported in your browser
VIEW IN TELEGRAM
Скрейпинг веб страниц в эпоху GPT-Vision

Последние пару недель, я много эксперементировал с парсингом и скрейпингом веб страниц. В итоге я пришел к выводу, что сайты были сделаны для того что бы на них смотрели глазами, и соответственно парсить их эффкетивнее всего тоже будет глазами.

Собрал для вас старый добрый Colab, с помощью которого можно сделать summary любой страницы в интернете (в пределах того, на что не обидится OpenAI).

Как это работает:

- с помощью selenium я делаю скриншоты сайта

- объединяю их в одну картинку

- отправляю эту картинку в GPT-vision

- получаю summary

🚀 Google Colab

Приглашаю всех попробовать и присылать PR c новыми функциями, исправлением багов и прочими правками.

В качестве бонуса (для продвинутых пользователей), добавил в pipeline создание эмбедингов поверх полученных summary.

Если пойдет, может быть сделаем крутого open-source Web-scrapping Assistant или типа того
14👍4🔥3
dewatermark.ai

Удаление вотермарков с изображений. Говорят что бесплатно. Сервис умный, сам находит вотермарки, но можно выделить и кистью

#tools #inpainting #restoration
5🔥3👍2
Наверстываю упущенное из-за поездки на премьеру

Для InstantID опубликован код, демоспейс. Да он даже уже в Pinokio есть

Он сохраняет узнаваемость лучше чем Photomaker. И уже придумали как его ускорить при помощи LCM-Lora

Код
Демо
Демо на некоммерческом GPU-кластере

#text2image #image2image #stylization #personalization
👍6
Квиз. Определите какие фото настоящие, а какие ИИ-генерации. У меня 50/50

#quiz
4
This media is not supported in your browser
VIEW IN TELEGRAM
Human-LRM: Single-View 3D Human Digitalization with Large Reconstruction Models

#Nerf-реконструкция человека в 3D по одному изображению за 5 секунд. Связность на видео.

Как думаете, куда Adobe прикрутит эту штуку?

#imageto3D #videoavatar #image2avatar #image2nerf #video2nerf #novelview #rendering
4
LUMIERE: A Space-Time Diffusion Model for Realistic Video Generation

Генератор видео от Google.

- по тексту
- по изображению
- inpainting
- стилизация
- синемаграфия - анимация отдельных объектов

Шикарно, что с доступом, Google?

#text2video #image2video #inpainting #stylization
3
FMA-Net: Flow-Guided Dynamic Filtering and Iterative Feature Refinement with Multi-Attention for Joint Video Super-Resolution and Deblurring

Улучшайзер-энхенсер-апскейлер видео. Из мыльного видео низкого разрешения делает четкое видео высокого разрешения.
Новый лидер в этом типе задач.

Код ждем

#video2video #enhance #upscale #superresolution
👏2
RPG: Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

Фреймворк, использующий MLLM (GPT4, Gemini-Pro) в качестве переписчика промтов и планировщика композиции изображения по регионам. Гибкий, прикручивается к разным диффузиям, в т.ч. SDXL, SDv1.5. Не требует дообучения и выдает топовые результаты высокого разрешения на генерации изображений. В деле замешаны Pika.

Планируют выпустить версию с контролнет, прикрутить редактирование изображений и запустить демоспейс.

Код

#text2image
🔥11
UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

В Baidu тоже придумали как улучшить генерацию картинок при помощи мультимодальных языковых моделей (MLLM).
Тут вам и персонализация, и сложные сцены с несколькими объектами.

Код ждем

#text2image #image2image #personalization
👍3
Нейромедуза в ударе

#humor
😁13🔥4
Вонка

Посмотрел на днях новый мюзикл. Запал он мне в сердечко. Милый и добрый. Да, много наивных моментов, но это сказка, а для жанра важны песни, визуалка и доброта, а не железная логика.

И Шаламе со своим театральным опытом тут как нельзя кстати.

#оффтоп
👎8👍6🔥21
Forwarded from AI для Всех (Artemii)
Translator Agent

Друзья, мне сегодня понадобилось переводить много документов и приделывать к ним Certificate of Translation.

Конечно же я решил эту задачу с помощью LLM, и что бы добру не пропадать даром - выложил свой скрипт в Open Source.

Что умеет Translator Agent?

Он умеет взять PDF (например сохраненку с веб-страницы) -> перевести ее без всякого лишнего (типа навигации по странице) и пришлепнуть сертификат перевода, который останется только подписать (ну и проверить тщательно конечно же).

Пожалуйста распространите, и не стесняйтесь контрибьютить и расширять функционал (например добавить сохранение веб-страницы в pdf)!

🖥Git-repo
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥121