NEW BOT Телеграм, страница

OpenLRM (проект, статья, github, демо) - алгоритм реконструкции 3D-объекта по одной фотографии за 5 секунд.

➗Строит NeRF представление на выходе (из которого можно семплировать меш, карты глубины и так далее)
➗Генерализуется без привязки к типу объекта
➗Работает на разрешении 512 пикселей
➗Использует в реализации DINO-encoder для патчей, Triplane-представление, лосс при обучении контролируется на четырёх кадрах (основной и 3 дополнительных) по метрикам MSE + 2* LPIPS
➗Обучен на синтетических Objaverse и реальных данных MVImgNet в соотношении 1:3 за 3 суток на 128 картах A100 (40GB)

Мои впечатления:
➕Задумка прекрасная. Мне нравится простота идеи - через лоссы других кадров учить генерализацию объёмного представлния.
➕Радует и скорость обучения, и скорость инференса
➖Мало данных для обучения. Нужно больше данных, будет совершенно другой уровень обобщения.
➖Низкое разрешение результата
➖Привязка в начальной сегментации

В целом, эта работа выглядит как начальная точка для гонки в этом направлении, поэтому в течение года ждём прогресса.

🔣

1️⃣Мой форк с питон-ноутбуком и градио-приложением, визуализирующим меш, а не видео, как в официальном демо. Загружаем ваши, либо мои данные, выделяем в ноутбуке объект, готовим данные, считаем, визуализируем результаты.
2️⃣Мой публичный колаб, чтобы не возиться с репозиторием.
3️⃣Huggingface сейчас запрашивает деньжатки за GPU, поэтому деплой там не даю, вместо этого сделала ещё один публичный колаб, который развёртывает app. Запустите обе ячейки с кодом, дождитесь выдачи таких записей, и перейдите по ссылке возле public URL.

======== Loaded model from checkpoint ========
Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://daa4388790604c4ce9.gradio.live

Please open Telegram to view this post