NEW BOT Телеграм, страница

ᴢɪᴘ ʟᴏɢ

Triplane meets Gaussian Splatting - ещё один метод 3Д реконструкции по одному кадру.
Ранее мы рассматривали метод OpenLRM.

➗С помощью двух сетей на основе трансформеров (декодера точек и triplane-декодера) получают гибридное triplane-gaussian представление
➗Использование gaussian splatting даёт более быструю визуализацию, по сравнению с NeRF-представлением в OpenLRM
➗Декодер точки генерирует облако точек по изображению
➗Затем triplane-декодер строит признаки гауссиан для этих точек
➗Такая декомпозиция позволяет преодолеть неструктурированность результата, свойственную прямой регресии атрибутов gaussian splatting
➗Далее 3D-Gaussianы декодируются MLP для быстрого рендеринга
➗Оба декодера масштабируются и обучены на обширных 3D датасетах
➗Оценка показала не только увеличение качества реконструкции, но и более быстрое время рендеринга
Оценка качества
🔣Обучение производилось на Objaverse-LVIS (46K моделей, 1156 категорий). С помощью блендера генерировался GT RGBD.
🔣Оценка производилась на датасете GSO (Google Scanned Objects) всего на 100 объектах.
🔣Измерялись метрики для 3D геометрии (Chamfer distance, Volume IoU), а также метрики для изображений (PSNR, SSIM, LPIPS).
🔣Сравнение идёт с:
1️⃣3D-генеративными моделями Point-E, Shap-E
2️⃣2D-диффузионные моделями Zero-1-2-3
3️⃣моделями прямого распространения на основе выхода 2D-диффузионных моделей One-2-3-45
Сравнение с OpenLRM
Прямое сравнение в статьях отсутствует, так как используются разные датасеты
➕Время реконструкции 140 ms, время рендеринга 3ms (против нескольких секунд в OpenLRM)
➕Достигается PSNR порядка 23 (против 20 у OpenLRM)
➖Тестирование всего на 100 объектах
➖В обучении и тестах использовались 3Д объекты, а не фотографии, а значит, качество на реальных данных будет ниже

🔣

Код пока в закрытом репозитории на HF. Демо может подвисать в ближайшие дни в связи с ажиотажем.

Please open Telegram to view this post