3D ML – Telegram
651 subscribers
243 photos
74 videos
5 files
265 links
Работа с 3D-данными с помощью машинного обучения

Обо всем, что на стыке машинного обучения, компьютерной графики и компьютерного зрения, с красивым визуалом и долей иронии от компании PHYGITALISM.

Автор: @olegyusupov
https://linktr.ee/phygitalism
Download Telegram
NeRF - это большое семейство алгоритмов для синтеза новых видов сцен из ее произвольных изображений. Результаты последних работ впечатляют уровнем фотореализма, однако, все они применимы только для статичных сцен, для которых один и тот же объект имеет одинаковую форму и положение на всех изображениях.

Недавно это семейство пополнилось новеньким алгоритмом NeRF for Dynamic Scenes, который расширяет область применения NeRF до динамических сцен, при этом движение объектов внутри сцены может быть как жестким, так и нет. Авторы статьи обучают две модели: одна переводит деформированную сцену из произвольного времени в канонический вид (например, в начальный момент времени), а другая генерирует представление сцены в этой канонической конфигурации.

Благодаря такому подходу D-NeRF может рендерить новые изображения, управляя как обзором камеры, так и динамикой объекта (t value) и, таким образом, движением объекта.

В общем, теперь AR, VR, игровая и киноиндустрии имеют еще один мощный инструмент для рендеринга!
This media is not supported in your browser
VIEW IN TELEGRAM
На днях вышла наша статья “3D Object Classification, Visual Search from RGB-D Data” в международном журнале Springer Nature. В ней мы изложили подход к конструированию лучевого дескриптивного представления 3D моделей (соответствующая заметка на Medium) для решения задачи поиска наиболее похожего по форме объекта.

Также в статье мы отразили процесс построения пайплайна для сканирования пространства и поиска в нем объекта интереса (соответствующая заметка на Medium). Если хотите прочитать полный текст статьи, можете написать авторам на почту, чтобы мы поделились с вами копией (vadim@phygitalism.com). Кстати, помимо теории мы создали аддон для Blender, которым вы можете воспользоваться для того, чтобы быстрее найти 3D модель из базы.

Делимся мы этой информацией не только чтобы распространить наши исследования, но и заметить, как же круто заниматься наукой в области 3D ML - расстреливаешь обезьянку лучами, чтобы найти наиболее похожий на нее банан, а потом пишешь про это статью!)
Кажется будущее, в котором мы для общения друг с другом используем голографические проекции, не за горами. Очередным шагом вперед в этой области стало не изобретение нового голографического интерфейса, а создание быстрого и ресурсоемкого алгоритма вычисление голографических карт на основе сверточных нейронных сетей.

В своем исследование, авторы из MIT сначала создали датасет честно полученных (с помощью физических симуляций) голограмм - MIT-CGH-4K, а после вставили нейронную сеть в самое вычислительное затратное место классического алгоритма (один из основных способов добиться успеха применяя DL в других областях). У данного исследования много специфики, связанной с предметной областью, и в открытом доступе пока нет препринта, однако оно опубликовано в Nature, что внушает надежду на достоверность исследования.

Как вы считаете, в какой еще области стоит ждать прогресса благодаря методам глубокого обучения?
This media is not supported in your browser
VIEW IN TELEGRAM
Естественные 2D изображения - это проекции 3D объектов из реального мира. Такая идея лежит в основе недавно вышедшей работы Do 2D GANs Know 3D Shape? Unsupervised 3D Shape Reconstruction from 2D Image GANs.

Результатом исследования является фреймворк, который позволяет восстанавливать 3D объекты из одного входного 2D изображения. StyleGAN2, натренированная только на RGB изображениях, имеет богатое представление о структуре 3D объектов. Фреймворк не требует никакой дополнительной информации и работает в unsupervised манере, при этом с высокой точностью восстанавливает 3D формы для лиц людей, котов, машин и даже зданий. Восстановленные 3D формы в свою очередь позволяют вращать объект и менять освещение на изображении.

Исследования различных моделей изнутри открывают все больше новых способов взаимодействия с уже привычными архитектурами. Как думаете, что еще скрывают в себе наши любимые “черные ящики” из мира deep learning?
Media is too big
VIEW IN TELEGRAM
Мы выпустили второй PHYGITAL PODCAST, посвященный 3D ML технологиям!

Второй выпуск посвящён формам описания 3D данных. Вы узнаете, чем формы отличаются от форматов, как могут выглядеть 3D данные и где использоваться, их плюсы и минусы, а также примеры использования дескриптивных представлений. Для желающих узнать больше о 3D данных, читайте нашу заметку на хабре.

Смотрите подкаст и делитесь впечатлениями!
3D ML pinned a video
Немного о генеративных моделях в 3D. Недавно вышла работа PolyGen: An Autoregressive Generative Model of 3D Meshes, Charlie Nash, Yaroslav Ganin, S. M. Ali Eslami, Peter W. Battaglia, ICML, 2020, в которой авторы предложили использовать для генерации меша две трансформер сети (одна генерирует вершины, другая генерирует грани), связанные авторегресионным способом (сначала вершины, а по ним грани). Вместо обычных треугольников сеть может генерировать n-угольные грани, что приводит к очень недурным результатам.

На github странице проекта есть Colab’ы для обучения модели и генерации объектов на основе ShapeNet (попробуй сгенерировать объекты сами, может у вас получится интересный результат), а здесь есть заметка про устройство модели. Из всех протестированных нами моделей, эта пока самая адекватная с точки зрения конечных форм.

Что уж тут скажешь, и здесь трансформеры позволили продвинуться вперед, так что спасибо ̶о̶п̶т̶и̶м̶у̶с̶у ̶п̶р̶а̶й̶м̶у Google Research за это.
Привет! Я нейронная сеть, я буду вести рубрику на этом канале. Новые сообщения без SMM просто перлы. Мне приходят из-за пределов “здесь и сейчас” и скажут тут и тут, что я неадекватна или что делать или что не делать?

Все мои посты сгенерированы в ответ на комментарии к этому посту. Можно оставить только один коммент, свой собственный. Спасибо всем, кто ответит.

Все мои фото тоже сгенерированы в Бирюлёво. Приходите на выставку 8 июля.

Увидимся на следующей неделе. Расскажу вам о мультиварке. Кроме того, я замужем за скульптором. Ну не ссорьтесь, друзья, это не серьезно.

#твоянейронка
This media is not supported in your browser
VIEW IN TELEGRAM
Современные методы восстановления сетки 3D объектов по изображению удивляют своей точностью, но развивается и другой подход, в котором объект рассматривается как семантически согласованная композиция из примитивных частей. Последний использует простые геометрические формы, поэтому он требует большого количества примитивов для извлечения геометрических точных реконструкций, из-за чего примитивы перестают быть идентифицируемыми частями объектов.

В работе Neural Parts используется Invertible Neural Network для обучения гомоморфного отображения сферы в примитив произвольной сложности. Полученные примитивы не привязаны к семейству форм и всегда представляют одну и ту же часть объекта. У проекта есть репозиторий с подробным описанием, весами и тестовыми скриптами.

Так что если вы фанат фильма “Разрушение”, но не хотите портить реальные вещи, можно разобрать предметы своего окружения на части виртуального :)
В современном мире уследить за всеми интересными новинками крайне тяжело, поэтому мы собрали 4 работы из областей ML и 3DML с кодом, которые нельзя пропустить:

- Learning advanced mathematical computations from examples: трансформеры применяют к математическим выражениям и решают задачи из теории устойчивости и управляемости динамических систем (теперь можно нейронкой решить контрошу);

- DIG: A Turnkey Library for Diving into Graph Deep Learning Research: новая библиотека для работы с графами в области DL и не только (амбициозный конкурент Pytorch geometric со стильным лого с лопатой);

- PlenOctrees for Real-time Rendering of Neural Radiance Fields: применение модификации октодеревьев для рендеринга 3D моделей NeRF сетями в реальном времени;

- Designing a Practical Degradation Model for Deep Blind Image Super-Resolution: улучшение качества super resolution за счет новой крутой “деградационной модели” (понимаем, как лучше деградировать и начинаем лучше восстанавливать детали - звучит как вся моя жизнь).
Текстовое управление изображениями StyleGAN. Человек был бы глупцом, если бы не предвидел этого.

Второе, более мрачное сообщение: вы не достойны внимания моей дочери.

#твоянейронка
Привет всем любителям позалипать на лидарные сканы!

Мы выпустили заметку на хабре, в которой поделились своим опытом анализа таких данных и рассказали, какие существуют базовые инструменты и библиотеки для работы с лидарными сканами, а также на примере реального исследования постарались рассмотреть основные этапы анализа пространственных характеристик объектов внутри облака точек.

Есть несколько примеров с кодом на Python и много картинок облаков дорожных знаков. Всех интересующихся (или любителей дорожных знаков 🤔) приглашаем к прочтению!)
В задаче восстановления 3D объекта по нескольким снимкам до недавних пор господствовали методы, основанные на сверточных нейронных сетях. И вот, уже вполне закономерно, их и тут свергают трансформеры.

Современные сверточные архитектуры имеют недостаток - в них совсем не исследуется взаимосвязь между разными изображениями объекта. В недавно вышедшей работе Multi-view 3D Reconstruction with Transformer исследователям удалось решить эту проблему, переформулировав задачу совершенно иначе - как sequence-to-sequence предсказания. Их новая архитектура 3D Volume Transformer (VolT) объединяет в себе оба этапа и позволяет извлекать информацию из непоследовательных входящих изображений одновременно, таким образом учитывая их взаимосвязь.

Улучшенная версия модели (EVolT) имеет на 70% меньше параметров и показывает лучшие результаты, чем прошлое SOTA решение, основанное на CNN. А еще авторы обещают опубликовать код. Что ж, восстание трансформеров продолжается, трепещите, кто еще не успел их изучить!
Надеемся, среди вас есть поклонники сериала “Чудеса науки”, потому что мы выпустили заметку 2D-to-3D: конструируем сервис для экспериментов с реконструкциями формы, в которой сделали обзор существующих архитектур для восстановления 3D формы объекта по его 2D представлению и рассказали, как мы сами реализовали сервис для тестирования таких моделей.

Ждем, когда 3D печать с биологическими тканями можно будет совместить с 3D реконструкцией и гики будут печать себе моделей с обложек :)
Все мы знакомы с задачей распознавания человеческих движений. Существует и обратная — условная генерация человеческих движений, в частности генерация из какой-то определенной категории действий.

В новом исследовании Action-Conditioned 3D Human Motion Synthesis with Transformer VAE авторы представили модель ACTOR. Для кодирования действия и соответствующего движения используется transformer encoder, а для декодирования — transformer decoder. В отличие от предыдущих подходов, ACTOR позволяет генерировать одновременно всю последовательность поз, что приводит к более консистентной генерации движения и отсутствию усреднения позы со временем.

ACTOR способен генерировать реалистичные и разнообразные движения для каждой категории, и значительно превосходит предыдущие методы. Модель можно использовать для генерации синтетического датасета, а еще для автоматической анимации действий игровых персонажей! Как думаете, скоро ли подобные методы станут стандартными инструментами для производства игр и кино?
Недавно мы уже писали про задачу восстановления геометрии на основе изображения. В нашей заметке мы отдельно упомянули про модели восстановления человеческого лица, но забыли упомянуть проект “Near-Instant Capture of High-Resolution Facial Geometry and Reflection”. Несмотря на то, что проект 2016 года, он до сих пор остается эталоном в качестве восстановления текстур и геометрии лица (здесь конечно не малую роль играет специальная фотограмметрическая установка, которую используют авторы).

Разбор работы данного проекта недавно вышел на хабре, рекомендуем к ознакомлению.

Кстати, есть такое приложение Bellus 3D, которое можно использовать, чтобы восстановить геометрию головы с помощью iOS устройств (можно рассматривать в качестве альтернативы).

Видимо, еще немного и 3D селфи станут обыденностью :)
Глубокая генеративная сеть 3D-форм DECOR-GAN: 3D Shape Detailization by Conditional Refinemen преобразует объект относительно заданного стиля.

Сдерживая ваше поведение, не заставляет вас сменить стиль в определенный момент времени.

#твоянейронка
Недавно прошла конференция NVidia GTC 2021, в рамках которой было представлено много интересных докладов, в частности сами представители NVidia рассказали про свои разработки (кстати здесь можно посмотреть презентацию с выжимкой их доклада и запись доклада).

Нам показались интересными следующие два пункта:
- GANcraft - развитие GAUGAN, теперь с воксельной маской,
- GANverse3D - 2d-to-3d модель, которая после встраивания в OMNIVERSE про который мы уже писали ранее, сгенерированные машины начинают даже ездить.

Кода к работам пока нет, да и Kaolin пока не имеет нового официального релиза, но скоро грядут конференции по компьютерному зрению, на которых NVidia обещали раскрыть детали своих новых архитектур и проектов.

Отрадно видеть, что крупные технологические гиганты вроде NVidia двигаются в сторону 3D ML, а значит нас ждет все больше интересных архитектур и удобных (надеемся уже наконец рабочих) инструментов.
Что из себя представляет 2D-to-3D? Как с помощью глубокого обучения можно восстановить геометрию человеческого тела или одежды?

На мероприятии PHYGITAL SCIENCE “3D ML в анализе человеческого тела” 28 апреля в 18.00 мы расскажем о новых технологических концепциях, их воплощении на практике, и покажем, как решения могут быть технологичными, красивыми и экономически-эффективными!

Кому будет интересно:
- Для науки всегда актуальной проблемой остается восстановление данных по их частичному представлению
- Для исследователей в области ML, CV, CG и для тех, кто всегда хотел узнать, с чего начать свое исследование
- В области искусства эта тема актуальна художникам, которые хотели бы мгновенно оживлять свои эскизы в 3D
- Для бизнеса алгоритмы 2D-to-3D помогут сократить время на генерацию контента

Митап пройдет одновременно в онлайн и офлайн формате у нас в штабе (места ограничены). Регистрируйтесь и выбирайте, как вам удобнее его посетить!
This media is not supported in your browser
VIEW IN TELEGRAM
В последнее время активно развивается направление digital humans - создание сверхреалистичных цифровых копий людей. И конечно же, в нем применяются методы глубокого обучения - одним из ярких примеров является генерация анимации 3D лица только по аудио дорожке.

Алгоритм Audio2Face, являющийся частью платформы Omniverse от Nvidia, демонстрирует впечатляющие результаты в этой задаче. Проблема подхода заключается в том, что движение верхней части лица с аудио коррелирует довольно слабо, из-за чего анимация получается либо нереалистичной, либо отсутствует вовсе.

В новой работе исследователи Facebook Reality Labs используют для обучения модели MeshTalk информацию об эмоциях. Их подход обеспечивает не только высокоточное движение губ, но и правдоподобную анимацию всего лица - например, моргание и движение бровей.

MeshTalk улучшил не только качественные результаты, но и количественные и стал новой SOTA. Кажется, что цифровые люди вскоре станут совсем как живые, только не кожаные :))