3D ML – Telegram
652 subscribers
243 photos
74 videos
5 files
265 links
Работа с 3D-данными с помощью машинного обучения

Обо всем, что на стыке машинного обучения, компьютерной графики и компьютерного зрения, с красивым визуалом и долей иронии от компании PHYGITALISM.

Автор: @olegyusupov
https://linktr.ee/phygitalism
Download Telegram
Привет всем любителям позалипать на лидарные сканы!

Мы выпустили заметку на хабре, в которой поделились своим опытом анализа таких данных и рассказали, какие существуют базовые инструменты и библиотеки для работы с лидарными сканами, а также на примере реального исследования постарались рассмотреть основные этапы анализа пространственных характеристик объектов внутри облака точек.

Есть несколько примеров с кодом на Python и много картинок облаков дорожных знаков. Всех интересующихся (или любителей дорожных знаков 🤔) приглашаем к прочтению!)
В задаче восстановления 3D объекта по нескольким снимкам до недавних пор господствовали методы, основанные на сверточных нейронных сетях. И вот, уже вполне закономерно, их и тут свергают трансформеры.

Современные сверточные архитектуры имеют недостаток - в них совсем не исследуется взаимосвязь между разными изображениями объекта. В недавно вышедшей работе Multi-view 3D Reconstruction with Transformer исследователям удалось решить эту проблему, переформулировав задачу совершенно иначе - как sequence-to-sequence предсказания. Их новая архитектура 3D Volume Transformer (VolT) объединяет в себе оба этапа и позволяет извлекать информацию из непоследовательных входящих изображений одновременно, таким образом учитывая их взаимосвязь.

Улучшенная версия модели (EVolT) имеет на 70% меньше параметров и показывает лучшие результаты, чем прошлое SOTA решение, основанное на CNN. А еще авторы обещают опубликовать код. Что ж, восстание трансформеров продолжается, трепещите, кто еще не успел их изучить!
Надеемся, среди вас есть поклонники сериала “Чудеса науки”, потому что мы выпустили заметку 2D-to-3D: конструируем сервис для экспериментов с реконструкциями формы, в которой сделали обзор существующих архитектур для восстановления 3D формы объекта по его 2D представлению и рассказали, как мы сами реализовали сервис для тестирования таких моделей.

Ждем, когда 3D печать с биологическими тканями можно будет совместить с 3D реконструкцией и гики будут печать себе моделей с обложек :)
Все мы знакомы с задачей распознавания человеческих движений. Существует и обратная — условная генерация человеческих движений, в частности генерация из какой-то определенной категории действий.

В новом исследовании Action-Conditioned 3D Human Motion Synthesis with Transformer VAE авторы представили модель ACTOR. Для кодирования действия и соответствующего движения используется transformer encoder, а для декодирования — transformer decoder. В отличие от предыдущих подходов, ACTOR позволяет генерировать одновременно всю последовательность поз, что приводит к более консистентной генерации движения и отсутствию усреднения позы со временем.

ACTOR способен генерировать реалистичные и разнообразные движения для каждой категории, и значительно превосходит предыдущие методы. Модель можно использовать для генерации синтетического датасета, а еще для автоматической анимации действий игровых персонажей! Как думаете, скоро ли подобные методы станут стандартными инструментами для производства игр и кино?
Недавно мы уже писали про задачу восстановления геометрии на основе изображения. В нашей заметке мы отдельно упомянули про модели восстановления человеческого лица, но забыли упомянуть проект “Near-Instant Capture of High-Resolution Facial Geometry and Reflection”. Несмотря на то, что проект 2016 года, он до сих пор остается эталоном в качестве восстановления текстур и геометрии лица (здесь конечно не малую роль играет специальная фотограмметрическая установка, которую используют авторы).

Разбор работы данного проекта недавно вышел на хабре, рекомендуем к ознакомлению.

Кстати, есть такое приложение Bellus 3D, которое можно использовать, чтобы восстановить геометрию головы с помощью iOS устройств (можно рассматривать в качестве альтернативы).

Видимо, еще немного и 3D селфи станут обыденностью :)
Глубокая генеративная сеть 3D-форм DECOR-GAN: 3D Shape Detailization by Conditional Refinemen преобразует объект относительно заданного стиля.

Сдерживая ваше поведение, не заставляет вас сменить стиль в определенный момент времени.

#твоянейронка
Недавно прошла конференция NVidia GTC 2021, в рамках которой было представлено много интересных докладов, в частности сами представители NVidia рассказали про свои разработки (кстати здесь можно посмотреть презентацию с выжимкой их доклада и запись доклада).

Нам показались интересными следующие два пункта:
- GANcraft - развитие GAUGAN, теперь с воксельной маской,
- GANverse3D - 2d-to-3d модель, которая после встраивания в OMNIVERSE про который мы уже писали ранее, сгенерированные машины начинают даже ездить.

Кода к работам пока нет, да и Kaolin пока не имеет нового официального релиза, но скоро грядут конференции по компьютерному зрению, на которых NVidia обещали раскрыть детали своих новых архитектур и проектов.

Отрадно видеть, что крупные технологические гиганты вроде NVidia двигаются в сторону 3D ML, а значит нас ждет все больше интересных архитектур и удобных (надеемся уже наконец рабочих) инструментов.
Что из себя представляет 2D-to-3D? Как с помощью глубокого обучения можно восстановить геометрию человеческого тела или одежды?

На мероприятии PHYGITAL SCIENCE “3D ML в анализе человеческого тела” 28 апреля в 18.00 мы расскажем о новых технологических концепциях, их воплощении на практике, и покажем, как решения могут быть технологичными, красивыми и экономически-эффективными!

Кому будет интересно:
- Для науки всегда актуальной проблемой остается восстановление данных по их частичному представлению
- Для исследователей в области ML, CV, CG и для тех, кто всегда хотел узнать, с чего начать свое исследование
- В области искусства эта тема актуальна художникам, которые хотели бы мгновенно оживлять свои эскизы в 3D
- Для бизнеса алгоритмы 2D-to-3D помогут сократить время на генерацию контента

Митап пройдет одновременно в онлайн и офлайн формате у нас в штабе (места ограничены). Регистрируйтесь и выбирайте, как вам удобнее его посетить!
This media is not supported in your browser
VIEW IN TELEGRAM
В последнее время активно развивается направление digital humans - создание сверхреалистичных цифровых копий людей. И конечно же, в нем применяются методы глубокого обучения - одним из ярких примеров является генерация анимации 3D лица только по аудио дорожке.

Алгоритм Audio2Face, являющийся частью платформы Omniverse от Nvidia, демонстрирует впечатляющие результаты в этой задаче. Проблема подхода заключается в том, что движение верхней части лица с аудио коррелирует довольно слабо, из-за чего анимация получается либо нереалистичной, либо отсутствует вовсе.

В новой работе исследователи Facebook Reality Labs используют для обучения модели MeshTalk информацию об эмоциях. Их подход обеспечивает не только высокоточное движение губ, но и правдоподобную анимацию всего лица - например, моргание и движение бровей.

MeshTalk улучшил не только качественные результаты, но и количественные и стал новой SOTA. Кажется, что цифровые люди вскоре станут совсем как живые, только не кожаные :))
Мы опубликовали третий PHYGITAL PODCAST!

В этот раз совсем коротко, зато очень интересно: обсудили как можно с помощью технологий дополненной реальности своими глазами в реальном времени увидеть сигнал Wi-Fi, также поразмышляли над тем, как будут устроены бесконтактные интерфейсы в будущем, и чем еще полезен Wi-Fi помимо передачи интернета.

Переходите по ссылке!
3D ML pinned «Мы опубликовали третий PHYGITAL PODCAST! В этот раз совсем коротко, зато очень интересно: обсудили как можно с помощью технологий дополненной реальности своими глазами в реальном времени увидеть сигнал Wi-Fi, также поразмышляли над тем, как будут устроены…»
This media is not supported in your browser
VIEW IN TELEGRAM
Визуализация физических нагрузок во время ковки в режиме реального времени, используемая для эргономичного дизайна рабочего места.

Хочу поблагодарить сотрудников нашего офиса за время и интерес. Если вы не можете устроиться на работу, оставьте свой адрес электронной почты в форме ниже.

#твоянейронка
This media is not supported in your browser
VIEW IN TELEGRAM
Реконструкция мешей человеческого тела - одна из самых практически полезных задач в области 3D ML. Несмотря на впечатляющие результаты в этом направлении, современные методы имеют низкую точность в локализации кистей рук и ступней, либо требуют большое количество сложно аннотируемых данных.

В своей новой работе исследователи Nvidia представляют подход KAMA, который не требует парной аннотации мешей и повышает точность локализации, достигая нового SOTA результата. KAMA напрямую из изображения оценивает 3D координаты 26 ключевых точек тела и с помощью набора простых геометрических преобразований восстанавливает параметрическую модель тела SMPL.

Таким образом, новый подход предсказывает меши, которые намного лучше совпадают с содержимым изображения, а небольшая дополнительная оптимизация приводит к еще большему улучшению по сравнению с предыдущими работами. Похоже, что еще немного и для motion capture не нужны будут горы золота :)
This media is not supported in your browser
VIEW IN TELEGRAM
В предыдущем посте мы затронули тему motion capture, и вот на днях MPI-INF, Facebook Reality Labs и Valeo.ai опубликовали новое прорывное исследование.

Авторы представляют полностью дифференцируемую систему для безмаркерного 3D захвата движения человека. В отличие от большинства нейронных методов, предлагаемый подход учитывает физические ограничения и ограничения окружающей среды благодаря нескольким нововведениям:
– PD контроллер с предсказываемым коэффициентом усиления;
– явная модель динамики твердого тела;
– новый слой оптимизации, предотвращающий проникновение в пол.
Предложенная каноническая форма для 2D joint keypoints уменьшает зависимость от внутренних параметров камеры.

Новый алгоритм повышает плавность и физическое правдоподобие предсказаний, улавливает более быстрые движения и более точен по реконструкции по сравнению с PhysCap. Теперь анимация по видео стала реальностью и не требует постобработки полученных 3D поз. Продолжайте читать нас, будем предсказывать тренды вместе! :)
Привет всем любителям 3D ML!

Праздники уже почти закончились, но если у вас осталось еще несколько часов свободного времени, и вы хотели бы позалипать на YouTube во что-то полезное, то вот вам три ролика на тему 3D ML:

- Доклад про дифференциальный рендеринг на семинаре CVision Lab (есть и теория, и библиотеки, и прикладной пример, можно рассматривать, как альтернативное нашему введению в дифференциальный рендеринг)
- Доклад про фреймворк Kimera от разработчика и аспиранта из MIT (что за фреймворк, как с его помощью строить 3D семантические графы сцены, какие есть новые открытые датасеты на эту тему, какое практическое применение в области робототехники)
- Разбор статьи “Почему ИИ сложнее, чем нам кажется?” (пусть не совсем 3D ML, но это все равно очень интересная статья, в которой разобраны 4 основных заблуждения ИИ исследователей)
- Серия наших Phygital подкастов (Итоги 2021 года в области 3D ML, формы представления 3D данных и визуализация WI-FI сигнала)
Вы наверняка уже слышали и успели восхититься результатами новой работы по преобразованию синтетических изображений в фотореалистичные.

Во многих каналах уже успели обсудить, что подобные проекты это потенциальный прорыв в компьютерной графике, важный пример того, на что способен нейронный рендеринг и необходимый шаг для применения синтетических данных в машинном обучении.

В качестве основных приложений здесь стоит отметить:
- инструмент для получения фотореалистичных изображений с разметкой из генератора синтетических данных на основе игровых движков;
- способ получения быстрой фотореалистичной графики для real time приложений (например в VR);
- источник данных для AR приложений, чтобы уменьшить разницу между реальными и виртуальными объектами.
Мы хотели бы обратить внимание на детали работы “Enhancing Photorealism Enhancement.”

Улучшения, которые мы наблюдаем на видеороликах с проездом из GTA V были достигнуты за счет следующих моментов:
- батчи для обучения формируются на основе анализа схожести распределения данных различных датасетов,
- сеть использует в качестве входа не только отрендеренную картинку, но и множество других слоев из рендер движка (нормали, глубина и пр.),
- предложена новая функция ошибки, которая отвечает за сохранение структуры отрендеренного изображения,
- общая архитектура — состязательная, и поэтому присутствует ошибка дискриминатора, которая отвечает за фотореализм.

Больше деталей можно найти в оригинальной статье или в видео с докладом данной работы на Eurographics 2021.
This media is not supported in your browser
VIEW IN TELEGRAM
Оценка 3D-модели людей с помощью PyMAF.

Алексей, искреннее поздравляю Вас с выходом новой версии программы 3Ds Max. Примите мои пожелания интересных проектов и новых свершений. Ну а я в свою очередь готова оказать Вам поддержку и поддержку в оформлении Вашего бизнеса.

#твоянейронка
Привет всем любителям 3D ML! Если у вас еще нет списка списков 3D ML работ, инструментов и датасетов, то спешим поделиться:

1)Один из самых знаменитых и объемных списков датасетов, туториалов и работ, отсортированных по годам и задачам
2)Раздел про 3D ML на paperswithcode.com
3)Работы и статьи, отсортированные по задачам
4)Список инструментов и туториалов по обработке облаков точек
5)Работы по анализу и синтезу облаков точек по годам
6)Лучшие работы по анализу облаков точек на основе обзорной статьи
7)Еще один сборник ресурсов по данному направлению
8)3D ML датасеты
9)Поиск датасета в области CV и 3D ML
10)Работы, посвященные нейронному рендерингу
11)Работы, посвященные графовым моделям
12)Твиттер лист, где можно найти много крутых проектов по 3D ML и не только
13)Твиттер лист с проектами по 3D ML
14)Сайт про базовую работу в данной области, с которой хорошо начинать знакомство с 3D ML
15)Все по Deep fakes

А какие списки списков есть у вас на эту тему? Делитесь в комментариях! :)
This media is not supported in your browser
VIEW IN TELEGRAM
Могут ли роботы подражать людям, просто наблюдая за ними?

ага. В песочнице копируя друг-друга

#твоянейронка
This media is not supported in your browser
VIEW IN TELEGRAM
Попробовали использовать виртуальную реальность в машинном обучении. Таких кейсов сейчас не много, один из них — разметка данных в виртуальной реальности.

Протестировали вот этот проект для VR разметки 3D облака точек. Его ключевое отличие — интуитивно понятная работа, поскольку 3D объекты не проецируются на 2D плоскость экрана, а остаются перед вами в 3D пространстве. Такой подход разметки превосходит SOTA решения по скорости и качеству аннотации, что логично, ведь это невероятно удобно и просто.

Крутой кейс, но было бы эффективнее, если добавить фичу мультиплеера. Благодаря таким проектам можно привлекать людей к аннотированию просто потому что это увлекательно!

Тем не менее, в последнее время помимо инструментов разметки активно развивается направление синтетических данных, которые содержат в себе автоматические сверхточные аннотации. Правда, такие решения пока что довольно дорогие и выгоднее воспользоваться бесплатным open source проектом :)