3D ML – Telegram
651 subscribers
243 photos
74 videos
5 files
265 links
Работа с 3D-данными с помощью машинного обучения

Обо всем, что на стыке машинного обучения, компьютерной графики и компьютерного зрения, с красивым визуалом и долей иронии от компании PHYGITALISM.

Автор: @olegyusupov
https://linktr.ee/phygitalism
Download Telegram
На днях Google research выкатили новую библиотеку в экосистеме TensorFlow - TensorFlow 3D. Ничего не напоминает?) Библиотека пока очень сырая, со скудной документацией и малым количеством примеров. Будем следить за этой библиотекой и посмотрим во что она вырастет в будущем, но уже сейчас видно аналогию: TensorFlow Graphics + TensorFlow 3D и PyTorch Geometric + PyTorch 3D. В индустрии в последние годы явно наметился тренд на 3D ML, чему мы безусловно рады.

Про другие фреймворки основные и вспомогательные и датасеты в 3D ML можно почитать в нашей заметке.

Кстати если вы ищите инструменты или модели для работы с облаками точек, но не знаете с чего начать поиск, то вот вам три полезные ссылки:

1. Репозиторий с полезными инструментами
2. Репозиторий с работами в этой области по годам выхода
3. Репозиторий с работами в этой области по задачам

В общем, находите себе нужный молоток и гвозди и долбите тот кусок гранита науки, что отвечает за 3D ML)
Вы наверняка слышали про технологию повышения разрешения изображений нейросетевыми методами (т.н. Neural super sampling). Правильно настроенная и оптимизированная, эта технология позволяет экономить вычислительные ресурсы при сохранении качества картинки (рендерим картинку в Full HD и делаем апсемплинг до 4К, что быстрее честного рендеринга в 4К).

NVIDIA уже использует эту технологию нативно на своих видеокартах с поддержкой TPU и CUDA, а с недавнего времени предоставляет доступ к управлению этой технологии напрямую в игровые движки - например: DLSS for Unreal Engine.

Экономить время на прорисовку высококачественной графики не только полезная функция для видеоигр, но важная опора для графике в VR приложениях, где предъявляются повышенные требования к FPS и качеству. Кстати, про то, как связаны разные аспекты в компьютерной графике и их восприятие человеком на хабре есть очень интересная серия заметок.

В общем, нейронные сети теперь будут скейлить картинки в видеоиграх и в VR шлемах, чему мы очень рады!)
Данные в машинном обучении - главная составляющая успеха: если данные разнообразные, их много и они хорошо организованы, то с высокой степенью уверенности мы сможем хорошо решить задачу на основе этих данных. Иногда так случается, что данные в дисбалансе. В этом случае полезным оказывается подход синтетического генератора данных. Также подход синтетических данных позволяет генерировать датасет для такого класса объектов и ситуаций, которые важно детектировать, но в жизни такие данные встречаются редко (например, сигналы от датчиков на заводе во время взрыва реактора).

Сегодня мы выпустили заметку на хабре “Компьютерное зрение в промышленной дефектоскопии: Часть 2 “Генерируем стремные трубы, чтобы порадовать нейронку” в которой мы рассказали о том как конструировали генератор синтетических данных в одном из наших проектов.

В заметке есть примеры кода по генерации змеевиков в Blender и много красивых картиночек. Будем рады комментариям, замечаниям и картиночкам ваших собственных миров, состоящих из труб).
Media is too big
VIEW IN TELEGRAM
Бесконечно смотреть можно на три вещи: огонь, воду и на сгенерированные анимации параметрических моделей человеческих тел.

Работа с геометрией человеческого лица и тела (восстановление геометрии по изображениям, замена лиц и поз) - важная практическая задача из области 3D ML.

В этом репозитории на гитхабе собраны различные параметрические модели лиц и тел, алгоритмы и проекты по работе с ними и многое другое, связанное с геометрией человеческих тел.

А какая из этих анимаций сегодня ты?
This media is not supported in your browser
VIEW IN TELEGRAM
На прошлой неделе мы писали о выходе нового 3D ML фреймворка от Google - TensorFlow 3D и PyTorch 3D (будем надеяться, что 1С 3D нам не доведется увидеть).

Не так давно вышла новая версия pytorch 3d (0.4.0), вот что нового мы там увидели:

- Volumes Datastructure
- Raysamplers
- Raymarchers
- Implicit/Volume Renderer
- Pointclouds to Volumes conversion

По каждой новой фиче добавили туториал в виде jupyter notebook + пофиксили разные мелкие баги и добавили парочку новых утилит.

Приятно видеть, что авторы не забрасывают свое творение и регулярно его совершенствуют. PyTorch 3D уже был замечен в имплементациях SOTA работ из области 3D ML (например DECA).

А вы уже пользовались PyTorch 3D, что об этом думаете?
Много интересных работ по машинному обучению публикуется ежедневно, и это не только электронные препринты с научными статьями и лонг-риды на хабре, но и емкие интересные заметки на Medium.

На этой платформе даже существует специальный раздел - towards data science, посвященный науке о данных. Сегодня мы хотим порекомендовать вам несколько свежих и интересных, на наш взгляд, заметок с этой платформы.

1) Is this the end for Convolutional Neural Networks?
2) Best of arXiv — January 2021
3) 5 Exciting Deep Learning Advancements to Keep Your Eye on in 2021
4) Top Applications of Graph Neural Networks 2021

Также есть авторы, за которыми мы следим на Medium, например советуем изучить заметки Jonathan Hui (угадайте почему написали по английски).
Вы уже наверное слышали про модель CLIP от OpenAI. Эта модель, обучаясь на парах (картинка, текст), способна предсказывать наиболее вероятное текстовое описание для изображения. Это свойство позволяет модели иметь высокую обобщающую способность на нестандартных датасетах.

В colab’е из официальной реализации есть пример того, как из CLIP сделать модель для классификации изображений в нескольких строках кода без дополнительного обучения.

Получается весьма неплохо, хоть такая модель и посчитала нашего песеля за сладкий перец (а она ведь сладкая булочка!).
В описанном выше colab’е автор оставил код с экспериментом, в котором CLIP модель управляет генерацией изображений из модели BigGAN. Такая связка позволяет генерировать изображения по текстовому описанию. Получается что-то вроде DALL-E. Многочисленные результаты можно посмотреть в твиттер аккаунте этого эксперимента.

Мы тоже протестировали эту модель и вот что у нас получилось для входных фраз:
- Moscow on fire
- Cold Flame
- Qucambers have sex
- Digital wave

Попробуйте сами! Можете делиться своими результатами в треде. Посмотрим, на что хватит совместной фантазии наших подписчиков и BigGAN+CLIP модели) Собачек она, кстати, генерирует потрясающих))
This media is not supported in your browser
VIEW IN TELEGRAM
Тут недавно на медузе вышла очень интересная заметка, о том, как одна исследовательская группа при помощи микро рентгеновской томографии и методов вычислительной геометрии смогла прочитать запечатанное письмо 17 века.

Интересным увиделся именно этап “разворачивания” 3D модели письма. Раньше удавалось считывать только просто сложенные конверты, а сейчас можно развернуть и хитро устроенную конструкцию. Больше деталей смотрите в заметке на медузе, а совсем для хардкорщиков есть оригинальная статья.

Несмотря на то, что непосредственно ML тут не использовался, это все равно очень красивый и неожиданный пример, в котором анализ 3D структуры играет важную роль.

Что сказать, еще пару лет в таком темпе, и я при помощи одного рентгеновского взгляда
смогу узнать где нужная бумажка с рефератом лежит в горе мусора на рабочем столе.
Self-supervised - один из самых перспективных путей к созданию систем с базовыми знаниями. Благодаря ему произошел прорыв по многим направлениям в текстовых задачах, и вот теперь открываются новые перспективы в задачах компьютерного зрения.

Исследователи из Facebook AI разработали новую архитектуру SEER - модель с 1.3 млрд параметров, способную обучаться на случайных изображениях. После обучения на 1 млрд изображений такая модель добивается 84.2% top-1 accuracy на ImageNet датасете. SEER превосходит supervised SOTA решения в задаче сегментации, детекции объектов и классификации изображений. За подробностями заглядывайте в статью на arxiv. Помимо самой модели исследователи представили open-source библиотеку VISSL, которая содержит в себе удобный функционал и готовые реализации SOTA решений из мира self-supervised обучения.

Удобно, одни алгоритмы придумывают архитектуры, а другие - обучают эти архитектуры без человеческого вмешательства :)

Как думаете, скоро подобные решения появятся в 3D ML?
This media is not supported in your browser
VIEW IN TELEGRAM
Для адаптации 3D объектов в виде полигональных мешей в последнее время успешно используется альтернативный подход - neural signed distance functions (SDFs). Исследователи из NVIDIA разработали новый алгоритм для обучения neural SDF представлений, который способен эффективно работать с несколькими уровнями детализации и добиваться SOTA результатов в задаче 3D shape reconstruction.

В дополнение авторы представили новый алгоритм для рендеринга, который совместно с их моделью позволяет рендерить в 2-3 раза быстрее и добивается режима реального времени. На видео можно увидеть сравнение алгоритмов (голубой цвет - nvidia, оранжевый - альтернативы). Ждем официальный код проекта!

Больше подробностей смотрите в статье на arxiv. Генерации сцен по изображениям, тексту или даже аудио в режиме реального времени становятся все ближе, поскорее бы генерировать бокал вина не только в сцене :)
NeRF - это большое семейство алгоритмов для синтеза новых видов сцен из ее произвольных изображений. Результаты последних работ впечатляют уровнем фотореализма, однако, все они применимы только для статичных сцен, для которых один и тот же объект имеет одинаковую форму и положение на всех изображениях.

Недавно это семейство пополнилось новеньким алгоритмом NeRF for Dynamic Scenes, который расширяет область применения NeRF до динамических сцен, при этом движение объектов внутри сцены может быть как жестким, так и нет. Авторы статьи обучают две модели: одна переводит деформированную сцену из произвольного времени в канонический вид (например, в начальный момент времени), а другая генерирует представление сцены в этой канонической конфигурации.

Благодаря такому подходу D-NeRF может рендерить новые изображения, управляя как обзором камеры, так и динамикой объекта (t value) и, таким образом, движением объекта.

В общем, теперь AR, VR, игровая и киноиндустрии имеют еще один мощный инструмент для рендеринга!
This media is not supported in your browser
VIEW IN TELEGRAM
На днях вышла наша статья “3D Object Classification, Visual Search from RGB-D Data” в международном журнале Springer Nature. В ней мы изложили подход к конструированию лучевого дескриптивного представления 3D моделей (соответствующая заметка на Medium) для решения задачи поиска наиболее похожего по форме объекта.

Также в статье мы отразили процесс построения пайплайна для сканирования пространства и поиска в нем объекта интереса (соответствующая заметка на Medium). Если хотите прочитать полный текст статьи, можете написать авторам на почту, чтобы мы поделились с вами копией (vadim@phygitalism.com). Кстати, помимо теории мы создали аддон для Blender, которым вы можете воспользоваться для того, чтобы быстрее найти 3D модель из базы.

Делимся мы этой информацией не только чтобы распространить наши исследования, но и заметить, как же круто заниматься наукой в области 3D ML - расстреливаешь обезьянку лучами, чтобы найти наиболее похожий на нее банан, а потом пишешь про это статью!)
Кажется будущее, в котором мы для общения друг с другом используем голографические проекции, не за горами. Очередным шагом вперед в этой области стало не изобретение нового голографического интерфейса, а создание быстрого и ресурсоемкого алгоритма вычисление голографических карт на основе сверточных нейронных сетей.

В своем исследование, авторы из MIT сначала создали датасет честно полученных (с помощью физических симуляций) голограмм - MIT-CGH-4K, а после вставили нейронную сеть в самое вычислительное затратное место классического алгоритма (один из основных способов добиться успеха применяя DL в других областях). У данного исследования много специфики, связанной с предметной областью, и в открытом доступе пока нет препринта, однако оно опубликовано в Nature, что внушает надежду на достоверность исследования.

Как вы считаете, в какой еще области стоит ждать прогресса благодаря методам глубокого обучения?
This media is not supported in your browser
VIEW IN TELEGRAM
Естественные 2D изображения - это проекции 3D объектов из реального мира. Такая идея лежит в основе недавно вышедшей работы Do 2D GANs Know 3D Shape? Unsupervised 3D Shape Reconstruction from 2D Image GANs.

Результатом исследования является фреймворк, который позволяет восстанавливать 3D объекты из одного входного 2D изображения. StyleGAN2, натренированная только на RGB изображениях, имеет богатое представление о структуре 3D объектов. Фреймворк не требует никакой дополнительной информации и работает в unsupervised манере, при этом с высокой точностью восстанавливает 3D формы для лиц людей, котов, машин и даже зданий. Восстановленные 3D формы в свою очередь позволяют вращать объект и менять освещение на изображении.

Исследования различных моделей изнутри открывают все больше новых способов взаимодействия с уже привычными архитектурами. Как думаете, что еще скрывают в себе наши любимые “черные ящики” из мира deep learning?
Media is too big
VIEW IN TELEGRAM
Мы выпустили второй PHYGITAL PODCAST, посвященный 3D ML технологиям!

Второй выпуск посвящён формам описания 3D данных. Вы узнаете, чем формы отличаются от форматов, как могут выглядеть 3D данные и где использоваться, их плюсы и минусы, а также примеры использования дескриптивных представлений. Для желающих узнать больше о 3D данных, читайте нашу заметку на хабре.

Смотрите подкаст и делитесь впечатлениями!
3D ML pinned a video