3D ML – Telegram
652 subscribers
243 photos
74 videos
5 files
265 links
Работа с 3D-данными с помощью машинного обучения

Обо всем, что на стыке машинного обучения, компьютерной графики и компьютерного зрения, с красивым визуалом и долей иронии от компании PHYGITALISM.

Автор: @olegyusupov
https://linktr.ee/phygitalism
Download Telegram
Forwarded from 3DMLx. PHGTLSM
Всем привет!
Мы выпустили новую статью из серии 3D ML.
"3D ML. Часть 6: Обзор алгоритмов семантической сегментации облака точек" (https://habr.com/ru/company/itmai/blog/534036/)

В этой заметке, мы рассматриваем различные алгоритмы семантической сегментации облака точек (все алгоритмы разделены на группы на основе базового представления данных или базового принципа для выделения признаков).

В статье есть ссылки на все статьи и код проектов. Приведены метрики на популярных датасетах.

Всем исследователям в области 3D ML и интересующимся рекомендуем ознакомиться =).
Channel name was changed to «3D ML»
Channel photo updated
Channel photo updated
Всем привет, мы начинаем вести наш новый канал 3DML!

В канале мы будем публиковать все, что связано с наукой, лежащей на стыке машинного обучения, компьютерной графики и компьютерного зрения - 3D ML: фундаментальная и алгоритмическая основа Phygital технологий: алгоритмы лежащие в основе систем сканирования пространства, навигации беспилотников, генерации 3D контента, анализа сложных пространственных структур и много другого.

Здесь мы будем рассказывать вам о:
— новостях науки о геометрическом глубоком обучении,
— свежевышедших статьях и работах,
— экспериментах в этой области наших и от ведущих лабораторий со всего мира,
— бизнес-кейсах по данному направлению,
— конференциях и их итогах и многом другом.

Мы будем делиться собственным опытом разработки IT решений, связанных с 3D ML и phygital технологиями, нашими статьями и заметками которые мы пишем на различных платформах на эту тему (так на хабре мы ведём серию заметок “Введение в 3D ML”, на Medium публикуем заметки, связанные с Phygital).
Есть несколько терминов которые описывают науку, возникшую на стыке CG, CV и ML. Помимо названия, которое мы используем для этого канала, также часто употребляют термины «Геометрическое компьютерное зрение / Geometrical computer vision” и «Геометрическое глубокое обучение / GDL”.

Статья, в которой по полочкам разложено, что такое геометрическое глубокое обучения - "M. M. Bronstein, J. Bruna, Y. LeCun, A. Szlam, P. Vandergheynst, Geometric deep learning: going beyond Euclidean data, IEEE Signal Processing Magazine 2017". Всем, кто хотел бы получить первое научное представление об этой науке, строго рекомендовано к прочтению. Статья состоит из двух больших частей: первая - формальное введение в GDL, вторая - примеры приложения GDL в реальных задачах.

Помимо вводной статьи, авторы создали сайт GEOMETRIC DEEP LEARNING, посвященный данному направлению. На нем выложены списки конференций, статей, воркшопов и проектов по данному направлению, также рекомендуем посетить :)
Кстати, в описанной выше статье присутствуют многочисленные поясняющие иллюстрации, которые обычно не оставляют равнодушным исследователя. По этому поводу в сообществе экспертов GDL даже завелся соответствующий мем.

Если вы для каждой картинки из этого мема можете подобрать не только смешное название, но и понять их реальное значение, можете считать, что вы поняли суть введения в GDL ;)
3D ML pinned a photo
Мы выпустили первый PHYGITAL PODCAST, посвященный 3D ML технологиям!

Найти достоверную информацию о машинном обучении не всегда просто, и иногда можно упустить из вида крутые разработки или открытия. В подкасте мы собрали самые интересные новинки из области нейронного рендеринга, машинного обучения, компьютерной графики, и других технологий из области 3DML и PHYGITAL.

В пилотном выпуске мы поговорили о том, как сконструировать движок из кода ДНК, как научить телефон снимать пространственное селфи и затронули еще много интересных тем 🙂

Переходите по ссылке и делитесь впечатлением!
Пожалуй, всем исследователям знаком ресурс https://arxiv.org/ - место размещение электронных препринтов научных статей.

Мы будем периодически освещать новинки в области 3DML с этого ресурса. Начнем с топ 5 интересных работ, вышедших сегодня:

- A-NeRF: Surface-free Human 3D Pose Refinement via Neural Rendering хороший пример решение задачи перерисовки тела на основе нейронного рендеринга
- A Survey on Synchronous Augmented, Virtual and Mixed Reality обзорная статья, в который систематически выделяется связь между различными видами реальностей
- HyperPocket: Generative Point Cloud Completion статья о дополнении облака точек на основе GAN моделей
- A fully automated method for 3D individual tooth identification and segmentation in dental CBCT о применении 3DML в медицине: сегментируем и детектируем зубы на объемных снимках
- Modeling 3D Surface Manifolds with a Locally Conditioned Atlas о совмещении идей автоэнкодеров и локальных атласов из дифференциальной геометрии для моделирования облаков точек
Channel photo updated
На днях Google research выкатили новую библиотеку в экосистеме TensorFlow - TensorFlow 3D. Ничего не напоминает?) Библиотека пока очень сырая, со скудной документацией и малым количеством примеров. Будем следить за этой библиотекой и посмотрим во что она вырастет в будущем, но уже сейчас видно аналогию: TensorFlow Graphics + TensorFlow 3D и PyTorch Geometric + PyTorch 3D. В индустрии в последние годы явно наметился тренд на 3D ML, чему мы безусловно рады.

Про другие фреймворки основные и вспомогательные и датасеты в 3D ML можно почитать в нашей заметке.

Кстати если вы ищите инструменты или модели для работы с облаками точек, но не знаете с чего начать поиск, то вот вам три полезные ссылки:

1. Репозиторий с полезными инструментами
2. Репозиторий с работами в этой области по годам выхода
3. Репозиторий с работами в этой области по задачам

В общем, находите себе нужный молоток и гвозди и долбите тот кусок гранита науки, что отвечает за 3D ML)
Вы наверняка слышали про технологию повышения разрешения изображений нейросетевыми методами (т.н. Neural super sampling). Правильно настроенная и оптимизированная, эта технология позволяет экономить вычислительные ресурсы при сохранении качества картинки (рендерим картинку в Full HD и делаем апсемплинг до 4К, что быстрее честного рендеринга в 4К).

NVIDIA уже использует эту технологию нативно на своих видеокартах с поддержкой TPU и CUDA, а с недавнего времени предоставляет доступ к управлению этой технологии напрямую в игровые движки - например: DLSS for Unreal Engine.

Экономить время на прорисовку высококачественной графики не только полезная функция для видеоигр, но важная опора для графике в VR приложениях, где предъявляются повышенные требования к FPS и качеству. Кстати, про то, как связаны разные аспекты в компьютерной графике и их восприятие человеком на хабре есть очень интересная серия заметок.

В общем, нейронные сети теперь будут скейлить картинки в видеоиграх и в VR шлемах, чему мы очень рады!)
Данные в машинном обучении - главная составляющая успеха: если данные разнообразные, их много и они хорошо организованы, то с высокой степенью уверенности мы сможем хорошо решить задачу на основе этих данных. Иногда так случается, что данные в дисбалансе. В этом случае полезным оказывается подход синтетического генератора данных. Также подход синтетических данных позволяет генерировать датасет для такого класса объектов и ситуаций, которые важно детектировать, но в жизни такие данные встречаются редко (например, сигналы от датчиков на заводе во время взрыва реактора).

Сегодня мы выпустили заметку на хабре “Компьютерное зрение в промышленной дефектоскопии: Часть 2 “Генерируем стремные трубы, чтобы порадовать нейронку” в которой мы рассказали о том как конструировали генератор синтетических данных в одном из наших проектов.

В заметке есть примеры кода по генерации змеевиков в Blender и много красивых картиночек. Будем рады комментариям, замечаниям и картиночкам ваших собственных миров, состоящих из труб).
Media is too big
VIEW IN TELEGRAM
Бесконечно смотреть можно на три вещи: огонь, воду и на сгенерированные анимации параметрических моделей человеческих тел.

Работа с геометрией человеческого лица и тела (восстановление геометрии по изображениям, замена лиц и поз) - важная практическая задача из области 3D ML.

В этом репозитории на гитхабе собраны различные параметрические модели лиц и тел, алгоритмы и проекты по работе с ними и многое другое, связанное с геометрией человеческих тел.

А какая из этих анимаций сегодня ты?
This media is not supported in your browser
VIEW IN TELEGRAM
На прошлой неделе мы писали о выходе нового 3D ML фреймворка от Google - TensorFlow 3D и PyTorch 3D (будем надеяться, что 1С 3D нам не доведется увидеть).

Не так давно вышла новая версия pytorch 3d (0.4.0), вот что нового мы там увидели:

- Volumes Datastructure
- Raysamplers
- Raymarchers
- Implicit/Volume Renderer
- Pointclouds to Volumes conversion

По каждой новой фиче добавили туториал в виде jupyter notebook + пофиксили разные мелкие баги и добавили парочку новых утилит.

Приятно видеть, что авторы не забрасывают свое творение и регулярно его совершенствуют. PyTorch 3D уже был замечен в имплементациях SOTA работ из области 3D ML (например DECA).

А вы уже пользовались PyTorch 3D, что об этом думаете?
Много интересных работ по машинному обучению публикуется ежедневно, и это не только электронные препринты с научными статьями и лонг-риды на хабре, но и емкие интересные заметки на Medium.

На этой платформе даже существует специальный раздел - towards data science, посвященный науке о данных. Сегодня мы хотим порекомендовать вам несколько свежих и интересных, на наш взгляд, заметок с этой платформы.

1) Is this the end for Convolutional Neural Networks?
2) Best of arXiv — January 2021
3) 5 Exciting Deep Learning Advancements to Keep Your Eye on in 2021
4) Top Applications of Graph Neural Networks 2021

Также есть авторы, за которыми мы следим на Medium, например советуем изучить заметки Jonathan Hui (угадайте почему написали по английски).
Вы уже наверное слышали про модель CLIP от OpenAI. Эта модель, обучаясь на парах (картинка, текст), способна предсказывать наиболее вероятное текстовое описание для изображения. Это свойство позволяет модели иметь высокую обобщающую способность на нестандартных датасетах.

В colab’е из официальной реализации есть пример того, как из CLIP сделать модель для классификации изображений в нескольких строках кода без дополнительного обучения.

Получается весьма неплохо, хоть такая модель и посчитала нашего песеля за сладкий перец (а она ведь сладкая булочка!).
В описанном выше colab’е автор оставил код с экспериментом, в котором CLIP модель управляет генерацией изображений из модели BigGAN. Такая связка позволяет генерировать изображения по текстовому описанию. Получается что-то вроде DALL-E. Многочисленные результаты можно посмотреть в твиттер аккаунте этого эксперимента.

Мы тоже протестировали эту модель и вот что у нас получилось для входных фраз:
- Moscow on fire
- Cold Flame
- Qucambers have sex
- Digital wave

Попробуйте сами! Можете делиться своими результатами в треде. Посмотрим, на что хватит совместной фантазии наших подписчиков и BigGAN+CLIP модели) Собачек она, кстати, генерирует потрясающих))