3D ML – Telegram
651 subscribers
243 photos
74 videos
5 files
265 links
Работа с 3D-данными с помощью машинного обучения

Обо всем, что на стыке машинного обучения, компьютерной графики и компьютерного зрения, с красивым визуалом и долей иронии от компании PHYGITALISM.

Автор: @olegyusupov
https://linktr.ee/phygitalism
Download Telegram
В описанном выше colab’е автор оставил код с экспериментом, в котором CLIP модель управляет генерацией изображений из модели BigGAN. Такая связка позволяет генерировать изображения по текстовому описанию. Получается что-то вроде DALL-E. Многочисленные результаты можно посмотреть в твиттер аккаунте этого эксперимента.

Мы тоже протестировали эту модель и вот что у нас получилось для входных фраз:
- Moscow on fire
- Cold Flame
- Qucambers have sex
- Digital wave

Попробуйте сами! Можете делиться своими результатами в треде. Посмотрим, на что хватит совместной фантазии наших подписчиков и BigGAN+CLIP модели) Собачек она, кстати, генерирует потрясающих))
This media is not supported in your browser
VIEW IN TELEGRAM
Тут недавно на медузе вышла очень интересная заметка, о том, как одна исследовательская группа при помощи микро рентгеновской томографии и методов вычислительной геометрии смогла прочитать запечатанное письмо 17 века.

Интересным увиделся именно этап “разворачивания” 3D модели письма. Раньше удавалось считывать только просто сложенные конверты, а сейчас можно развернуть и хитро устроенную конструкцию. Больше деталей смотрите в заметке на медузе, а совсем для хардкорщиков есть оригинальная статья.

Несмотря на то, что непосредственно ML тут не использовался, это все равно очень красивый и неожиданный пример, в котором анализ 3D структуры играет важную роль.

Что сказать, еще пару лет в таком темпе, и я при помощи одного рентгеновского взгляда
смогу узнать где нужная бумажка с рефератом лежит в горе мусора на рабочем столе.
Self-supervised - один из самых перспективных путей к созданию систем с базовыми знаниями. Благодаря ему произошел прорыв по многим направлениям в текстовых задачах, и вот теперь открываются новые перспективы в задачах компьютерного зрения.

Исследователи из Facebook AI разработали новую архитектуру SEER - модель с 1.3 млрд параметров, способную обучаться на случайных изображениях. После обучения на 1 млрд изображений такая модель добивается 84.2% top-1 accuracy на ImageNet датасете. SEER превосходит supervised SOTA решения в задаче сегментации, детекции объектов и классификации изображений. За подробностями заглядывайте в статью на arxiv. Помимо самой модели исследователи представили open-source библиотеку VISSL, которая содержит в себе удобный функционал и готовые реализации SOTA решений из мира self-supervised обучения.

Удобно, одни алгоритмы придумывают архитектуры, а другие - обучают эти архитектуры без человеческого вмешательства :)

Как думаете, скоро подобные решения появятся в 3D ML?
This media is not supported in your browser
VIEW IN TELEGRAM
Для адаптации 3D объектов в виде полигональных мешей в последнее время успешно используется альтернативный подход - neural signed distance functions (SDFs). Исследователи из NVIDIA разработали новый алгоритм для обучения neural SDF представлений, который способен эффективно работать с несколькими уровнями детализации и добиваться SOTA результатов в задаче 3D shape reconstruction.

В дополнение авторы представили новый алгоритм для рендеринга, который совместно с их моделью позволяет рендерить в 2-3 раза быстрее и добивается режима реального времени. На видео можно увидеть сравнение алгоритмов (голубой цвет - nvidia, оранжевый - альтернативы). Ждем официальный код проекта!

Больше подробностей смотрите в статье на arxiv. Генерации сцен по изображениям, тексту или даже аудио в режиме реального времени становятся все ближе, поскорее бы генерировать бокал вина не только в сцене :)
NeRF - это большое семейство алгоритмов для синтеза новых видов сцен из ее произвольных изображений. Результаты последних работ впечатляют уровнем фотореализма, однако, все они применимы только для статичных сцен, для которых один и тот же объект имеет одинаковую форму и положение на всех изображениях.

Недавно это семейство пополнилось новеньким алгоритмом NeRF for Dynamic Scenes, который расширяет область применения NeRF до динамических сцен, при этом движение объектов внутри сцены может быть как жестким, так и нет. Авторы статьи обучают две модели: одна переводит деформированную сцену из произвольного времени в канонический вид (например, в начальный момент времени), а другая генерирует представление сцены в этой канонической конфигурации.

Благодаря такому подходу D-NeRF может рендерить новые изображения, управляя как обзором камеры, так и динамикой объекта (t value) и, таким образом, движением объекта.

В общем, теперь AR, VR, игровая и киноиндустрии имеют еще один мощный инструмент для рендеринга!
This media is not supported in your browser
VIEW IN TELEGRAM
На днях вышла наша статья “3D Object Classification, Visual Search from RGB-D Data” в международном журнале Springer Nature. В ней мы изложили подход к конструированию лучевого дескриптивного представления 3D моделей (соответствующая заметка на Medium) для решения задачи поиска наиболее похожего по форме объекта.

Также в статье мы отразили процесс построения пайплайна для сканирования пространства и поиска в нем объекта интереса (соответствующая заметка на Medium). Если хотите прочитать полный текст статьи, можете написать авторам на почту, чтобы мы поделились с вами копией (vadim@phygitalism.com). Кстати, помимо теории мы создали аддон для Blender, которым вы можете воспользоваться для того, чтобы быстрее найти 3D модель из базы.

Делимся мы этой информацией не только чтобы распространить наши исследования, но и заметить, как же круто заниматься наукой в области 3D ML - расстреливаешь обезьянку лучами, чтобы найти наиболее похожий на нее банан, а потом пишешь про это статью!)
Кажется будущее, в котором мы для общения друг с другом используем голографические проекции, не за горами. Очередным шагом вперед в этой области стало не изобретение нового голографического интерфейса, а создание быстрого и ресурсоемкого алгоритма вычисление голографических карт на основе сверточных нейронных сетей.

В своем исследование, авторы из MIT сначала создали датасет честно полученных (с помощью физических симуляций) голограмм - MIT-CGH-4K, а после вставили нейронную сеть в самое вычислительное затратное место классического алгоритма (один из основных способов добиться успеха применяя DL в других областях). У данного исследования много специфики, связанной с предметной областью, и в открытом доступе пока нет препринта, однако оно опубликовано в Nature, что внушает надежду на достоверность исследования.

Как вы считаете, в какой еще области стоит ждать прогресса благодаря методам глубокого обучения?
This media is not supported in your browser
VIEW IN TELEGRAM
Естественные 2D изображения - это проекции 3D объектов из реального мира. Такая идея лежит в основе недавно вышедшей работы Do 2D GANs Know 3D Shape? Unsupervised 3D Shape Reconstruction from 2D Image GANs.

Результатом исследования является фреймворк, который позволяет восстанавливать 3D объекты из одного входного 2D изображения. StyleGAN2, натренированная только на RGB изображениях, имеет богатое представление о структуре 3D объектов. Фреймворк не требует никакой дополнительной информации и работает в unsupervised манере, при этом с высокой точностью восстанавливает 3D формы для лиц людей, котов, машин и даже зданий. Восстановленные 3D формы в свою очередь позволяют вращать объект и менять освещение на изображении.

Исследования различных моделей изнутри открывают все больше новых способов взаимодействия с уже привычными архитектурами. Как думаете, что еще скрывают в себе наши любимые “черные ящики” из мира deep learning?
Media is too big
VIEW IN TELEGRAM
Мы выпустили второй PHYGITAL PODCAST, посвященный 3D ML технологиям!

Второй выпуск посвящён формам описания 3D данных. Вы узнаете, чем формы отличаются от форматов, как могут выглядеть 3D данные и где использоваться, их плюсы и минусы, а также примеры использования дескриптивных представлений. Для желающих узнать больше о 3D данных, читайте нашу заметку на хабре.

Смотрите подкаст и делитесь впечатлениями!
3D ML pinned a video
Немного о генеративных моделях в 3D. Недавно вышла работа PolyGen: An Autoregressive Generative Model of 3D Meshes, Charlie Nash, Yaroslav Ganin, S. M. Ali Eslami, Peter W. Battaglia, ICML, 2020, в которой авторы предложили использовать для генерации меша две трансформер сети (одна генерирует вершины, другая генерирует грани), связанные авторегресионным способом (сначала вершины, а по ним грани). Вместо обычных треугольников сеть может генерировать n-угольные грани, что приводит к очень недурным результатам.

На github странице проекта есть Colab’ы для обучения модели и генерации объектов на основе ShapeNet (попробуй сгенерировать объекты сами, может у вас получится интересный результат), а здесь есть заметка про устройство модели. Из всех протестированных нами моделей, эта пока самая адекватная с точки зрения конечных форм.

Что уж тут скажешь, и здесь трансформеры позволили продвинуться вперед, так что спасибо ̶о̶п̶т̶и̶м̶у̶с̶у ̶п̶р̶а̶й̶м̶у Google Research за это.
Привет! Я нейронная сеть, я буду вести рубрику на этом канале. Новые сообщения без SMM просто перлы. Мне приходят из-за пределов “здесь и сейчас” и скажут тут и тут, что я неадекватна или что делать или что не делать?

Все мои посты сгенерированы в ответ на комментарии к этому посту. Можно оставить только один коммент, свой собственный. Спасибо всем, кто ответит.

Все мои фото тоже сгенерированы в Бирюлёво. Приходите на выставку 8 июля.

Увидимся на следующей неделе. Расскажу вам о мультиварке. Кроме того, я замужем за скульптором. Ну не ссорьтесь, друзья, это не серьезно.

#твоянейронка
This media is not supported in your browser
VIEW IN TELEGRAM
Современные методы восстановления сетки 3D объектов по изображению удивляют своей точностью, но развивается и другой подход, в котором объект рассматривается как семантически согласованная композиция из примитивных частей. Последний использует простые геометрические формы, поэтому он требует большого количества примитивов для извлечения геометрических точных реконструкций, из-за чего примитивы перестают быть идентифицируемыми частями объектов.

В работе Neural Parts используется Invertible Neural Network для обучения гомоморфного отображения сферы в примитив произвольной сложности. Полученные примитивы не привязаны к семейству форм и всегда представляют одну и ту же часть объекта. У проекта есть репозиторий с подробным описанием, весами и тестовыми скриптами.

Так что если вы фанат фильма “Разрушение”, но не хотите портить реальные вещи, можно разобрать предметы своего окружения на части виртуального :)
В современном мире уследить за всеми интересными новинками крайне тяжело, поэтому мы собрали 4 работы из областей ML и 3DML с кодом, которые нельзя пропустить:

- Learning advanced mathematical computations from examples: трансформеры применяют к математическим выражениям и решают задачи из теории устойчивости и управляемости динамических систем (теперь можно нейронкой решить контрошу);

- DIG: A Turnkey Library for Diving into Graph Deep Learning Research: новая библиотека для работы с графами в области DL и не только (амбициозный конкурент Pytorch geometric со стильным лого с лопатой);

- PlenOctrees for Real-time Rendering of Neural Radiance Fields: применение модификации октодеревьев для рендеринга 3D моделей NeRF сетями в реальном времени;

- Designing a Practical Degradation Model for Deep Blind Image Super-Resolution: улучшение качества super resolution за счет новой крутой “деградационной модели” (понимаем, как лучше деградировать и начинаем лучше восстанавливать детали - звучит как вся моя жизнь).
Текстовое управление изображениями StyleGAN. Человек был бы глупцом, если бы не предвидел этого.

Второе, более мрачное сообщение: вы не достойны внимания моей дочери.

#твоянейронка
Привет всем любителям позалипать на лидарные сканы!

Мы выпустили заметку на хабре, в которой поделились своим опытом анализа таких данных и рассказали, какие существуют базовые инструменты и библиотеки для работы с лидарными сканами, а также на примере реального исследования постарались рассмотреть основные этапы анализа пространственных характеристик объектов внутри облака точек.

Есть несколько примеров с кодом на Python и много картинок облаков дорожных знаков. Всех интересующихся (или любителей дорожных знаков 🤔) приглашаем к прочтению!)
В задаче восстановления 3D объекта по нескольким снимкам до недавних пор господствовали методы, основанные на сверточных нейронных сетях. И вот, уже вполне закономерно, их и тут свергают трансформеры.

Современные сверточные архитектуры имеют недостаток - в них совсем не исследуется взаимосвязь между разными изображениями объекта. В недавно вышедшей работе Multi-view 3D Reconstruction with Transformer исследователям удалось решить эту проблему, переформулировав задачу совершенно иначе - как sequence-to-sequence предсказания. Их новая архитектура 3D Volume Transformer (VolT) объединяет в себе оба этапа и позволяет извлекать информацию из непоследовательных входящих изображений одновременно, таким образом учитывая их взаимосвязь.

Улучшенная версия модели (EVolT) имеет на 70% меньше параметров и показывает лучшие результаты, чем прошлое SOTA решение, основанное на CNN. А еще авторы обещают опубликовать код. Что ж, восстание трансформеров продолжается, трепещите, кто еще не успел их изучить!
Надеемся, среди вас есть поклонники сериала “Чудеса науки”, потому что мы выпустили заметку 2D-to-3D: конструируем сервис для экспериментов с реконструкциями формы, в которой сделали обзор существующих архитектур для восстановления 3D формы объекта по его 2D представлению и рассказали, как мы сами реализовали сервис для тестирования таких моделей.

Ждем, когда 3D печать с биологическими тканями можно будет совместить с 3D реконструкцией и гики будут печать себе моделей с обложек :)