3D ML – Telegram
651 subscribers
243 photos
74 videos
5 files
265 links
Работа с 3D-данными с помощью машинного обучения

Обо всем, что на стыке машинного обучения, компьютерной графики и компьютерного зрения, с красивым визуалом и долей иронии от компании PHYGITALISM.

Автор: @olegyusupov
https://linktr.ee/phygitalism
Download Telegram
Привет, любители 3D ML!
Как часто вы слушаете лекции и смотрите воркшопы на youtube о ML и 3D ML? Мы периодически слушаем доклады с конференций и интервью с лучшими исследователями, и спешим поделиться с вами первой частью нашего списка каналов о 3D ML и не только:

1. [MachineLearningStreetTalk] Дискуссии с самыми крутыми представителями из каждой области. Зацените последний выпуск про 3D ML с Михаилом Бронштейном!
2. [AI Coffee Break with Letitia] Короткие ролики с объяснением концепций из области NLP и CV с забавными анимашками.
3. [Two minute papers] Название говорит само за себя: очень короткие, но содержательные и познавательные ролики на тему последних достижений в области ML и математического моделирования. Можно найти тему для вдохновения или проект для использования в практике.
4. [Lex Fridman] Интервью с легендами ML, лекции DL MIT.
5. [5 levels] Плейлист с крутой концепцией - объяснение технологии или концепции на 5 уровнях: ребенок, школьник, студент, аспирант, профи.
Привет, друзья исследователи!

Не так давно, исследователи из FAIR опубликовали код и статью про новый трансформер подход для детекции объектов в облаках точек - 3DETR.

Почему работа интересна:
Есть имплементация в коде и веса.
Архитектура строится на незначительных изменениях классического блока трансформер архитектуры с непараметрическими запросами (queries) и Фурье позиционными латентными векторами (Fourier positional embeddings).
SOTA результаты (+9.5%) на ScanNetv2 и SUN RGB-D.
Есть возможность применения архитектуры в других задачах 3D ML.

А вы еще не успели попробовать этот подход? Если у вас есть желание и время, то делитесь результатами применения этой ̶в̶у̶н̶д̶е̶р̶в̶а̶ф̶л̶и̶ архитектуры на ваших данных в комментариях =)
Привет всем любителям красивой и быстрой графики!
Недавно в сети появился трейлер геймплея RIDE 4 для PS5 и мы услышали синхронизированные ахи от красоты и фотореалистичности данного проекта. В данном случае красота достигнута за счет ручной оптимизации, мощностей консоли и кино ухищрений вроде блюра, брызг и цветокора. Однако времена когда улучшения в компьютерной графике достигаются силами художников или программистов кажется уже отходят в прошлое (чего только стоит оптимизация вычисления 1 / sqrt(x) в Quake III).

Сегодня компьютерная графика становится более реалистичной и быстрой благодаря нейронному рендерингу. Принципиальных подхода для улучшения и ускорения мы хотим выделить 3 штуки:
- повышение разрешения изображения после рендеринга (super sampling) - экономим время за счет меньшего времени ray tracing;
- трансформация фотореалистичного стиля на готовый рендер - экономим время художников и движка;
- ускорение физических симуляций - экономим время физического движка и ray tracing.
В качестве ориентиров подобных подходов на проектах можно рассмотреть:


- Enhancing Photorealism Enhancement (про него подробно писали здесь) - фотореалистичный рендеринг 3D сцен на основе GAN и движка GTA V ( способ #2);
- NVIDIA DLSS 2.0 - суперсэмплинг в компьютерных играх имплементированный на видеокарты (способ #1);
- Быстрый рендеринг фотореалистичных и физически корректных облаков (способ #3).

Конечно же, такие алгоритмы достаточно сложные в реализации и объединены следующими особенностями:
- нужен датасет, который будет образцом фотореалистичности;
- нужен доступ к 3D движку, чтобы вычленять информацию о буферах глубины, текстур и пр.;
- нужно обучать GAN подобную архитектуру, что сопряжено с вычислительными трудностями.

А какие примеры проектов в данном направление знаете вы? Делитесь в комментариях =)
This media is not supported in your browser
VIEW IN TELEGRAM
Привет всем исследователям и разработчикам!

Сталкивались ли вы с проблемой визуализации глубокой архитектуры или ее частей для научной статьи или для лучшего ее понимания? Если вдруг вам понадобится решать эту задачу, то обратите внимания на репозиторий Tools-to-Design-or-Visualize-Architecture-of-Neural-Network от исследователя Ashish Patel.

23 библиотеки разной степени сложности и функциональности, Наверняка каждый найдет для себя что-то интересное =)
Привет, всем любителям творчества с помощью глубоких архитектур!

Трендом последнего времени стала генерация изображений в виде CLIP + Генератор картинок (VQGAN, BigGAN и пр.). Недавно мы писали про эксперименты с генераций человекоподобных сущностей на основе CLIP + SMPL, а теперь настало время NeRF подобных моделей =)

Исследователь Ajay Jain из Google AI поделился развитием своей работы Diet NeRF. На видео в превью сгенерированный пролет камеры вокруг модели , a 3d render of a jenga tower in unreal engine" на основе CLIP + NeRF. Деталей архитектуры или кода пока нет, но можно вполне ориентироваться на предыдущую работу авторов.

Почему это интересно? -> альтернативный подход к генерации 3D на основе текста с большой степенью общности (не только люди)

Как это будет использоваться в повседневной жизни в ближайшее время? -> пиши свою версию в комментариях =)
Привет коллеги 3D ML’щики!

Спешим поделиться с вами одной свежей и очень интересной работой: Geometry-Free View Synthesis: Transformers and no 3D Priors (Есть статья, код и collab!).

В чем практическая суть? -> бесконечный пролет камеры по сцене из одной фотографии.

В чем технологическая начинка? -> Неявный 3D трансформер (вероятностный подход на основе сэмплирования карты глубины и текстур в зависимости от позиции камеры и предыдущей видимой сцены).

Как насчет попробовать эту модель с вашим фото и сравнить как реальность отличается от предсказания модели?)

P.S. На видео наш тест данной модели для картины.
Привет, друзья🧑‍💻!

Продолжаем серию постов про генерацию 3D объектов по тексту. В прошлые два раза речь шла про CLIP + SMPL для генерации человекоподобных сущностей (textured mesh) и про использование NeRF для генерации произвольных объектов (Radience Field). Теперь пришло совместить CLIP и воксельные модели: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation - свежая работа (пока без кода), в которой заявлено zero-shot text-to-shape generation (генерация воксельной модели по тексту) на основе предобученного CLIP и неразмеченного 3D набора данных.

Кажется что CLIP и генерация 3D в разных формах - тренд последних дней =)
Как считаете, куда еще воткнут CLIP, чтобы сгенерировать что-то интересное?)
Привет всем исследователям из области ML!

Вчера вышел ежегодный аналитический отчет в области искусственного интеллекта State of AI Report 2021.

Основные выводы относительно области Research:
- Трансформеры стали основной архитектурой глубокого обучения не только в NLP, но и вообще везде, включая 3D ML (Point Transformer и пр.);
- Large language models (большие языковые модели/LLM) вроде GPT-3 сейчас находятся в фазе расширения, и в прошедшей год вышло множество “национальных” версий (русскоязычная версия GPT-3 к примеру);
- Приложения AI в области структурной биологии привели к огромному прорыву в понимании ДНК и Белковых структур;
- Фреймворк JAX получил популярность в кругах исследователей благодаря своим свойствам высокопроизводительных вычислений на основе JIT.

Предсказания на следующий год, а также анализ прошлогодних предсказаний вместе с аналитикой в области бизнеса и социальных аспектов вы можете найти в презентации доклада. А что из отчета показалось интересным для вас?
Если акцентировать внимание на специфики 3D ML, то можно отметить следующие интересные моменты в докладе:
- авторы не выделяют отдельно 3D и CV записываю все в область компьютерного зрения (что нас конечно печалит);
- был упомянут прогресс в задаче Novel View Synthesis - NeRF архитектуры (18 слайд);
- 3D трансформеры бьют SOTA результаты (14 слайд);
- Alpha Fold - 2 и просачивание его идей в академическую среду (19 слайд);
- игровые движки продолжают двигать вперед прогресс в RL (28 слайд);
- графовые нейронные сети (GNN) самая быстрорастущая по популярности тема в ML (64 слайд);
- физические симуляции тканей можно теперь делать на основе GNN (65 слайд)
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья исследователи!

Не знаю как вас, а меня больше всего в области пересечения 3D и ML вдохновляют приложения в физических моделях. Поскольку пример с быстрым рендерингом облаков уже набил оскомину, вот вам два свежих примера того, как 3D ML улучшает (= ускоряет) сложные физические симуляции (в игровых движках и не только).

1. Learning Mesh-Based Simulation with Graph Networks (статья + видео, github TF, github PT) — очень интересный подход к симуляции самых разных объектов в которых как-то присутствует геометрия поверхности и она моделируется полигональным мешем (предсказание того, как ткань будет развиваться на ветру).
Почему круто:
- быстрее чем аналог честной симуляции методом частиц или сеточными методами;
- присутствует адаптивная сетка для увеличения количества полигонов меша в окрестности регионов с большим числом нюансов.
Zibra_Liquids_Unity3D_Water_Simulation_HDRP_Demo.gif
17 MB
2. ZibraAI и ее Zibra Liquid (medium paper, free Unity 3D demo, video with HDRP example) — движок физических симуляций жидкостей в реальном времени, совместимый с Unity 3D. Под капотом лежит представление жидкости как SDF + использование Moving Least Squares Material Point Method.
Почему круто:
- уже есть готовый плагин для Unity 3D;
имеется поддержка HDRP;
- схожим методом можно закрыть вопрос симуляции не только жидкостей, но и аморфных тел вроде пластилина или меда.

Оба примера выглядят вдохновляюще и закрывают два направления в real-time physics в игровых движках. А знаете ли вы еще примеры на схожую тематику? Делитесь в комментариях =)
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья исследователи!

Тут исследовательница из FAIR Georgia Gkioxari добавила новую утилиту в PyTorch3D - Intersection Over Union of Oriented 3D Boxes: A New Algorithm. По сути - быстрый (CUDA / torch / C++) расчет IoU метрики для ориентированных ограничивающих 3D параллелепипедов. Данная метрика часто встречается в 3D ML задачах, например в задаче 3D Object Detection.

Кажется что это что-то незначительное, однако мы в этом видим признак того, что 3D ML выходит на передовой уровень разработок и исследований внутри самого ML, потому что когда исследователи начинают оптимизировать самые низкоуровневые операции так, чтобы их можно было удобно использовать в повседневных экспериментах и при вычислениях на серьезных кластерах - это значит что происходит максимальное погружение разработчиков на самых разных уровнях. Это еще не говоря о количестве статей и работ по совместным тегам 3D+ML на топовых конференциях.

А что вас может убедить в том, что 3D ML рвется ввысь? Предлагайте варианты в комментариях=)
Здоровенькі були, друзі дослідники!

Мы уже писали несколько постов (раз, два, три) о том, как исследователи совмещают CLIP и какую-либо технику генерации 3D контента. Долго ждать не пришлось, вот и еще один вариант подоспел.

Исследователь Eric Chu из MIT Media Lab предложил весьма простой и элегантный способ генерации 3D контента по тексту - Evolving Evocative 2D Views of Generated 3D Objects.

Красота работы в простоте генератора (всего 6 параметров в аналитической формуле + параметры поворота камеры) и в интересном пайплайне (используется генетический алгоритм: автор пишет, что делает это в связи с недефферинцируемым рендерингом - ну тут явно есть шанс улучшить модель за счет использования дифференциального рендеринга).
Интересный момент про связь науки и искусства. В статье, авторы отмечают, что одним из вдохновителей работы, послужил Ричард Серра с его серий скульптур, в которой форма скульптуры определяется глаголом (см. пр. To Lift). В качестве своеобразного теста для разрабатываемых генеративных моделей, авторы предлагают сравнивать скульптуры Серра с результатом работы генеративных моделей на основе одного и того же текста.

Что тут сказать, искусство важный вдохновитель науки: Серра, например, совмещал CLIP с 3D GAN, когда еще и компьютеров то толком не было.
Для удобства, собрали 4 варианта совмещения CLIP с 3D генерацией в одну картинку. А куда еще, по-вашему, можно воткнуть CLIP чтобы получить интересный результат? Ждем ваши варианты в комментариях =)
Привет всем любителям нейронного рендеринга!

Опубликован препринт самой свежей сборной аналитической статьи (State-of-the-art-report/STAR) про нейронный рендеринг Advances in Neural Rendering - must see для любого 3D ML исследователя.

Статья вышла очень подробной, освещены разные аспекты технологии, а также присутствуют ссылки на реализации почти всех упомянутых архитектур. Отдельно стоит отметить, что по каждому направлению в нейронном рендеринге, авторы составили таблицы архитектур со ссылками и удобной классификацией различных архитектур и входных данных.
Статья будет полезна всем, кто хочет познакомиться с современным нейронным рендерингом, для этого в ней есть все необходимое:
1. Введение с историческим экскурсом в нейронный рендеринг и объяснением основных концепций;
2 - 3. Объяснение фундаментальных концепций, которые стоят сегодня за SOTA архитектурами.
4. Области приложения нейронного рендеринга со сводными табличками и фреймворками для реализации архитектур и процессов обучения;
5. Открытые проблемы и вопросы: обозначения горизонтов дальнейшего развития технологии и областей применения;
6 - 7. Влияние нейронного рендеринга на индустрию и пользователей + заключение и море ссылок.

Кому мало самой статьи, есть запись доклада на SIGGRAPH 2021 с разбором основных моментов. Если вы уже ознакомились с отчетом, делитесь в комментариях, какие моменты показались вам наиболее интересными и что вы думаете о будущем нейронного рендеринга.