Привет, друзья🧑💻!
Продолжаем серию постов про генерацию 3D объектов по тексту. В прошлые два раза речь шла про CLIP + SMPL для генерации человекоподобных сущностей (textured mesh) и про использование NeRF для генерации произвольных объектов (Radience Field). Теперь пришло совместить CLIP и воксельные модели: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation - свежая работа (пока без кода), в которой заявлено zero-shot text-to-shape generation (генерация воксельной модели по тексту) на основе предобученного CLIP и неразмеченного 3D набора данных.
Кажется что CLIP и генерация 3D в разных формах - тренд последних дней =)
Как считаете, куда еще воткнут CLIP, чтобы сгенерировать что-то интересное?)
Продолжаем серию постов про генерацию 3D объектов по тексту. В прошлые два раза речь шла про CLIP + SMPL для генерации человекоподобных сущностей (textured mesh) и про использование NeRF для генерации произвольных объектов (Radience Field). Теперь пришло совместить CLIP и воксельные модели: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation - свежая работа (пока без кода), в которой заявлено zero-shot text-to-shape generation (генерация воксельной модели по тексту) на основе предобученного CLIP и неразмеченного 3D набора данных.
Кажется что CLIP и генерация 3D в разных формах - тренд последних дней =)
Как считаете, куда еще воткнут CLIP, чтобы сгенерировать что-то интересное?)
Привет всем исследователям из области ML!
Вчера вышел ежегодный аналитический отчет в области искусственного интеллекта State of AI Report 2021.
Основные выводы относительно области Research:
- Трансформеры стали основной архитектурой глубокого обучения не только в NLP, но и вообще везде, включая 3D ML (Point Transformer и пр.);
- Large language models (большие языковые модели/LLM) вроде GPT-3 сейчас находятся в фазе расширения, и в прошедшей год вышло множество “национальных” версий (русскоязычная версия GPT-3 к примеру);
- Приложения AI в области структурной биологии привели к огромному прорыву в понимании ДНК и Белковых структур;
- Фреймворк JAX получил популярность в кругах исследователей благодаря своим свойствам высокопроизводительных вычислений на основе JIT.
Предсказания на следующий год, а также анализ прошлогодних предсказаний вместе с аналитикой в области бизнеса и социальных аспектов вы можете найти в презентации доклада. А что из отчета показалось интересным для вас?
Вчера вышел ежегодный аналитический отчет в области искусственного интеллекта State of AI Report 2021.
Основные выводы относительно области Research:
- Трансформеры стали основной архитектурой глубокого обучения не только в NLP, но и вообще везде, включая 3D ML (Point Transformer и пр.);
- Large language models (большие языковые модели/LLM) вроде GPT-3 сейчас находятся в фазе расширения, и в прошедшей год вышло множество “национальных” версий (русскоязычная версия GPT-3 к примеру);
- Приложения AI в области структурной биологии привели к огромному прорыву в понимании ДНК и Белковых структур;
- Фреймворк JAX получил популярность в кругах исследователей благодаря своим свойствам высокопроизводительных вычислений на основе JIT.
Предсказания на следующий год, а также анализ прошлогодних предсказаний вместе с аналитикой в области бизнеса и социальных аспектов вы можете найти в презентации доклада. А что из отчета показалось интересным для вас?
Если акцентировать внимание на специфики 3D ML, то можно отметить следующие интересные моменты в докладе:
- авторы не выделяют отдельно 3D и CV записываю все в область компьютерного зрения (что нас конечно печалит);
- был упомянут прогресс в задаче Novel View Synthesis - NeRF архитектуры (18 слайд);
- 3D трансформеры бьют SOTA результаты (14 слайд);
- Alpha Fold - 2 и просачивание его идей в академическую среду (19 слайд);
- игровые движки продолжают двигать вперед прогресс в RL (28 слайд);
- графовые нейронные сети (GNN) самая быстрорастущая по популярности тема в ML (64 слайд);
- физические симуляции тканей можно теперь делать на основе GNN (65 слайд)
- авторы не выделяют отдельно 3D и CV записываю все в область компьютерного зрения (что нас конечно печалит);
- был упомянут прогресс в задаче Novel View Synthesis - NeRF архитектуры (18 слайд);
- 3D трансформеры бьют SOTA результаты (14 слайд);
- Alpha Fold - 2 и просачивание его идей в академическую среду (19 слайд);
- игровые движки продолжают двигать вперед прогресс в RL (28 слайд);
- графовые нейронные сети (GNN) самая быстрорастущая по популярности тема в ML (64 слайд);
- физические симуляции тканей можно теперь делать на основе GNN (65 слайд)
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья исследователи!
Не знаю как вас, а меня больше всего в области пересечения 3D и ML вдохновляют приложения в физических моделях. Поскольку пример с быстрым рендерингом облаков уже набил оскомину, вот вам два свежих примера того, как 3D ML улучшает (= ускоряет) сложные физические симуляции (в игровых движках и не только).
1. Learning Mesh-Based Simulation with Graph Networks (статья + видео, github TF, github PT) — очень интересный подход к симуляции самых разных объектов в которых как-то присутствует геометрия поверхности и она моделируется полигональным мешем (предсказание того, как ткань будет развиваться на ветру).
Почему круто:
- быстрее чем аналог честной симуляции методом частиц или сеточными методами;
- присутствует адаптивная сетка для увеличения количества полигонов меша в окрестности регионов с большим числом нюансов.
Не знаю как вас, а меня больше всего в области пересечения 3D и ML вдохновляют приложения в физических моделях. Поскольку пример с быстрым рендерингом облаков уже набил оскомину, вот вам два свежих примера того, как 3D ML улучшает (= ускоряет) сложные физические симуляции (в игровых движках и не только).
1. Learning Mesh-Based Simulation with Graph Networks (статья + видео, github TF, github PT) — очень интересный подход к симуляции самых разных объектов в которых как-то присутствует геометрия поверхности и она моделируется полигональным мешем (предсказание того, как ткань будет развиваться на ветру).
Почему круто:
- быстрее чем аналог честной симуляции методом частиц или сеточными методами;
- присутствует адаптивная сетка для увеличения количества полигонов меша в окрестности регионов с большим числом нюансов.
Zibra_Liquids_Unity3D_Water_Simulation_HDRP_Demo.gif
17 MB
2. ZibraAI и ее Zibra Liquid (medium paper, free Unity 3D demo, video with HDRP example) — движок физических симуляций жидкостей в реальном времени, совместимый с Unity 3D. Под капотом лежит представление жидкости как SDF + использование Moving Least Squares Material Point Method.
Почему круто:
- уже есть готовый плагин для Unity 3D;
имеется поддержка HDRP;
- схожим методом можно закрыть вопрос симуляции не только жидкостей, но и аморфных тел вроде пластилина или меда.
Оба примера выглядят вдохновляюще и закрывают два направления в real-time physics в игровых движках. А знаете ли вы еще примеры на схожую тематику? Делитесь в комментариях =)
Почему круто:
- уже есть готовый плагин для Unity 3D;
имеется поддержка HDRP;
- схожим методом можно закрыть вопрос симуляции не только жидкостей, но и аморфных тел вроде пластилина или меда.
Оба примера выглядят вдохновляюще и закрывают два направления в real-time physics в игровых движках. А знаете ли вы еще примеры на схожую тематику? Делитесь в комментариях =)
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья исследователи!
Тут исследовательница из FAIR Georgia Gkioxari добавила новую утилиту в PyTorch3D - Intersection Over Union of Oriented 3D Boxes: A New Algorithm. По сути - быстрый (CUDA / torch / C++) расчет IoU метрики для ориентированных ограничивающих 3D параллелепипедов. Данная метрика часто встречается в 3D ML задачах, например в задаче 3D Object Detection.
Кажется что это что-то незначительное, однако мы в этом видим признак того, что 3D ML выходит на передовой уровень разработок и исследований внутри самого ML, потому что когда исследователи начинают оптимизировать самые низкоуровневые операции так, чтобы их можно было удобно использовать в повседневных экспериментах и при вычислениях на серьезных кластерах - это значит что происходит максимальное погружение разработчиков на самых разных уровнях. Это еще не говоря о количестве статей и работ по совместным тегам 3D+ML на топовых конференциях.
А что вас может убедить в том, что 3D ML рвется ввысь? Предлагайте варианты в комментариях=)
Тут исследовательница из FAIR Georgia Gkioxari добавила новую утилиту в PyTorch3D - Intersection Over Union of Oriented 3D Boxes: A New Algorithm. По сути - быстрый (CUDA / torch / C++) расчет IoU метрики для ориентированных ограничивающих 3D параллелепипедов. Данная метрика часто встречается в 3D ML задачах, например в задаче 3D Object Detection.
Кажется что это что-то незначительное, однако мы в этом видим признак того, что 3D ML выходит на передовой уровень разработок и исследований внутри самого ML, потому что когда исследователи начинают оптимизировать самые низкоуровневые операции так, чтобы их можно было удобно использовать в повседневных экспериментах и при вычислениях на серьезных кластерах - это значит что происходит максимальное погружение разработчиков на самых разных уровнях. Это еще не говоря о количестве статей и работ по совместным тегам 3D+ML на топовых конференциях.
А что вас может убедить в том, что 3D ML рвется ввысь? Предлагайте варианты в комментариях=)
Здоровенькі були, друзі дослідники!
Мы уже писали несколько постов (раз, два, три) о том, как исследователи совмещают CLIP и какую-либо технику генерации 3D контента. Долго ждать не пришлось, вот и еще один вариант подоспел.
Исследователь Eric Chu из MIT Media Lab предложил весьма простой и элегантный способ генерации 3D контента по тексту - Evolving Evocative 2D Views of Generated 3D Objects.
Красота работы в простоте генератора (всего 6 параметров в аналитической формуле + параметры поворота камеры) и в интересном пайплайне (используется генетический алгоритм: автор пишет, что делает это в связи с недефферинцируемым рендерингом - ну тут явно есть шанс улучшить модель за счет использования дифференциального рендеринга).
Мы уже писали несколько постов (раз, два, три) о том, как исследователи совмещают CLIP и какую-либо технику генерации 3D контента. Долго ждать не пришлось, вот и еще один вариант подоспел.
Исследователь Eric Chu из MIT Media Lab предложил весьма простой и элегантный способ генерации 3D контента по тексту - Evolving Evocative 2D Views of Generated 3D Objects.
Красота работы в простоте генератора (всего 6 параметров в аналитической формуле + параметры поворота камеры) и в интересном пайплайне (используется генетический алгоритм: автор пишет, что делает это в связи с недефферинцируемым рендерингом - ну тут явно есть шанс улучшить модель за счет использования дифференциального рендеринга).
Интересный момент про связь науки и искусства. В статье, авторы отмечают, что одним из вдохновителей работы, послужил Ричард Серра с его серий скульптур, в которой форма скульптуры определяется глаголом (см. пр. To Lift). В качестве своеобразного теста для разрабатываемых генеративных моделей, авторы предлагают сравнивать скульптуры Серра с результатом работы генеративных моделей на основе одного и того же текста.
Что тут сказать, искусство важный вдохновитель науки: Серра, например, совмещал CLIP с 3D GAN, когда еще и компьютеров то толком не было.
Что тут сказать, искусство важный вдохновитель науки: Серра, например, совмещал CLIP с 3D GAN, когда еще и компьютеров то толком не было.
Привет всем любителям нейронного рендеринга!
Опубликован препринт самой свежей сборной аналитической статьи (State-of-the-art-report/STAR) про нейронный рендеринг Advances in Neural Rendering - must see для любого 3D ML исследователя.
Статья вышла очень подробной, освещены разные аспекты технологии, а также присутствуют ссылки на реализации почти всех упомянутых архитектур. Отдельно стоит отметить, что по каждому направлению в нейронном рендеринге, авторы составили таблицы архитектур со ссылками и удобной классификацией различных архитектур и входных данных.
Опубликован препринт самой свежей сборной аналитической статьи (State-of-the-art-report/STAR) про нейронный рендеринг Advances in Neural Rendering - must see для любого 3D ML исследователя.
Статья вышла очень подробной, освещены разные аспекты технологии, а также присутствуют ссылки на реализации почти всех упомянутых архитектур. Отдельно стоит отметить, что по каждому направлению в нейронном рендеринге, авторы составили таблицы архитектур со ссылками и удобной классификацией различных архитектур и входных данных.
Статья будет полезна всем, кто хочет познакомиться с современным нейронным рендерингом, для этого в ней есть все необходимое:
1. Введение с историческим экскурсом в нейронный рендеринг и объяснением основных концепций;
2 - 3. Объяснение фундаментальных концепций, которые стоят сегодня за SOTA архитектурами.
4. Области приложения нейронного рендеринга со сводными табличками и фреймворками для реализации архитектур и процессов обучения;
5. Открытые проблемы и вопросы: обозначения горизонтов дальнейшего развития технологии и областей применения;
6 - 7. Влияние нейронного рендеринга на индустрию и пользователей + заключение и море ссылок.
Кому мало самой статьи, есть запись доклада на SIGGRAPH 2021 с разбором основных моментов. Если вы уже ознакомились с отчетом, делитесь в комментариях, какие моменты показались вам наиболее интересными и что вы думаете о будущем нейронного рендеринга.
1. Введение с историческим экскурсом в нейронный рендеринг и объяснением основных концепций;
2 - 3. Объяснение фундаментальных концепций, которые стоят сегодня за SOTA архитектурами.
4. Области приложения нейронного рендеринга со сводными табличками и фреймворками для реализации архитектур и процессов обучения;
5. Открытые проблемы и вопросы: обозначения горизонтов дальнейшего развития технологии и областей применения;
6 - 7. Влияние нейронного рендеринга на индустрию и пользователей + заключение и море ссылок.
Кому мало самой статьи, есть запись доклада на SIGGRAPH 2021 с разбором основных моментов. Если вы уже ознакомились с отчетом, делитесь в комментариях, какие моменты показались вам наиболее интересными и что вы думаете о будущем нейронного рендеринга.
Привет, коллеги!
В минувшее воскресенье все авторы данного канала выступали с докладом про 3D ML (запись встречи, презентация) у наших друзей из ARhub. Говорили о том, что из себя представляет наука и область 3D ML, разбирали примеры индустриальных и наших кейсов, обсуждали влияние 3D ML на CG и немного рассказали о том, как этому слиянию поможет наш продукт =)
Надеемся, что эта лекция и презентация будет полезна всем начинающим исследователям как входная точка в область.
В минувшее воскресенье все авторы данного канала выступали с докладом про 3D ML (запись встречи, презентация) у наших друзей из ARhub. Говорили о том, что из себя представляет наука и область 3D ML, разбирали примеры индустриальных и наших кейсов, обсуждали влияние 3D ML на CG и немного рассказали о том, как этому слиянию поможет наш продукт =)
Надеемся, что эта лекция и презентация будет полезна всем начинающим исследователям как входная точка в область.
YouTube
3D ML: Phygitalism
Наука, искусство и бизнес - три фундаментальные области, в которых применяются современные технологии. Компания Phygitalism - уникальная в своем роде для России - занимается разработкой проектов и продуктов во всех трех направлениях, соединяя физический мир…
Привет, коллеги!
Сегодняшние посты посвящены платформе NVIDIA Metropolis, которая является базой большой программы AI City, способствующей развитию умных городов.
Вкратце, NVIDIA Metropolis предлагает инструменты видеоаналитики для широкого спектра индустриальных задач, таких как обеспечение бескассовых покупок в супермаркетах, путем отслеживания перемещения товаров, или же контролирование промышленных роботов жестами, посредством real-time оценки позы и мгновенной 3D реконструкции окружения на основе NeRF — последнее демонстрируется в этом ролике.
Сегодняшние посты посвящены платформе NVIDIA Metropolis, которая является базой большой программы AI City, способствующей развитию умных городов.
Вкратце, NVIDIA Metropolis предлагает инструменты видеоаналитики для широкого спектра индустриальных задач, таких как обеспечение бескассовых покупок в супермаркетах, путем отслеживания перемещения товаров, или же контролирование промышленных роботов жестами, посредством real-time оценки позы и мгновенной 3D реконструкции окружения на основе NeRF — последнее демонстрируется в этом ролике.
YouTube
Reconstructing 3D Environments from 2D Images with NVIDIA Metropolis
See how NVIDIA Metropolis video processing and analytics platform helps make spaces smarter. This demonstration shows NVIDIA Metropolis leveraging streaming video to detect, track, infer 3D pose, and reconstruct full 3D scenes.
Learn more: https://deve…
Learn more: https://deve…
Особенности платформы:
— Весь цикл разработки в рамках единой экосистемы NVIDIA Metropolis
— Вычислительно оптимизированные решения благодаря TensorRT
— Упрощенная масштабируемость решений благодаря Triton Inference Server
— Удобная настройка real-time аналитики потокового видео с edge-устройств благодаря DeepStream SDK
— Богатый зоопарк архитектур, насчитывающий свыше сотни предобученных моделей, а также возможность конструировать собственные нейросети благодаря TAO Toolkit
Если вам было бы интересно увидеть такие же обзорные посты про остальные платформы, фреймворки и библиотеки экосистемы NVIDIA, то обязательно дайте нам знать в комментариях!
— Весь цикл разработки в рамках единой экосистемы NVIDIA Metropolis
— Вычислительно оптимизированные решения благодаря TensorRT
— Упрощенная масштабируемость решений благодаря Triton Inference Server
— Удобная настройка real-time аналитики потокового видео с edge-устройств благодаря DeepStream SDK
— Богатый зоопарк архитектур, насчитывающий свыше сотни предобученных моделей, а также возможность конструировать собственные нейросети благодаря TAO Toolkit
Если вам было бы интересно увидеть такие же обзорные посты про остальные платформы, фреймворки и библиотеки экосистемы NVIDIA, то обязательно дайте нам знать в комментариях!
Привет всем любителям neural inverse rendering'a — этот пост для вас!
Сегодня вспомним о царь-моделе всего нейронного рендеринга — о NeRF'e (да-да, о том самом девятислойном перцептроне, который переобучается на наборе разноракурсных фотографий трёхмерной сцены, тем самым кодируя её объёмное представление в своих весах). Точнее говоря, разберём одну из его недавних модификаций от Google Research со слегка кэрролловским названием SNeRG (Sparse Neural Radiance Grid).
SNeRG — это один из вариантов кэширования предобученного NeRF'a, заключающийся в размещении внутри разреженного воксельного объема предсказаний цвета и плотности 3D точек. Такой заблаговременный инференс NeRF'a позволяет на этапе отрисовки нового ракурса свести определение цвета пикселя лишь к одному запросу крохотного двухслойного перцептрона, который авторам даже удалось запихнуть в GLSL шейдер. В результате, SNeRG способен обеспечивать рил-тайм рендеринг небольших объектов в разрешении 800х800 точек, например, на 2019-ом MacBook Pro.
Сегодня вспомним о царь-моделе всего нейронного рендеринга — о NeRF'e (да-да, о том самом девятислойном перцептроне, который переобучается на наборе разноракурсных фотографий трёхмерной сцены, тем самым кодируя её объёмное представление в своих весах). Точнее говоря, разберём одну из его недавних модификаций от Google Research со слегка кэрролловским названием SNeRG (Sparse Neural Radiance Grid).
SNeRG — это один из вариантов кэширования предобученного NeRF'a, заключающийся в размещении внутри разреженного воксельного объема предсказаний цвета и плотности 3D точек. Такой заблаговременный инференс NeRF'a позволяет на этапе отрисовки нового ракурса свести определение цвета пикселя лишь к одному запросу крохотного двухслойного перцептрона, который авторам даже удалось запихнуть в GLSL шейдер. В результате, SNeRG способен обеспечивать рил-тайм рендеринг небольших объектов в разрешении 800х800 точек, например, на 2019-ом MacBook Pro.
This media is not supported in your browser
VIEW IN TELEGRAM
Стоит отметить, что такого рода кэширование нейронного представления сцены является вполне валидным примером известного в 3D графике процесса запекания (консолидации характеристик 3D сцены в 2D текстуре или отдельном кэше). Однако, в отличие от классического раздельного запекания таких смоделированных характеристик, как глобальное затенение (ambient occlusion), карты нормалей (normal maps) или же карты освещения (lightmaps) здесь целиком кэшируется объемное представление реальной сцены, то есть как текстура, так и геометрия.
В общем, неудивительно, что NeRF — главное 3D ML событие прошлого года — привело к настоящему буму разнообразных NeRF-подобных архитектур, которым удалось не только значительно повысить скорости обучения и инференса оригинала, но и добиться новых возможностей, как обучение на динамических сценах и переосвещение объектов на инференсе.
Если вас так же, как и нас будоражит новая веха нейронных подходов к решению inverse rendering'a, то не стесняйтесь делиться мыслями в комментариях!
В общем, неудивительно, что NeRF — главное 3D ML событие прошлого года — привело к настоящему буму разнообразных NeRF-подобных архитектур, которым удалось не только значительно повысить скорости обучения и инференса оригинала, но и добиться новых возможностей, как обучение на динамических сценах и переосвещение объектов на инференсе.
Если вас так же, как и нас будоражит новая веха нейронных подходов к решению inverse rendering'a, то не стесняйтесь делиться мыслями в комментариях!