Продолжаем список:
6. CVPR 2020 Tutorial on Visual Recognition for Images, Video, and 3D
7. Подборка курсов и книг по компьютерному зрению (да, да...подборка в подборке=)
8. Пост про освоение компьютерного зрения на хабре
9. 3D computer vision course (Utah university)
10. 3D computer vision course (Stanford)
11. Computer vision and DL for graphs (Princeton)
12. Курс по компьютерному зрению от Udacity
13. Список полезных туториалов по 3D ML (Awesome 3D Reconstruction github list)
14. Туториалы по OpenCV Python
15. Практический курс по ML от МФТИ (оч много полезных ноутбуков, есть видеозаписи лекций и семинаров, есть элементы машинного зрения + они начали делать русскоязычный аналог курса Кинена Крейна)
16. Сборка курсов по направлению 3D ML (еще одна классная сборка =)
17. Курс про анализ лидарных данных в геофизическиз приложениях
18. Фотограмметрия и основа 3D реконструкции
19. Вычисления на видеокартах
Возможно вы также знаете хорошие источники? Делитесь в комментариях)
6. CVPR 2020 Tutorial on Visual Recognition for Images, Video, and 3D
7. Подборка курсов и книг по компьютерному зрению (да, да...подборка в подборке=)
8. Пост про освоение компьютерного зрения на хабре
9. 3D computer vision course (Utah university)
10. 3D computer vision course (Stanford)
11. Computer vision and DL for graphs (Princeton)
12. Курс по компьютерному зрению от Udacity
13. Список полезных туториалов по 3D ML (Awesome 3D Reconstruction github list)
14. Туториалы по OpenCV Python
15. Практический курс по ML от МФТИ (оч много полезных ноутбуков, есть видеозаписи лекций и семинаров, есть элементы машинного зрения + они начали делать русскоязычный аналог курса Кинена Крейна)
16. Сборка курсов по направлению 3D ML (еще одна классная сборка =)
17. Курс про анализ лидарных данных в геофизическиз приложениях
18. Фотограмметрия и основа 3D реконструкции
19. Вычисления на видеокартах
Возможно вы также знаете хорошие источники? Делитесь в комментариях)
This media is not supported in your browser
VIEW IN TELEGRAM
Вы уже наверняка пробовали генерировать интересные картинки с помощью связки CLIP + Любая генеративная модель (VQGAN, BigGAN и пр.). Если еще не пробовали, то бегом пробовать (инструкция и описание здесь). Основная суть всегда одна и та же: CLIP отвечает за связь эмбеддингов текста и изображений (или каких либо данных), а вторая сеть отвечает за генерацию.
Ожидаемо что, кто-то попытался совместить CLIP с генерацией 3D моделей и текстур. Исследователь Nikolay Jetchev в своем Twitter делится результатами экспериментов. Деталей крайне мало, но судя по всему сама геометрия моделей генерируется SMPL.
А как вам кажется нужно совмещать CLIP и 3D?Делитесь идеями в комментариях 🧑💻
Ожидаемо что, кто-то попытался совместить CLIP с генерацией 3D моделей и текстур. Исследователь Nikolay Jetchev в своем Twitter делится результатами экспериментов. Деталей крайне мало, но судя по всему сама геометрия моделей генерируется SMPL.
А как вам кажется нужно совмещать CLIP и 3D?Делитесь идеями в комментариях 🧑💻
Привет, любители 3D ML!
Как часто вы слушаете лекции и смотрите воркшопы на youtube о ML и 3D ML? Мы периодически слушаем доклады с конференций и интервью с лучшими исследователями, и спешим поделиться с вами первой частью нашего списка каналов о 3D ML и не только:
1. [MachineLearningStreetTalk] Дискуссии с самыми крутыми представителями из каждой области. Зацените последний выпуск про 3D ML с Михаилом Бронштейном!
2. [AI Coffee Break with Letitia] Короткие ролики с объяснением концепций из области NLP и CV с забавными анимашками.
3. [Two minute papers] Название говорит само за себя: очень короткие, но содержательные и познавательные ролики на тему последних достижений в области ML и математического моделирования. Можно найти тему для вдохновения или проект для использования в практике.
4. [Lex Fridman] Интервью с легендами ML, лекции DL MIT.
5. [5 levels] Плейлист с крутой концепцией - объяснение технологии или концепции на 5 уровнях: ребенок, школьник, студент, аспирант, профи.
Как часто вы слушаете лекции и смотрите воркшопы на youtube о ML и 3D ML? Мы периодически слушаем доклады с конференций и интервью с лучшими исследователями, и спешим поделиться с вами первой частью нашего списка каналов о 3D ML и не только:
1. [MachineLearningStreetTalk] Дискуссии с самыми крутыми представителями из каждой области. Зацените последний выпуск про 3D ML с Михаилом Бронштейном!
2. [AI Coffee Break with Letitia] Короткие ролики с объяснением концепций из области NLP и CV с забавными анимашками.
3. [Two minute papers] Название говорит само за себя: очень короткие, но содержательные и познавательные ролики на тему последних достижений в области ML и математического моделирования. Можно найти тему для вдохновения или проект для использования в практике.
4. [Lex Fridman] Интервью с легендами ML, лекции DL MIT.
5. [5 levels] Плейлист с крутой концепцией - объяснение технологии или концепции на 5 уровнях: ребенок, школьник, студент, аспирант, профи.
Привет, друзья исследователи!
Не так давно, исследователи из FAIR опубликовали код и статью про новый трансформер подход для детекции объектов в облаках точек - 3DETR.
Почему работа интересна:
Есть имплементация в коде и веса.
Архитектура строится на незначительных изменениях классического блока трансформер архитектуры с непараметрическими запросами (queries) и Фурье позиционными латентными векторами (Fourier positional embeddings).
SOTA результаты (+9.5%) на ScanNetv2 и SUN RGB-D.
Есть возможность применения архитектуры в других задачах 3D ML.
А вы еще не успели попробовать этот подход? Если у вас есть желание и время, то делитесь результатами применения этой̶в̶у̶н̶д̶е̶р̶в̶а̶ф̶л̶и̶ архитектуры на ваших данных в комментариях =)
Не так давно, исследователи из FAIR опубликовали код и статью про новый трансформер подход для детекции объектов в облаках точек - 3DETR.
Почему работа интересна:
Есть имплементация в коде и веса.
Архитектура строится на незначительных изменениях классического блока трансформер архитектуры с непараметрическими запросами (queries) и Фурье позиционными латентными векторами (Fourier positional embeddings).
SOTA результаты (+9.5%) на ScanNetv2 и SUN RGB-D.
Есть возможность применения архитектуры в других задачах 3D ML.
А вы еще не успели попробовать этот подход? Если у вас есть желание и время, то делитесь результатами применения этой
Привет всем любителям красивой и быстрой графики!
Недавно в сети появился трейлер геймплея RIDE 4 для PS5 и мы услышали синхронизированные ахи от красоты и фотореалистичности данного проекта. В данном случае красота достигнута за счет ручной оптимизации, мощностей консоли и кино ухищрений вроде блюра, брызг и цветокора. Однако времена когда улучшения в компьютерной графике достигаются силами художников или программистов кажется уже отходят в прошлое (чего только стоит оптимизация вычисления 1 / sqrt(x) в Quake III).
Сегодня компьютерная графика становится более реалистичной и быстрой благодаря нейронному рендерингу. Принципиальных подхода для улучшения и ускорения мы хотим выделить 3 штуки:
- повышение разрешения изображения после рендеринга (super sampling) - экономим время за счет меньшего времени ray tracing;
- трансформация фотореалистичного стиля на готовый рендер - экономим время художников и движка;
- ускорение физических симуляций - экономим время физического движка и ray tracing.
Недавно в сети появился трейлер геймплея RIDE 4 для PS5 и мы услышали синхронизированные ахи от красоты и фотореалистичности данного проекта. В данном случае красота достигнута за счет ручной оптимизации, мощностей консоли и кино ухищрений вроде блюра, брызг и цветокора. Однако времена когда улучшения в компьютерной графике достигаются силами художников или программистов кажется уже отходят в прошлое (чего только стоит оптимизация вычисления 1 / sqrt(x) в Quake III).
Сегодня компьютерная графика становится более реалистичной и быстрой благодаря нейронному рендерингу. Принципиальных подхода для улучшения и ускорения мы хотим выделить 3 штуки:
- повышение разрешения изображения после рендеринга (super sampling) - экономим время за счет меньшего времени ray tracing;
- трансформация фотореалистичного стиля на готовый рендер - экономим время художников и движка;
- ускорение физических симуляций - экономим время физического движка и ray tracing.
YouTube
(PS5) RIDE 4 in FIRST PERSON is INSANE | Ultra High Realistic Graphics [4K HDR 60fps]
Ride 4 ps5 gameplay
🌟SUBSCRIBE FOR MORE 4K PS5 GAMPEPLAYS: https://www.youtube.com/channel/UCCIR3AdAbybtkNgINS9UyNA
🔥🔥 OUR NEW SPECIAL RACING CHANNEL: https://www.youtube.com/channel/UCeVvH9lpRFfMBhVuEPZdt6A/videos 🔥🔥
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬…
🌟SUBSCRIBE FOR MORE 4K PS5 GAMPEPLAYS: https://www.youtube.com/channel/UCCIR3AdAbybtkNgINS9UyNA
🔥🔥 OUR NEW SPECIAL RACING CHANNEL: https://www.youtube.com/channel/UCeVvH9lpRFfMBhVuEPZdt6A/videos 🔥🔥
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬…
В качестве ориентиров подобных подходов на проектах можно рассмотреть:
- Enhancing Photorealism Enhancement (про него подробно писали здесь) - фотореалистичный рендеринг 3D сцен на основе GAN и движка GTA V ( способ #2);
- NVIDIA DLSS 2.0 - суперсэмплинг в компьютерных играх имплементированный на видеокарты (способ #1);
- Быстрый рендеринг фотореалистичных и физически корректных облаков (способ #3).
Конечно же, такие алгоритмы достаточно сложные в реализации и объединены следующими особенностями:
- нужен датасет, который будет образцом фотореалистичности;
- нужен доступ к 3D движку, чтобы вычленять информацию о буферах глубины, текстур и пр.;
- нужно обучать GAN подобную архитектуру, что сопряжено с вычислительными трудностями.
А какие примеры проектов в данном направление знаете вы? Делитесь в комментариях =)
- Enhancing Photorealism Enhancement (про него подробно писали здесь) - фотореалистичный рендеринг 3D сцен на основе GAN и движка GTA V ( способ #2);
- NVIDIA DLSS 2.0 - суперсэмплинг в компьютерных играх имплементированный на видеокарты (способ #1);
- Быстрый рендеринг фотореалистичных и физически корректных облаков (способ #3).
Конечно же, такие алгоритмы достаточно сложные в реализации и объединены следующими особенностями:
- нужен датасет, который будет образцом фотореалистичности;
- нужен доступ к 3D движку, чтобы вычленять информацию о буферах глубины, текстур и пр.;
- нужно обучать GAN подобную архитектуру, что сопряжено с вычислительными трудностями.
А какие примеры проектов в данном направление знаете вы? Делитесь в комментариях =)
This media is not supported in your browser
VIEW IN TELEGRAM
Привет всем исследователям и разработчикам!
Сталкивались ли вы с проблемой визуализации глубокой архитектуры или ее частей для научной статьи или для лучшего ее понимания? Если вдруг вам понадобится решать эту задачу, то обратите внимания на репозиторий Tools-to-Design-or-Visualize-Architecture-of-Neural-Network от исследователя Ashish Patel.
23 библиотеки разной степени сложности и функциональности, Наверняка каждый найдет для себя что-то интересное =)
Сталкивались ли вы с проблемой визуализации глубокой архитектуры или ее частей для научной статьи или для лучшего ее понимания? Если вдруг вам понадобится решать эту задачу, то обратите внимания на репозиторий Tools-to-Design-or-Visualize-Architecture-of-Neural-Network от исследователя Ashish Patel.
23 библиотеки разной степени сложности и функциональности, Наверняка каждый найдет для себя что-то интересное =)
Привет, всем любителям творчества с помощью глубоких архитектур!
Трендом последнего времени стала генерация изображений в виде CLIP + Генератор картинок (VQGAN, BigGAN и пр.). Недавно мы писали про эксперименты с генераций человекоподобных сущностей на основе CLIP + SMPL, а теперь настало время NeRF подобных моделей =)
Исследователь Ajay Jain из Google AI поделился развитием своей работы Diet NeRF. На видео в превью сгенерированный пролет камеры вокруг модели , a 3d render of a jenga tower in unreal engine" на основе CLIP + NeRF. Деталей архитектуры или кода пока нет, но можно вполне ориентироваться на предыдущую работу авторов.
Почему это интересно? -> альтернативный подход к генерации 3D на основе текста с большой степенью общности (не только люди)
Как это будет использоваться в повседневной жизни в ближайшее время? -> пиши свою версию в комментариях =)
Трендом последнего времени стала генерация изображений в виде CLIP + Генератор картинок (VQGAN, BigGAN и пр.). Недавно мы писали про эксперименты с генераций человекоподобных сущностей на основе CLIP + SMPL, а теперь настало время NeRF подобных моделей =)
Исследователь Ajay Jain из Google AI поделился развитием своей работы Diet NeRF. На видео в превью сгенерированный пролет камеры вокруг модели , a 3d render of a jenga tower in unreal engine" на основе CLIP + NeRF. Деталей архитектуры или кода пока нет, но можно вполне ориентироваться на предыдущую работу авторов.
Почему это интересно? -> альтернативный подход к генерации 3D на основе текста с большой степенью общности (не только люди)
Как это будет использоваться в повседневной жизни в ближайшее время? -> пиши свою версию в комментариях =)
Привет коллеги 3D ML’щики!
Спешим поделиться с вами одной свежей и очень интересной работой: Geometry-Free View Synthesis: Transformers and no 3D Priors (Есть статья, код и collab!).
В чем практическая суть? -> бесконечный пролет камеры по сцене из одной фотографии.
В чем технологическая начинка? -> Неявный 3D трансформер (вероятностный подход на основе сэмплирования карты глубины и текстур в зависимости от позиции камеры и предыдущей видимой сцены).
Как насчет попробовать эту модель с вашим фото и сравнить как реальность отличается от предсказания модели?)
P.S. На видео наш тест данной модели для картины.
Спешим поделиться с вами одной свежей и очень интересной работой: Geometry-Free View Synthesis: Transformers and no 3D Priors (Есть статья, код и collab!).
В чем практическая суть? -> бесконечный пролет камеры по сцене из одной фотографии.
В чем технологическая начинка? -> Неявный 3D трансформер (вероятностный подход на основе сэмплирования карты глубины и текстур в зависимости от позиции камеры и предыдущей видимой сцены).
Как насчет попробовать эту модель с вашим фото и сравнить как реальность отличается от предсказания модели?)
P.S. На видео наш тест данной модели для картины.
Привет, друзья🧑💻!
Продолжаем серию постов про генерацию 3D объектов по тексту. В прошлые два раза речь шла про CLIP + SMPL для генерации человекоподобных сущностей (textured mesh) и про использование NeRF для генерации произвольных объектов (Radience Field). Теперь пришло совместить CLIP и воксельные модели: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation - свежая работа (пока без кода), в которой заявлено zero-shot text-to-shape generation (генерация воксельной модели по тексту) на основе предобученного CLIP и неразмеченного 3D набора данных.
Кажется что CLIP и генерация 3D в разных формах - тренд последних дней =)
Как считаете, куда еще воткнут CLIP, чтобы сгенерировать что-то интересное?)
Продолжаем серию постов про генерацию 3D объектов по тексту. В прошлые два раза речь шла про CLIP + SMPL для генерации человекоподобных сущностей (textured mesh) и про использование NeRF для генерации произвольных объектов (Radience Field). Теперь пришло совместить CLIP и воксельные модели: CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation - свежая работа (пока без кода), в которой заявлено zero-shot text-to-shape generation (генерация воксельной модели по тексту) на основе предобученного CLIP и неразмеченного 3D набора данных.
Кажется что CLIP и генерация 3D в разных формах - тренд последних дней =)
Как считаете, куда еще воткнут CLIP, чтобы сгенерировать что-то интересное?)
Привет всем исследователям из области ML!
Вчера вышел ежегодный аналитический отчет в области искусственного интеллекта State of AI Report 2021.
Основные выводы относительно области Research:
- Трансформеры стали основной архитектурой глубокого обучения не только в NLP, но и вообще везде, включая 3D ML (Point Transformer и пр.);
- Large language models (большие языковые модели/LLM) вроде GPT-3 сейчас находятся в фазе расширения, и в прошедшей год вышло множество “национальных” версий (русскоязычная версия GPT-3 к примеру);
- Приложения AI в области структурной биологии привели к огромному прорыву в понимании ДНК и Белковых структур;
- Фреймворк JAX получил популярность в кругах исследователей благодаря своим свойствам высокопроизводительных вычислений на основе JIT.
Предсказания на следующий год, а также анализ прошлогодних предсказаний вместе с аналитикой в области бизнеса и социальных аспектов вы можете найти в презентации доклада. А что из отчета показалось интересным для вас?
Вчера вышел ежегодный аналитический отчет в области искусственного интеллекта State of AI Report 2021.
Основные выводы относительно области Research:
- Трансформеры стали основной архитектурой глубокого обучения не только в NLP, но и вообще везде, включая 3D ML (Point Transformer и пр.);
- Large language models (большие языковые модели/LLM) вроде GPT-3 сейчас находятся в фазе расширения, и в прошедшей год вышло множество “национальных” версий (русскоязычная версия GPT-3 к примеру);
- Приложения AI в области структурной биологии привели к огромному прорыву в понимании ДНК и Белковых структур;
- Фреймворк JAX получил популярность в кругах исследователей благодаря своим свойствам высокопроизводительных вычислений на основе JIT.
Предсказания на следующий год, а также анализ прошлогодних предсказаний вместе с аналитикой в области бизнеса и социальных аспектов вы можете найти в презентации доклада. А что из отчета показалось интересным для вас?
Если акцентировать внимание на специфики 3D ML, то можно отметить следующие интересные моменты в докладе:
- авторы не выделяют отдельно 3D и CV записываю все в область компьютерного зрения (что нас конечно печалит);
- был упомянут прогресс в задаче Novel View Synthesis - NeRF архитектуры (18 слайд);
- 3D трансформеры бьют SOTA результаты (14 слайд);
- Alpha Fold - 2 и просачивание его идей в академическую среду (19 слайд);
- игровые движки продолжают двигать вперед прогресс в RL (28 слайд);
- графовые нейронные сети (GNN) самая быстрорастущая по популярности тема в ML (64 слайд);
- физические симуляции тканей можно теперь делать на основе GNN (65 слайд)
- авторы не выделяют отдельно 3D и CV записываю все в область компьютерного зрения (что нас конечно печалит);
- был упомянут прогресс в задаче Novel View Synthesis - NeRF архитектуры (18 слайд);
- 3D трансформеры бьют SOTA результаты (14 слайд);
- Alpha Fold - 2 и просачивание его идей в академическую среду (19 слайд);
- игровые движки продолжают двигать вперед прогресс в RL (28 слайд);
- графовые нейронные сети (GNN) самая быстрорастущая по популярности тема в ML (64 слайд);
- физические симуляции тканей можно теперь делать на основе GNN (65 слайд)
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья исследователи!
Не знаю как вас, а меня больше всего в области пересечения 3D и ML вдохновляют приложения в физических моделях. Поскольку пример с быстрым рендерингом облаков уже набил оскомину, вот вам два свежих примера того, как 3D ML улучшает (= ускоряет) сложные физические симуляции (в игровых движках и не только).
1. Learning Mesh-Based Simulation with Graph Networks (статья + видео, github TF, github PT) — очень интересный подход к симуляции самых разных объектов в которых как-то присутствует геометрия поверхности и она моделируется полигональным мешем (предсказание того, как ткань будет развиваться на ветру).
Почему круто:
- быстрее чем аналог честной симуляции методом частиц или сеточными методами;
- присутствует адаптивная сетка для увеличения количества полигонов меша в окрестности регионов с большим числом нюансов.
Не знаю как вас, а меня больше всего в области пересечения 3D и ML вдохновляют приложения в физических моделях. Поскольку пример с быстрым рендерингом облаков уже набил оскомину, вот вам два свежих примера того, как 3D ML улучшает (= ускоряет) сложные физические симуляции (в игровых движках и не только).
1. Learning Mesh-Based Simulation with Graph Networks (статья + видео, github TF, github PT) — очень интересный подход к симуляции самых разных объектов в которых как-то присутствует геометрия поверхности и она моделируется полигональным мешем (предсказание того, как ткань будет развиваться на ветру).
Почему круто:
- быстрее чем аналог честной симуляции методом частиц или сеточными методами;
- присутствует адаптивная сетка для увеличения количества полигонов меша в окрестности регионов с большим числом нюансов.
Zibra_Liquids_Unity3D_Water_Simulation_HDRP_Demo.gif
17 MB
2. ZibraAI и ее Zibra Liquid (medium paper, free Unity 3D demo, video with HDRP example) — движок физических симуляций жидкостей в реальном времени, совместимый с Unity 3D. Под капотом лежит представление жидкости как SDF + использование Moving Least Squares Material Point Method.
Почему круто:
- уже есть готовый плагин для Unity 3D;
имеется поддержка HDRP;
- схожим методом можно закрыть вопрос симуляции не только жидкостей, но и аморфных тел вроде пластилина или меда.
Оба примера выглядят вдохновляюще и закрывают два направления в real-time physics в игровых движках. А знаете ли вы еще примеры на схожую тематику? Делитесь в комментариях =)
Почему круто:
- уже есть готовый плагин для Unity 3D;
имеется поддержка HDRP;
- схожим методом можно закрыть вопрос симуляции не только жидкостей, но и аморфных тел вроде пластилина или меда.
Оба примера выглядят вдохновляюще и закрывают два направления в real-time physics в игровых движках. А знаете ли вы еще примеры на схожую тематику? Делитесь в комментариях =)
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья исследователи!
Тут исследовательница из FAIR Georgia Gkioxari добавила новую утилиту в PyTorch3D - Intersection Over Union of Oriented 3D Boxes: A New Algorithm. По сути - быстрый (CUDA / torch / C++) расчет IoU метрики для ориентированных ограничивающих 3D параллелепипедов. Данная метрика часто встречается в 3D ML задачах, например в задаче 3D Object Detection.
Кажется что это что-то незначительное, однако мы в этом видим признак того, что 3D ML выходит на передовой уровень разработок и исследований внутри самого ML, потому что когда исследователи начинают оптимизировать самые низкоуровневые операции так, чтобы их можно было удобно использовать в повседневных экспериментах и при вычислениях на серьезных кластерах - это значит что происходит максимальное погружение разработчиков на самых разных уровнях. Это еще не говоря о количестве статей и работ по совместным тегам 3D+ML на топовых конференциях.
А что вас может убедить в том, что 3D ML рвется ввысь? Предлагайте варианты в комментариях=)
Тут исследовательница из FAIR Georgia Gkioxari добавила новую утилиту в PyTorch3D - Intersection Over Union of Oriented 3D Boxes: A New Algorithm. По сути - быстрый (CUDA / torch / C++) расчет IoU метрики для ориентированных ограничивающих 3D параллелепипедов. Данная метрика часто встречается в 3D ML задачах, например в задаче 3D Object Detection.
Кажется что это что-то незначительное, однако мы в этом видим признак того, что 3D ML выходит на передовой уровень разработок и исследований внутри самого ML, потому что когда исследователи начинают оптимизировать самые низкоуровневые операции так, чтобы их можно было удобно использовать в повседневных экспериментах и при вычислениях на серьезных кластерах - это значит что происходит максимальное погружение разработчиков на самых разных уровнях. Это еще не говоря о количестве статей и работ по совместным тегам 3D+ML на топовых конференциях.
А что вас может убедить в том, что 3D ML рвется ввысь? Предлагайте варианты в комментариях=)
Здоровенькі були, друзі дослідники!
Мы уже писали несколько постов (раз, два, три) о том, как исследователи совмещают CLIP и какую-либо технику генерации 3D контента. Долго ждать не пришлось, вот и еще один вариант подоспел.
Исследователь Eric Chu из MIT Media Lab предложил весьма простой и элегантный способ генерации 3D контента по тексту - Evolving Evocative 2D Views of Generated 3D Objects.
Красота работы в простоте генератора (всего 6 параметров в аналитической формуле + параметры поворота камеры) и в интересном пайплайне (используется генетический алгоритм: автор пишет, что делает это в связи с недефферинцируемым рендерингом - ну тут явно есть шанс улучшить модель за счет использования дифференциального рендеринга).
Мы уже писали несколько постов (раз, два, три) о том, как исследователи совмещают CLIP и какую-либо технику генерации 3D контента. Долго ждать не пришлось, вот и еще один вариант подоспел.
Исследователь Eric Chu из MIT Media Lab предложил весьма простой и элегантный способ генерации 3D контента по тексту - Evolving Evocative 2D Views of Generated 3D Objects.
Красота работы в простоте генератора (всего 6 параметров в аналитической формуле + параметры поворота камеры) и в интересном пайплайне (используется генетический алгоритм: автор пишет, что делает это в связи с недефферинцируемым рендерингом - ну тут явно есть шанс улучшить модель за счет использования дифференциального рендеринга).
Интересный момент про связь науки и искусства. В статье, авторы отмечают, что одним из вдохновителей работы, послужил Ричард Серра с его серий скульптур, в которой форма скульптуры определяется глаголом (см. пр. To Lift). В качестве своеобразного теста для разрабатываемых генеративных моделей, авторы предлагают сравнивать скульптуры Серра с результатом работы генеративных моделей на основе одного и того же текста.
Что тут сказать, искусство важный вдохновитель науки: Серра, например, совмещал CLIP с 3D GAN, когда еще и компьютеров то толком не было.
Что тут сказать, искусство важный вдохновитель науки: Серра, например, совмещал CLIP с 3D GAN, когда еще и компьютеров то толком не было.
Привет всем любителям нейронного рендеринга!
Опубликован препринт самой свежей сборной аналитической статьи (State-of-the-art-report/STAR) про нейронный рендеринг Advances in Neural Rendering - must see для любого 3D ML исследователя.
Статья вышла очень подробной, освещены разные аспекты технологии, а также присутствуют ссылки на реализации почти всех упомянутых архитектур. Отдельно стоит отметить, что по каждому направлению в нейронном рендеринге, авторы составили таблицы архитектур со ссылками и удобной классификацией различных архитектур и входных данных.
Опубликован препринт самой свежей сборной аналитической статьи (State-of-the-art-report/STAR) про нейронный рендеринг Advances in Neural Rendering - must see для любого 3D ML исследователя.
Статья вышла очень подробной, освещены разные аспекты технологии, а также присутствуют ссылки на реализации почти всех упомянутых архитектур. Отдельно стоит отметить, что по каждому направлению в нейронном рендеринге, авторы составили таблицы архитектур со ссылками и удобной классификацией различных архитектур и входных данных.