echoinside – Telegram
echoinside
107 subscribers
834 photos
65 videos
41 files
933 links
ML in computer graphics and random stuff.
Any feedback: @fogside
Download Telegram
Forwarded from CGIT_Vines (CGIT_Vines)
This media is not supported in your browser
VIEW IN TELEGRAM
О, а вот это идеальная сетка нейроколлажирования для заказчика. "А можете немного как у Рембрандта позу и глаза как у Моны Лизы" - идеальный инструмент для создания Франкенштейна.

Бумага, код и коллаб
This media is not supported in your browser
VIEW IN TELEGRAM
В блендер появились geometry nodes.
Вот отличный обзор по возможностям.
По сути теперь можно делать разные эффекты разбрасывая одни объекты по различным поверхностям и менять свойства этих разбрасываемых объектов в зависимости от свойств других объектов или просто рандомно. Свойства такие как размер, угол поворота, локация и другие. При этом сами поверхности можно скрывать, что позволяет моделировать облака точек нужной формы.
Есть уже много очень крутых туториалов с эффектами сделанными на geometry_nodes. А это моя небольшая демка, где я также использовала плагин FLAME для блендера с головами.
#blender
This media is not supported in your browser
VIEW IN TELEGRAM
#sdf #tools #implicit_geometry
Автор видео @ephtracy в твиттер делиться прогрессом по созданию собственного 3д редактора работающего с signed distance field.
В том же блендере возможно моделировать hard surface объекты с помощью metaballs, что даёт похожие возможности для редактирования: пример один, пример два, но там не настолько круто конечно.
IDR & NLR

В работе [1] предлагается подход под названием IDR — Implicit Differentiable Renderer. Нейронка обучается на наборе фотографий (с бинарными масками объекта) снятыми с разного ракурса с примерно известным положением камер. В результате получается отдельно sdf представление геометрии и отдельно обученный рендерер текстуры. Эта архитектура также позволяет переиспользовать рендерер для другой геометрии, таким образом перекрасить зайцев в лосей. Обе части представлены MLP нейронками. Обучение занимает 6.5-8 часов на одной V100 GPU для сета из 49-64 картинок. При этом уже обученная нейронка рендерит картинку размером 1200 x 1600 примерно 30с (для нового вью).
* гитхаб
* папер
* страница проекта

В работе [2] предлагается метод NLR (Neural Lumigraph Rendering). Здесь также обучается отдельно нейронка для sdf, отдельно для NeRF, замешивается всё это с SIREN. Проблема с риал-таймом в инференсе решается возможностью экспортнуть полученную геометрию в меш и сгенерить текстуру для конкретного ракурса.
Меш получается марширующими кубами. Текстуры оптимально пререндерятся с разных ракурсов, а затем для заданного ракурса создается их взвешенная сумма в риал-тайме.
Однако даже версия модели c неявным представлением геометрии и текстуры (NLR-ST) рендерит картинки заметно быстрее чем IDR (~ раза в 3) и имеет заметно более тонкую модель за счет использования SIREN (~ в 5 меньше параметров).
Обучается все на одной RTX 2080Ti за 150000 батчей (про время не написано, но один батч это 50000 просэмплированных лучей).
Также на странице проекта можно скачать датасет с людьми и другими сущностями.
* видос
* папер
* страница проекта

Детализация меша не очень, что в одном методе, что в другом, но с текстурой выглядит норм.
#implicit_geometry #nerf
Perceiver: General Perception with Iterative Attention
Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira
Статья: https://arxiv.org/abs/2103.03206
Код (неавторский): https://github.com/lucidrains/perceiver-pytorch

Работа, нацеленная на мультимодальность, чтобы одна универсальная архитектура на основе трансформера могла работать с данными разной природы.

Сейчас работа с различными модальностями часто основана на выборе подходящих задаче inductive biases, учитывающих знание о том, как соотносятся между собой элементы входа. Например, свёрточные сетки полагаются на локальность фич в изображениях и имеют подходящий для этого bias. С текстами хорошо работает трансформер. Ну и так далее. Смешивать разные модальности в одной модели в целом непросто.

Хочется заменить это на одну универсальную архитектуру, делающую по возможности меньше таких предположений о структуре входа. Ну то есть давайте заложим поменьше biases, сделаем универсальную архитектуру, и позволим ей выучить всё из данных. Если получится, не придётся затачиваться на отдельные модальности и можно будет использовать одну общую архитектуру для смешанных модальностей.

Собственно, Perceiver — это архитектура, основанная на трансформере и использующая асимметричный механизм внимания (кросс-внимание), могущий итеративно выхватывать из входа релевантные данные и агрегировать их внутри себя, и способный скейлиться на очень большие размеры входа (как раз чего не могут обычные трансформеры, хотя за последнее время появилось много эффективных их реализаций).

Как оно работает?

Основная идея подхода — завести маленький набор латентных переменных (latent array). Эти юниты будут через механизм внимания обращаться ко входу (потенциально большому) и таким образом окажутся боттлнеком, который должен отсеять важные части входа. И делать это perceiver может итеративно, потому что таких блоков в сети будет несколько. Каждый раз, соответственно, он может обращаться к разным частям входа, в зависимости от того, что он “узнал” на предыдущих шагах.

Авторы предлагают посмотреть на эту модель как на выполняющую кластеризацию входа end-to-end, где скрытые юниты являются центрами кластеров. Не знаю, мне сходу неочевидно, почему это так.

Поскольку временная/пространственная информация всё-таки важна, а модель на структуру входа напрямую не закладывается, авторы добавляют к каждому входному элементу позиционные энкодинги на основе Фурье (синусы и косинусы от логарифмического банка частот, а координата внутри измерения масштабируется в диапазон [-1,1]). Эмбеддинги не добавляются ко входу (как в оригинальном трансформере), а конкатенируются с ним.

Авторы считают, что эта история с позиционными эмбеддингами не дискредитирует их подход c уменьшением implicit biases. Типа, мы даём сети фичи, а как их использовать её дело, сама выучит и решит как лучше. К тому же их легче адаптировать к новым доменам, чем собирать новую архитектуру. Ну и вообще мультимодальные модели так легче собирать.

Внутри модели повторяются два основных блока: 1) кросс-внимание (cross-attention), где Q приходит из низкоразмерной латентной части, а K/V из входа (большого), и 2) обычное внимание (self-attention трансформера), трансформирующее эти latent’ы. Эти блоки могут повторяться много раз, и даже иметь расшаренные веса между этими повторениями. Тогда получается что-то типа развёрнутой по глубине RNN или универсального трансформера.

Стандартное внимание по-прежнему остаётся квадратичным, но оно здесь от низкоразмерного latent’а (<=1024), так что не так страшно. Можно заодно глубины добавить, чтобы модель посложнее была (на ImageNet сделали 48 таких блоков). У latent’ов есть обучаемые позиционные эмбеддинги. Сам этот latent array, так понимаю, выучивается, а не зависит от входа или какого-то рандома.
Эксперименты показали, что на ImageNet персивер в ~44M параметров бьёт заточенный на это ResNet-50 (у него правда обычно ~25M), сильно бьёт обычный трансформер (но там пришлось уменьшать размер входа до 64x64 чтобы он смог работать) и в общем сравним с недавним ViT (https://news.1rj.ru/str/gonzo_ML/434).

На датасете AudioSet, где надо классифицировать звуковые события в видео, моделька дала SoTA на чистой видео модальности, а также лучшая и на чистом аудио, и на audio+video, хоть там разница и поменьше.

На датасете с облаками точек ModelNet40 не SoTA, но весьма достойно, особенно учитывая, что SoTA весьма сложна.

В общем, модель работает. Что особенно прекрасно, она хорошо контрибьютит в большое свежее движение трансформеров от текстов к картинкам и к другим модальностям, а тут и к мультимодальности.
Forwarded from Gradient Dude
🔥New DALL-E? Paint by Word🔥

New Blogpost!

In this post, I will give a brief overview of the recent paper from MIT Paint by Word and compare it to DALL-E. Authors introduce a novel method which is to be able to paint in an image arbitrary new concepts described by text at any specific location provided by the user in a form of a mask. The proposed Paint by Word method can also generate a full image just based on a textual denoscription.

👉 Read more in the Blogpost

There is also Telegram InstantView of the post. But it is better to read it in a regular browser, as Telegram doesn't render Latex formulas.
Infinite Images: Creating and Exploring a Large Photorealistic Virtual Space
Оригинальный пост найден у UnrealNeural
* Project page
* Paper

We present a system for generating "infinite" images from large collections of photos by means of transformed image retrieval. Given a query image, we first transform it to simulate how it would look if the camera moved sideways and then perform image retrieval based on the transformed image. We then blend the query and retrieved images to create a larger panorama. Repeating this process will produce an "infinite" image. The transformed image retrieval model is not limited to simple 2-D left/right image translation, however, and we show how to approximate other camera motions like rotation and forward motion/zoom-in using simple 2-D image transforms. We represent images in the database as a graph where each node is an image and different types of edges correspond to different types of geometric transformations simulating different camera motions
#image_editing #retrieval
This media is not supported in your browser
VIEW IN TELEGRAM
iMAP, first real-time SLAM system to use an implicit scene network as map representation
* Project page
* Paper: https://arxiv.org/abs/2103.12352
* twitter

iMAP is a new way to do SLAM: we learn an implicit neural representation *in real time* and track an RGB-D camera against it. The implicit map fills holes; completes the unseen backs of objects; and maps a whole room in only 1MB of weights. From the Dyson Robotics Lab, Imperial.
#implicit_geometry #depth #slam #indoor
This media is not supported in your browser
VIEW IN TELEGRAM
Keen Tool запилил ИИ-кнопку! Теперь настоящие кИИн тУУлз!

Помнится сидели мы с в 2018 году в Софии на Total Chaos и я Рому пытал про ИИ (даже подкалывал его на презентации Keen Tools, задавая вопросы про нейросетки) - но Рома отмахивался от меня как от укушенного ИИшечкой. А сам, мерзавец, читал доклады по нейросеткам на питерском Ивенте и вообщем был одним из первых в ИИ-теме.

И вот наконец случилось!

"FaceBuilder теперь снабжён нейросетями, позволяющими запинить лицо на фотографии по нажатию одной кнопки! Признаемся, мы в команде теперь пиним лица только так и не хотим возвращаться к ручном варианту!

Новая волшебная кнопка Align Face есть как в FaceBuilder, так и в FaceTracker — ставить кейфреймы теперь проще! Кроме того, теперь все плагины KeenTools работают в Nuke 13."

Ура! Набросим еще больше ИИ на морду кожаного мешка.


Кстати, недавно ноды Keen Tools появились в Nuke Indie, а также они добавили 51 совместимую с ARKit форму FACS в FaceBuilder for Blender!

Подробности тут: https://keentools.io
Forwarded from TechSparks
И ещё об искусстве;)
В Стэнфорде довольно успешно сумели научить алгоритм предсказывать, что люди ощущают — а не просто какие объекты видят — созерцая произведения искусства. Другая формулировка — сенсационная, но обманнная: научили машину понимать эмоции. Понимать она не умеет, но комментарии к картинам выдаёт очень человеческие и вполне эмоциональные ;)
Чтобы научить алгоритм, пришлось привлечь тысячи людей, которые разметили обучающий датасет: создали 440 000 эмоционально окрашенных откликов на 8100 картин. Тоже профессия будущего, между прочим: размечать учебный материал для алгоритмов; причём и материал, и сами принципы разметки становятся все сложнее.
https://hai.stanford.edu/news/artists-intent-ai-recognizes-emotions-visual-art
Pytorch Profiler

* blogpost

Along with PyTorch 1.8.1 release, we are excited to announce PyTorch Profiler – the new and improved performance debugging profiler for PyTorch. Developed as part of a collaboration between Microsoft and Facebook, the PyTorch Profiler is an open-source tool that enables accurate and efficient performance analysis and troubleshooting for large-scale deep learning models.
#tools
Mip-NeRF: A Multiscale Representation
for Anti-Aliasing Neural Radiance Fields
[Google, UC Berkeley]

* youtube
* project page
* paper

The rendering procedure used by neural radiance fields (NeRF) samples a scene with a single ray per pixel and may therefore produce renderings that are excessively blurred or aliased when training or testing images observe scene content at different resolutions. The straightforward solution of supersampling by rendering with multiple rays per pixel is impractical for NeRF, because rendering each ray requires querying a multilayer perceptron hundreds of times. Our solution, which we call "mip-NeRF" (à la "mipmap"), extends NeRF to represent the scene at a continuously-valued scale. By efficiently rendering anti-aliased conical frustums instead of rays, mip-NeRF reduces objectionable aliasing artifacts and significantly improves NeRF's ability to represent fine details, while also being 7% faster than NeRF and half the size. Compared to NeRF, mip-NeRF reduces average error rates by 16% on the dataset presented with NeRF and by 60% on a challenging multiscale variant of that dataset that we present. mip-NeRF is also able to match the accuracy of a brute-force supersampled NeRF on our multiscale dataset while being 22x faster.
Forwarded from Machine Learning World (StatsBot)
Towards Ultra-Resolution Neural Style Transfer via Thumbnail Instance Normalization

📦 Github: https://github.com/czczup/URST

📄 Paper: https://arxiv.org/abs/2103.11784