Forwarded from gonzo-обзоры ML статей
Эксперименты показали, что на ImageNet персивер в ~44M параметров бьёт заточенный на это ResNet-50 (у него правда обычно ~25M), сильно бьёт обычный трансформер (но там пришлось уменьшать размер входа до 64x64 чтобы он смог работать) и в общем сравним с недавним ViT (https://news.1rj.ru/str/gonzo_ML/434).
На датасете AudioSet, где надо классифицировать звуковые события в видео, моделька дала SoTA на чистой видео модальности, а также лучшая и на чистом аудио, и на audio+video, хоть там разница и поменьше.
На датасете с облаками точек ModelNet40 не SoTA, но весьма достойно, особенно учитывая, что SoTA весьма сложна.
В общем, модель работает. Что особенно прекрасно, она хорошо контрибьютит в большое свежее движение трансформеров от текстов к картинкам и к другим модальностям, а тут и к мультимодальности.
На датасете AudioSet, где надо классифицировать звуковые события в видео, моделька дала SoTA на чистой видео модальности, а также лучшая и на чистом аудио, и на audio+video, хоть там разница и поменьше.
На датасете с облаками точек ModelNet40 не SoTA, но весьма достойно, особенно учитывая, что SoTA весьма сложна.
В общем, модель работает. Что особенно прекрасно, она хорошо контрибьютит в большое свежее движение трансформеров от текстов к картинкам и к другим модальностям, а тут и к мультимодальности.
Telegram
gonzo-обзоры ML статей
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob…
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob…
Forwarded from Gradient Dude
🔥New DALL-E? Paint by Word🔥
New Blogpost!
In this post, I will give a brief overview of the recent paper from MIT Paint by Word and compare it to DALL-E. Authors introduce a novel method which is to be able to paint in an image arbitrary new concepts described by text at any specific location provided by the user in a form of a mask. The proposed Paint by Word method can also generate a full image just based on a textual denoscription.
👉 Read more in the Blogpost
There is also Telegram InstantView of the post. But it is better to read it in a regular browser, as Telegram doesn't render Latex formulas.
New Blogpost!
In this post, I will give a brief overview of the recent paper from MIT Paint by Word and compare it to DALL-E. Authors introduce a novel method which is to be able to paint in an image arbitrary new concepts described by text at any specific location provided by the user in a form of a mask. The proposed Paint by Word method can also generate a full image just based on a textual denoscription.
👉 Read more in the Blogpost
There is also Telegram InstantView of the post. But it is better to read it in a regular browser, as Telegram doesn't render Latex formulas.
Gradient Dude
New DALL-E? Paint by Word
Image editing by painting a mask and specifying any text denoscription to guide the image generation. TL;DR: Just train a StyleGAN / BigGAN generator and then, to edit an image region, just optimize the masked latent code using pretrained CLIP as a loss.
Infinite Images: Creating and Exploring a Large Photorealistic Virtual Space
Оригинальный пост найден у UnrealNeural
* Project page
* Paper
Оригинальный пост найден у UnrealNeural
* Project page
* Paper
We present a system for generating "infinite" images from large collections of photos by means of transformed image retrieval. Given a query image, we first transform it to simulate how it would look if the camera moved sideways and then perform image retrieval based on the transformed image. We then blend the query and retrieved images to create a larger panorama. Repeating this process will produce an "infinite" image. The transformed image retrieval model is not limited to simple 2-D left/right image translation, however, and we show how to approximate other camera motions like rotation and forward motion/zoom-in using simple 2-D image transforms. We represent images in the database as a graph where each node is an image and different types of edges correspond to different types of geometric transformations simulating different camera motions#image_editing #retrieval
This media is not supported in your browser
VIEW IN TELEGRAM
iMAP, first real-time SLAM system to use an implicit scene network as map representation
* Project page
* Paper: https://arxiv.org/abs/2103.12352
* twitter
* Project page
* Paper: https://arxiv.org/abs/2103.12352
iMAP is a new way to do SLAM: we learn an implicit neural representation *in real time* and track an RGB-D camera against it. The implicit map fills holes; completes the unseen backs of objects; and maps a whole room in only 1MB of weights. From the Dyson Robotics Lab, Imperial.
#implicit_geometry #depth #slam #indoorForwarded from Метаверсище и ИИще
This media is not supported in your browser
VIEW IN TELEGRAM
Keen Tool запилил ИИ-кнопку! Теперь настоящие кИИн тУУлз!
Помнится сидели мы с в 2018 году в Софии на Total Chaos и я Рому пытал про ИИ (даже подкалывал его на презентации Keen Tools, задавая вопросы про нейросетки) - но Рома отмахивался от меня как от укушенного ИИшечкой. А сам, мерзавец, читал доклады по нейросеткам на питерском Ивенте и вообщем был одним из первых в ИИ-теме.
И вот наконец случилось!
"FaceBuilder теперь снабжён нейросетями, позволяющими запинить лицо на фотографии по нажатию одной кнопки! Признаемся, мы в команде теперь пиним лица только так и не хотим возвращаться к ручном варианту!
Новая волшебная кнопка Align Face есть как в FaceBuilder, так и в FaceTracker — ставить кейфреймы теперь проще! Кроме того, теперь все плагины KeenTools работают в Nuke 13."
Ура! Набросим еще больше ИИ на морду кожаного мешка.
Кстати, недавно ноды Keen Tools появились в Nuke Indie, а также они добавили 51 совместимую с ARKit форму FACS в FaceBuilder for Blender!
Подробности тут: https://keentools.io
Помнится сидели мы с в 2018 году в Софии на Total Chaos и я Рому пытал про ИИ (даже подкалывал его на презентации Keen Tools, задавая вопросы про нейросетки) - но Рома отмахивался от меня как от укушенного ИИшечкой. А сам, мерзавец, читал доклады по нейросеткам на питерском Ивенте и вообщем был одним из первых в ИИ-теме.
И вот наконец случилось!
"FaceBuilder теперь снабжён нейросетями, позволяющими запинить лицо на фотографии по нажатию одной кнопки! Признаемся, мы в команде теперь пиним лица только так и не хотим возвращаться к ручном варианту!
Новая волшебная кнопка Align Face есть как в FaceBuilder, так и в FaceTracker — ставить кейфреймы теперь проще! Кроме того, теперь все плагины KeenTools работают в Nuke 13."
Ура! Набросим еще больше ИИ на морду кожаного мешка.
Кстати, недавно ноды Keen Tools появились в Nuke Indie, а также они добавили 51 совместимую с ARKit форму FACS в FaceBuilder for Blender!
Подробности тут: https://keentools.io
Forwarded from TechSparks
И ещё об искусстве;)
В Стэнфорде довольно успешно сумели научить алгоритм предсказывать, что люди ощущают — а не просто какие объекты видят — созерцая произведения искусства. Другая формулировка — сенсационная, но обманнная: научили машину понимать эмоции. Понимать она не умеет, но комментарии к картинам выдаёт очень человеческие и вполне эмоциональные ;)
Чтобы научить алгоритм, пришлось привлечь тысячи людей, которые разметили обучающий датасет: создали 440 000 эмоционально окрашенных откликов на 8100 картин. Тоже профессия будущего, между прочим: размечать учебный материал для алгоритмов; причём и материал, и сами принципы разметки становятся все сложнее.
https://hai.stanford.edu/news/artists-intent-ai-recognizes-emotions-visual-art
В Стэнфорде довольно успешно сумели научить алгоритм предсказывать, что люди ощущают — а не просто какие объекты видят — созерцая произведения искусства. Другая формулировка — сенсационная, но обманнная: научили машину понимать эмоции. Понимать она не умеет, но комментарии к картинам выдаёт очень человеческие и вполне эмоциональные ;)
Чтобы научить алгоритм, пришлось привлечь тысячи людей, которые разметили обучающий датасет: создали 440 000 эмоционально окрашенных откликов на 8100 картин. Тоже профессия будущего, между прочим: размечать учебный материал для алгоритмов; причём и материал, и сами принципы разметки становятся все сложнее.
https://hai.stanford.edu/news/artists-intent-ai-recognizes-emotions-visual-art
hai.stanford.edu
Artist’s Intent: AI Recognizes Emotions in Visual Art | Stanford HAI
A team of AI researchers has trained its algorithms to see the emotional intent behind great works of art, possibly leading to computers that see much deeper than current technologies.
Pytorch Profiler
* blogpost
* blogpost
Along with PyTorch 1.8.1 release, we are excited to announce PyTorch Profiler – the new and improved performance debugging profiler for PyTorch. Developed as part of a collaboration between Microsoft and Facebook, the PyTorch Profiler is an open-source tool that enables accurate and efficient performance analysis and troubleshooting for large-scale deep learning models.
#toolsMip-NeRF: A Multiscale Representation
for Anti-Aliasing Neural Radiance Fields
[Google, UC Berkeley]
* youtube
* project page
* paper
for Anti-Aliasing Neural Radiance Fields
[Google, UC Berkeley]
* youtube
* project page
* paper
The rendering procedure used by neural radiance fields (NeRF) samples a scene with a single ray per pixel and may therefore produce renderings that are excessively blurred or aliased when training or testing images observe scene content at different resolutions. The straightforward solution of supersampling by rendering with multiple rays per pixel is impractical for NeRF, because rendering each ray requires querying a multilayer perceptron hundreds of times. Our solution, which we call "mip-NeRF" (à la "mipmap"), extends NeRF to represent the scene at a continuously-valued scale. By efficiently rendering anti-aliased conical frustums instead of rays, mip-NeRF reduces objectionable aliasing artifacts and significantly improves NeRF's ability to represent fine details, while also being 7% faster than NeRF and half the size. Compared to NeRF, mip-NeRF reduces average error rates by 16% on the dataset presented with NeRF and by 60% on a challenging multiscale variant of that dataset that we present. mip-NeRF is also able to match the accuracy of a brute-force supersampled NeRF on our multiscale dataset while being 22x faster.YouTube
Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields
project page: https://jonbarron.info/mipnerf/
Forwarded from Machine Learning World (StatsBot)
Towards Ultra-Resolution Neural Style Transfer via Thumbnail Instance Normalization
📦 Github: https://github.com/czczup/URST
📄 Paper: https://arxiv.org/abs/2103.11784
📦 Github: https://github.com/czczup/URST
📄 Paper: https://arxiv.org/abs/2103.11784
Forwarded from Just links
Our new(ish) paper, Contrast To Divide. TL;DR: self-supervised pre-training is a very strong instrument when working with noisy labels. Like+retweet are more than welcome
https://twitter.com/evgeniyzhe/status/1375486632728616969
https://twitter.com/evgeniyzhe/status/1375486632728616969
Twitter
Evgenii Zheltonozhskii
Our new paper, C2D (https://t.co/AhrDVP8C0I, https://t.co/UcdS4nYTqH) shows how self-supervised pre-training boosts learning with noisy labels, achieves SOTA performance and provides in-depth analysis. Authors @evgeniyzhe @ChaimBaskin Avi Mendelson, Alex…
Forwarded from Karim Iskakov - канал (Vladimir Ivashkin)
This media is not supported in your browser
VIEW IN TELEGRAM
Realtime NeRF inference in browser! Try it out:
🌐 https://phog.github.io/snerg/#demos
📉 @loss_function_porn
🌐 https://phog.github.io/snerg/#demos
📉 @loss_function_porn
Repurposing GANs for One-shot Semantic Part Segmentation
* abs
* project page
* not official code
- another similar work from NVIDIA
* abs
* project page
* not official code
Do GANs learn meaningful structural parts of objects during their attempt to reproduce those objects? In this work, we test this hypothesis and propose a simple and effective approach based on GANs for semantic part segmentation that requires as few as one label example along with an unlabeled dataset. Our key idea is to leverage a trained GAN to extract pixel-wise representation from the input image and use it as feature vectors for a segmentation network. Our experiments demonstrate that GANs representation is "readily discriminative" and produces surprisingly good results that are comparable to those from supervised baselines trained with significantly more labels. We believe this novel repurposing of GANs underlies a new class of unsupervised representation learning that is applicable to many other tasks.
#gan #semantic_seg- another similar work from NVIDIA
Forwarded from эйай ньюз
На реддите запостили особый колаб-ноутбук который каждый раз дает Tesla-P100 GPU и 25 Gb RAM.
Можно копировать себе и использовать. Поспешите пока лавочку не прикрыли.
Ссылка: https://colab.research.google.com/drive/1D6krVG0PPJR2Je9g5eN_2h6JP73_NUXz
Можно копировать себе и использовать. Поспешите пока лавочку не прикрыли.
Ссылка: https://colab.research.google.com/drive/1D6krVG0PPJR2Je9g5eN_2h6JP73_NUXz
High-fidelity Face Tracking for AR/VR via Deep Lighting Adaptation
[Facebook Reality Labs]
* youtube
* pdf
* abs
[Facebook Reality Labs]
* youtube
* abs
3D video avatars can empower virtual communications by providing compression, privacy, entertainment, and a sense of presence in AR/VR. Best 3D photo-realistic AR/VR avatars driven by video, that can minimize uncanny effects, rely on person-specific models. However, existing person-specific photo-realistic 3D models are not robust to lighting, hence their results typically miss subtle facial behaviors and cause artifacts in the avatar. This is a major drawback for the scalability of these models in communication systems (e.g., Messenger, Skype, FaceTime) and AR/VR. This paper addresses previous limitations by learning a deep learning lighting model, that in combination with a high-quality 3D face tracking algorithm, provides a method for subtle and robust facial motion transfer from a regular video to a 3D photo-realistic avatar. Extensive experimental validation and comparisons to other state-of-the-art methods demonstrate the effectiveness of the proposed framework in real-world scenarios with variability in pose, expression, and illumination.
#face_trackingYouTube
(CVPR 2021) High-fidelity Face Tracking for AR/VR via Deep Lighting Adaptation
3D video avatars can empower virtual communications
by providing compression, privacy, entertainment, and a
sense of presence in AR/VR. Best 3D photo-realistic AR/VR
avatars driven by video, that can minimize uncanny effects,
rely on person-specific models.…
by providing compression, privacy, entertainment, and a
sense of presence in AR/VR. Best 3D photo-realistic AR/VR
avatars driven by video, that can minimize uncanny effects,
rely on person-specific models.…
Forwarded from Being Danil Krivoruchko
Matt Winckelmann все-таки удивительный человек.
Помимо работы в двух лучших на планете моушен-студиях (и еще классного вводного курса по UE на Ентагме) у него есть еще персональные проекты. Сегодня вот узнал про свежий, и там прямо все красиво. Мэтт запустил бота Рейчел (привет, Blade runner), который в течение года генерил 3д-дейлики, которые как по мне не сильно отличаются от 99% других дейликов, и постил их в свой заведеный инстаграм аккаунт.
Результат - у бота в полтора раза больше подписчиков, чем у Мэтта. По-моему идеальный художественный комментарий на тему "экономики внимания", "инфлюенсеров" и прочей ИГ-культуры.
https://www.mwinckelmann.com/rachaelisnotreal
Помимо работы в двух лучших на планете моушен-студиях (и еще классного вводного курса по UE на Ентагме) у него есть еще персональные проекты. Сегодня вот узнал про свежий, и там прямо все красиво. Мэтт запустил бота Рейчел (привет, Blade runner), который в течение года генерил 3д-дейлики, которые как по мне не сильно отличаются от 99% других дейликов, и постил их в свой заведеный инстаграм аккаунт.
Результат - у бота в полтора раза больше подписчиков, чем у Мэтта. По-моему идеальный художественный комментарий на тему "экономики внимания", "инфлюенсеров" и прочей ИГ-культуры.
https://www.mwinckelmann.com/rachaelisnotreal