AbstractDL – Telegram
AbstractDL
11.5K subscribers
244 photos
16 videos
282 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
Download Telegram
🔥Сбер представил ruDALL·E

DALL·E — это крутейшая text2image модель, которая является гибридом GPT и VQVAE. О том как работают такие модели я писал тут.

Вслед за OpenAI и Alibaba, аналогичную модель на русском языке представил и наш Сбер! Есть варианты на 1.3 и 12 млрд параметров.

P.S. Сгенерировал для вас «Рождение вселенной»

GitHub, colab, демо, блог
Для совсем ленивых есть бот с ruDALL·E@sber_rudalle_xl_bot

На картинке "Нейронная сеть"
Размер BPE-словаря влияет на память трансформеров (by Facebook)

Оказалось, что чем крупнее BPE-словарь, тем лучше модель запоминает рандомные синтетические данные, правильнее отвечает на вопросы и чаще воспроизводит фрагменты из обучения.

Эксперименты показали, что дело именно в средней длине токенизированных текстов. Ведь чем больше уникальных токенов, тем короче результат токенизации, а трансформеры лучше воспринимают короткие последовательности.

Но запоминание данных это хорошо или плохо? С одной стороны, это хорошо, потому что модели будет проще вспоминать какие-то факты, но с другой стороны — она может выдать и чьи-то персональные данные (пример). Поэтому вопрос остаётся открытым 🤷‍♂️

Статья
Работал над visual-language saliency и получил неожиданные результаты 😂

P.S. основано на CLIP
Подготовил для вас colab ноутбук с визуализацией взаимосвязи картинок и текста.
👍4
Увидел у Дениса очень интересную идею монетизации адверсариал атак — кто-то продаёт картины, которые классифицируются системами компьютерного зрения как конкретные объекты.

Цены от 90$ до 5000$. Работает c Google Vision api, AWS и Yahoo. Есть категория картин, которые распознаются как порно.

P.S. Может быть тоже что-то такое придумать? У меня уже есть наработки 🤔

Магазин
Boosting coherence of language models (by Microsoft)

Статья о том, как заставить уже обученные языковые модели лучше понимать дальний контекст.

Идея простая, но удивительно эффективная — чтобы модель лучше понимала старый контекст, нужно уменьшить влияние нового. Для этого через модель прогоняют инпут дважды: сначала целиком, а потом только последние 3-10 слов получая два распределения вероятностей для следующего токена на основе полного и короткого контекстов (см. картинку). Затем первое распределение делят на второе и готово 💁‍♂️

Несмотря на простоту этого трюка, он даёт огромный прирост (~20%) на LAMBADA тесте, приближая возможности GPT-2 к GPT-3.

Статья, GitHub
Оказывается, ruDALL·E неплохо так умеет в pop-art 🤔
Forwarded from AI для Всех
Masked Autoencoders Are Scalable Vision Learners

Ещё одна идея, которая казалось бы была на поверхности, and yet… Берём картиночный автоэнкодер, делим картинку на патчи, прячем их в случайном порядке, и просим декодер восстановить изображение (в режиме self-supervised).

Авторы (Facebook/Meta AI), обнаружили, что скрытие большой части входного изображения, например, 75%, дает нетривиальную и осмысленную задачу для self-supervised обучения. Оказалось, что в такой формулировке, автоэнкодер обучается в ~3 раза быстрее (чем если бы мы учили на изображениях без масок).

Более того, оказалось, что если к такому обученному автоэнкодеру прикрутить голову на классификацию (например), то она будет показывать SOTA результаты. Так же, авторы показывают, что при масштабировании датасета, результаты только улучшаются.

📎 Статья

#selfSupervised #autoencoders #images
🔥Palette: одна диффузионная модель и 4 соты (by Google)

Рано или поздно это должно было случиться — гугл представил диффузионную модель, которая умеет почти всё:
- Colorization
- Inpainting
- Uncropping
- JPEG decompression

В каждой задаче их модель значительно обходит все предыдущие решения. Из интересных выводов: self-attention в U-Net очень важен, а L2 лосс лучше чем L1.

P.S. Про диффузионные модели я писал тут.

Статья, блог
This media is not supported in your browser
VIEW IN TELEGRAM
Google AI заопенсорсили 2D\3D трекинг рук (одновременный трекинг нескольких рук, предсказание поз и прочее). Пдфка исследования здесь. Код здесь. Протестировать демо здесь.
LiT : Zero-Shot Transfer with Locked-image Text Tuning

Статья от Google Brain о том, как упростить обучение CLIP (о котором я писал тут). Если коротко, то CLIP — это пара энкодеров (image & text), которые обучены выдавать близкие эмбеддинги для картинок и их описаний.

Авторы статьи предлагают вместо end2end обучения обоих энкодеров учить только текстовую модель, а для картинок взять уже обученную и замороженную (ViT, MLP-Mixer или ResNet). Получается, что текстовая модель учится повторять репрезентации сильной картиночной модели.

Этот трюк на порядки уменьшает необходимое количество данных, упрощает обучение и значительно улучшает перформанс на всех down-stream задачах.

P.S. Удивительно, но даже при ~20 млрд обучающих примеров end2end обучение проигрывает.

Статья
Отличная статья от моей знакомой, про такую вещь как Inductive bias. Если вы часто слышите эти слова, но не понимаете их значение, то обязательно прочитайте.

TL;DR: Inductive bias — это априорные знания о природе данных, которые человек
некоторым образом вкладывает в модель машинного обучения.
YOLaT: image recognition для векторных картинок (by Microsoft)

Похоже, это первая нейронка, которая может классифицировать и детектировать объекты в векторной графике без растеризации.

В отличие от пиксельных картинок, векторные состоят из аналитически выраженных геометрических фигур и, поэтому, их эквивалентное разрешение может быть бесконечным. Это делает невозможным использование стандартных методов image recognition.

Что предлагают авторы:
1. Преобразовать векторный файл в набор кривых Безье.
2. Кривые Безье превратить в ненаправленный мультиграф.
3. Запихнуть этот граф в графовую нейросеть.

Их метод демонстрирует state-of-the-art результат, работает в 100 раз быстрее, чем растеризация+CNN и требует в 25 раз меньше параметров.

Статья
Florence: A New Foundation Model for Computer Vision (by Microsoft)

Очередная попытка создать универсальную visual модель, которая умеет почти всё и сразу:
- image classification,
- object detection,
- image/video retrieval,
- video action recognition,
- visual question answering.
И практически везде SOTA.

Рецепт Florence: собрать франкенштейна из CLIP+SWIN+DETR+METER и обучить на 900М пар картинок и текстов из интернета + все публичные датасеты на object detection.

Статья
This media is not supported in your browser
VIEW IN TELEGRAM
📸🎞 Привет, NÜWA! Прощай, DALL•E!

Что может быть круче, чем DALL•E от OpenAI? Только NÜWA — фото/видео nextgen от Microsoft!

DALL•E это мультимодальный трансформер, способный генерировать изображения из текста, как единый поток токенов. Такое возможно, работая не с пикселями (256х256 / 512х512), а сжатыми репрезентациями, подготовленными dVAE, VQ-VAE или VQ-GAN.

Ресерчеры из Microsoft пошли дальше, и сделали NÜWA, способную работать и с фото и с видео, да ещё и решая сразу 8 задач!
- Text2Image (DALL-E)
- Text2Video !
- Скетч в фото
- Скетч в видео
- Завершение фото
- Завершение видео
- Текстовая манипуляция с фото
- Манипуляция с видео

Основным новшеством стал 3D Nearby Attention (3DNA) механизм, который дал возможность работать сразу с 1D (текст), 2D (фото) и 3D (видео) потоком токенов.

📰 paper 💻 git без кода

p.s.: откапал для вас закрытую ссылку (ей уже 3 недели!!) от Microsoft, сейчас там только 30 просмотров!
🎞 Видео про NUWA от Майков

🤖 На лекцию про DALL-E и NUWA от Мишин Лернинг
AbstractDL pinned a photo
Код для телеграм бота

Помните моего нейронного бота?
Я подготовил colab ноутбук для тех, кто тоже хочет сделать что-то похожее, но лень разбираться с telegram API.
This media is not supported in your browser
VIEW IN TELEGRAM
GradInit: перебор гиперпараметров оптимизатора и warmup больше не нужны (by Google)

В гугл предложили супер крутой универсальный architecture-agnostic метод инициализации весов моделей.

Идея очень простая: добавить множители перед каждым блоком параметров и запустить по ним несколько итераций оптимизации лосса. Дальше эти множители фиксируем и учим модель как обычно. Такая инициализация не зависит от глубины и типа архитектуры (работает и на резнетах и на трансформерах) и почти полностью решает проблему взрывающихся\затухающих градиентов.

В итоге отпадает необходимость в переборе гиперпараметров оптимизатора, а трансформер вообще получилось обучить без warmup’a, что считалось практически невозможным. Как бонус, такая инициализация даёт небольшой буст на многих бенчмарках (и картиночных и текстовых).

Статья, GitHub
This media is not supported in your browser
VIEW IN TELEGRAM
🔥MTTR: End-to-End Text Referring Video Object Segmentation

Представлена новая SOTA в сегментации объектов на видео по их текстовому описанию. Качество просто невероятное!

Модель основана на мультимодальном трансформере, в который подаются фичи от текстового энкодера (RoBERTa) и видео энкодера (Video Swin). Примечательно, что в отличие от предыдущих решений, обучение здесь end2end — sequence prediction problem.

P.S. Авторы опубликали и код, и веса моделей 👍

Статья, GitHub
👍3