NEW BOT Телеграм, страница - 148109498

AbstractDL

11.5K subscribers

244 photos

16 videos

282 links

Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev

Download Telegram

About

Blog

Apps

Platform

11.5K subscribers

Forwarded from Мишин Лернинг

Media is too big

VIEW IN TELEGRAM

🎴 NVIDIA выкатили StyleGAN3

Как и планировалось сегодня NVIDIA выложила в доступ (код и модели) StyleGAN3, который описали 23 июня 2021 в пейпере Alias-Free Generative Adversarial Networks.

Имя StyleGAN3 планировали дать в день публикации кода и моделей.

p.s.: думаю, что на днях мы увидим колаб и поиск в латентщине CLIP’ом

🤖сайт проекта 💻 код 📰 paper

1.41K views22:18

Media is too big

VIEW IN TELEGRAM

Нашел тут анимацию, полученную при помощи StyleGan3, которая удивительно точно передаёт все генеративные особенности этой модели.

Текстуры свободно перемещаются и вращаются по всему кадру, нет выделенных позиций, пульсаций и прочих артефактов старых ГАНов. Просто волшебно)

P.S. Как работает StyleGan3 я писал тут.

1.59K views14:44

Zero-Shot NLP Task Generalization

Huggingface совместно с исследователями из 250(!) институтов представили модель T0, которая обходит GPT-3 и при этом в десятки раз компактнее.

Ещё в статьях про GPT-2 и GPT-3 показали, что языковые модели умеют не только дописывать текст, но и кучу всего классного: QA, summarization, translation и тд. Главное, в правильном формате текст подавать — например, для summarization в конце нужно дописать «TL;DR:» и модель выдаст краткое содержание всего что выше. Это называется prompt engineering, и, по сути, это побочный эффект.

А что если во время обучения сфокусироваться на этом «побочном эффекте»? Авторы статьи создали prompted-task датасет: они взяли все главные NLP бэнчмарки и переписали их в prompted формате. Потом они взяли модель T5 и дообучили на всём этом.

В итоге они получили SOTA почти везде, даже на тех задачах, которые модель никогда не видела (они проверили). Это и есть zero-shot task generalization.

Статья, GitHub, Huggingface

1.72K viewsedited 14:17

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 GPT-CC: GitHub Copilot для бедных

Уже все слышали про GitHub Copilot? Это расширение для VS Code, которое дописывает код за вас. В основе этой штуки лежит нейросеть CodeX, которая по сути является GPT-3.

К сожалению, доступа ни к Copilot, ни к CodeX у простых смертных нет — нужно вставать в waitlist на бета-тестирование.

Так вот, оказывается есть open source версия этих штук! Ребята сами собрали датасет запарсив GitHub и обучили на этом GPT-Neo (аналог GPT-3).

GitHub, dataset, demo, models

4.67K views23:24

8-битный оптимизатор (by Facebook)

Твой ноутбук не тянет обучение глубоких трансформеров? А если видео-памяти станет в 4 раза больше? Facebook представил 8-битный оптимизатор, который уменьшает потребление памяти во время обучения на 75%.

8-бит это что-то сверхъестественное. Только представьте, у 32-битных чисел значений больше 4 млрд, а тут их всего 256! Как такое вообще можно оптимизировать😅

Главная хитрость в динамической квантизации, которая адаптируется к каждому тензору с помощью подвижного разделителя мантиссы и порядка в экспоненциальной записи числа.

Для использования этого чуда достаточно всего двух строчек кода (см. картинку). Даже не надо заново гиперпараметры подбирать — судя по экспериментам из статьи, замена оптимизатора почти ни на что не повлияет.

P.S. Советую посмотреть видео, там простым языком описано как это работает (и зачем).

Статья, GitHub, видео

2.23K views14:35

Как подружить GPT-3 с математикой

Языковые модели приблизились по своим возможностям к человеку, но у них всё ещё остались проблемы с multi-step reasoning и, особенно, с математикой.

В OpenAI предполагают, что дело в авторегрессионной генерации, ведь если модель чуть-чуть ошибётся в начале своих рассуждений, то и дальше всё пойдёт не так.

Как с этим бороться? Для начала, они создали датасет со школьными задачками и подробными текстовыми решениями. Затем они зафайнтюнили на этом две копии GPT-3: одна училась писать решение, а вторая — проверять правильное это решение или нет. Во время теста вторая модель выбирала лучшее решение из 100 сгенерированных.

Кроме этого, если в рассуждениях модели попадались формальные выражения, например «2+2=» то они автоматически вычислялись и заменялись на правильный ответ (да, это читерство 🤷‍♂️)

В итоге, получилось приблизиться к способностям живых школьников: 55% vs 60%.

Статья, blog, dataset

1.74K viewsedited 15:53

Коллекция русского мата, классификатор токсичности и детоксификатор

Всё это недавно представили исследователи из Сколтеха совместно с МТС.

Классификатор основан на RoBERTa и работает он очень классно. Есть модели для русского (тык) и для английского (тык).

А вот детоксификатор иногда выдаёт странные перлы 🌚

P.S. Да, матерных корня всего 4, но различных форм там собрано больше 130 тысяч. Словообразование у нас очень богатое 💁‍♂️

Статья, GitHub, маты, блог

6.77K viewsedited 12:36

🔥Сбер представил ruDALL·E

DALL·E — это крутейшая text2image модель, которая является гибридом GPT и VQVAE. О том как работают такие модели я писал тут.

Вслед за OpenAI и Alibaba, аналогичную модель на русском языке представил и наш Сбер! Есть варианты на 1.3 и 12 млрд параметров.

P.S. Сгенерировал для вас «Рождение вселенной»

GitHub, colab, демо, блог

2.11K viewsedited 10:59

Для совсем ленивых есть бот с ruDALL·E — @sber_rudalle_xl_bot

На картинке "Нейронная сеть"

1.94K viewsedited 12:43

Размер BPE-словаря влияет на память трансформеров (by Facebook)

Оказалось, что чем крупнее BPE-словарь, тем лучше модель запоминает рандомные синтетические данные, правильнее отвечает на вопросы и чаще воспроизводит фрагменты из обучения.

Эксперименты показали, что дело именно в средней длине токенизированных текстов. Ведь чем больше уникальных токенов, тем короче результат токенизации, а трансформеры лучше воспринимают короткие последовательности.

Но запоминание данных это хорошо или плохо? С одной стороны, это хорошо, потому что модели будет проще вспоминать какие-то факты, но с другой стороны — она может выдать и чьи-то персональные данные (пример). Поэтому вопрос остаётся открытым 🤷‍♂️

Статья

2.22K views07:26

Работал над visual-language saliency и получил неожиданные результаты 😂

P.S. основано на CLIP

2.78K views14:39

Подготовил для вас colab ноутбук с визуализацией взаимосвязи картинок и текста.

👍4

34.2K views13:47

Увидел у Дениса очень интересную идею монетизации адверсариал атак — кто-то продаёт картины, которые классифицируются системами компьютерного зрения как конкретные объекты.

Цены от 90$ до 5000$. Работает c Google Vision api, AWS и Yahoo. Есть категория картин, которые распознаются как порно.

P.S. Может быть тоже что-то такое придумать? У меня уже есть наработки 🤔

Магазин

1.94K views08:46

Boosting coherence of language models (by Microsoft)

Статья о том, как заставить уже обученные языковые модели лучше понимать дальний контекст.

Идея простая, но удивительно эффективная — чтобы модель лучше понимала старый контекст, нужно уменьшить влияние нового. Для этого через модель прогоняют инпут дважды: сначала целиком, а потом только последние 3-10 слов получая два распределения вероятностей для следующего токена на основе полного и короткого контекстов (см. картинку). Затем первое распределение делят на второе и готово 💁‍♂️

Несмотря на простоту этого трюка, он даёт огромный прирост (~20%) на LAMBADA тесте, приближая возможности GPT-2 к GPT-3.

Статья, GitHub

1.96K views16:19

Оказывается, ruDALL·E неплохо так умеет в pop-art 🤔

Нейроэстетика

Энди Уорхол «Модуль 2»

2.06K viewsedited 12:11

Forwarded from AI для Всех

Masked Autoencoders Are Scalable Vision Learners

Ещё одна идея, которая казалось бы была на поверхности, and yet… Берём картиночный автоэнкодер, делим картинку на патчи, прячем их в случайном порядке, и просим декодер восстановить изображение (в режиме self-supervised).

Авторы (Facebook/Meta AI), обнаружили, что скрытие большой части входного изображения, например, 75%, дает нетривиальную и осмысленную задачу для self-supervised обучения. Оказалось, что в такой формулировке, автоэнкодер обучается в ~3 раза быстрее (чем если бы мы учили на изображениях без масок).

Более того, оказалось, что если к такому обученному автоэнкодеру прикрутить голову на классификацию (например), то она будет показывать SOTA результаты. Так же, авторы показывают, что при масштабировании датасета, результаты только улучшаются.

📎 Статья

#selfSupervised #autoencoders #images

1.55K views16:10

🔥Palette: одна диффузионная модель и 4 соты (by Google)

Рано или поздно это должно было случиться — гугл представил диффузионную модель, которая умеет почти всё:
- Colorization
- Inpainting
- Uncropping
- JPEG decompression

В каждой задаче их модель значительно обходит все предыдущие решения. Из интересных выводов: self-attention в U-Net очень важен, а L2 лосс лучше чем L1.

P.S. Про диффузионные модели я писал тут.

Статья, блог

2.13K views07:01

Forwarded from BlackVR - VR для бизнеса

This media is not supported in your browser

VIEW IN TELEGRAM

Google AI заопенсорсили 2D\3D трекинг рук (одновременный трекинг нескольких рук, предсказание поз и прочее). Пдфка исследования здесь. Код здесь. Протестировать демо здесь.

1.71K views19:14

Наконец 🥳
https://news.1rj.ru/str/nn_for_science/740

⚠️OpenAI GPT-3 в доступе!⚠️
Это не учебная тревога и не реклама!

Скорее расчехляйте свои VPN и вперёд играть с GPT-3 и Codex. Там довольно много токенов дают бесплатно, пока не попросят денег.

Подключатся тут

UPD: Codex ещё в закрытой beta

2.6K views18:46

LiT : Zero-Shot Transfer with Locked-image Text Tuning

Статья от Google Brain о том, как упростить обучение CLIP (о котором я писал тут). Если коротко, то CLIP — это пара энкодеров (image & text), которые обучены выдавать близкие эмбеддинги для картинок и их описаний.

Авторы статьи предлагают вместо end2end обучения обоих энкодеров учить только текстовую модель, а для картинок взять уже обученную и замороженную (ViT, MLP-Mixer или ResNet). Получается, что текстовая модель учится повторять репрезентации сильной картиночной модели.

Этот трюк на порядки уменьшает необходимое количество данных, упрощает обучение и значительно улучшает перформанс на всех down-stream задачах.

P.S. Удивительно, но даже при ~20 млрд обучающих примеров end2end обучение проигрывает.

Статья

1.81K views10:52

Отличная статья от моей знакомой, про такую вещь как Inductive bias. Если вы часто слышите эти слова, но не понимаете их значение, то обязательно прочитайте.

TL;DR: Inductive bias — это априорные знания о природе данных, которые человек
некоторым образом вкладывает в модель машинного обучения.

Inductive bias и нейронные сети

В этой статье я расскажу, что такое inductive bias, зачем он нужен и где встречается в машинном обучении. Спойлер: везде. Любая нейросеть имеет inductive bias (даже та, что в человеческом мозге, хе-хе) Также вы узнаете: почему inductive bias — это очень хорошо…

2.72K viewsedited 14:43