NEW BOT Телеграм, страница

AbstractDL

data2vec: Self-supervised Learning in Speech, Vision and Language (by Meta AI)

Картинки, звук, текст — три основные модальности данных. Большинство исследований концентрируются на какой-то одной из них: ViT, HuBERT, BERT, ведь не ясно как можно унифицировать обучение для всех трёх сразу.

В Meta AI придумали как уйти от специфичности конкретного формата данных и учить модель понимать вообще что угодно. Если коротко, то они предлагают «самодистиллировать» внутренние репрезентации модели, да ещё и в self-supervised режиме.

Если углубиться чуть сильнее, то станет ясно, что предложенный метод очень похож на DINO. Тут есть две модели: студент и учитель. Первая модель (студент) учится повторять активации второй модели из частично замаскированного инпута, а учитель — это экспоненциально сглаженные по времени веса студента.

Оказалось, что самый обыкновенный трансформер, обученный таким способом, показывает крутейшие результаты на каждой из трёх модальностей по отдельности.

Статья, GitHub

👍29

6.07K viewsedited 17:23

AbstractDL

🔥Туториалы от Hugging Face

Это просто бомба! Тут в одном месте (тык) собраны материалы для всех основных задач в NLP, CV и Audio (см. картинку). Здесь есть примеры, видео с объяснениями, предобученные модели и даже датасеты.

P.S. Новость увидел тут.

👍36

6.34K viewsedited 10:04

AbstractDL

Forwarded from эйай ньюз

ShiftViT: An Extremely Simple Alternative to Attention Mechanism

Мелкософт говорит, что селф-атеншен больше не нужен в задачах зрения. Предлагают вместо него просто каналы случайно подвигать в плоскости картинки.

Судя по всему, это должно работать быстрее. По результатам точность на Imagenet почти как у трансформеров, чуть-чуть ниже.

Статья | Код

👍18

3.62K views12:40

AbstractDL

🔥InstructGPT: новое поколение GPT от OpenAI

Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.

В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.

P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.

Статья, блог, GitHub

👍21

13.6K viewsedited 22:08

AbstractDL

Соревнование по анализу аргументации антиковидных мер

Мои друзья из Сколтеха запустили соревнование про ковид. Там нужно научить модель определять позицию автора текста про вакцинацию и разделять аргументы (за/против) из комментариев.

В качестве обучающих данных есть размеченный датасет из 9000 текстов на русском языке.

P.S. Дедлайн 11 февраля.

Сайт, CodaLab, чат

👍18

4.91K views16:41

AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

GPT + RL = Decision Making

Это гениально! Ребята из гугла показали, как с помощью RL можно научить GPT-2 управлять виртуальным агентом и решать сложные задачи: на видео он выполняет команду «найди и положи две вилки в холодильник».

Идея очень простая: действия агента, его цель и наблюдения кодируются в виде слов, координаты объектов эмбеддятся с помощью MLP и прибавляются к эмбеддингам соответсвующих токенов. Всё это прогоняется через GPT-2 и на основе её аутпутов уже другая сеть предсказывает следующее действие. Обучается всё это на 20k примеров решений VirtualHome при помощи RL и Imitation Learning.

P.S. Есть ещё пара работ про RL + GPT, о которых я писал тут и тут.

Статья, блог, GitHub

👍36

23.1K views17:30

AbstractDL

OFA: нужно лишь спросить

One For All — мультимодальная модель от Alibaba, которая умеет решать практически все CV-NLP задачи:
- text2image generating
- image captioning
- image inpainting
- VQA
- object detection
- NLU

Мало того, что она побила кучу сот, но и впервые для переключения между задачами не требуется совсем никаких архитектурных изменений (как во Florence). Нужно всего лишь текстом указать что мы хотим: «Закрась центр картинки» или «Что находится в *координаты куска картинки*?». Но САМОЕ крутое здесь это то, что модель смогла обобщиться на новые задачи, которых не было во время обучения — главное правильно сформулировать, что от неё требуется.

Технические детали:
Это энкодер-декодер архитектура — гибрид VQVAE и BART. Для слов, координат и визуальных токенов используется общий словарь репрезентаций, благодаря чему можно произвольно комбинировать модальности. Обучается это всё только на общедоступных данных, за что отдельный респект.

Статья, GitHub, colab

👍41

5.71K viewsedited 13:08

AbstractDL

Forwarded from эйай ньюз

Ускорение диффузионных моделей 🔥

Еее! Вышла статья, которая ускоряет генерацию картинок с помощью диффузионных моделей моделей в 20 раз!

Ускорение достигается за счёт нового взгляда на диффузионные модели – предлагается смотреть на них как на дифференциальные уравнения, а диффуры мы умеем довольно быстро решать численными методами!

Дисклеймер: в статья красивая, но сложная математика!

Уже есть колаб с ускоренной диффузией. 16 примеров выше я сгенерил на Nvidia T4 за 5 минут (100 итерации). Запрос "Doggy, oil on canvas".

👍14

4.38K views19:35

AbstractDL

Forwarded from Derp Learning

3:12

Media is too big

VIEW IN TELEGRAM

Дошла очередь и до скетч-артистов.
Сетка генерит скетчи с заданным количеством линий на основе картинок.

Подробнее
Папирус
Код

Колаб (англ)

👍28

5.72K views07:54

AbstractDL

Fais ce que dois, advienne, que pourra — пора снова писать про нейронки, а новостей накопилось много:
- Chinchilla
- Flamingo
- Imagen
Ниже я подробно расскажу обо всём этом. И постараюсь больше так долго не пропадать, простите 🤦‍♂️

👍20

3.16K viewsedited 15:52

AbstractDL

Chinchilla: оптимальная языковая модель (by DeepMind)

Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).

Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.

Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.

Статья

👍29

7.61K viewsedited 15:52

AbstractDL

Flamingo: a Visual Language Model (by DeepMind)

На мой взгляд, это самая многообещающая работа за последнее время. Авторы представили модель, которая способна понимать смесь картинок и текста. Это позволяет решать кучу новых задач во few-shot режиме и даже вести визуальный диалог (см. картинку).

Идея довольно оригинальная — авторы предлагают вставить внутрь замороженной языковой модели (Chinchilla) дополнительные gated cross-attention блоки, которые будут показывать ей фичи от предобученного и замороженного визуального энкодера. А обучаются здесь ТОЛЬКО эти новые cross-attention блоки. В итоге получается языковая модель, с дополнительным вниманием на визуальные фичи картинок, вставленных в текст.

Для обучения собрали новый датасет — MultiModal MassiveWeb (M3W), состоящий из 43М веб-страниц, где картинки и текст идут вперемешку, а ещё к нему подмешивают датасет ALIGN.

Статья, GitHub

👍29

3.43K views15:52

AbstractDL

Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (by Google)

Исследователи из Google Research сделали, казалось бы, очевидную вещь — приделали замороженную языковую модель (T5) в качестве энкодера текста в text2image пайплайне.

И — о, чудо! Генерация картинок стала ещё лучше понимать текст! И вообще, выяснилось, что масштабирование текстового энкодера гораздо важнее чем увеличение размера генератора картинок. То есть в text2image всё-таки самая сложная часть — это text.

Помимо замены текстового энкодера авторы немного улучшили UNet в диффузии и представили «dynamic threasholding» — чуть более умный способ ограничения значений каждого пикселя картинки (это добавляет фотореализм).

А ещё, чтобы в дальнейшем было проще сравнивать text2image модели, авторы представили крошечный датасет drawbench из 200 сложных для генерации промптов («лошадь едет на человеке» и тд.)

Статья, блог, GitHub, colab, DrawBench

👍26

3.84K views15:53

AbstractDL

30-миллиардная модель OPT теперь доступна на Hugging Face!

Можно в несколько строк запустить самую большую и умную из доступных на сегодня языковых моделей 🤗

Статья, GitHub, HuggingFace

👍48

14.6K views15:26

AbstractDL

Forwarded from Derp Learning

Удобный интерфейс к text-image датасетам LAION 400m и 5B (400млн и 5млрд картинок соответственно)

Вводите текстовый запрос, CLIP находит нужные картинки, качаете табличку со ссылками, скачиваете и вуаля - датасет готов.

Тык

👍19👎1

3.68K views14:40

AbstractDL

GPT-3 умеет в ML!

Кто-то до сих пор считает, что все эти языковые модели умеют только запоминать и воспроизводить увиденное во время обучения?

Рад вас расстроить — они умеют гораздо больше! Тут попробовали во few-shot режиме скормить GPT-3 данные из Iris датасета, и она очень неплохо справилась — точность 95%! А ещё, она умеет в нелинейную регрессию (см. картинку).

Всё-таки языковые модели могут находить за токенами скрытый смысл 💁‍♂️

Блог, GitHub

👍33

4.33K viewsedited 14:40

AbstractDL

🔥Яндекс выложил YaLM 100B

Cейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Она обучалась 65 дней на 1,7 ТБ текстов на 800 видеокартах A100. На хабре можно почитать подробности её обучения.

GitHub, хабр

👍59👎3

4.96K views08:59

AbstractDL

Недообученные нейросети — лучшие feature экстракторы

К удивительному выводу пришли две независимые группы исследователей из Google и Baidu — чем дольше учить нейронную сеть, тем хуже выразительная способность её фичей. То есть, не смотря на рост top-1 accuracy по мере обучения, качество её репрезентаций в какой-то момент начинает падать!

VGG и AlexNet давно известны тем, что их фичи отлично подходят для оценки perceptual similarity, но оказалось, что и все современные SOTA модели тоже подходят — просто надо брать не самый последний чекпоинт.

Более того, похоже, что для down-stream задач тоже лучше использовать эмбеддинги от недообученных моделей.

P.S. Проблема в том, что в какой-то момент модель становится настолько умной, что её фичи только она сама и понимает 🤷‍♂️

статья1, статья2

👍55💯1

12.6K views11:09

AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

🔥В OpenAI научили нейронку играть в майнкрафт по видео из интернета

Их модель демонстрирует human-level перформанс и даже сама научилась создавать алмазную кирку! А для её создания нужно как минимум 24 тысячи игровых действий 🤯

Step-by-step:
1. Нанять несколько человек и разметить 100 часов игры (нажатия клавиш и движение мышки). Это обошлось всего в 2к$.
2. Обучить на этих данных модель для разметки новых видео.
3. Разметить в тысячу раз больше данных с помощью этой модели.
4. Обучить GPT-like архитектуру, которая по кадрам предсказывает дальнейшие действия игрока (behavioural cloning).
5. Зафайнтюнить эту модель при помощи RL (ppg), где reward даётся за крафтинг новых предметов.

Для борьбы с catastrophic forgetting они добавили KL лосс между старыми весами и новыми — это в несколько раз улучшило результат.

P.S. Вопреки традициям, OpenAI выложили и код и веса моделей! Датасеты тоже обещают скоро опубликовать.

Статья, блог, GitHub

👍44

5.52K views11:11

AbstractDL

Typical sampling: идеальный метод генерации текста

Языковые модели (например GPT) предсказывают распределение вероятностей следующего токена, но способов генерации текста из этих распределений очень много и у всех свои недостатки — зацикленность, скучность и даже «галлюцинации».

Оказалось, что главная проблема всех прежних подходов в том, что они ориентировались на перплексию текста и вероятность токенов, а нужно было на условную энтропию — это следует из информационной теории речи. Новый подход позволяет генерировать гораздо более связный, интересный и «человеческий» текст.

Но самое крутое — этот метод уже интегрирован в transformers! Нужно всего лишь добавить параметр генерации typical_p. Чем ниже этот параметр, тем более knowledgeable будет текст, а чем выше, тем более интересным и непредсказуемым.

Подробнее можно почитать тут.

Статья, GitHub

👍45👎3

5.53K viewsedited 17:01

About

Blog

Apps

Platform