AbstractDL – Telegram
AbstractDL
11.5K subscribers
244 photos
16 videos
282 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
GPT для чайников: от токенизации до файнтюнинга

Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉

colab, хабр
👍81
DeepPavlov выложил в открытый доступ DREAM — платформу для создания чатботов

Если вы хотите сделать свою Siri или Алексу, то DREAM — это то что вам нужно. Тут в одном месте собраны десятки ml-решений для «оркестрирования» скиллами бота, извлечения признаков из сообщений пользователей и многое другое. Для генерации ответов здесь интегрированы rule-based, generative-based и даже knowledge-graph-based подходы.

P.S. Новость увидел тут.

Статья, блог, GitHub, демо
👍24
Grokking: оверфиттинг это ещё не конец (by OpenAI)

Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.

У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.

Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.

Статья, видео
👍104
data2vec: Self-supervised Learning in Speech, Vision and Language (by Meta AI)

Картинки, звук, текст — три основные модальности данных. Большинство исследований концентрируются на какой-то одной из них: ViT, HuBERT, BERT, ведь не ясно как можно унифицировать обучение для всех трёх сразу.

В Meta AI придумали как уйти от специфичности конкретного формата данных и учить модель понимать вообще что угодно. Если коротко, то они предлагают «самодистиллировать» внутренние репрезентации модели, да ещё и в self-supervised режиме.

Если углубиться чуть сильнее, то станет ясно, что предложенный метод очень похож на DINO. Тут есть две модели: студент и учитель. Первая модель (студент) учится повторять активации второй модели из частично замаскированного инпута, а учитель — это экспоненциально сглаженные по времени веса студента.

Оказалось, что самый обыкновенный трансформер, обученный таким способом, показывает крутейшие результаты на каждой из трёх модальностей по отдельности.

Статья, GitHub
👍29
🔥Туториалы от Hugging Face

Это просто бомба! Тут в одном месте (тык) собраны материалы для всех основных задач в NLP, CV и Audio (см. картинку). Здесь есть примеры, видео с объяснениями, предобученные модели и даже датасеты.

P.S. Новость увидел тут.
👍36
Forwarded from эйай ньюз
ShiftViT: An Extremely Simple Alternative to Attention Mechanism

Мелкософт говорит, что селф-атеншен больше не нужен в задачах зрения. Предлагают вместо него просто каналы случайно подвигать в плоскости картинки.

Судя по всему, это должно работать быстрее. По результатам точность на Imagenet почти как у трансформеров, чуть-чуть ниже.

Статья | Код
👍18
🔥InstructGPT: новое поколение GPT от OpenAI

Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.

В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.

P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.

Статья, блог, GitHub
👍21
Соревнование по анализу аргументации антиковидных мер

Мои друзья из Сколтеха запустили соревнование про ковид. Там нужно научить модель определять позицию автора текста про вакцинацию и разделять аргументы (за/против) из комментариев.

В качестве обучающих данных есть размеченный датасет из 9000 текстов на русском языке.

P.S. Дедлайн 11 февраля.

Сайт, CodaLab, чат
👍18
This media is not supported in your browser
VIEW IN TELEGRAM
GPT + RL = Decision Making

Это гениально! Ребята из гугла показали, как с помощью RL можно научить GPT-2 управлять виртуальным агентом и решать сложные задачи: на видео он выполняет команду «найди и положи две вилки в холодильник».

Идея очень простая: действия агента, его цель и наблюдения кодируются в виде слов, координаты объектов эмбеддятся с помощью MLP и прибавляются к эмбеддингам соответсвующих токенов. Всё это прогоняется через GPT-2 и на основе её аутпутов уже другая сеть предсказывает следующее действие. Обучается всё это на 20k примеров решений VirtualHome при помощи RL и Imitation Learning.

P.S. Есть ещё пара работ про RL + GPT, о которых я писал тут и тут.

Статья, блог, GitHub
👍36
OFA: нужно лишь спросить

One For All — мультимодальная модель от Alibaba, которая умеет решать практически все CV-NLP задачи:
- text2image generating
- image captioning
- image inpainting
- VQA
- object detection
- NLU

Мало того, что она побила кучу сот, но и впервые для переключения между задачами не требуется совсем никаких архитектурных изменений (как во Florence). Нужно всего лишь текстом указать что мы хотим: «Закрась центр картинки» или «Что находится в *координаты куска картинки*?». Но САМОЕ крутое здесь это то, что модель смогла обобщиться на новые задачи, которых не было во время обучения — главное правильно сформулировать, что от неё требуется.

Технические детали:
Это энкодер-декодер архитектура — гибрид VQVAE и BART. Для слов, координат и визуальных токенов используется общий словарь репрезентаций, благодаря чему можно произвольно комбинировать модальности. Обучается это всё только на общедоступных данных, за что отдельный респект.

Статья, GitHub, colab
👍41
Forwarded from эйай ньюз
Ускорение диффузионных моделей 🔥

Еее! Вышла статья, которая ускоряет генерацию картинок с помощью диффузионных моделей моделей в 20 раз!

Ускорение достигается за счёт нового взгляда на диффузионные модели – предлагается смотреть на них как на дифференциальные уравнения, а диффуры мы умеем довольно быстро решать численными методами!

Дисклеймер: в статья красивая, но сложная математика!

Уже есть колаб с ускоренной диффузией. 16 примеров выше я сгенерил на Nvidia T4 за 5 минут (100 итерации). Запрос "Doggy, oil on canvas".
👍14
Forwarded from Derp Learning
Media is too big
VIEW IN TELEGRAM
Дошла очередь и до скетч-артистов.
Сетка генерит скетчи с заданным количеством линий на основе картинок.

Подробнее
Папирус
Код

Колаб (англ)
👍28
Fais ce que dois, advienne, que pourra — пора снова писать про нейронки, а новостей накопилось много:
- Chinchilla
- Flamingo
- Imagen
Ниже я подробно расскажу обо всём этом. И постараюсь больше так долго не пропадать, простите 🤦‍♂️
👍20
Chinchilla: оптимальная языковая модель (by DeepMind)

Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).

Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.

Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.

Статья
👍29
Flamingo: a Visual Language Model (by DeepMind)

На мой взгляд, это самая многообещающая работа за последнее время. Авторы представили модель, которая способна понимать смесь картинок и текста. Это позволяет решать кучу новых задач во few-shot режиме и даже вести визуальный диалог (см. картинку).

Идея довольно оригинальная — авторы предлагают вставить внутрь замороженной языковой модели (Chinchilla) дополнительные gated cross-attention блоки, которые будут показывать ей фичи от предобученного и замороженного визуального энкодера. А обучаются здесь ТОЛЬКО эти новые cross-attention блоки. В итоге получается языковая модель, с дополнительным вниманием на визуальные фичи картинок, вставленных в текст.

Для обучения собрали новый датасет — MultiModal MassiveWeb (M3W), состоящий из 43М веб-страниц, где картинки и текст идут вперемешку, а ещё к нему подмешивают датасет ALIGN.

Статья, GitHub
👍29
Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (by Google)

Исследователи из Google Research сделали, казалось бы, очевидную вещь — приделали замороженную языковую модель (T5) в качестве энкодера текста в text2image пайплайне.

И — о, чудо! Генерация картинок стала ещё лучше понимать текст! И вообще, выяснилось, что масштабирование текстового энкодера гораздо важнее чем увеличение размера генератора картинок. То есть в text2image всё-таки самая сложная часть — это text.

Помимо замены текстового энкодера авторы немного улучшили UNet в диффузии и представили «dynamic threasholding» — чуть более умный способ ограничения значений каждого пикселя картинки (это добавляет фотореализм).

А ещё, чтобы в дальнейшем было проще сравнивать text2image модели, авторы представили крошечный датасет drawbench из 200 сложных для генерации промптов («лошадь едет на человеке» и тд.)

Статья, блог, GitHub, colab, DrawBench
👍26
30-миллиардная модель OPT теперь доступна на Hugging Face!

Можно в несколько строк запустить самую большую и умную из доступных на сегодня языковых моделей 🤗

Статья, GitHub, HuggingFace
👍48
Forwarded from Derp Learning
Удобный интерфейс к text-image датасетам LAION 400m и 5B (400млн и 5млрд картинок соответственно)

Вводите текстовый запрос, CLIP находит нужные картинки, качаете табличку со ссылками, скачиваете и вуаля - датасет готов.

Тык
👍19👎1
GPT-3 умеет в ML!

Кто-то до сих пор считает, что все эти языковые модели умеют только запоминать и воспроизводить увиденное во время обучения?

Рад вас расстроить — они умеют гораздо больше! Тут попробовали во few-shot режиме скормить GPT-3 данные из Iris датасета, и она очень неплохо справилась — точность 95%! А ещё, она умеет в нелинейную регрессию (см. картинку).

Всё-таки языковые модели могут находить за токенами скрытый смысл 💁‍♂️

Блог, GitHub
👍33
🔥Яндекс выложил YaLM 100B

Cейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Она обучалась 65 дней на 1,7 ТБ текстов на 800 видеокартах A100. На хабре можно почитать подробности её обучения.

GitHub, хабр
👍59👎3