This media is not supported in your browser
VIEW IN TELEGRAM
GPT для чайников: от токенизации до файнтюнинга
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
colab, хабр
Сделал для вас небольшой colab туториал про GPT. Там подробно и с примерами разобраны такие темы как:
1. Устройство GPT-1,2,3
2. Токенизация
3. Методы генерации текста
4. Файнтюнинг (прям в колабе)
Если вы давно хотели поиграться с GPT, но всё не доходили руки, то новогодние праздники — самое время 😉
colab, хабр
👍81
DeepPavlov выложил в открытый доступ DREAM — платформу для создания чатботов
Если вы хотите сделать свою Siri или Алексу, то DREAM — это то что вам нужно. Тут в одном месте собраны десятки ml-решений для «оркестрирования» скиллами бота, извлечения признаков из сообщений пользователей и многое другое. Для генерации ответов здесь интегрированы rule-based, generative-based и даже knowledge-graph-based подходы.
P.S. Новость увидел тут.
Статья, блог, GitHub, демо
Если вы хотите сделать свою Siri или Алексу, то DREAM — это то что вам нужно. Тут в одном месте собраны десятки ml-решений для «оркестрирования» скиллами бота, извлечения признаков из сообщений пользователей и многое другое. Для генерации ответов здесь интегрированы rule-based, generative-based и даже knowledge-graph-based подходы.
P.S. Новость увидел тут.
Статья, блог, GitHub, демо
👍24
Grokking: оверфиттинг это ещё не конец (by OpenAI)
Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.
У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.
Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.
Статья, видео
Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.
У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.
Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.
Статья, видео
👍104
data2vec: Self-supervised Learning in Speech, Vision and Language (by Meta AI)
Картинки, звук, текст — три основные модальности данных. Большинство исследований концентрируются на какой-то одной из них: ViT, HuBERT, BERT, ведь не ясно как можно унифицировать обучение для всех трёх сразу.
В Meta AI придумали как уйти от специфичности конкретного формата данных и учить модель понимать вообще что угодно. Если коротко, то они предлагают «самодистиллировать» внутренние репрезентации модели, да ещё и в self-supervised режиме.
Если углубиться чуть сильнее, то станет ясно, что предложенный метод очень похож на DINO. Тут есть две модели: студент и учитель. Первая модель (студент) учится повторять активации второй модели из частично замаскированного инпута, а учитель — это экспоненциально сглаженные по времени веса студента.
Оказалось, что самый обыкновенный трансформер, обученный таким способом, показывает крутейшие результаты на каждой из трёх модальностей по отдельности.
Статья, GitHub
Картинки, звук, текст — три основные модальности данных. Большинство исследований концентрируются на какой-то одной из них: ViT, HuBERT, BERT, ведь не ясно как можно унифицировать обучение для всех трёх сразу.
В Meta AI придумали как уйти от специфичности конкретного формата данных и учить модель понимать вообще что угодно. Если коротко, то они предлагают «самодистиллировать» внутренние репрезентации модели, да ещё и в self-supervised режиме.
Если углубиться чуть сильнее, то станет ясно, что предложенный метод очень похож на DINO. Тут есть две модели: студент и учитель. Первая модель (студент) учится повторять активации второй модели из частично замаскированного инпута, а учитель — это экспоненциально сглаженные по времени веса студента.
Оказалось, что самый обыкновенный трансформер, обученный таким способом, показывает крутейшие результаты на каждой из трёх модальностей по отдельности.
Статья, GitHub
👍29
Forwarded from эйай ньюз
ShiftViT: An Extremely Simple Alternative to Attention Mechanism
Мелкософт говорит, что селф-атеншен больше не нужен в задачах зрения. Предлагают вместо него просто каналы случайно подвигать в плоскости картинки.
Судя по всему, это должно работать быстрее. По результатам точность на Imagenet почти как у трансформеров, чуть-чуть ниже.
Статья | Код
Мелкософт говорит, что селф-атеншен больше не нужен в задачах зрения. Предлагают вместо него просто каналы случайно подвигать в плоскости картинки.
Судя по всему, это должно работать быстрее. По результатам точность на Imagenet почти как у трансформеров, чуть-чуть ниже.
Статья | Код
👍18
🔥InstructGPT: новое поколение GPT от OpenAI
Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.
В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.
P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.
Статья, блог, GitHub
Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.
В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.
P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.
Статья, блог, GitHub
👍21
Соревнование по анализу аргументации антиковидных мер
Мои друзья из Сколтеха запустили соревнование про ковид. Там нужно научить модель определять позицию автора текста про вакцинацию и разделять аргументы (за/против) из комментариев.
В качестве обучающих данных есть размеченный датасет из 9000 текстов на русском языке.
P.S. Дедлайн 11 февраля.
Сайт, CodaLab, чат
Мои друзья из Сколтеха запустили соревнование про ковид. Там нужно научить модель определять позицию автора текста про вакцинацию и разделять аргументы (за/против) из комментариев.
В качестве обучающих данных есть размеченный датасет из 9000 текстов на русском языке.
P.S. Дедлайн 11 февраля.
Сайт, CodaLab, чат
👍18
This media is not supported in your browser
VIEW IN TELEGRAM
GPT + RL = Decision Making
Это гениально! Ребята из гугла показали, как с помощью RL можно научить GPT-2 управлять виртуальным агентом и решать сложные задачи: на видео он выполняет команду «найди и положи две вилки в холодильник».
Идея очень простая: действия агента, его цель и наблюдения кодируются в виде слов, координаты объектов эмбеддятся с помощью MLP и прибавляются к эмбеддингам соответсвующих токенов. Всё это прогоняется через GPT-2 и на основе её аутпутов уже другая сеть предсказывает следующее действие. Обучается всё это на 20k примеров решений VirtualHome при помощи RL и Imitation Learning.
P.S. Есть ещё пара работ про RL + GPT, о которых я писал тут и тут.
Статья, блог, GitHub
Это гениально! Ребята из гугла показали, как с помощью RL можно научить GPT-2 управлять виртуальным агентом и решать сложные задачи: на видео он выполняет команду «найди и положи две вилки в холодильник».
Идея очень простая: действия агента, его цель и наблюдения кодируются в виде слов, координаты объектов эмбеддятся с помощью MLP и прибавляются к эмбеддингам соответсвующих токенов. Всё это прогоняется через GPT-2 и на основе её аутпутов уже другая сеть предсказывает следующее действие. Обучается всё это на 20k примеров решений VirtualHome при помощи RL и Imitation Learning.
P.S. Есть ещё пара работ про RL + GPT, о которых я писал тут и тут.
Статья, блог, GitHub
👍36
OFA: нужно лишь спросить
One For All — мультимодальная модель от Alibaba, которая умеет решать практически все CV-NLP задачи:
- text2image generating
- image captioning
- image inpainting
- VQA
- object detection
- NLU
Мало того, что она побила кучу сот, но и впервые для переключения между задачами не требуется совсем никаких архитектурных изменений (как во Florence). Нужно всего лишь текстом указать что мы хотим: «Закрась центр картинки» или «Что находится в *координаты куска картинки*?». Но САМОЕ крутое здесь это то, что модель смогла обобщиться на новые задачи, которых не было во время обучения — главное правильно сформулировать, что от неё требуется.
Технические детали:
Это энкодер-декодер архитектура — гибрид VQVAE и BART. Для слов, координат и визуальных токенов используется общий словарь репрезентаций, благодаря чему можно произвольно комбинировать модальности. Обучается это всё только на общедоступных данных, за что отдельный респект.
Статья, GitHub, colab
One For All — мультимодальная модель от Alibaba, которая умеет решать практически все CV-NLP задачи:
- text2image generating
- image captioning
- image inpainting
- VQA
- object detection
- NLU
Мало того, что она побила кучу сот, но и впервые для переключения между задачами не требуется совсем никаких архитектурных изменений (как во Florence). Нужно всего лишь текстом указать что мы хотим: «Закрась центр картинки» или «Что находится в *координаты куска картинки*?». Но САМОЕ крутое здесь это то, что модель смогла обобщиться на новые задачи, которых не было во время обучения — главное правильно сформулировать, что от неё требуется.
Технические детали:
Это энкодер-декодер архитектура — гибрид VQVAE и BART. Для слов, координат и визуальных токенов используется общий словарь репрезентаций, благодаря чему можно произвольно комбинировать модальности. Обучается это всё только на общедоступных данных, за что отдельный респект.
Статья, GitHub, colab
👍41
Forwarded from эйай ньюз
Ускорение диффузионных моделей 🔥
Еее! Вышла статья, которая ускоряет генерацию картинок с помощью диффузионных моделей моделей в 20 раз!
Ускорение достигается за счёт нового взгляда на диффузионные модели – предлагается смотреть на них как на дифференциальные уравнения, а диффуры мы умеем довольно быстро решать численными методами!
Дисклеймер: в статья красивая, но сложная математика!
Уже есть колаб с ускоренной диффузией. 16 примеров выше я сгенерил на Nvidia T4 за 5 минут (100 итерации). Запрос "Doggy, oil on canvas".
Еее! Вышла статья, которая ускоряет генерацию картинок с помощью диффузионных моделей моделей в 20 раз!
Ускорение достигается за счёт нового взгляда на диффузионные модели – предлагается смотреть на них как на дифференциальные уравнения, а диффуры мы умеем довольно быстро решать численными методами!
Дисклеймер: в статья красивая, но сложная математика!
Уже есть колаб с ускоренной диффузией. 16 примеров выше я сгенерил на Nvidia T4 за 5 минут (100 итерации). Запрос "Doggy, oil on canvas".
👍14
Forwarded from Derp Learning
Media is too big
VIEW IN TELEGRAM
Дошла очередь и до скетч-артистов.
Сетка генерит скетчи с заданным количеством линий на основе картинок.
Подробнее
Папирус
Код
Колаб (англ)
Сетка генерит скетчи с заданным количеством линий на основе картинок.
Подробнее
Папирус
Код
Колаб (англ)
👍28
Fais ce que dois, advienne, que pourra — пора снова писать про нейронки, а новостей накопилось много:
- Chinchilla
- Flamingo
- Imagen
Ниже я подробно расскажу обо всём этом. И постараюсь больше так долго не пропадать, простите 🤦♂️
- Chinchilla
- Flamingo
- Imagen
Ниже я подробно расскажу обо всём этом. И постараюсь больше так долго не пропадать, простите 🤦♂️
👍20
Chinchilla: оптимальная языковая модель (by DeepMind)
Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).
Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.
Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.
Статья
Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).
Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.
Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.
Статья
👍29
Flamingo: a Visual Language Model (by DeepMind)
На мой взгляд, это самая многообещающая работа за последнее время. Авторы представили модель, которая способна понимать смесь картинок и текста. Это позволяет решать кучу новых задач во few-shot режиме и даже вести визуальный диалог (см. картинку).
Идея довольно оригинальная — авторы предлагают вставить внутрь замороженной языковой модели (Chinchilla) дополнительные gated cross-attention блоки, которые будут показывать ей фичи от предобученного и замороженного визуального энкодера. А обучаются здесь ТОЛЬКО эти новые cross-attention блоки. В итоге получается языковая модель, с дополнительным вниманием на визуальные фичи картинок, вставленных в текст.
Для обучения собрали новый датасет — MultiModal MassiveWeb (M3W), состоящий из 43М веб-страниц, где картинки и текст идут вперемешку, а ещё к нему подмешивают датасет ALIGN.
Статья, GitHub
На мой взгляд, это самая многообещающая работа за последнее время. Авторы представили модель, которая способна понимать смесь картинок и текста. Это позволяет решать кучу новых задач во few-shot режиме и даже вести визуальный диалог (см. картинку).
Идея довольно оригинальная — авторы предлагают вставить внутрь замороженной языковой модели (Chinchilla) дополнительные gated cross-attention блоки, которые будут показывать ей фичи от предобученного и замороженного визуального энкодера. А обучаются здесь ТОЛЬКО эти новые cross-attention блоки. В итоге получается языковая модель, с дополнительным вниманием на визуальные фичи картинок, вставленных в текст.
Для обучения собрали новый датасет — MultiModal MassiveWeb (M3W), состоящий из 43М веб-страниц, где картинки и текст идут вперемешку, а ещё к нему подмешивают датасет ALIGN.
Статья, GitHub
👍29
Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (by Google)
Исследователи из Google Research сделали, казалось бы, очевидную вещь — приделали замороженную языковую модель (T5) в качестве энкодера текста в text2image пайплайне.
И — о, чудо! Генерация картинок стала ещё лучше понимать текст! И вообще, выяснилось, что масштабирование текстового энкодера гораздо важнее чем увеличение размера генератора картинок. То есть в text2image всё-таки самая сложная часть — это text.
Помимо замены текстового энкодера авторы немного улучшили UNet в диффузии и представили «dynamic threasholding» — чуть более умный способ ограничения значений каждого пикселя картинки (это добавляет фотореализм).
А ещё, чтобы в дальнейшем было проще сравнивать text2image модели, авторы представили крошечный датасет drawbench из 200 сложных для генерации промптов («лошадь едет на человеке» и тд.)
Статья, блог, GitHub, colab, DrawBench
Исследователи из Google Research сделали, казалось бы, очевидную вещь — приделали замороженную языковую модель (T5) в качестве энкодера текста в text2image пайплайне.
И — о, чудо! Генерация картинок стала ещё лучше понимать текст! И вообще, выяснилось, что масштабирование текстового энкодера гораздо важнее чем увеличение размера генератора картинок. То есть в text2image всё-таки самая сложная часть — это text.
Помимо замены текстового энкодера авторы немного улучшили UNet в диффузии и представили «dynamic threasholding» — чуть более умный способ ограничения значений каждого пикселя картинки (это добавляет фотореализм).
А ещё, чтобы в дальнейшем было проще сравнивать text2image модели, авторы представили крошечный датасет drawbench из 200 сложных для генерации промптов («лошадь едет на человеке» и тд.)
Статья, блог, GitHub, colab, DrawBench
👍26
30-миллиардная модель OPT теперь доступна на Hugging Face!
Можно в несколько строк запустить самую большую и умную из доступных на сегодня языковых моделей 🤗
Статья, GitHub, HuggingFace
Можно в несколько строк запустить самую большую и умную из доступных на сегодня языковых моделей 🤗
Статья, GitHub, HuggingFace
👍48
Forwarded from Derp Learning
Удобный интерфейс к text-image датасетам LAION 400m и 5B (400млн и 5млрд картинок соответственно)
Вводите текстовый запрос, CLIP находит нужные картинки, качаете табличку со ссылками, скачиваете и вуаля - датасет готов.
Тык
Вводите текстовый запрос, CLIP находит нужные картинки, качаете табличку со ссылками, скачиваете и вуаля - датасет готов.
Тык
👍19👎1
GPT-3 умеет в ML!
Кто-то до сих пор считает, что все эти языковые модели умеют только запоминать и воспроизводить увиденное во время обучения?
Рад вас расстроить — они умеют гораздо больше! Тут попробовали во few-shot режиме скормить GPT-3 данные из Iris датасета, и она очень неплохо справилась — точность 95%! А ещё, она умеет в нелинейную регрессию (см. картинку).
Всё-таки языковые модели могут находить за токенами скрытый смысл 💁♂️
Блог, GitHub
Кто-то до сих пор считает, что все эти языковые модели умеют только запоминать и воспроизводить увиденное во время обучения?
Рад вас расстроить — они умеют гораздо больше! Тут попробовали во few-shot режиме скормить GPT-3 данные из Iris датасета, и она очень неплохо справилась — точность 95%! А ещё, она умеет в нелинейную регрессию (см. картинку).
Всё-таки языковые модели могут находить за токенами скрытый смысл 💁♂️
Блог, GitHub
👍33