Revisiting Simple Neural Probabilistic Language Models
Sun and Iyyer [UMass Amherst]
arxiv.org/abs/2104.03474
Помните на курсе по NLP мы говорили, что просто конкатенировать эмбеддинги текста и пихать их в полносвязную сетку — это тупо и не работает? И что лучше использовать RNN/Трансфрмеры.
В общем это не совсем так. Если сделать полносвязную сетку из 16 слоёв с layer norm, dropout и skip connections, то на коротких контекстах (<20 токенов) она работает сопоставимо с трансформерами на языковом моделировании 🤯
Кажется, мне нужно будет переделать пару слайдов...
Sun and Iyyer [UMass Amherst]
arxiv.org/abs/2104.03474
Помните на курсе по NLP мы говорили, что просто конкатенировать эмбеддинги текста и пихать их в полносвязную сетку — это тупо и не работает? И что лучше использовать RNN/Трансфрмеры.
В общем это не совсем так. Если сделать полносвязную сетку из 16 слоёв с layer norm, dropout и skip connections, то на коротких контекстах (<20 токенов) она работает сопоставимо с трансформерами на языковом моделировании 🤯
Кажется, мне нужно будет переделать пару слайдов...
Неделя начинается с NVIDIA GTC, блогпостов по prompt enginering и рассуждений на тему того, почему 🔥 лучше 💩
1. NVIDIA GTC 2021 — бесплатная конфа, много интересных спикеров начиная с Hinton, Bengio, LeCun и продолжая более локальными коммьютини, например Lightning и DeepPavlov там тоже будут
1. How many data points is a prompt worth? — от 100 до 3000, если верить 🤗
1. How usability improves performance in PyTorch
1. Блогпост на тему Approximating How Single-Head Attention Learns; статью мы недавно обозревали в канале
1. Интересный взгляд на ADAM от Tim Dettmers: по сути это такой фильтр Калмана для градиентов
1. PyTorch in Tesla — чтобы вы потом могли ответить, а где его используют в проде
1. Efficient Large-Scale Language Model Training on GPU Clusters — про то, как тяжело жить, когда у вас 3 тысячи GPU
1. NVIDIA GTC 2021 — бесплатная конфа, много интересных спикеров начиная с Hinton, Bengio, LeCun и продолжая более локальными коммьютини, например Lightning и DeepPavlov там тоже будут
1. How many data points is a prompt worth? — от 100 до 3000, если верить 🤗
1. How usability improves performance in PyTorch
1. Блогпост на тему Approximating How Single-Head Attention Learns; статью мы недавно обозревали в канале
1. Интересный взгляд на ADAM от Tim Dettmers: по сути это такой фильтр Калмана для градиентов
1. PyTorch in Tesla — чтобы вы потом могли ответить, а где его используют в проде
1. Efficient Large-Scale Language Model Training on GPU Clusters — про то, как тяжело жить, когда у вас 3 тысячи GPU
NVIDIA
NVIDIA CEO Jensen Huang Keynote at GTC 2025
Watch NVIDIA CEO Jensen Huang deliver a truly ground-breaking GTC keynote happening on March 17-21, 2025.
Generating Datasets with Pretrained Language Models
Schick and Schütze, [LMU Munich]
arxiv.org/abs/2104.07540
У нас есть классные генеративные языковые модели, которые могут решать (с каким-то качеством) любые NLP задачи. Но такие большие модели и в прод их не покатишь. Очевидным решением будет использовать такие модели для грязной разметки ваших данных — придумать несклько примеров и устроить few-show классификацию с помощью GPT-2/3. Schick and Schütze пошли дальше и предлагают геренировать не только лейблы, но и примеры. После чего обучать на этом модельку. К сожалению делают это только для задачи semantic similarity (было бы интересно посмотреть на NER), но результаты очень неплохи. Их моделька обходит InferSent, USE, SentenceBERT/SentenceRoBERTa на 7 датасетах.
Schick and Schütze, [LMU Munich]
arxiv.org/abs/2104.07540
У нас есть классные генеративные языковые модели, которые могут решать (с каким-то качеством) любые NLP задачи. Но такие большие модели и в прод их не покатишь. Очевидным решением будет использовать такие модели для грязной разметки ваших данных — придумать несклько примеров и устроить few-show классификацию с помощью GPT-2/3. Schick and Schütze пошли дальше и предлагают геренировать не только лейблы, но и примеры. После чего обучать на этом модельку. К сожалению делают это только для задачи semantic similarity (было бы интересно посмотреть на NER), но результаты очень неплохи. Их моделька обходит InferSent, USE, SentenceBERT/SentenceRoBERTa на 7 датасетах.
Пачка ссылок:
1. ADAPET — новый метод few-shot learning основанный на GPT-2/3 и prompts. Обходит PET и iPET без дополнительных даннных.
1. Scaling up BERT-like model Inference on modern CPU - Part 1
1. Controllable Text Generation — презентация PhD-диссера
1. 🤗 Accelerate — единая обёртка для CPU/GPU/distributed/TPU. Поделитесь в группе впечатлениями, кто уже пробовал.
1. How to Train BERT with an Academic Budget — TL;DR используйте LARGE вместо BASE, maxlen=128 и DeepSpeed.
1. XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation — более экстремальная эвалюация мультизяычных моделек, плюс овервью текущего состояния этой области. Тепрь включает и аналог Checklist
1. ADAPET — новый метод few-shot learning основанный на GPT-2/3 и prompts. Обходит PET и iPET без дополнительных даннных.
1. Scaling up BERT-like model Inference on modern CPU - Part 1
1. Controllable Text Generation — презентация PhD-диссера
1. 🤗 Accelerate — единая обёртка для CPU/GPU/distributed/TPU. Поделитесь в группе впечатлениями, кто уже пробовал.
1. How to Train BERT with an Academic Budget — TL;DR используйте LARGE вместо BASE, maxlen=128 и DeepSpeed.
1. XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation — более экстремальная эвалюация мультизяычных моделек, плюс овервью текущего состояния этой области. Тепрь включает и аналог Checklist
huggingface.co
Scaling-up BERT Inference on CPU (Part 1)
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Pattern-exploiting training
Сегодня на reading group презентовал маленький обзор по методам, использующим prompts. GPT-3, PET, iPET, ADAPET, LM-BFF, p-tuning. Получилось нелпохо, держите посмотреть, не стесняйтесь что-то спрашивать в чате.
https://docs.google.com/presentation/d/1b59JIrBdIhwbz1A3yzQ_c2Rexte4xFX_0AHOtp6zkNM/edit#slide=id.p
Сегодня на reading group презентовал маленький обзор по методам, использующим prompts. GPT-3, PET, iPET, ADAPET, LM-BFF, p-tuning. Получилось нелпохо, держите посмотреть, не стесняйтесь что-то спрашивать в чате.
https://docs.google.com/presentation/d/1b59JIrBdIhwbz1A3yzQ_c2Rexte4xFX_0AHOtp6zkNM/edit#slide=id.p
Google Docs
Pattern-exploiting training
Pattern-exploiting training (a short overview) Apr 20, 2021
Samsung Innovation Campus - AI Lectorium
youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK
Внезапно обнаружил много лекций от московского Samsung AI Center. Уроверь скорее advanced и ожидает, что вы уже хорошо знакомы с нейростеками. По большей части лекции ближе по тематике к CV, но есть и более общие темы: например о том, как ускорять инференс и ставить эксперименты. Ещё очень хочу выделить лекцию про GAN, где они рассматриваются достаточно абстрактно и не присязаны сильно к изображениям — получилось просто 🔥.
Кстати у них в конце плейлиста видно запланированную на 28 апреля лекцию по суммаризации текста, так что можно ожидать больше NLP.
youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK
Внезапно обнаружил много лекций от московского Samsung AI Center. Уроверь скорее advanced и ожидает, что вы уже хорошо знакомы с нейростеками. По большей части лекции ближе по тематике к CV, но есть и более общие темы: например о том, как ускорять инференс и ставить эксперименты. Ещё очень хочу выделить лекцию про GAN, где они рассматриваются достаточно абстрактно и не присязаны сильно к изображениям — получилось просто 🔥.
Кстати у них в конце плейлиста видно запланированную на 28 апреля лекцию по суммаризации текста, так что можно ожидать больше NLP.
Яндекс.Толока проводит воркшоп на конференции VLDB 2021: https://crowdscience.ai/conference_events/vldb21
В рамках него проходит соревнование:
https://crowdscience.ai/challenges/vldb21
где участникам предлагается построить модели, которые дают лучшую speech-to-text транскрипцию.
Призовой фонд - $6000
В рамках него проходит соревнование:
https://crowdscience.ai/challenges/vldb21
где участникам предлагается построить модели, которые дают лучшую speech-to-text транскрипцию.
Призовой фонд - $6000
Which transformer architecture fits my data? A vocabulary bottleneck in self-attention
Wies et al.
arxiv.org/abs/2105.03928
Авторы пытаются понять как подбирать гиперпараметры для трансформера и приходят к выводу, что размер словаря очень важен и зачастую ограничивает capacity архитектуры.
Wies et al.
arxiv.org/abs/2105.03928
Авторы пытаются понять как подбирать гиперпараметры для трансформера и приходят к выводу, что размер словаря очень важен и зачастую ограничивает capacity архитектуры.
Rethinking Positional Encoding in Language Pre-training
Ke, He, and Liu, [Microsoft]
arxiv.org/abs/2006.15595
Последнее время видно всё больше статей, которые пытаются разобраться в том, как работает / как улучшить positional encoding в трансформерах. В этой статье авторы рассуждают, что трансформер улавливает корреляции между словами и между позициями слов. Предлагают модифицировать архитекутуру, чтобы явно разделить эти две штуки. Если по классике на вход в attention приходит word emb + pos emb, то авторы предлагают считать два attention: число для word и чисто для pos, а потом их скоры (перед софтмаксом) складывать. Второй хак, который придумали авторы: это убрать из векторов CLS-токена информацию об абсолютных позициях: просто заменив в positional scores скоры CLS на выучиваемую константу.
По результатам: обучили BERT с такой архитектурой, улучшили GLUE, красивые виуализации positional scores.
Было бы интересно сравнить картинки word scores с attention scores в обычном BERT, но такого в статье нету =(
Ke, He, and Liu, [Microsoft]
arxiv.org/abs/2006.15595
Последнее время видно всё больше статей, которые пытаются разобраться в том, как работает / как улучшить positional encoding в трансформерах. В этой статье авторы рассуждают, что трансформер улавливает корреляции между словами и между позициями слов. Предлагают модифицировать архитекутуру, чтобы явно разделить эти две штуки. Если по классике на вход в attention приходит word emb + pos emb, то авторы предлагают считать два attention: число для word и чисто для pos, а потом их скоры (перед софтмаксом) складывать. Второй хак, который придумали авторы: это убрать из векторов CLS-токена информацию об абсолютных позициях: просто заменив в positional scores скоры CLS на выучиваемую константу.
По результатам: обучили BERT с такой архитектурой, улучшили GLUE, красивые виуализации positional scores.
Было бы интересно сравнить картинки word scores с attention scores в обычном BERT, но такого в статье нету =(
FNet: Mixing Tokens with Fourier Transforms
Lee-Thorp et al., [Google]
arxiv.org/abs/2105.03824
Заменяем self-attention на обычное преобразование Фурье (хоть прямо
За наводку спасибо @Liehtman
Lee-Thorp et al., [Google]
arxiv.org/abs/2105.03824
Заменяем self-attention на обычное преобразование Фурье (хоть прямо
torch.fft) и трансформер продолжает (хорошо) работать. Ускорение в 8 раз на GPU и в 2 раза на TPU. На GLUE показывает заметно худшие результаты чем обычных трансформер, но обходит старые подходы типа GPT-1 и ELMo. На Long-Range Arena близок к трансформеру. Пожалуй это самая безумная но одновременнно и эффектная альтернатива self-attention, которую я видел за последний год. Вангую, что attention не заменит, но это хороший прогресс в поиске новых архитектур.За наводку спасибо @Liehtman
👍1
Rethinking Skip Connection with Layer Normalization in Transformers and ResNets
arxiv.org/abs/2105.07205
Liu et al.
Авторы анализируют различные комбинации skip connection и batch/layer norm. Показывают, что нормализация критична для того, чтобы градиенты не взрывалась/затухали. Также предлагают новый блок, в котором мы применяем skip и LN несколько раз подряд, где skip всегда идёт от оригинального инпута (параметры LN зашарены).
Показывают стабильное небольшое улучшение на нескольких языках WMT-14 и на CIFAR.
arxiv.org/abs/2105.07205
Liu et al.
Авторы анализируют различные комбинации skip connection и batch/layer norm. Показывают, что нормализация критична для того, чтобы градиенты не взрывалась/затухали. Также предлагают новый блок, в котором мы применяем skip и LN несколько раз подряд, где skip всегда идёт от оригинального инпута (параметры LN зашарены).
Показывают стабильное небольшое улучшение на нескольких языках WMT-14 и на CIFAR.
Forwarded from PDP-11🚀
🏋🏼Google finally released TPU v4, it will be avaliable for customers later this year.
🥴The previous v3 version was unveiled in 2018 and the v4 is claimed to be twice as fast.
🌽TPU v4 combines in a 4096 chips sumercomputer that reaches 1 exaFLOPs (10**18) of performance
Read more on [hpcwire] and watch the video Google I/O ‘21
🥴The previous v3 version was unveiled in 2018 and the v4 is claimed to be twice as fast.
🌽TPU v4 combines in a 4096 chips sumercomputer that reaches 1 exaFLOPs (10**18) of performance
Read more on [hpcwire] and watch the video Google I/O ‘21
Unsupervised Speech Recognition
ai.facebook.com/research/publications/unsupervised-speech-recognition
FAIR придумал как обучать системы распознавания речи без размеченных данных 🤯
Для этого звуки кластеризуют на фонемы, обучают что-то типа BERT на этих фонемах, после чего выполняют процедуру adversarial алайнмента между фонемами и текстом а-ля MUSE.
На самом деле дьявол в деталях, оч рекомендую прочитать статью.
ai.facebook.com/research/publications/unsupervised-speech-recognition
FAIR придумал как обучать системы распознавания речи без размеченных данных 🤯
Для этого звуки кластеризуют на фонемы, обучают что-то типа BERT на этих фонемах, после чего выполняют процедуру adversarial алайнмента между фонемами и текстом а-ля MUSE.
На самом деле дьявол в деталях, оч рекомендую прочитать статью.
Facebook
Unsupervised Speech Recognition | Meta AI Research
Despite rapid progress in the recent past, current speech recognition systems still require labeled training data which limits this technology to a small...
True Few-Shot Learning with Language Models
Perez et al.
arxiv.org/abs/2105.11447
Мы буквально несколько недель назад восхищались PET, iPET, ADAPET и другими штуками, например ещё "how many data points is a prompt worth". Perez et al в своей новой статье указывают на один косяк во всех предыдущих статьях по few-shot — наличие валидационного сета, который далеко не few-shot и на котором вы тюните ваши гиперпараметры и подбираете промты.
В статье показывают, что качество ADAPET очень сильно зависит от всего этого и в случае, когда у вас действительно мало размеченных (валидационных) данных вы можете быть очень далеко от близких к SOTA (да и вообще к применимым на практике) решениям.
В общем вывод стандартный: размечайте данные (хотя бы небольшую валидационную выборку), это единственый надёжный метод получить хорошую модель.
Perez et al.
arxiv.org/abs/2105.11447
Мы буквально несколько недель назад восхищались PET, iPET, ADAPET и другими штуками, например ещё "how many data points is a prompt worth". Perez et al в своей новой статье указывают на один косяк во всех предыдущих статьях по few-shot — наличие валидационного сета, который далеко не few-shot и на котором вы тюните ваши гиперпараметры и подбираете промты.
В статье показывают, что качество ADAPET очень сильно зависит от всего этого и в случае, когда у вас действительно мало размеченных (валидационных) данных вы можете быть очень далеко от близких к SOTA (да и вообще к применимым на практике) решениям.
В общем вывод стандартный: размечайте данные (хотя бы небольшую валидационную выборку), это единственый надёжный метод получить хорошую модель.
Forwarded from эйай ньюз
Китайцы очень любят делать объёмные обзоры той или иной подобласти машинного обучения с перечислением основных работ и главными прорывными идеями. Статей выходит очень много каждый день, и невозможно все прочесть. Поэтому такие обзоры ценны (если качественно написаны, конечно, что довольно редко).
Недавно вышла очень неплохая статья-обзор различных вариантов Трансформеров с фокусом на моделировании языка (NLP). Это мастр-рид для всех, кто начинает работать с NLP и интересуется Трансформерами. В статье рассматриваются базовые принципы работы self-attention и такие подробности современных вариантов Трансформеров как модификации архитектуры, претрейнинг и их приложения.
Статья: A Survey of Transformers.
Недавно вышла очень неплохая статья-обзор различных вариантов Трансформеров с фокусом на моделировании языка (NLP). Это мастр-рид для всех, кто начинает работать с NLP и интересуется Трансформерами. В статье рассматриваются базовые принципы работы self-attention и такие подробности современных вариантов Трансформеров как модификации архитектуры, претрейнинг и их приложения.
Статья: A Survey of Transformers.