NEW BOT Телеграм, страница

DL in NLP

Optimizing Data usage via Differentiable Rewards
Wang, Pham et al. [CMU and Google Brain]
arxiv.org/abs/1911.10088

Идея: разнные данные по-разному полезны, давайте натренируем RL агента выбирать те, которые уменьшают лосс на dev-сете сильнее всего
Предположение: dev больше похож на test, чем train
Кому это надо: да почти всем, у кого плохое качество разметки. Вы размечаете свой большой train как можете, а dev очень-очень аккуратно (например, сами или требуете более высокий overlap от разметчиков)
Конкретный сигнал на обучение агента: похожесть градиента датапоинта на градииент на dev-сете.

Экспериментировали на классификации изображений и на низкоресурсном машинном переводе. Переводили с азейбайджанского, белорусского, галисийского и словацкого на английский. Тренировались на датасете из турецкого, русского, португальского и чешского, а низкоресурсные использовали в качестве dev. В среднем их метод добавляет меньше 0.5 BLEU, но когда ваш BLEU = 11, это довольно много.

2.39K viewsnlpcontroller_bot, 17:20

👍 7

DL in NLP

1.82K viewsnlpcontroller_bot, 17:20

DL in NLP

1.77K viewsnlpcontroller_bot, 17:20

DL in NLP

The Level 3 AI Assistant Conference
June 18, 2020 | Online
www.l3-ai.dev

Бесплатная конфа по Conversational AI. Из интересных для меня докладов нашёл:
1. Testing: The Art of Challenging Chatbots, Botium
1. Designing Practical NLP Solutions, Explosion.ai (создатели spaCy)
1. From Research to Production – Our Process at Rasa, Rasa
1. Distilling BERT, Rasa
1. Current Research in Conversational AI, много спикеров включая Rachael Tatman, Thomas Wolf и Anna Rogers
1. Google's Meena: Open Dialog systems, Google

Выглядит неплохо, надо регистрироваться.

2.06K viewsnlpcontroller_bot, 17:40

👍 10

DL in NLP

API OpenAI Очень странная штука, но выглядит забавно. openai.com/blog/openai-api/

UPD по OpenAI API.

Много кто, включая меня, решили что это какая-то непонятная замена вашему любимому zsh. Это не так, это API по всем тем моделькам, которые не помещаются на вашу GPU. Replika уже внедрила GPT-3 к себе в прод и получили заметный скачок в метриках (см график).
Вы тоже можете запросить доступ в бету для своего продукта / рисёча.

Обсуждение в ODS с разрабами из реплики.

3.08K viewsVlad Lialin, edited 18:03

DL in NLP

VirTex: Learning Visual Representations from Textual Annotations
Desai and Johnson [University of Michigan]
arxiv.org/abs/2006.06666v1

TL;DR предобучение для задач CV на задаче image captioning более sample-efficient, чем предобучение на ImageNet-классификации.

Обучали resnet+transformer lm. В качестве задачи выбрали комбинацию forward LM и backward LM, аналогично ELMo. Хотели попробовать MLM тоже, но не умеестились в compute.

Много людей считают, что связывание CV и NLP будет очень активно развиваться в ближайшие пару лет, я с ними согласен.

2K viewsnlpcontroller_bot, 16:39

👍 7

DL in NLP

1.92K viewsnlpcontroller_bot, 16:39

DL in NLP

Одной строкой:

1. Релиз AllenNLP 1.0
1. Специализация по NLP от deeplearning.ai
1. Насколько сильнно twitter влияет на цитируемость статьи
1. Релиз PyTorch Lightning ⚡0.8
1. L3AI идёт прямо сейчас, подключайтесь

спасибо @someotherusername за ссылки

Medium

Announcing AllenNLP 1.0

The 1.0 version of AllenNLP is the culmination of several months of work from our engineering team. The AllenNLP library has had…

2.28K viewsnlpcontroller_bot, edited 16:54

👍 9

DL in NLP

Memory Transformer
Burtsev and Sapunov
arxiv.org/abs/2006.11527

Cтатья от iPavlov и Intento в которой экспериентирют с пустыми токенами в трансформерах. По аналогии с SEP токенами, добавляют по 10-30 MEM токенов. Интуиция тут такая, что потенциально туда трансформер может складывать полезную инфоормацию, например какое-то сжатое описание всего текста. В экспериментах с WMT14 en-de смогло докинуть 1 BLEU к ванильному трансформеру в Base версии. Визуализация attention MEM токенов намекает на то, что они действительно хранят глобальный контекст а так же выполняют с ними операции типа чтения, записи и копирования.

В том числе экспериментировали с более сложным подходом в котором key и value использюется эмбеддинги памяти, а не эмбеддинги токенов, но не зашло.

Результаты довольно неожиданные в контексте свежих статей по интерпретации attention, которые показали, что CLS и SEP используются как своеобразные "выключатели" голов. Было бы интересно посмотреть не только на веса attention, но и на нормы аутпутов, как в статье Atteniton Module is Not Only a Weight.

2.42K viewsnlpcontroller_bot, edited 15:32

👍 23

DL in NLP

2.31K viewsnlpcontroller_bot, 15:32

DL in NLP

2.35K viewsnlpcontroller_bot, 15:32

DL in NLP

Forwarded from Catalyst | Community

I am trilled to announce our second post - BERT Distillation with Catalyst.
Distilling BERT models can minimize loss, reduce model sizes, and speed up inferences. Check it out!

Huge thank you to Nikita for this great tutorial.
https://medium.com/pytorch/bert-distillation-with-catalyst-c6f30c985854?source=friends_link&sk=1a28469ac8c0e6e6ad35bd26dfd95dd9

Medium

BERT Distillation with Catalyst

How to distill BERT with Catalyst.

423 viewsVlad Lialin, 14:25

DL in NLP

Статьи в одну строчку:

1. arxiv.org/abs/2006.13979 - мультиязычный претренинг а-ля XLM можно успешно использовать для предобучения моделей распознавания речи (twitter)
1. arxiv.org/abs/2006.13484 - тренировка BERT за 54 минуты с помощью больших батчей, LAMB + Nesterov и нового lr schedule
1. arxiv.org/abs/2006.14170 - нецентрализованный differentially private метод тренировки NLP моделей
1. arxiv.org/abs/2006.12005 - GAN для контролируемой генерации текста, который работает плохо, но зато быстро
1. arxiv.org/abs/1901.06436 - латентное графовое представление для машинного перевода

Twitter

Alexis Conneau

Unsupervised Cross-lingual Representation Learning for Speech Recognition: https://t.co/zyz4Z3mWBV Our self-supervised learning approach learns cross-lingual speech representations by pretraining a single model from the raw waveform in multiple languages.

2.32K viewsnlpcontroller_bot, 16:50

👍 13

DL in NLP

Forwarded from Soslan Tabuev

Свежий обзор зоопарка трансформеров от Григория Сапунова на онлайн-конфе GDG DevParty Russia:

https://www.youtube.com/watch?v=KZ9NXYcXVBY

YouTube

Григорий Сапунов | Transformer Zoo

Плейлист Mobile: https://www.youtube.com/playlist?list=PLGlZ_ld11os_JyZ6xVAWEZ-rnxrLjrGH5
Плейлист Web: https://www.youtube.com/playlist?list=PLGlZ_ld11os-nnB5CG_p6brIUWMGXU5Tr
Плейлист Cloud: https://www.youtube.com/playlist?list=PLGlZ_ld11os8QYBOSM8KU3INh244iFXKK…

2.13K viewsVlad Lialin, 13:03

DL in NLP

Статьи в одну строчку #2

1. Большой обзор + сравнение различных графовых эмбеддингов. Рассмотрены различные модели (~19), методы сэмплирования, лосс-функции и другие гиперпараметры. Все эксперименты заняли 21,246 GPU часов 😮 (тык)
1. Дифференцируемый (soft) KNN на замену softmax. В том числе на заменту softmax в attention. Модель аутперформит трансформер на 0.8 BLEU на WMT16 en-de (тык).
1. Pre-training via paraphasing. Пусть вам дан текст X, ранжировщик нашёл вам тексты Y1, Y2, ..., YN (возможно, даже на другиих языках). Модель тренируется восстанавливать текст X по Y1, .., YN. Аутперфомит MLM на мультиязычных тасках. (тык)

2.2K viewsnlpcontroller_bot, edited 13:58

👍 14

DL in NLP

Большой релиз 🤗 Transformers 3.0

Улучшили API токенизаторов, теперь можно токенизировать в numpy-тензоры, padding и truncation теперь нормально работать вместе, исправили проблемы с сохранением-загрузкой 🎉

Обещают, что серьезно подчистили модельки TF (но вы знаете единственный верный способ улучшить модели на TF)

Много улучшений документации, включая примеры использования seq2seq. Кстати в них используют ⚡️, вместо внутреннего Trainer и я тоже очень советую так делать.

Также куча мелких изменений включая бенчмарки, новые модели и примерно 10 млн багфиксов.

Сэкономлю вам немного времени:
pip install transformers --upgrade

GitHub

Release New tokenizer API, TensorFlow improvements, enhanced documentation & tutorials · huggingface/transformers

New tokenizer API, TensorFlow improvements, enhanced documentation & tutorials
Breaking changes since v2

In #4874 the language modeling BERT has been split in two: BertForMaskedLM and BertLMHe...

2.41K viewsnlpcontroller_bot, edited 13:15

🔥 28

DL in NLP

One little detail about NoamLR

2.23K viewsnlpcontroller_bot, 22:25

🤪 24

DL in NLP

Тут написали разрабы самой Наташи. У них появилась компактная моделька NER, которая спокойно соревнуется с RuBERT. Думаю много кому будет полезно.

natasha.github.io/ner

"Удалось получить качество на 1 процентный пункт хуже, чем у Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек) чем BERT NER на GPU. Если коротко, там дистилляция BERT NER в WordCNN-CRF + квантизация + инференс на Numpy."

natasha.github.io

Natasha — качественный компактный NER для русского языка

Извлечение имён, названий топонимов и организаций из новостных статей

3.1K viewsnlpcontroller_bot, 13:57

👍 29

DL in NLP

https://twitter.com/lacker/status/1279136788326432771

Twitter

Kevin Lacker

GPT-3 can't quite pass a coding phone screen, but it's getting closer.

3.72K viewsVlad Lialin, 05:15

DL in NLP

Для любителей книг PyTorch бесплатно раздаёт Deep Learning with PyTorch Antiga, Stevens, and Viehmann.

Я не любитель книг по DL, но решил посмотреть. Короткий обзор:

1. Очень забавный стиль картинок
1. Код без подсветки это ад ада
1. Глава "Why can’t we just throw data at a neural network until it works?" топ
1. Есть глава про деплоймент, к сожалению там Flask, но зато JIT и TorchScript разбирают
1. NLP нет совсем (но пост уже написан, поэтому всё равно опубликую тут)

3.51K viewsnlpcontroller_bot, 14:53

👍 20

DL in NLP

Отличный твит о пяти недооцененных статьях с прошедшего ACL.
тык

Twitter

Tom McCoy

Thread about five #acl2020nlp papers that haven’t gotten the hype they deserve:

2.37K viewsnlpcontroller_bot, 07:04

👍 10

About

Blog

Apps

Platform