gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.35K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
Jonathan Frankle, Michael Carbin
CSAIL MIT

Статья: https://arxiv.org/abs/1803.03635

#CNN, #FFNN, #optimization, #pruning, #ICLR 2019

Статья немного про природу вещей. Рассматривают dense feed-forward neural networks, полносвязные и/или CNN. Известно, что методы network pruning позволяют эффективно ужать уже обученную сеть -- выкинуть заметную часть параметров (связей) без потерь качества (в ряде случаев удаётся снизить объём на 90%). Известно, кроме того, что сразу научить такую уменьшенную сеть до того же качества не выходит.

Авторы выдвигают гипотезу "лотерейного билета": любая случайно инициализированная плотная сеть, обучаемая на заданный таргет, содержит некоторую подсеть, которая, будучи обученной на тот же таргет, даст качество не хуже за то же или меньшее число итераций обучения. В целом, это утверждение имеет как минимум тривиальное подтверждение, но авторы утверждают, что это эффективная подсеть обычно существенно меньше основной. Такие эффективные подсети называют "winning tickets".

Интуиция тут такая: Начиная обучать случайно инициализированную сеть, оптимизатор просто ищет уже готовый подходящий канал внутри случайной сети, а дальше уже именно этот путь оптимизируется, а остальная сеть не очень то и нужна. В плотной сети число возможных путей от входа к выходу растёт с числом нейронов существенно надлинейно. Поэтому, чем больше сеть взять в начале, тем больше шансов сразу получить подходящий подграф.

Проводят серию экспериментов для подтверждения этой гипотезы:
1) Возьмём большую случайно инициализированную сеть Х, сохраним её копию С.
2) Обучим Х, применим к ней pruning, получим редуцированную обученную сеть У (размером 10-20% от Х).
3) Вернёмся к сохранённой копии С, редуцируем её до тех же параметров, что остались в У, но веса оставим случайными (из С) -- это будет сеть Z.
4) Обучим Z и сравним сходимость с Х. Качество должно получиться не хуже, а сходимость -- не медленнее.
5) Затем вернёмся к Z и вновь переинициализируем её случайным образом, пусть это будет сеть R. Опять сравним с X и Z. Если гипотеза верна, всё должно ухудшиться.
6) Ещё можно сравниться со случайным подграфом Х того же размера что Z.

В целом, результаты экспериментов скорее подтверждают гипотезу, по крайней мере для простых топологий. Дальше в статье идёт разбор таких экспериментов для некоторого числа разных задач, топологий и методов оптимизации.

Общие выводы:
- текущая схема обучения сетей не очень эффективна, есть куда улучшаться, например, в сторону более эффективной начальной инициализации (но не очень понятно как),
- можно попробовать определять winning tickets на ранних стадиях обучения большой сети и делать ранний pruning к ним -- это может повысить эффективность обучения на практике.
🔥7
Regularizing and Optimizing LSTM Language Models
Stephen Merity, Nitish Shirish Keskar, Richard Socher
Salesforce Research

#LM #regularization #NLP #ICLR #2018

Статья: https://arxiv.org/abs/1708.02182
Пара пересказов: https://yashuseth.blog/2018/09/12/awd-lstm-explanation-understanding-language-model/, https://medium.com/@bingobee01/a-review-of-dropout-as-applied-to-rnns-72e79ecd5b7b
Родной код на pytorch: https://github.com/salesforce/awd-lstm-lm

Довольно упоротая работа, также известна под кодовым названием AWD-LSTM. Суть статьи в том, как из уже известных костылей можно собрать SOTA для LM. Правда SOTA это было в 2017 году, но как обзор регуляризационных техник -- довольно полезно. Ну и оно всё ещё используется, например, ULMFiT на нём собран.

База такая:
- архитектура -- стандартный LM на базе RNN
- ядро -- многослойный LSTM или GRU или QRNN
- используют tie weights (синхронизация весов эмбеддингов в энкодере и декодере)

Дропауты:
- обычный Dropout.
- Locked Dropout (аналог variational dropout) -- dropout элементов, статичный на всё время обработки батча, используется между слоями RNN.
- DropConnect aka WeightDrop -- это Locked Dropout, но для весов на связях сети, а не активаций, используется на скрытом состоянии между тактами RNN.
- Embedding Dropout -- при обработке батча dropout на эмбеддинги делается так, что у всех слов синхронно дропаются одни и те же координаты.

Работа с градиентом:
- используют схему переключения между SGD и average SGD, утверждают, что для задач типа LM это лучше чем Adam или momentum SGD
- используют weight decay
- для каждого батча делают BPTT рандомизированной длины, при этом делают поправку на LR в зависимости от этой длины.
- используют обычный gradient clipping
- Activation Regularization (AR) -- дополнительная регуляризация на число активированных нейронов
- Temporal Activation Regularization (AR) -- аналогично, но на первую производную числа активированных нейронов

Приводят сравнительныей анализ эффективности этих методов, см табличку:
Identity Crisis: Memorization and Generalization under Extreme Overparameterization
Chiyuan Zhang, Samy Bengio, Moritz Hardt, Yoram Singer
Google AI

Статья: https://arxiv.org/abs/1902.04698

#CNN, #FCN, #FFNN, #optimization, #memorization, #generalization, 2019

Ещё одна занятная статья про природу вещей.
Известно, что машинное обучение обычно сходится к компромису между запоминанием обучающей выборки и её обобщением.
Авторы исследуют следующий вопрос -- какие из архитектур сетей более склонны к заучиванию вместо обобщения.

Для этого рассматривается эксперимент в любопытной постановке:
- Возьмём достаточно большую (overparametrized) сеть (рассматривались полносвязные сети и СNN).
- Будем учить её выдавать вход на выход, MSE; но будем учить её только на одном примере А, N(А) = А.
- У такой задачи могут быть различные решения, в частности, есть два крайних случая: сеть выучивает константу N(X) = A, и сеть выучивает тождественную функцию N(X) = X. На практике получается что-то промежуточное. При этом авторы утверждают, что константа соответствует запоминанию, а тождественная функция -- обобщению.
- Далее, в режиме теста на примерах В, отличных от А, можно, сравнивая Corr(B, N(B)) и Corr(A, N(B)), понять, к чему ближе результат обучения -- к константе или к тождественной функции.

Используя этот подход, авторы тестируют:
- полносвязные линейные сети (склонны учить константу, а на совсем неизвестных входах -- шум),
- полносвязные нелинейные сети (склонны учить константу, но более эффективно, чем линейные),
- CNN (на малом числе слоёв учат тождественное преобразование, с увеличением числа слоёв плавно переходят к константе).

Дальше детальнее разбирают зависимость результата в случае CNN от разных факторов.
Understanding and Improving Interpolation in Autoencoders via an Adversarial Regularizer
David Berthelot, Colin Raffel, Aurko Roy, Ian Goodfellow
Google Brain

#AE, #VAE, #representation, #ICLR 2019

Статья: https://arxiv.org/abs/1807.07543
Родной код на tf: https://github.com/brain-research/acai
Неродной код на pytorch: https://gist.github.com/kylemcdonald/e8ca989584b3b0e6526c0a737ed412f0

В статье рассматривается архитектура AE. В простейшем виде она сопоставляет каждому кодируемому объекту вектор в некотором фиксированном пространстве, но никаких дополнительных свойств этого пространства не гарантирует. Всякие модификации архитектуры (DAE, VAE, AAE, VQ-VAE) фактически накладывают на это пространство дополнительные ограничения, что даёт дополнительные удобства при его использовании.

Авторы предлагают архитектуру Adversarially Constrained Autoencoder Interpolation (ACAI), призванную строить более непрерывные, гладкие пространства представлений. Достигается это за счёт достаточно простого и красивого трюка:
- возьмём случайно два реальных объекта из обучающей выборки x1, x2, построим их свёртки l1 = E(x1), l2 = E(x2)
- возьмём случайное значение alpha (0 .. 0.5) и построим интерполяцию между свёртками l3 = alpha*l1 + (1-alpha)*l2
- декодируем объект из этого интерполированного представления y3 = D(l3)
- пусть критик (с архитектурой, такой же как у энкодера) пытается угадать alpha по y3, т.е. alpha_critic = C(y3)
За успех критика будем штрафовать энкодер и декодер, т.е. АЕ будет стараться делать так, чтобы критик предсказывал всегда нулевое значение alpha. Такая регуляризация приводит к тому, что области латентного пространства между представлениями реальных объектов гладко заполняются правдоподобными объектами. На практике (в коде) вся эта конструкция подпёрта ещё парой костылей, но общий смысл остаётся прежним.

Гладкость тестируют числено и органолептически на модельных задачах + оценивают качество на downstream задачах классификации и кластеризации. Сравниваются с другими АЕ-моделями, почти везде выигрывают (на втором месте обычно VAE).
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang

Статья: https://arxiv.org/abs/1901.08746
BioBERT pre-trained weights: https://github.com/naver/biobert-pretrained
Код для fine-tuning на NER/RE/QA: https://github.com/dmis-lab/biobert

Работа из серии “давайте прикрутим BERT ещё к какой-нибудь задаче и сделаем новый state-of-the-art”. Прикрутили BERT для анализа биомедицинских текстов.

Причём прикрутили не просто BERT, а дообученный на биомед текстах (BioBERT).

BioBERT = 1) BERT (претренированный на general domain типа En-Wikipedia, BookCorpus) + 2) претренировка на биомед текстах (PubMed abstracts, PMC full texts) + 3) fine-tuning на конкретную задачу.

Проверяли на задачах: Named Entity Extraction, Relation Extraction, Question Answering.

Что интересно, некоторые из задач с крайне маленькими датасетами (QA дообучался на 327, 486 или 618 примерах; NER и RE максимум на нескольких десятках тысяч, 30681 -- самый крупный датасет).

В общем, как полагается, хорошо побили предыдущие результаты.

Поразительно, как хорошо работает на мелких датасетах в QA.

В итоге новый кубик в копилку тех, кто работает с биомед текстами.

Использовали свою платформу NSML (NAVER Smart Machine Learning, подробнее тут: https://arxiv.org/abs/1712.05902, NSML: A Machine Learning Platform That Enables You to Focus on Your Models).
Overview of the pre-training and fine-tuning of BioBERT
Do we train on test data? Purging CIFAR of near-duplicates
Björn Barz, Joachim Denzler
Статья: https://arxiv.org/abs/1902.00423
Исправленный CIFAR, ciFAIR: https://cvjena.github.io/cifair/

Забавная статья про то, как в обоих картиночных датасетах CIFAR (10 и 100) обнаружили дубликаты между трейн и тест сетами, а также внутри тест сетов. И соответственно все оценки качества моделей на CIFAR завышены и могут быть перекошены в сторону запоминания вместо обобщения.

Проблема в том, что датасеты отфильтрованы недостаточно хорошо. Попиксельные дубликаты из них убраны, но остались другие дубликаты (near-duplicates) типа картинок с небольшими сдвигами или кропами, изменениями яркости и просто очень похожие объекты, различить которые можно только внимательно вглядываясь.

Найдено 3.3% дубликатов в CIFAR-10 и 10% (!) дубликатов в CIFAR-100. Рассматривается только кейс, когда для картинок из тест сета есть дубликаты в соответствующих трейн сетах. Дубликаты внутри самих трейн сетов не рассматриваются, потому что bias конечно вносят (на каких-то картинках сеть обучается больше), но оценку качества не смещают.

Дубликаты обнаруживают автоматизированной процедурой. Для каждого объекта находится ближайший в пространстве эмбеддингов из обученной на трейн сете CNN (взяты L2 нормализованные фичи с одного из верхних слоёв), а затем все пары отсматриваются вручную и размечаются людьми.

Все найденные дубликаты вычищены, заменены на картинки аналогичных классов, взятые из того же датасета-предшественника, из которого был собран CIFAR (это датасет Tiny Images, http://groups.csail.mit.edu/vision/TinyImages/, собранный из картиночной поисковой выдачи по запросам для synset’ов WordNet). Получился честный CIFAR (Fair CIFAR, ciFAIR), который можно взять по ссылке из начала поста.

Результаты моделей пересчитали (есть сложность, обученных на CIFAR моделей не опубликовано, поэтому обучали заново на референсных архитектурах), посчитали разницу в качестве (в среднем ошибка возросла на 0.41% для CIFAR-10 и на 2.73% на CIFAR-100; порядок лидеров не поменялся кроме одной пары на CIFAR-10). На сайте с датасетом есть лидерборд.

Вывод: в целом оферфита на дубликаты не произошло, и это хорошо (при этом модели, на которых проверялись, обладают достаточной capacity, чтобы тупо всё запомнить). Но всё-таки как-то неаккуратненько!

Следите за своими датасетами.