NEW BOT Телеграм, страница

Channel created

20:49

AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data

Liheng Zhang, Guo-Jun Qi, Liqiang Wang, Jiebo Luo
(University of Central Florida, Huawei Cloud, University of Rochester)

https://arxiv.org/abs/1901.04596

#AE #unsupervised #representation_learning

Прикольная идея про выучивание произведённых над данными трансформаций вместо выучивания восстановления самих данных (как в обычном автоэнкодере, Auto-encoding Data, AED).

Идея в том, что мы сэмплим из некоторого заготовленного пространства возможных операций трансформации изображений, применяем выбранную трансформацию к изображению, и подаём на автоэнкодер исходное и трансформированное изображение. Автоэнкодер должен на выходе корректно восстановить трансформацию (отсюда название Auto-encoding Transformations, AET).

Обсуждаются три вида преобразований:
1) Параметрические преобразования (например, афинные — тогда функция ошибки это L2 от разности матриц параметров);
2) GAN-преобразования (с генератором, принимающим на вход изображение в дополнение к обычному шуму z — loss тогда это снова L2, но теперь от разности z);
3) Непараметрические (где loss это матожидание расстояния между двумя трансформированными изображениями).

Дальше в работе рассматривают только параметрические преобразования. Это типа проще реализовывать, а также проще сравнивать с другими unsupervised методами.

Показывают, что AET выучивает классные фичи, с использованием которых потом простенькие классификаторы приближаются к результатам supervised моделей (на датасетах CIFAR-10, ImageNet, Places).

arXiv.org

AET vs. AED: Unsupervised Representation Learning by Auto-Encoding...

The success of deep neural networks often relies on a large amount of labeled
examples, which can be difficult to obtain in many real scenarios. To address
this challenge, unsupervised methods are...

1.1K viewsedited 05:55

gonzo-обзоры ML статей

965 views05:58

gonzo-обзоры ML статей

951 views06:01

gonzo-обзоры ML статей

Channel photo updated

15:49

gonzo-обзоры ML статей

Large scale distributed neural network training through online distillation

Rohan Anil, Gabriel Pereyra, Alexandre Passos, Robert Ormandi, George E. Dahl, Geoffrey E. Hinton
(Google, DeepMind, Google Brain)

https://arxiv.org/abs/1804.03235

#SGD #distributed #distillation

Идея дистилляции моделей заключается в том, что по какой-то хорошей но тяжёлой модели-учителю (например, ансамблю) можно построить другую заменяющую её модель-студента, которая будет учиться предсказывать результаты модели учителя (через дополнительный терм в лосс-функции).

В данной работе рассматривается ко-дистилляция, подразумевающая:
1) Одинаковую архитектуру всех моделей
2) Общий обучающий датасет
3) Дополнительный distillation loss во время обучения, не дожидаясь пока процесс полностью сойдётся.

Онлайн дистилляция происходит не отдельным этапом после обучения хорошей модели, а в процессе распределённого SGD (то есть происходит одновременное обучение студента и учителя).

Из практики известно, что синхронный SGD скейлится плохо (после какого-то момента), а асинхронный вообще плохо работает (отставшие градиенты всё портят).

Кодистилляция решает несколько проблем:
1) Отставшие предсказания не так страшны, как отставшие градиенты
2) В синхронном/асинхронном распределённом SGD надо обмениваться большим количеством данных, а в случае кодистилляции эти объёмы существенно меньше (и делать их можно реже)

В работе пробовали проверить лимиты асинхронного [распределённого] SGD, но не добились стабильности и сфокусировались на синхронном.

Нашли лимит после которого он неэффективен (в смысле обучение не ускоряется, оказалось 128 воркеров), попробовали кодистилляцию с двумя группами по 128 воркеров, а также ансамбль из двух сеток обученных на 128 воркерах. Кодистилляция сработала, обучается быстрее чем SGD на 128 воркерах, а качество близко к ансамблю. Profit!

В общем если у вас масштабы Гугла, то классная технология :)

arXiv.org

Large scale distributed neural network training through online distillation

Techniques such as ensembling and distillation promise model quality improvements when paired with almost any base model. However, due to increased test-time cost (for ensembles) and increased...

1.07K viewsedited 21:05

gonzo-обзоры ML статей

1.03K views21:11

gonzo-обзоры ML статей

1.09K views21:12

gonzo-обзоры ML статей

Word Translation Without Parallel Data
Conneau A. Lample G. Ranzato M. et.al.
Facebook AI Research
статья: https://arxiv.org/abs/1710.04087
код: https://github.com/facebookresearch/MUSE

#unsupervised #NMT #NLP

Пусть у нас есть два корпуса на разных языках, они не выровнены, но примерно об одном и том же. У каждого корпуса есть словарь, у слов словаря есть эмбеддинги (или можем их построить). Задача: построить "выровненные" эмбеддинги, т.е. такие, чтобы эмбеддинги перевода слова в обоих языках имели похожие вектора.

Классический путь:
Для небольшого числа (5000) слов знаем пары (переводы), ищем матрицу поворота W, которая минимизирует невязку между парами. Матрицу можно искать среди ортогональных, тогда есть явное решение через SVD разложение (Procrustes solution).

Предлагаемый путь:
1) Делаем очень условное соответствие: инициализируем как-то W, строим дискриминатор, который отличает Wx от у. На сигнале от дискриминатора учим такое W, которое его обманывает. Это приводит к тому, что облако Wx поворачивается так, чтобы его форма совпала с облаком y. Использование ортогональной матрицы, а также изменение только одной стороны гарантирует, что дискриминатор не схлопнет оба облака в неразличимые, но неинтересные нам вырожденные пятна.

2) Теперь хотим уточнить наше приближение. Попробуем учесть тот факт, что вектора частотных слов более точные. Берём наиболее частотные слова в обоих датасетах, оставляем из них только такие пары (x,y), что:
- х частотное слово в первом языке,
- у частотное слово во втором языке,
- y -- ближайший сосед к Wx,
- Wx -- ближайший сосед к y.
Получаем опорное множество слов -- они частотные, их немного, и мы достаточно уверены в их соответствии. Ищем для них уточнённое W с помощью классического Procrustes solution. Применяем это W ко всем словам в Х.

3) Ближайшие соседи в многомерных пространствах довольно хитрая штука, часто образуются хабы, которые являются ближайшим соседом к большому числу других вершин, это будет мешать матчингу слов. Для борьбы с этим вводим модифицированное расстояние CSLS(Wx, y), локально искривляющее пространство вокруг частотных слов путём штрафа за перенаселённые окрестности (вычитаем среднее косинусное расстояние от Wx до KNN Wx в эмбеддингах первого языка и среднее косинусное расстояние от y до KNN y в эмбеддингах первого языка).

Бонус: в репозитории выкладывают кучу выровненных словарей для разных языков.

1.64K views13:52

gonzo-обзоры ML статей

1.36K views13:52

gonzo-обзоры ML статей

1.45K views13:52

gonzo-обзоры ML статей

SC-FEGAN: Face Editing Generative Adversarial Network with User's Sketch and Color
Youngjoo Jo, Jongyoul Park (ETRI, South Korea)

Статья: https://arxiv.org/abs/1902.06838
Код: https://github.com/JoYoungjoo/SC-FEGAN

#GAN

Авторы собрали сетку для редактирования фотографий лиц (512x512). На вход принимает изображение, маску (в каком месте надо поправить), а также внутри этой маски скетч и цвета. После этого модифицирует фотографию должным образом. Выглядит весьма круто.

Генератор полностью свёрточный в стиле U-net. Использует gated convolution (из https://arxiv.org/abs/1806.03589) и, что неожиданно, LRN (я думал, оно совсем неэффективно и померло). Обучается с кучей разных loss’ов: per-pixel, perceptual, style, total variance плюс обычный GAN loss.

Дискриминатор по типу Spectral-Normalized Markovian Discriminator (SN-PatchGAN, тоже из указанной выше статьи, считает GAN loss по каждому элементу выходного feature map’а и усредняет), использует spectral normalization (SN) convolution layer (из https://arxiv.org/abs/1802.0595) и также WGAN-GP loss (из https://arxiv.org/abs/1704.00028).

Для обучения нужна хитрая разметка (картинка + маска + скетч + цвет + шум), и авторы сумели также собрать пайплайн по подготовке её из датасета CelebA-HQ.

Что ещё интересно, обучали на машине с IBM Power9 + NVIDIA Tesla V100. Power9 это такая замечательная система, где NVLink 2.0 есть между процессором и картой. То есть теоретически скорость обмена данными может быть до 150 GB/s против 15.75 GB/s для видеокарты на PCIe v3 x16. На этой системе есть также PCIe v.4 с в два раза большей пропускной способностью чем v3, но на фоне NVLink это уже неинтересно. Подробности тут: https://blog.inten.to/hardware-for-deep-learning-part-3-gpu-8906c1644664

В общем классные результаты, редактирование фоток (пока лиц) неподготовленным пользователем потенциально сильно упрощается. Ждём продуктов на базе этой технологии. Писать дальше нечего, надо смотреть картинки или играться с кодом :)

arXiv.org

SC-FEGAN: Face Editing Generative Adversarial Network with...

We present a novel image editing system that generates images as the user provides free-form mask, sketch and color as an input. Our system consist of a end-to-end trainable convolutional network....

👍1

1.7K viewsedited 22:07

gonzo-обзоры ML статей

1.49K views22:09

gonzo-обзоры ML статей

Face editing

1.59K viewsedited 22:10

About

Blog

Apps

Platform