Мишин Лернинг – Telegram
Мишин Лернинг
7.77K subscribers
1.18K photos
151 videos
4 files
643 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта. 🇺🇦🇮🇱
Download Telegram
Forwarded from DL in NLP (nlpcontroller_bot)
​​XLM-E: Cross-lingual Language Model Pre-training via ELECTRA
Chi et al. [Microsoft]
arxiv.org/abs/2106.16138

Помните XLM-R? BERT-like модельку, где MLM делали на парах [предложение] [SEP] [перевод] и таким образом обучали классную мультиязычную модель?

В этой статье сделали то же самое, но c задачкой ELECTRA, где модель не заменет MASK на пропущенные слова, а пытается детектировать какие слова оригинальные, а какие подменённые (просто бинарная классификация). Подменой слов занимается другая модель, которая учится как BERT.

По результатам XLM-E показывает 100-кратное уменьшение FLOPS для предобучения и заметный буст в cross-lingual zero-shot transfer. Приятно читается, жалко только что кода XLM-E по ссылки из статьи нету.
🏆 Адаптировал Zero-Shot Image Transfer для создания портретов

Zero-Shot Image Transfer дает возможность описать текстом:
▪️ стиль
▪️ художника (Рерих, Айвазовский)
▪️ тип арта (масло, акварель, 3d)
▪️ время года и суток
▪️ контекст (постапакалипсис, фентези)
▪️ объекты, которые должны быть

К сожалению, подход не позволяет адекватно работать с лицам. Проблема в taming transformer (претрейн imagenet), который выполняет функцию нейронной “проявки” изображения.

Варианты решения проблемы:
- Сделать претрейн на большем кол-ве лиц (время и деньги)
- Взять генератор для лиц, e.g.: StyleGAN (и потерять генеральность подхода)
- Улучшить генерируемые лица еще одной сетью (что я и сделал для, прикрутив GFPGAN)

Мишин Лернинг взял Catherine Deneuve и текстом сделал из нее:
▪️ Tilda Swinton
▪️ Sherilyn Fenn
▪️ Charlotte Gainsbourg
▪️ Uma Thurman
▪️ Monica Bellucci
▪️ Angelina Jolie
▪️ Emma Watson
▪️ Bjork

В стилях:
🎙 Bright pop portrait
👩‍🎤 Noir jazz violet poster
👨‍🎨 Cubism-like modern
🎨 Modigliani modern
Журнал Time включил генерального директора NVIDIA Дженсена Хуанга в список самых влиятельных людей 2021 года

«Искусственный интеллект меняет наш мир», — пишет Эндрю Нг (Andrew Ng). «Современное программное обеспечение, которое позволяет компьютерам делать вещи, которые когда-то требовали человеческого восприятия и мышления, стало частью нашей жизни из-за аппаратного обеспечения, которое появилось благодаря Дженсену Хуангу».

Помимо Хуанга, в список Time за 2021 год попали главы компаний Apple и Tesla Тим Кук (Tim Cook) и Илон Маск (Elon Musk).
Zero-Shot Image Transfer (Taming Transformer, CLIP, GFPGAN, posterization + edge detection)

У настоящего художника в наше время ушло бы пару часов на то, чтобы нарисовать картину, в конкретном стиле с конкретным лицом и т.д.

Но прелесть эпохи zero-shot в том, что если ты zero-shot художник, ты можешь даже не знать как вся эта нейроштука работает под капотом, а просто получать результат!
Zero-Shot Image Transfer: Step-by-Step Animation

Cдалал нейросетевой перевод из Catherine Deneuve в:
▪️ Uma Thurman
▪️ Monica Bellucci
▪️ Emma Watson
▪️ Tilda Swinton
▪️ Thom Yorke
▪️ Kurt Cobain
▪️ Jim Morrison

Для герации сделал связку из Taming Transformer, CLIP, GFPGAN и недиференцируемых posterization и edge detector фильтов.

👉 https://youtu.be/sMvqpuB_xc4

p.s.: добавил в клип психоделический джаз, который написал в 2017-ом
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
А еще, мне кажется, этот же алгоритм можно использовать для генерации персонажей в играх. Во всяком случае для какого-то инди-проекта можно очень быстро сделать уникальных персонажей, в стиле который вам кажется клевым – оставляете алгоритм генерировать по вашему текстовому описанию десятки картинок, а утром выбираете то что больше всего понравилось, красота же.

Я не аниматор, криво набросал что-то вроде лицевой анимации на "медного робота", вполне сошло бы для какого-то проходного RPG сделанного одним человеком.
Forwarded from эйай ньюз
Колаб для CLIP guided diffusion в разрешении 512x512.

Одна генерация в 1000 итераций занимает примерно 50 минут. Тут нужно, чтобы вам выпала либо видеокарта T4 либо P100 с 16 GB VRAM.

1. Magnificent mountains by Nicholas Roerich
2. My girlfriend by Pablo Picasso in Cubist style
3. Female portrait by Pablo Picasso

Да, Пикассо не очень удался что-то.
Так исторически сложилось, что я гораздо больше для своих задач юзаю BERT, чем GPT, и материалов на этом канале про BERT было уже довольно много, но мне очень сильно зашел вот этот туториал с написание Берта с нуля. При чем с нуля – это совсем с нуля, там авторы сами пишут функцию для батчинга, embedding layer, multihead attention, при чем это все с пояснениями, указанием размерностей и с выводом преобразований на каждом этапе
Вообще кодинг с нуля правда очень сильно помогает в понимании бейзлайнов, если не самому его писать, то хотя бы так
Dall•E позволяет получать консистентные изображения

Недавно ставил эксперименты с Dall•E-подобной архитектурой, которая в 4 раза меньше оригинала от OpenAI.

+ Генерации выходят целостными
- Мыльно (VQ-VAE) и мало деталей (не очень большой трансформер)

p.s.: медведица предлагает выпить с ней водки
This media is not supported in your browser
VIEW IN TELEGRAM
Решил попробовать рисование, используя Zero-Shot Image Transfer

Пока выходит крипово, но есть идеи сделать дифференцируемые фильтры, типа: чб, контуры, изогелия и прочее

p.s.: записал импровизацию, одна дорожка гитары, много педалей
Какой подход к генерации изображений Вам кажется более изящным?

1. CLIP + VQGAN
2. CLIP Guided Diffusion
3. StyleGAN/2/ada/nada etc
4. Dall•E подобные подходы
?
Anonymous Poll
37%
1
24%
2
22%
3
18%
4
🧠🎓 Language Models are Few-shot Multilingual Learners

В чем основная идея GPT-3?
- Модели колоссального размера, способны решать большой класс задач в few-shot или в zero-shot, без обновлений параметров!

Теперь не нужно файнтюнить?
- Да. Достаточно написать несколько примеров, задать сам вопрос и дальше модель продолжит все сама. Я только что сделал 2-shot перевод на GPT-J-6B: [guitar => гитара, violin => скрипка, saxophone => ] и получил в ответ [саксофон]

О чем пейпер?
- Ребята показали, что используя несколько примеров на одном языке в качестве контекста, предварительно обученные модели в задачах NLU на других языках, не просто лучше рандома, а конкурентны топовым кросс-языковыми моделями и моделями перевода.

1-shot ru-eng e.g.:
[pos] покажи мне мои будильники=>get_alarm=true\n
[neg] убрать все будильники=>get_alarm=false\n
[qry] set a different alarm=>get_alarm=


Очевидно, что умная модель должна будет сгенерировать false. Так как set a different alarm это не get_alarm, а set_alarm.

📰 paper 💻 code