gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.71K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Now it is official.

I've started writing a book on JAX. This seems to be the first book ever on this topic.

For those who don't know, JAX is an exceptionally cool numeric computations library from Google, a kind of NumPy on steroids, with autodiff, XLA compilation, and hardware acceleration on TPU/GPU. JAX also brings the functional programming paradigm to deep learning.

JAX is heavily used for deep learning and already pretends to be the deep learning framework #3. Some companies, like DeepMind, have already switched to JAX internally. There are rumors that Google also switches to JAX.

JAX ecosystem is constantly growing. There are a lot of high-quality deep learning-related modules. But JAX is not limited to deep learning. There are many exciting applications and libraries on top of JAX for physics, including molecular dynamics, fluid dynamics, rigid body simulation, quantum computing, astrophysics, ocean modeling, and so on. There are libraries for distributed matrix factorization, streaming data processing, protein folding, and chemical modeling, with other new applications emerging constantly.

Anyway, it's a perfect time to start learning JAX!

The book is available today as a part of the Manning Early Access Program (MEAP), so you can read the book as I write it 🙂 This is a very smart way of learning something new, you do not have to wait until the complete book is ready. You can start learning right away, and at the moment the book is published, you already know everything. Your feedback will also be very valuable, and you can influence how the book is made.

Here's a link to the book: http://mng.bz/QvAG

If you want a decent discount, use the discount code mlsapunov. It will provide you with 40% off, and it's valid through August 11th.
❤‍🔥68🔥27👍16👏3💯2😁1
[Google] PaLI: A Jointly-Scaled Multilingual Language-Image Model
Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut
Статья: https://arxiv.org/abs/2209.06794
Пост в блоге: https://ai.googleblog.com/2022/09/pali-scaling-language-image-learning-in.html
Модель: снова нет и, кажется, не будет (“The model is for research prototype and the current version is not available for the public.”)
Репа (но там только карточка модели): https://github.com/google-research/google-research/tree/master/pali

Продолжение интересной движухи про картиночно-языковые модели, теперь с фокусом на скейлинг и мультиязычность. Картиночно-языковые модели ощутимо развились в этом году. Мы уже писали про CoCa (https://news.1rj.ru/str/gonzo_ML/997) и про Flamingo (https://news.1rj.ru/str/gonzo_ML/941). У таких моделей на входе картинка+текст, а на выходе текст. И все задачи сводятся к генерации выходного текста.

Новая модель PaLI (Pathways Language and Image model) это продолжение темы про скейлинг на основе гугловой системы Pathways. На ней уже была обучена большая языковая модель PaLM (https://arxiv.org/abs/2204.02311) на 540B параметров. PaLI не такая гигантская, в ней 17B параметров (4B в картиночной части и 13B в языковой). Это больше CoCa (2.1B=1B+11.1B), но меньше Flamingo (80B=10B+70B).

Интересно, что теперь модель мультиязычная, поддерживает 109 языков.

Модель состоит из картиночного энкодера, преобразующего картинку в токены, которые дальше без всякого пулинга подаются вместе с текстом в текстовый encoder-decoder архитектуры T5, выдавая на выходе текст.

PaLI не обучали совсем с нуля, а инициализировали готовыми унимодальными Лего-блоками: мультиязычным encoder-decoder mT5-XXL (https://news.1rj.ru/str/gonzo_ML/442) на 13B параметров, и предобученным ViT (https://news.1rj.ru/str/gonzo_ML/434). Что интересно, взяли большой ViT-G (https://arxiv.org/abs/2111.07991) на 1.8B параметров, а также дополнительно обучили новый ViT-e (“enormous”) на 4B параметров. Кажется, это сейчас самый большой в природе ViT, жаль неопубликованный.

Всего было три разные PaLI модели, на 3B (1B mT5-Large + 1.8B ViT-G), 15B (13B mT5-XXL + 1.8B ViT-G) и (основная) 17B (13B mT5-XXL + 3.9B ViT-e).

Для обучения собрали мультиязычный картиночно-языковой датасет WebLI с поддержкой 109 языков (русского там довольно много, кстати). В нём 10B картинок и 12B alt-текстов. В дополнение к аннотациям с веба из картинок с помощью OCR извлекли тексты через GCP Vision API, что дало 29B пар картинка-OCR. Это существенно больше датасетов для CLIP, ALIGN или LiT. Датасет не пошарен.

Модель предобучалась на смеси задач, каждая из которых задаёт текст, который должна выдать модель (обучение с обычным LM-style teacher forcing и кроссэнтропийным лоссом после софтмакса). Среди задач: восстановление испорченного текстового span’а, split-captioning картинки и captioning, OCR, English and Cross-Lingual VQA, English and Cross-Lingual visual question generation (VQG), English-only Object-Aware (OA) VQA, Object detection.

Вся модель собрана на JAX/Flax (https://news.1rj.ru/str/gonzo_ML/1083) с фреймворками T5X (https://github.com/google-research/t5x) и Flaxformer (https://github.com/google/flaxformer).

Самую большую PaLI обучали на 1,024 TPUv4 чипах 7 дней, что получается свыше $500K по ценам гугл клауда на on-demand (https://cloud.google.com/tpu/pricing). Но это меньше, чем для CoCa (2,048 TPUv4 на 5 дней) и Flamingo (1,536 TPUv4 на 15 дней). Предобучали на картинках 224×224, но самую большую PaLI затем пре-файнтюнили на 588×588.
👍18
На 5 из 7 английских картиночно-языковых бенчмарках (включая COCO captioning и VQAv2) получили SoTA. Также SoTA на мультиязычных image captioning и VQA. Цифры перечислять неинтересно, можете посмотреть в таблицах (но Flamingo и CoCa побиты). Лучше расскажу, что из интересного.

Было опасение, что модель “подзабудет” языки из чекпойнтов инициализации оригинальной mT5-XXL. Но в целом результат PaLI-17B почти не просел относительно mT5-XXL на SuperGLUE, XNLI, XQuAD, TyDiQA-GoldP.

На ImageNet PaLI в zero-shot обошла 1-shot Flamingo и приблизилась к её же 5-shot.

Картиночный и текстовый компоненты можно скейлить независимо друг от друга, и это даёт прирост. На чисто картиночных задачах новый ViT-e был не сильно лучше ViT-G (и кстати проигрывает CoCa), но на картиночно-текстовых выигрыш заметен. При росте от ViT-G к ViT-e (на 2B параметров, что всего 12% от всей модели), прирост качества очень существенный (ждём ViT-ee/xe, extra-enormous?).

В разрезе языков прирост тоже заметный. А если файнтюнить чисто на английских данных, то часть мультиязычных способностей теряется.

В общем интересная и потенциально весьма полезная модель, можно было бы придумывать и собирать новые продукты. Жаль, что снова недоступна.

А тем временем мы ждём отскейленную версию Gato (https://news.1rj.ru/str/gonzo_ML/966). Ей тоже, конечно, не поделятся, но даже знать, чего она достигла, всё равно интересно.
👍7
Sampled images from WebLI dataset
Statistics of recognized languages
from alt-text/OCR
❤‍🔥1
Image-text pair counts, compared against other large-scale visionlanguage datasets.
❤‍🔥1
Пока совсем кратко. Генеративный ИИ наконец добрался до генерации видео по текстовому промпту. Марк Цукерберг сегодня анонсировал свежую работу (https://www.facebook.com/4/posts/pfbid0zeP5MtjQmg4FpMR4JN3CWsxDgSd71TU1jrThwmTyvy1QFAsfwKgnpZEgpP3z3LD7l/) под названием Make-A-Video.

Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.

Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.

У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://news.1rj.ru/str/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).

Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).

Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).

Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/

Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.

Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
👍8🔥5
A golden retriever eating ice cream on a beautiful tropical beach at sunset, high resolution
This media is not supported in your browser
VIEW IN TELEGRAM
7👍5
A dog wearing a Superhero outfit with red cape flying through the sky