[Google] PaLI: A Jointly-Scaled Multilingual Language-Image Model
Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut
Статья: https://arxiv.org/abs/2209.06794
Пост в блоге: https://ai.googleblog.com/2022/09/pali-scaling-language-image-learning-in.html
Модель: снова нет и, кажется, не будет (“The model is for research prototype and the current version is not available for the public.”)
Репа (но там только карточка модели): https://github.com/google-research/google-research/tree/master/pali
Продолжение интересной движухи про картиночно-языковые модели, теперь с фокусом на скейлинг и мультиязычность. Картиночно-языковые модели ощутимо развились в этом году. Мы уже писали про CoCa (https://news.1rj.ru/str/gonzo_ML/997) и про Flamingo (https://news.1rj.ru/str/gonzo_ML/941). У таких моделей на входе картинка+текст, а на выходе текст. И все задачи сводятся к генерации выходного текста.
Новая модель PaLI (Pathways Language and Image model) это продолжение темы про скейлинг на основе гугловой системы Pathways. На ней уже была обучена большая языковая модель PaLM (https://arxiv.org/abs/2204.02311) на 540B параметров. PaLI не такая гигантская, в ней 17B параметров (4B в картиночной части и 13B в языковой). Это больше CoCa (2.1B=1B+11.1B), но меньше Flamingo (80B=10B+70B).
Интересно, что теперь модель мультиязычная, поддерживает 109 языков.
Модель состоит из картиночного энкодера, преобразующего картинку в токены, которые дальше без всякого пулинга подаются вместе с текстом в текстовый encoder-decoder архитектуры T5, выдавая на выходе текст.
PaLI не обучали совсем с нуля, а инициализировали готовыми унимодальными Лего-блоками: мультиязычным encoder-decoder mT5-XXL (https://news.1rj.ru/str/gonzo_ML/442) на 13B параметров, и предобученным ViT (https://news.1rj.ru/str/gonzo_ML/434). Что интересно, взяли большой ViT-G (https://arxiv.org/abs/2111.07991) на 1.8B параметров, а также дополнительно обучили новый ViT-e (“enormous”) на 4B параметров. Кажется, это сейчас самый большой в природе ViT, жаль неопубликованный.
Всего было три разные PaLI модели, на 3B (1B mT5-Large + 1.8B ViT-G), 15B (13B mT5-XXL + 1.8B ViT-G) и (основная) 17B (13B mT5-XXL + 3.9B ViT-e).
Для обучения собрали мультиязычный картиночно-языковой датасет WebLI с поддержкой 109 языков (русского там довольно много, кстати). В нём 10B картинок и 12B alt-текстов. В дополнение к аннотациям с веба из картинок с помощью OCR извлекли тексты через GCP Vision API, что дало 29B пар картинка-OCR. Это существенно больше датасетов для CLIP, ALIGN или LiT. Датасет не пошарен.
Модель предобучалась на смеси задач, каждая из которых задаёт текст, который должна выдать модель (обучение с обычным LM-style teacher forcing и кроссэнтропийным лоссом после софтмакса). Среди задач: восстановление испорченного текстового span’а, split-captioning картинки и captioning, OCR, English and Cross-Lingual VQA, English and Cross-Lingual visual question generation (VQG), English-only Object-Aware (OA) VQA, Object detection.
Вся модель собрана на JAX/Flax (https://news.1rj.ru/str/gonzo_ML/1083) с фреймворками T5X (https://github.com/google-research/t5x) и Flaxformer (https://github.com/google/flaxformer).
Самую большую PaLI обучали на 1,024 TPUv4 чипах 7 дней, что получается свыше $500K по ценам гугл клауда на on-demand (https://cloud.google.com/tpu/pricing). Но это меньше, чем для CoCa (2,048 TPUv4 на 5 дней) и Flamingo (1,536 TPUv4 на 15 дней). Предобучали на картинках 224×224, но самую большую PaLI затем пре-файнтюнили на 588×588.
Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut
Статья: https://arxiv.org/abs/2209.06794
Пост в блоге: https://ai.googleblog.com/2022/09/pali-scaling-language-image-learning-in.html
Модель: снова нет и, кажется, не будет (“The model is for research prototype and the current version is not available for the public.”)
Репа (но там только карточка модели): https://github.com/google-research/google-research/tree/master/pali
Продолжение интересной движухи про картиночно-языковые модели, теперь с фокусом на скейлинг и мультиязычность. Картиночно-языковые модели ощутимо развились в этом году. Мы уже писали про CoCa (https://news.1rj.ru/str/gonzo_ML/997) и про Flamingo (https://news.1rj.ru/str/gonzo_ML/941). У таких моделей на входе картинка+текст, а на выходе текст. И все задачи сводятся к генерации выходного текста.
Новая модель PaLI (Pathways Language and Image model) это продолжение темы про скейлинг на основе гугловой системы Pathways. На ней уже была обучена большая языковая модель PaLM (https://arxiv.org/abs/2204.02311) на 540B параметров. PaLI не такая гигантская, в ней 17B параметров (4B в картиночной части и 13B в языковой). Это больше CoCa (2.1B=1B+11.1B), но меньше Flamingo (80B=10B+70B).
Интересно, что теперь модель мультиязычная, поддерживает 109 языков.
Модель состоит из картиночного энкодера, преобразующего картинку в токены, которые дальше без всякого пулинга подаются вместе с текстом в текстовый encoder-decoder архитектуры T5, выдавая на выходе текст.
PaLI не обучали совсем с нуля, а инициализировали готовыми унимодальными Лего-блоками: мультиязычным encoder-decoder mT5-XXL (https://news.1rj.ru/str/gonzo_ML/442) на 13B параметров, и предобученным ViT (https://news.1rj.ru/str/gonzo_ML/434). Что интересно, взяли большой ViT-G (https://arxiv.org/abs/2111.07991) на 1.8B параметров, а также дополнительно обучили новый ViT-e (“enormous”) на 4B параметров. Кажется, это сейчас самый большой в природе ViT, жаль неопубликованный.
Всего было три разные PaLI модели, на 3B (1B mT5-Large + 1.8B ViT-G), 15B (13B mT5-XXL + 1.8B ViT-G) и (основная) 17B (13B mT5-XXL + 3.9B ViT-e).
Для обучения собрали мультиязычный картиночно-языковой датасет WebLI с поддержкой 109 языков (русского там довольно много, кстати). В нём 10B картинок и 12B alt-текстов. В дополнение к аннотациям с веба из картинок с помощью OCR извлекли тексты через GCP Vision API, что дало 29B пар картинка-OCR. Это существенно больше датасетов для CLIP, ALIGN или LiT. Датасет не пошарен.
Модель предобучалась на смеси задач, каждая из которых задаёт текст, который должна выдать модель (обучение с обычным LM-style teacher forcing и кроссэнтропийным лоссом после софтмакса). Среди задач: восстановление испорченного текстового span’а, split-captioning картинки и captioning, OCR, English and Cross-Lingual VQA, English and Cross-Lingual visual question generation (VQG), English-only Object-Aware (OA) VQA, Object detection.
Вся модель собрана на JAX/Flax (https://news.1rj.ru/str/gonzo_ML/1083) с фреймворками T5X (https://github.com/google-research/t5x) и Flaxformer (https://github.com/google/flaxformer).
Самую большую PaLI обучали на 1,024 TPUv4 чипах 7 дней, что получается свыше $500K по ценам гугл клауда на on-demand (https://cloud.google.com/tpu/pricing). Но это меньше, чем для CoCa (2,048 TPUv4 на 5 дней) и Flamingo (1,536 TPUv4 на 15 дней). Предобучали на картинках 224×224, но самую большую PaLI затем пре-файнтюнили на 588×588.
research.google
PaLI: Scaling Language-Image Learning in 100+ Languages
Posted by Xi Chen and Xiao Wang, Software Engineers, Google Research Advanced language models (e.g., GPT, GLaM, PaLM and T5) have demonstrated dive...
👍18
На 5 из 7 английских картиночно-языковых бенчмарках (включая COCO captioning и VQAv2) получили SoTA. Также SoTA на мультиязычных image captioning и VQA. Цифры перечислять неинтересно, можете посмотреть в таблицах (но Flamingo и CoCa побиты). Лучше расскажу, что из интересного.
Было опасение, что модель “подзабудет” языки из чекпойнтов инициализации оригинальной mT5-XXL. Но в целом результат PaLI-17B почти не просел относительно mT5-XXL на SuperGLUE, XNLI, XQuAD, TyDiQA-GoldP.
На ImageNet PaLI в zero-shot обошла 1-shot Flamingo и приблизилась к её же 5-shot.
Картиночный и текстовый компоненты можно скейлить независимо друг от друга, и это даёт прирост. На чисто картиночных задачах новый ViT-e был не сильно лучше ViT-G (и кстати проигрывает CoCa), но на картиночно-текстовых выигрыш заметен. При росте от ViT-G к ViT-e (на 2B параметров, что всего 12% от всей модели), прирост качества очень существенный (ждём ViT-ee/xe, extra-enormous?).
В разрезе языков прирост тоже заметный. А если файнтюнить чисто на английских данных, то часть мультиязычных способностей теряется.
В общем интересная и потенциально весьма полезная модель, можно было бы придумывать и собирать новые продукты. Жаль, что снова недоступна.
А тем временем мы ждём отскейленную версию Gato (https://news.1rj.ru/str/gonzo_ML/966). Ей тоже, конечно, не поделятся, но даже знать, чего она достигла, всё равно интересно.
Было опасение, что модель “подзабудет” языки из чекпойнтов инициализации оригинальной mT5-XXL. Но в целом результат PaLI-17B почти не просел относительно mT5-XXL на SuperGLUE, XNLI, XQuAD, TyDiQA-GoldP.
На ImageNet PaLI в zero-shot обошла 1-shot Flamingo и приблизилась к её же 5-shot.
Картиночный и текстовый компоненты можно скейлить независимо друг от друга, и это даёт прирост. На чисто картиночных задачах новый ViT-e был не сильно лучше ViT-G (и кстати проигрывает CoCa), но на картиночно-текстовых выигрыш заметен. При росте от ViT-G к ViT-e (на 2B параметров, что всего 12% от всей модели), прирост качества очень существенный (ждём ViT-ee/xe, extra-enormous?).
В разрезе языков прирост тоже заметный. А если файнтюнить чисто на английских данных, то часть мультиязычных способностей теряется.
В общем интересная и потенциально весьма полезная модель, можно было бы придумывать и собирать новые продукты. Жаль, что снова недоступна.
А тем временем мы ждём отскейленную версию Gato (https://news.1rj.ru/str/gonzo_ML/966). Ей тоже, конечно, не поделятся, но даже знать, чего она достигла, всё равно интересно.
Telegram
gonzo-обзоры ML статей
[DeepMind Gato] A Generalist Agent
Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards…
Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards…
👍7
Пока совсем кратко. Генеративный ИИ наконец добрался до генерации видео по текстовому промпту. Марк Цукерберг сегодня анонсировал свежую работу (https://www.facebook.com/4/posts/pfbid0zeP5MtjQmg4FpMR4JN3CWsxDgSd71TU1jrThwmTyvy1QFAsfwKgnpZEgpP3z3LD7l/) под названием Make-A-Video.
Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.
Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.
У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://news.1rj.ru/str/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).
Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).
Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).
Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/
Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.
Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.
Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.
У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://news.1rj.ru/str/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).
Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).
Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).
Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/
Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.
Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
👍8🔥5
A golden retriever eating ice cream on a beautiful tropical beach at sunset, high resolution
A dog wearing a Superhero outfit with red cape flying through the sky
More Generative AI
Генеративный AI (https://news.1rj.ru/str/gonzo_ML/1062) вовсю уже вошёл в нашу жизнь.
DALL-E теперь умеет Outpainting (https://openai.com/blog/dall-e-introducing-outpainting/), а с недавнего момента и доступна без waitlist’а (https://openai.com/blog/dall-e-now-available-without-waitlist/).
Августовский релиз Stable Diffusion (https://stability.ai/blog/stable-diffusion-public-release) сильно поменял ландшафт, и эта модель и сама выложена на HuggingFace (https://huggingface.co/spaces/stabilityai/stable-diffusion), и Colab ноутбуки для её использования в наличии (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb), и родной продукт есть (https://beta.dreamstudio.ai/dream), и в Midjourney встроена.
Кристина Каштанова (Кристина, молодец!) недавно зарегистрировала впервые авторские права (https://arstechnica.com/information-technology/2022/09/artist-receives-first-known-us-copyright-registration-for-generative-ai-art/) на комикс, созданный с помощью MJ, а Die Antwoord выложили очередной клип (https://www.youtube.com/watch?v=Cq56o0YH3mE) созданный командой художников под именем Sagans. Sagans незадолго до этого выпустили другой свой клип (https://www.youtube.com/watch?v=kASqM5HTvfY) созданный в том числе и с помощью AI (https://www.unrealengine.com/en-US/spotlights/words-camera-action-creating-an-ai-music-video-with-unreal-engine-5) и технологии Unreal Engine MetaHuman (https://www.unrealengine.com/en-US/metahuman). Три года назад, кстати, про эти работы Epic Games я тоже писал, в тот момент было демо под названием Siren на предыдущей версии UE (https://blog.inten.to/welcome-to-the-simulation-dd0d8cb6534d).
На днях (но по сути конечно же раньше) специализированные модели также добрались до видео (https://news.1rj.ru/str/gonzo_ML/1099) и до трёхмерных объектов (https://dreamfusionpaper.github.io/).
Безусловно, это всё только начало. Мы в лучшем случае попробовали лишь малую долю возможностей этих быстро эволюционирующих новых средств и создали лишь первый процент новых продуктов или работ. Дальше будет ещё веселее.
Одно из направлений, про которое много не говорят, но которое очевидно будет, это генерация взрослого контента. Говорят, эта индустрия поспособствовала продвижению формата VHS, а также интернета и стриминга. Поспособствует и такому вот прикладному AI. Я совсем не удивлюсь, если сейчас в недрах условного порнхаба обучают свои генеративные модели. Даже обычные модели Stable Diffusion кое-что умеют (https://www.facebook.com/groups/stablediffusionaiart/permalink/633378585094046/), что уж там говорить про специализированные.
Мир никогда не будет прежним.
Генеративный AI (https://news.1rj.ru/str/gonzo_ML/1062) вовсю уже вошёл в нашу жизнь.
DALL-E теперь умеет Outpainting (https://openai.com/blog/dall-e-introducing-outpainting/), а с недавнего момента и доступна без waitlist’а (https://openai.com/blog/dall-e-now-available-without-waitlist/).
Августовский релиз Stable Diffusion (https://stability.ai/blog/stable-diffusion-public-release) сильно поменял ландшафт, и эта модель и сама выложена на HuggingFace (https://huggingface.co/spaces/stabilityai/stable-diffusion), и Colab ноутбуки для её использования в наличии (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb), и родной продукт есть (https://beta.dreamstudio.ai/dream), и в Midjourney встроена.
Кристина Каштанова (Кристина, молодец!) недавно зарегистрировала впервые авторские права (https://arstechnica.com/information-technology/2022/09/artist-receives-first-known-us-copyright-registration-for-generative-ai-art/) на комикс, созданный с помощью MJ, а Die Antwoord выложили очередной клип (https://www.youtube.com/watch?v=Cq56o0YH3mE) созданный командой художников под именем Sagans. Sagans незадолго до этого выпустили другой свой клип (https://www.youtube.com/watch?v=kASqM5HTvfY) созданный в том числе и с помощью AI (https://www.unrealengine.com/en-US/spotlights/words-camera-action-creating-an-ai-music-video-with-unreal-engine-5) и технологии Unreal Engine MetaHuman (https://www.unrealengine.com/en-US/metahuman). Три года назад, кстати, про эти работы Epic Games я тоже писал, в тот момент было демо под названием Siren на предыдущей версии UE (https://blog.inten.to/welcome-to-the-simulation-dd0d8cb6534d).
На днях (но по сути конечно же раньше) специализированные модели также добрались до видео (https://news.1rj.ru/str/gonzo_ML/1099) и до трёхмерных объектов (https://dreamfusionpaper.github.io/).
Безусловно, это всё только начало. Мы в лучшем случае попробовали лишь малую долю возможностей этих быстро эволюционирующих новых средств и создали лишь первый процент новых продуктов или работ. Дальше будет ещё веселее.
Одно из направлений, про которое много не говорят, но которое очевидно будет, это генерация взрослого контента. Говорят, эта индустрия поспособствовала продвижению формата VHS, а также интернета и стриминга. Поспособствует и такому вот прикладному AI. Я совсем не удивлюсь, если сейчас в недрах условного порнхаба обучают свои генеративные модели. Даже обычные модели Stable Diffusion кое-что умеют (https://www.facebook.com/groups/stablediffusionaiart/permalink/633378585094046/), что уж там говорить про специализированные.
Мир никогда не будет прежним.
Telegram
gonzo-обзоры ML статей
Generative AI
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое…
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое…
🔥10👍3👎1