And another relevant news. Hugging Face reproduced DeepMind Flamingo (https://news.1rj.ru/str/gonzo_ML/941), a model that combines a pretrained vision encoder with a pretrained language model.
They plan to open-source this work soon.
More details: https://www.linkedin.com/posts/victor-sanh_multimodal-llm-deeplearning-activity-7038583909994885120-BjsF
They plan to open-source this work soon.
More details: https://www.linkedin.com/posts/victor-sanh_multimodal-llm-deeplearning-activity-7038583909994885120-BjsF
Telegram
gonzo-обзоры ML статей
[DeepMind] Flamingo: a Visual Language Model for Few-Shot Learning
Авторы: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford,…
Авторы: Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford,…
👍10
[Microsoft Kosmos-1] Language Is Not All You Need: Aligning Perception with Language Models
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
Статья: https://arxiv.org/abs/2302.14045
Тренд на мультимодальность пошёл очевидный. Позапрошлый год я бы назвал годом контрастных моделей по типу CLIP (https://news.1rj.ru/str/gonzo_ML/665) / Align (https://news.1rj.ru/str/gonzo_ML/679) / Florence (https://news.1rj.ru/str/gonzo_ML/734). Прошлый был явно годом диффузионных text-to-image моделей типа DALLE-2 (https://news.1rj.ru/str/gonzo_ML/919) и последующих Imagen, Stable Diffusion и т.п. Нынешний, мне кажется, может стать годом картиночно-языковых моделей (Visual Language Model, VLM) или скорее даже мультимодальных языковых моделей (Multimodal Large Language Model, MLLM), а то и воплощённых LLM (Embodied LLM). Из этой когорты уже появились в прошлом году VLM Flamingo от DeepMind (https://news.1rj.ru/str/gonzo_ML/941) (которую оказывается реимплементит HuggingFace, https://news.1rj.ru/str/gonzo_ML/1362) и CoCa (https://news.1rj.ru/str/gonzo_ML/997) с PaLI (https://news.1rj.ru/str/gonzo_ML/1085) от Гугла, да и дипмайндовская Gato (https://news.1rj.ru/str/gonzo_ML/966) вполне можно назвать ELLM. Теперь в эту же когорту можно записать свежую PaLM-E (https://news.1rj.ru/str/gonzo_ML/1350), и вот Microsoft недавно же анонсировал MLLM Kosmos-1 (https://news.1rj.ru/str/gonzo_ML/1339). Ещё и GPT-4, кстати, нам пообещали мультимодальную на следующей неделе (https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html). Пока ждём GPT-4, разберём Kosmos-1 (хотя на самом деле в ближайшее время, я, наверное, переключусь на другие когорты интересных работ для разнообразия).
Что такого есть в Kosmos-1?
Модель это традиционный трансформер (декодер), который авторегрессионно генерит текст (как GPT) с картиночным энкодером из CLIP. На входе теперь в произвольных местах могут быть мультимодальные данные (в этой работе картинки, но потенциально и что угодно ещё, например, звук). Всего модель 1.6B параметров, весьма скромная. Для сравнения у Flamingo самая большая модель была 80B, из них 70B это Шиншилла (https://news.1rj.ru/str/gonzo_ML/1216).
В целом в подобных моделях главный челлендж это как встроить не-текстовые модальности. Авторы строят работу на своей же MetaLM (https://arxiv.org/abs/2206.06336), в которой LLM выступала универсальным интерфейсом, выполняющим разные задачи, в который втыкались энкодеры всяких модальностей. Там же была предложена semi-causal language modeling objective, позволяющая тренировать совместно интерфейс с энкодерами. В этой постановке некоторые диапазоны токенов представлены двунаправленными энкодерами, а интерфейсная LM это традиционная causal LM.
Входной текст в модель размечается тегами <s> и </s> для определения начала/конца предложения, <image> и </image> для пометки границ диапазона картиночных эмбеддингов. Текстовые токены и другие входные модальности эмбеддятся в вектора и отправляются в декодер. В текущей работе картинки эмбеддили через vision encoder, также использовался Resampler из Flamingo (там он получал пространственно-временные признаки из зрительного энкодера и выдавал фиксированного размера множество визуальных токенов), он нужен для уменьшения количества картиночных эмбеддингов.
Декодер это трансформер Magneto (https://arxiv.org/abs/2210.06423), в котором есть дополнительные LayerNorm (такой подход называется Sub-LN в отличие от Pre/Post-LN), а также улучшенная теоретически обоснованная инициализация. У Magneto лучше перформанс и стабильность.
В декодере 24 слоя, 32 головы, 2048 скрытое измерение, 8192 FFN. Всего 1.3B параметров. Картиночные эмбеддинги размерности 1024 берутся из предобученного CLIP ViT-L/14. CLIP во время обучения был заморожен кроме последнего слоя.
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei
Статья: https://arxiv.org/abs/2302.14045
Тренд на мультимодальность пошёл очевидный. Позапрошлый год я бы назвал годом контрастных моделей по типу CLIP (https://news.1rj.ru/str/gonzo_ML/665) / Align (https://news.1rj.ru/str/gonzo_ML/679) / Florence (https://news.1rj.ru/str/gonzo_ML/734). Прошлый был явно годом диффузионных text-to-image моделей типа DALLE-2 (https://news.1rj.ru/str/gonzo_ML/919) и последующих Imagen, Stable Diffusion и т.п. Нынешний, мне кажется, может стать годом картиночно-языковых моделей (Visual Language Model, VLM) или скорее даже мультимодальных языковых моделей (Multimodal Large Language Model, MLLM), а то и воплощённых LLM (Embodied LLM). Из этой когорты уже появились в прошлом году VLM Flamingo от DeepMind (https://news.1rj.ru/str/gonzo_ML/941) (которую оказывается реимплементит HuggingFace, https://news.1rj.ru/str/gonzo_ML/1362) и CoCa (https://news.1rj.ru/str/gonzo_ML/997) с PaLI (https://news.1rj.ru/str/gonzo_ML/1085) от Гугла, да и дипмайндовская Gato (https://news.1rj.ru/str/gonzo_ML/966) вполне можно назвать ELLM. Теперь в эту же когорту можно записать свежую PaLM-E (https://news.1rj.ru/str/gonzo_ML/1350), и вот Microsoft недавно же анонсировал MLLM Kosmos-1 (https://news.1rj.ru/str/gonzo_ML/1339). Ещё и GPT-4, кстати, нам пообещали мультимодальную на следующей неделе (https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html). Пока ждём GPT-4, разберём Kosmos-1 (хотя на самом деле в ближайшее время, я, наверное, переключусь на другие когорты интересных работ для разнообразия).
Что такого есть в Kosmos-1?
Модель это традиционный трансформер (декодер), который авторегрессионно генерит текст (как GPT) с картиночным энкодером из CLIP. На входе теперь в произвольных местах могут быть мультимодальные данные (в этой работе картинки, но потенциально и что угодно ещё, например, звук). Всего модель 1.6B параметров, весьма скромная. Для сравнения у Flamingo самая большая модель была 80B, из них 70B это Шиншилла (https://news.1rj.ru/str/gonzo_ML/1216).
В целом в подобных моделях главный челлендж это как встроить не-текстовые модальности. Авторы строят работу на своей же MetaLM (https://arxiv.org/abs/2206.06336), в которой LLM выступала универсальным интерфейсом, выполняющим разные задачи, в который втыкались энкодеры всяких модальностей. Там же была предложена semi-causal language modeling objective, позволяющая тренировать совместно интерфейс с энкодерами. В этой постановке некоторые диапазоны токенов представлены двунаправленными энкодерами, а интерфейсная LM это традиционная causal LM.
Входной текст в модель размечается тегами <s> и </s> для определения начала/конца предложения, <image> и </image> для пометки границ диапазона картиночных эмбеддингов. Текстовые токены и другие входные модальности эмбеддятся в вектора и отправляются в декодер. В текущей работе картинки эмбеддили через vision encoder, также использовался Resampler из Flamingo (там он получал пространственно-временные признаки из зрительного энкодера и выдавал фиксированного размера множество визуальных токенов), он нужен для уменьшения количества картиночных эмбеддингов.
Декодер это трансформер Magneto (https://arxiv.org/abs/2210.06423), в котором есть дополнительные LayerNorm (такой подход называется Sub-LN в отличие от Pre/Post-LN), а также улучшенная теоретически обоснованная инициализация. У Magneto лучше перформанс и стабильность.
В декодере 24 слоя, 32 головы, 2048 скрытое измерение, 8192 FFN. Всего 1.3B параметров. Картиночные эмбеддинги размерности 1024 берутся из предобученного CLIP ViT-L/14. CLIP во время обучения был заморожен кроме последнего слоя.
Telegram
gonzo-обзоры ML статей
[OpenAI CLIP] Learning Transferable Visual Models From Natural Language Supervision
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya…
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya…
👍8❤1
Также используются относительные позиционные энкодинги Extrapolatable Position Embedding (xPos, https://arxiv.org/abs/2212.10554), которые лучше генерализуют на разные длины и заявлены как “a universal-good design for Transformers”. По характеристикам лучше популярных RoPE (кстати, эти были в LLaMA, https://news.1rj.ru/str/gonzo_ML/1324).
Обучались на большом собранном из веба корпусе моно-, кросс-модальных и чередующихся мульти-модальных данных. В мономодальных данных текст из The Pile (исключили GitHub, arXiv, Stack Exchange, PubMed Central) и CC. В датасете картинка-текст собраны English LAION-2B, LAION-400M, COYO-700M, Conceptual Captions. В качестве чередующихся картинка-текст -- страницы с картинками из CC.
Сеть обучается предсказывать следующий токен, обычный кросс-энтропийный лосс. Обучалось на 360B токенов (что кажется сильно выше, типа на порядок, рекомендаций из Шиншиллы для такого размера модели, https://news.1rj.ru/str/gonzo_ML/1223).
Также сделали language-only instruction tuning. Модель продолжили обучать на данных формата (instructions, inputs, and outputs). При этом в лоссе учитывались только outputs. Данные взяли из Unnatural Instructions (68478 триплетов) и FLANv2 (54k примеров).
На image captioning хороший результат и обошли в разы более тяжёлые варианты Flamingo (на 3B и 9B) в zero-shot. На few-shot тоже хорошо.
На VQA регулярно бьёт Фламинги на 3 и 9B (последнюю не везде).
Потестили nonverbal reasoning на Raven’s Progressive Matrices, zero-shot без всякого файнтюна. Не радикально, но выше рандома. Что интересно, без instruction tuning лучше. Пишут, что впервые модель такое в zero-shot может выполнять.
Продемонстрировали OCR-free language understanding с более высоким качеством, чем разные модели вплоть до CLIP ViT-L/14 и обе фламинги на 3 и 9B.
В Web Page Question Answering на Web-based Structural Reading Comprehension (WebSRC), надо дать ответ по странице (включая её структуру в виде таблиц, картинок и прочего). На вход кроме извлечённого текста прилетает и картинка. Kosmos-1 справляется заметно лучше, чем LLM (также было бы логично и с какой-нибудь LayoutLM сравнить имхо).
Также продемонстрировали мультимодальный Chain-of-Thought, когда вместо сразу ответа на вопрос по картинке модель сначала генерит описание, а потом с картинкой и этим описанием в промпте лучше отвечает. Решение задачи через CoT на SST-2 повышает точность с 67.1 до 72.9. Хорошее улучшение без изменения модели.
В задаче zero-shot image classification на ImageNet обошли GIT (https://arxiv.org/abs/2205.14100). Не знаю, на самом деле, кто в этой задаче более подходящий ориентир, наверняка есть.
Прикольное расширение задачи классификации, когда можно добавить описания классов, это типа Zero-Shot Image Classification with Denoscriptions. Заметно повышает качество. На датасете с птичками с 61.7 до 90.0.
Сравнивали на 8 языковых задачах с LLM, обученной на тех же текстовых данных. В целом LLM часто чуть получше.
Продемонстрировали cross-modal transfer. Модель дообученная на language-only instruction tuning делает captioning и VQA лучше. Это трансфер из текстовой модальности в картиночную. В обратную сторону проверили на Visual Commonsense Reasoning, там тоже Kosmos-1 сработала заметно лучше, чем LLM. В этих задачах надо было сравнивать размеры двух объектов или называть цвет объекта из текста.
В следующих версиях обещают отскейлить модель и добавить речь (благо, у MS есть VALLE, https://valle-demo.github.io/).
Обучались на большом собранном из веба корпусе моно-, кросс-модальных и чередующихся мульти-модальных данных. В мономодальных данных текст из The Pile (исключили GitHub, arXiv, Stack Exchange, PubMed Central) и CC. В датасете картинка-текст собраны English LAION-2B, LAION-400M, COYO-700M, Conceptual Captions. В качестве чередующихся картинка-текст -- страницы с картинками из CC.
Сеть обучается предсказывать следующий токен, обычный кросс-энтропийный лосс. Обучалось на 360B токенов (что кажется сильно выше, типа на порядок, рекомендаций из Шиншиллы для такого размера модели, https://news.1rj.ru/str/gonzo_ML/1223).
Также сделали language-only instruction tuning. Модель продолжили обучать на данных формата (instructions, inputs, and outputs). При этом в лоссе учитывались только outputs. Данные взяли из Unnatural Instructions (68478 триплетов) и FLANv2 (54k примеров).
На image captioning хороший результат и обошли в разы более тяжёлые варианты Flamingo (на 3B и 9B) в zero-shot. На few-shot тоже хорошо.
На VQA регулярно бьёт Фламинги на 3 и 9B (последнюю не везде).
Потестили nonverbal reasoning на Raven’s Progressive Matrices, zero-shot без всякого файнтюна. Не радикально, но выше рандома. Что интересно, без instruction tuning лучше. Пишут, что впервые модель такое в zero-shot может выполнять.
Продемонстрировали OCR-free language understanding с более высоким качеством, чем разные модели вплоть до CLIP ViT-L/14 и обе фламинги на 3 и 9B.
В Web Page Question Answering на Web-based Structural Reading Comprehension (WebSRC), надо дать ответ по странице (включая её структуру в виде таблиц, картинок и прочего). На вход кроме извлечённого текста прилетает и картинка. Kosmos-1 справляется заметно лучше, чем LLM (также было бы логично и с какой-нибудь LayoutLM сравнить имхо).
Также продемонстрировали мультимодальный Chain-of-Thought, когда вместо сразу ответа на вопрос по картинке модель сначала генерит описание, а потом с картинкой и этим описанием в промпте лучше отвечает. Решение задачи через CoT на SST-2 повышает точность с 67.1 до 72.9. Хорошее улучшение без изменения модели.
В задаче zero-shot image classification на ImageNet обошли GIT (https://arxiv.org/abs/2205.14100). Не знаю, на самом деле, кто в этой задаче более подходящий ориентир, наверняка есть.
Прикольное расширение задачи классификации, когда можно добавить описания классов, это типа Zero-Shot Image Classification with Denoscriptions. Заметно повышает качество. На датасете с птичками с 61.7 до 90.0.
Сравнивали на 8 языковых задачах с LLM, обученной на тех же текстовых данных. В целом LLM часто чуть получше.
Продемонстрировали cross-modal transfer. Модель дообученная на language-only instruction tuning делает captioning и VQA лучше. Это трансфер из текстовой модальности в картиночную. В обратную сторону проверили на Visual Commonsense Reasoning, там тоже Kosmos-1 сработала заметно лучше, чем LLM. В этих задачах надо было сравнивать размеры двух объектов или называть цвет объекта из текста.
В следующих версиях обещают отскейлить модель и добавить речь (благо, у MS есть VALLE, https://valle-demo.github.io/).
Telegram
gonzo-обзоры ML статей
[Meta AI] LLaMA: Open and Efficient Foundation Language Models
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin…
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin…
👍7🔥3