gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
Статья: https://arxiv.org/abs/2309.17421

Microsoft разродился 166-страничной статьёй про анализ способностей GPT-4V, идейно похожей на широко известную их же (но других авторов) 155-страничную статью про “Sparks of Artificial General Intelligence: Early experiments with GPT-4” (https://arxiv.org/abs/2303.12712).

Как известно, GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383) в оригинале была обучена (ещё в 2022-м) как картиночно-текстовая модель, умеющая на входе принимать картинки в дополнение к тексту, и в оригинальной работе даже было несколько клёвых демонстраций (https://news.1rj.ru/str/gonzo_ML/1398). С марта 2023 избранные получили к ней доступ (как Microsoft, сделавший тогда статью про Sparks of AGI, хотя они щупали даже ещё более ранние версии). В API оно правда пока так и не появилось, зато на днях (https://news.1rj.ru/str/gonzo_ML/1901) OpenAI анонсировали поддержку изображений и звука в ChatGPT, а также наконец опубликовали (https://news.1rj.ru/str/gonzo_ML/1902) карточку модели GPT-4V (GPT-4 with vision).

Можно, наверное, ожидать, что скоро это наконец появится и в API. И вообще, не стрёмно сделать краткосрочный прогноз, что 2024-й год будет годом картиночно-текстовых (а может ещё и +аудио) моделей: GPT-4, Gemini (https://news.1rj.ru/str/gonzo_ML/1547) которую по слухам уже тестируют избранные клиенты, опенсорсные реимплементации Flamingo (https://news.1rj.ru/str/gonzo_ML/941) которых тоже уже есть по крайней мере пара, Microsoft Kosmos-1 (https://news.1rj.ru/str/gonzo_ML/1364) и 2, и стопудово ещё что-то появится. А когда и генерить смогут мультимодально, картинки + текст + …, то вообще бомба будет. До этого тоже, кажется, не очень далеко уже.

Если посмотреть в карточку GPT-4V (https://cdn.openai.com/papers/GPTV_System_Card.pdf), то там фокус на безопасности модели и подготовку её к широкому выкатыванию. Среди ранних тестеров были также Be My Eyes, разрабатывающая тулы для людей с нарушениями зрения. К сентябрю 2023 в бета-тестировании участвовало уже 16к пользователей оттуда, и за время тестирования модель удалось неплохо прокачать на предмет уменьшения галлюцинаций и ошибок.

Модель много анализировали на предмет опасного контента, privacy, кибербезопасности и проходе капчи, изучали мультимодальные джейлбрейки. GPT-4V даёт отказ (refusal) в большем проценте опасных запросов, чем GPT-4 во время релиза, а в сочетании с неописанной Refusal System достигает 100% на некоторых внутренних тестах типа джейлбрейков.

Был большой ред тиминг с фокусом на 6 областей: Scientific proficiency, Medical advice, Stereotyping and ungrounded inferences, Disinformation risks, Hateful Content, Visual vulnerabilities. В работе есть чуть более подробное описание проблем и результатов этих направлений. Видно, что проделали большую работу, и результаты свежей версии GPT-4V стали лучше.

Работа “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” ещё интереснее.

GPT-4V может работать с несколькими картинками и чередовать картинки с текстом. У модели есть несколько режимов промптинга.

Во-первых, она может следовать текстовым инструкциям, включая Constrained prompting (например, запросить выдачу в JSON для фото водительских прав) или Condition on good performance, что настраивает LLM на успешное решение задачи, а не на какое-то (“You are an expert in counting things in the image. Let’s count the number of apples in the image below row by row to be sure we have the right answer.” -- блин, ну реально NLP, то самое, что с Гриндером и Бендлером 😁).

Можно делать Visual Pointing, передавая координаты внутри изображения или указывая на регионы как-то ещё: стрелочками, выделением прямоугольником или кружочком и т.п. Авторы предлагают метод взаимодействия с моделью под названием “visual referring prompting.”

Промптинг может быть совмещённым текстовым + визуальным и довольно гибким за счёт возможности перемежать текст с картинками. Например, можно делать текстово-картиночный few-shot learning, добавляя визуальные примеры.
👍133🤣2🔥1😁1
Способности у модели достаточно обширные.

По паре картинка-текст, модель может генерировать описание картинки: распознавать известных людей и места, определять еду и логотипы, понимать медицинские изображения и различные сцены, и даже справляться с counterfactual examples. Жаль, не взяли картинку с самолётом из классической работы “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289).

Модель может заниматься локализацией и подсчётом объектов, и делать Dense Captioning. Обладает каким-то здравым смыслом и пониманием мира; способна понимать шутки и мемы; отвечать на вопросы по физике, географии, биологии; учитывать визуальные подсказки.

Может распознавать текст, таблицы, графики и понимать документы. При этом владеет множеством языков и для генерации, и для промптов, и для распознавания на изображениях. Умеет генерировать LaTeX, markdown, код на питоне.

Модель может работать с видео как последовательностью кадров.

Умеет справляться с тестами на Abstract Visual Reasoning и интеллект. Может читать эмоции по фото лиц или предугадывать эмоции, которые вызовет у человека картинка, генерить Emotion Conditioned Output.

В отдельном разделе авторы предлагают идеи для Emerging Applications. Ну, makes sense, если своих идей нет и хотите вдохновиться. Прикольный вариант по сборке Embodied Agent на базе GPT-4V. Для прототипирования самое то 🙂 Можно сделать следующий шаг относительно Generative Agents (https://news.1rj.ru/str/gonzo_ML/1481). Прикольно было бы собрать покадровую игру в Doom через GPT-4V. В GUI кстати тоже может навигировать, можно наверное не ждать ACT-1 (https://news.1rj.ru/str/gonzo_ML/1141), быстрее уже на GPT-4V такими темпами соберём 🙂 Нишу RPA (Robotic Process Automation) вероятно тоже должно серьёзно подизраптить скоро.

В конце есть интересный раздел про LMM Powered Agents, где обсуждают multimodal plugins, multimodal chains, self-reflection, self-consistency (обсуждали недавно https://news.1rj.ru/str/gonzo_ML/1885), retrieval-augmented LMMs (обсуждали многократно). Успеет Langchain адаптироваться или ему на смену какой-то другой чейн придёт? Мне, кстати, лично нравится майкрософтовский же Semantic Kernel (https://learn.microsoft.com/en-us/semantic-kernel/overview/).

В общем, будущее здесь, просто оно неравномерно распределено. Я, пожалуй, понимаю, почему OpenAI, Anthropic и прочие поднимают раунды по таким оценкам. Доступная когнитивная автоматизация скоро выйдет на совсем иной уровень, и кто обладает такими технологиями, тот и молодец. А чек на вход конский.
🔥203👍1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
👍19😁3