NEW BOT Телеграм, страница

2.32K views09:43

2.43K views09:44

Florence: A New Foundation Model for Computer Vision
Lu Yuan, Dongdong Chen, Yi-Ling Chen, Noel Codella, Xiyang Dai, Jianfeng Gao, Houdong Hu, Xuedong Huang, Boxin Li, Chunyuan Li, Ce Liu, Mengchen Liu, Zicheng Liu, Yumao Lu, Yu Shi, Lijuan Wang, Jianfeng Wang, Bin Xiao, Zhen Xiao, Jianwei Yang, Michael Zeng, Luowei Zhou, Pengchuan Zhang
Статья: https://arxiv.org/abs/2111.11432

Свежая работа от большой команды из Microsoft. Новая картиночно-текстовая модель из той же категории, что CLIP (https://news.1rj.ru/str/gonzo_ML/665) или ALIGN (https://news.1rj.ru/str/gonzo_ML/679), с богатыми возможностями кастомизации под разные задачи, ощутимо бьющая конкурентов и устанавливающая новые SoTA (на большинстве из 44 бенчмарков!).

Авторы явно называют свою модель Foundation Model, и если вы пропустили всю эту августовскую движуху про foundation models (https://arxiv.org/abs/2108.07258), то я для вас приготовил короткое (по сравнению с 200+ страничным документом) саммари тут: https://blog.inten.to/foundation-models-b89e7610057

В двух словах, foundation models это такие модели, которые предобучены на каких-то универсальных задачах (часто в режиме self-supervised, иначе невозможно найти много размеченных данных на полноценный supervised) и далее могут быть легко адаптированы под различные новые задачи (с файнтюнингом/дообучением или даже совсем без оного, как мы это видели на кейсе с in-context learning GPT-3 (https://news.1rj.ru/str/gonzo_ML/305). Foundation они потому, что являются фундаментами для множества других решений со всеми плюсами этого процесса (проще строить что-то новое) и минусами (от плохого фундамента пострадают многие, если что). В будущем я, наверное, буду называть их по-русски моделями-фундаментами, потому что другие варианты, что я видел (включая “фундаментальные”), по внутреннему ощущению хуже. И эти модели ни разу не фундаментальные для AI, AGI или чего бы то ни было такого, они не являются какой-либо основой для понимания или строительства интеллекта или сознания. Просто фундаменты. Пока что. Хотя подобный месседж периодически просачивается. Вот даже прям в этой работе.

Собственно авторы задались вопросом, что есть модель-фундамент для компьютерного зрения?

Для этого они разбили спектр задач по трём осям:
1) Пространство (классификация сцен, детекция объектов)
2) Время (статика, динамика)
3) Модальность (RGB, глубина).

И далее они определяют foundation model for computer vision как предобученную модель и адаптеры для решения всех задач в этом пространстве Space-Time-Modality и со способностью переноса типа zero/few-shot learning.

Они презентуют свою работу как новую парадигму построения vision foundation model и называют её Флоренцией (потому что это место рождения Ренессанса). И рассматривают они её как экосистему из четырёх больших направлений:
1) Data curation
2) Model pretraining
3) Task adaptations
4) Training infrastructure

По части датасета (пункт 1) они собрали свой датасет FLD-900M (FLorence Dataset) на 900М пар картинка-текст, всего на 7.5B токенов. Собрали автоматизированный пайплайн, накачали из веба, применили фильтрации по типу как в ALIGN.

C описаниями картинок есть сложности, ибо часто под одним описанием оказываются разные картинки, и в FLD-900M для 350М описаний есть более одной картинки.

Это влияет на уровне процедуры обучения (пункт 2), потому что в стандартном contrastive learning (например, в CLIP) неявно подразумевается, что каждая пара картинка-текст имеет уникальное описание, и все остальные описания рассматриваются как негативные примеры.