NEW BOT Телеграм, страница

5.14K views01:57

👍8

5.33K views01:57

Large Concept Models: Language Modeling in a Sentence Representation Space
LCM team, Loïc Barrault, Paul-Ambroise Duquenne, Maha Elbayad, Artyom Kozhevnikov, Belen Alastruey, Pierre Andrews, Mariano Coria, Guillaume Couairon, Marta R. Costa-jussà, David Dale, Hady Elsahar, Kevin Heffernan, João Maria Janeiro, Tuan Tran, Christophe Ropers, Eduardo Sánchez, Robin San Roman, Alexandre Mourachko, Safiyyah Saleem, Holger Schwenk
Статья: https://arxiv.org/abs/2412.08821
Код: https://github.com/facebookresearch/large_concept_model

Ещё одна классная работа от FAIR (BLT https://news.1rj.ru/str/gonzo_ML/3109 тоже была их).

Хочется уметь работать на разных уровнях абстракции. Мозг, очевидно, умеет это делать и наше мышление не оперирует только лишь на уровне слов. У нас есть какой-то top-down процесс решения сложных задач. Например, при создании длинного документа мы (обычно) сначала планируем его верхнеуровневую структуру, а затем начинаем добавлять детали на более низких уровнях абстракции. Текущие LLM работают скорее не так, уровень токенов — наше (их) всё. Может, конечно, и есть там внутри какие-то неявные иерархические репрезентации, но иметь их явно было бы более полезно. Иметь ризонинг и планирование на этом уровне также было бы ценно. Совсем хорошо было бы иметь этот уровень независимым от конкретного языка и модальности — одна и та же мысль может быть выражена на разных языках и в разных модальностях (текст, голос).

Хочется (снова) уйти от токенов — в BLT мы уходили в латентную не видимую снаружи токенизацию, а здесь мы уходим в более высокоуровневое пространство эмбеддингов для концептов и хотим моделировать процесс ризонинга на уровне семантики, а не токенов, и иметь LCM (Large Concept Model) вместо LLM.

Для проверки идеи ограничиваемся двумя уровнями: 1) subword токены и 2) концепты. Под концептами понимается абстрактная неделимая идея, на практике часто соответствующая предложению в документе или высказыванию в разговорной речи. В отличие от одиночных слов это подходящий элемент для достижения независимости от языка.

Для такого подхода надо иметь пространство эмбеддингов предложений с доступным энкодером и декодером. В качестве такового взяли FAIR’овский же SONAR (https://arxiv.org/abs/2308.11466) с поддержкой 200 языков (все языки из проекта No Language Left Behind, https://arxiv.org/abs/2207.04672) на текстовых входах/выходах, 76 языков на речевом входе и одного английского на речевом выходе. SONAR бьёт по качеству LASER3 и LabSE и доступен в репе https://github.com/facebookresearch/SONAR. Размер эмбеддинга 1024 float чиселки (что значит, типичное предложение в виде эмбеддингов будет занимать в разы больше места, в работе на 1Tb текста уходило примерно 15-20Tb эмбеддингов).

Имея всё это мы через энкодер SONAR можем получить из входного текста последовательность концептов, т.е. эмбеддингов предложений. И дальше эту последовательность обрабатывать LCM, генерируя на выходе новую последовательность концептов. А её в свою очередь декодировать SONAR’ом в последовательность токенов. Энкодер и декодер SONAR берутся готовые и не обучаются, обучается только LCM.

Что красиво, одна и та же последовательность концептов из LCM может быть декодирована в разные языки и модальности без необходимости перепрогонять весь процесс ризонинга. LCM вообще не знает ничего ни про языки, ни про модальности, из которых на её вход пришли данные. Появляется красивая модульность, обучил энкодер/декодер для нового языка — и уже обученная LCM автоматом с ним работает. В работе есть таблица про количество поддерживаемых языков в разных модальностях, LCM со своими 200 языками для текста здесь всех бьёт, но не совсем понятно как получены цифры для GPT/Gemini/Claude, я вроде не видел заявленного списка поддерживаемых языков у этих моделей. Ещё, конечно, было бы интересно посмотреть на концепты, которые неодинаково хорошо декодируются в разные языки.

👍19❤10🔥4👌2🤔1

4.83K views03:34

gonzo-обзоры ML статей

Отдельный профит от такого подхода для обработки длинных документов — последовательность концептов как минимум на порядок короче последовательности токенов, а значит легче обработать трансформером с фиксированным окном контекста (ну либо больше влезет).

До некоторой степени LCM напоминает Лекуновскую JEPA (https://openreview.net/pdf?id=BZ5a1r-kVsf), которая тоже предсказывает репрезентации следующих наблюдений в пространстве эмбеддингов. Но JEPA фокусировалась на выучивании такого пространства в режиме self-supervised, а LCM фокусируется на точном предсказании в уже существующем пространстве эмбеддингов (но срастить эти два подхода, наверное, тоже просится).

Итак, работаем в пространстве эмбеддингов, для обучения LCM нужно подготовить текстовый датасет и сконвертировать его через SONAR в эмбеддинги, один на каждое предложение. На практике это не так просто, точная сегментация не всегда легка из-за ошибок в датасете или специфического форматирования. Кроме того длинные предложения могут быть слишком сложны для кодирования/декодирования через SONAR, качество пострадает. В итоге для разбиения на предложения выбрали Segment any Text (SaT, https://github.com/segment-any-text/wtpsplit) с дополнительным ограничением на длину сегмента, всё длиннее 250 символов (это число мы ещё встретим) разбивается, этот метод называют SaT Capped.

LCM должна conditionally на основе контекста генерить непрерывный эмбеддинг. Это отличается от работы LLM, где надо выдать распределение вероятности по дискретным токенам словаря. Прямолинейный подход к снаряду был бы обучить трансформер генерить эмбеддинг с objective минимизации MSE лосса. Это будет называться Base-LCM. Это не так просто, потому что у заданного контекста может быть много подходящих, но семантически разных продолжений, это видно на примере генерации картинок диффузионками, из одного промпта получаются довольно разные изображения. И в целом в той области как раз много наработок по выучиванию conditional probability distributions для непрерывных данных, поэтому другой логичный вариант на попробовать — это диффузионная модель, Diffusion-based LCM. Наконец ещё один вариант — квантизация и возврат к задаче генерации дискретных элементов, Quantized LCM.

Пройдёмся подробнее по вариантам LCM.

Base-LCM выступает бейзлайном, это стандартный декодер трансформера, переводящий последовательность предшествующих концептов (эмбеддингов предложений) в последовательность будущих. Трансформер окружён со стороны входа и выхода двумя простыми сетями, PreNet и PostNet, занимающимися нормализацией/денормализацией и проекцией SONAR эмбеддингов в размерность модели и из неё обратно. Обучается на semi-supervised задаче предсказания следующего концепта, минимизируя MSE loss относительно ground truth. К документам обучающей выборки добавляют суффикс “End of text”, что даёт возможность научиться генерить документы переменной длины. В инференсе один из стоп-критериев проверяет близость сгенерённого эмбеддинга эмбеддингу этого суффикса и останавливает генерацию, если близость выше заданного порога; другой стоп-критерий смотрит на косинусную близость между текущим и предыдущим эмбеддингом и останавливает, если она выше порога (оба порога установлены в 0.9).

Diffusion-based LCM тоже авторегрессионно генерит концепты, один за раз, делая заданное количество denoising steps для каждого генерируемого концепта. Использует classifier-free diffusion guidance. Есть версия модели с одним стволом (One-Tower) и двумя (Two-Tower). В первом случае это один ствол трансформера, делающий всё. Во втором отдельный ствол (contextualizer) занимается кодированием предшествующего контекста, а второй (denoiser) генерит новый эмбеддинг концепта и через cross-attention смотрит на контекст из первого ствола.

Quantized LCM использует Residual Vector Quantization и далее работает аналогично обычным LLM, предсказывающим дискретные юниты. Здесь можно использовать температуру, top-p/top-k. Архитектуру стараются собрать максимально похожую на Diffusion-based LCM, чтобы было легче сравнивать.

👍11❤4👌2🔥1

3.16K views03:34

gonzo-обзоры ML статей

Все модели сделаны примерно с 1.6B обучаемых параметров. В Base-LCM 32 слоя и 2048 скрытая размерность, в One-Tower аналогично. В Two-Tower 5 слоёв в contextualizer и 13 в denoiser. Quant-LCM аналогична One-Tower, но с другой выходной размерностью.

Предобучали на FineWeb-Edu (https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu, вроде как чисто английский), оценивали результаты предобучения на четырёх датасетах (ROC-stories, C4, Википедия, Гутенберг) по метрикам на тему next sentence prediction, и в целом у диффузионных LCM результаты оказались лучше. Сделали instruction-tuning на Cosmopedia, здесь результаты примерно такие же. Попутно показали важность гиперпараметров для диффузии.

Показали, что LCM хорошо скейлится по длине контекста, требуя меньше FLOPS на ту же длину контекста в токенах. Так понимаю это чисто из-за того, что концепт соответствует предложению из множества токенов, так что концептов меньше, квадратичное внимание ресурсов требует меньше (и это сильно зависит от разбиения параграфа на предложения). Важно также не забывать, что каждый инференс LCM включает в себя три шага: 1) кодирование через SONAR, 2) трансформер-LCM, 3) декодирование через SONAR. На очень маленьких предложениях (меньше 10 токенов), LLM лучше LCM по флопсам.

Поисследовали fragility пространства эмбеддингов SONAR. Под fragile эмбеддингами подразумеваются такие, что при небольшой пертурбации в пространстве могут вести к существенной потере информации при декодировании. Оценить можно, например, по BLEU между оригиналом и текстом после пертурбации (такое называют Auto-Encoding BLEU). Зафайнтюнили декодер более устойчивый к шуму, который по этой метрике лучше. Можно также оценивать по косинусной близости через независимый от SONAR энкодер. Нарисовали кривые, по которым видно как метрики падают с ростом длины текста и уровня шума. На длине больше 250 символов уже прям сильно плохо. При этом метрики ведут себя несколько по-разному, а файнтюн сонара очень даже помогает. В общем не всё просто с этими эмбеддингами, есть куда копать.

После экспериментов отскейлили диффузионный вариант Two-Tower до 7B. У этой версии 5 слоёв в contextualizer, 14 в denoiser, размерность 4096. Предобучили на 2.3B документов с 2.7T токенов и 142.4B концептов/предложений. Контекст расширили до 2048 концептов. Получили модель Two-Tower-7B. Зафайнтюнили на открытых instruction tuning датасетах, это дало модель Two-Tower-7B-IT.

Проверяли на суммаризации на CNN DailyMail и XSum. Смотрели на Rouge-L, долю триграмм со входа на выходе (OVL-3), долю повторяющихся четыре-грамм на выходе (REP-4), метрики из Q4,Q5 из SEAHORSE (https://arxiv.org/abs/2305.13194) и ещё метрика по обученному на CoLA классификатору про то, что предложение linguistically acceptable.

Бейзлайнами в сравнении выступали T5-3B, Gemma-7B, Llama-3.1-8B, Mistral-7B-v0.3. T5 сильно меньше, но в отличие от остальных он файнтюнился на заданные датасеты.

LCM обошла по Rouge instruct-finetuned LLM. OVL-3 показывает, что саммари получаются более abstractive чем extractive. По REP-4 меньше повторов, по CoLA классификатору менее fluent саммари. Но и у человеческих ground truth эта метрика ниже, чем у LLM.

Long-context summarization в целом лучше Мистраля и Джеммы, но хуже Ламы (подозревают контаминацию либо плохую работу других моделей на длинном контексте)

Далее в работе предлагаются несколько расширений LCM.

Задача Summary Expansion заключается в написании длинного текста по короткой саммари, то есть как бы обратная суммаризации задача, но задача всё же не воссоздать исходный документ, а скорее сгенерить связный текст. По имеющимся метрикам получается в основном хуже LLM.

В задаче Zero-shot generalization проверяют модель на других языках, которые есть в XLSum. LCM не видела в обучении ничего кроме английского, а Лама файнтюнилась на восьми языках из списка и видела в предобучении кучу остальных. В целом LCM очень хорошо генерализует на другие языки, часто обгоняя Ламу, особенно на низкоресурсных языках. Какие интересно будут цифры, если LCM обучится на нормальном мультиязычном корпусе?

👍9❤2🔥1

2.71K views03:34

gonzo-обзоры ML статей

На задаче Explicit planning другая planning model (LPM) генерит высокоуровневый план, что должно быть сделано дальше, а LCM на основе этого плана генерит последовательность концептов + break концепт (это может означать конец параграфа). Итоговый сеттинг зовётся LPCM. Оценивали coherence в режиме LLM-as-a-judge (Llama-3.1-8B-IT). На Cosmopedia (https://huggingface.co/datasets/HuggingFaceTB/cosmopedia) LPCM оказалась вроде лучше просто LCM, но 2.82 ± 0.62 против 2.74 ± 0.70 разве что-то значит, когда такие большие доверительные интервалы? Хз, своеобразный сеттинг какой-то — датасет сгенерён LLM, оценивает тоже LLM, как-то много здесь разных стрёмных факторов.

Ну ладно, работа класса proof of concept, и как пруф она хороша. То, что они в моменте не поставили новую соту — неважно. Вряд ли у нас прямо завтра появится новая ConceptLlama, но это интересный подход и мне он нравится. Я тоже не верю, что предсказание следующего токена — это то, что нам глобально нужно, и хорошо уметь работать уровнем выше, чем обычно происходит в LLM. Мне также очень нравится модульность. Интересно, во что это разовьётся дальше.

arXiv.org

Large Concept Models: Language Modeling in a Sentence Representation Space

LLMs have revolutionized the field of artificial intelligence and have emerged as the de-facto tool for many tasks. The current established technology of LLMs is to process input and generate...

👍24🔥18❤7

2.83K views03:34

gonzo-обзоры ML статей

2.74K views03:35

gonzo-обзоры ML статей

2.87K views03:35

gonzo-обзоры ML статей

2.93K views03:35

gonzo-обзоры ML статей