Все модели сделаны примерно с 1.6B обучаемых параметров. В Base-LCM 32 слоя и 2048 скрытая размерность, в One-Tower аналогично. В Two-Tower 5 слоёв в contextualizer и 13 в denoiser. Quant-LCM аналогична One-Tower, но с другой выходной размерностью.
Предобучали на FineWeb-Edu (https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu, вроде как чисто английский), оценивали результаты предобучения на четырёх датасетах (ROC-stories, C4, Википедия, Гутенберг) по метрикам на тему next sentence prediction, и в целом у диффузионных LCM результаты оказались лучше. Сделали instruction-tuning на Cosmopedia, здесь результаты примерно такие же. Попутно показали важность гиперпараметров для диффузии.
Показали, что LCM хорошо скейлится по длине контекста, требуя меньше FLOPS на ту же длину контекста в токенах. Так понимаю это чисто из-за того, что концепт соответствует предложению из множества токенов, так что концептов меньше, квадратичное внимание ресурсов требует меньше (и это сильно зависит от разбиения параграфа на предложения). Важно также не забывать, что каждый инференс LCM включает в себя три шага: 1) кодирование через SONAR, 2) трансформер-LCM, 3) декодирование через SONAR. На очень маленьких предложениях (меньше 10 токенов), LLM лучше LCM по флопсам.
Поисследовали fragility пространства эмбеддингов SONAR. Под fragile эмбеддингами подразумеваются такие, что при небольшой пертурбации в пространстве могут вести к существенной потере информации при декодировании. Оценить можно, например, по BLEU между оригиналом и текстом после пертурбации (такое называют Auto-Encoding BLEU). Зафайнтюнили декодер более устойчивый к шуму, который по этой метрике лучше. Можно также оценивать по косинусной близости через независимый от SONAR энкодер. Нарисовали кривые, по которым видно как метрики падают с ростом длины текста и уровня шума. На длине больше 250 символов уже прям сильно плохо. При этом метрики ведут себя несколько по-разному, а файнтюн сонара очень даже помогает. В общем не всё просто с этими эмбеддингами, есть куда копать.
После экспериментов отскейлили диффузионный вариант Two-Tower до 7B. У этой версии 5 слоёв в contextualizer, 14 в denoiser, размерность 4096. Предобучили на 2.3B документов с 2.7T токенов и 142.4B концептов/предложений. Контекст расширили до 2048 концептов. Получили модель Two-Tower-7B. Зафайнтюнили на открытых instruction tuning датасетах, это дало модель Two-Tower-7B-IT.
Проверяли на суммаризации на CNN DailyMail и XSum. Смотрели на Rouge-L, долю триграмм со входа на выходе (OVL-3), долю повторяющихся четыре-грамм на выходе (REP-4), метрики из Q4,Q5 из SEAHORSE (https://arxiv.org/abs/2305.13194) и ещё метрика по обученному на CoLA классификатору про то, что предложение linguistically acceptable.
Бейзлайнами в сравнении выступали T5-3B, Gemma-7B, Llama-3.1-8B, Mistral-7B-v0.3. T5 сильно меньше, но в отличие от остальных он файнтюнился на заданные датасеты.
LCM обошла по Rouge instruct-finetuned LLM. OVL-3 показывает, что саммари получаются более abstractive чем extractive. По REP-4 меньше повторов, по CoLA классификатору менее fluent саммари. Но и у человеческих ground truth эта метрика ниже, чем у LLM.
Long-context summarization в целом лучше Мистраля и Джеммы, но хуже Ламы (подозревают контаминацию либо плохую работу других моделей на длинном контексте)
Далее в работе предлагаются несколько расширений LCM.
Задача Summary Expansion заключается в написании длинного текста по короткой саммари, то есть как бы обратная суммаризации задача, но задача всё же не воссоздать исходный документ, а скорее сгенерить связный текст. По имеющимся метрикам получается в основном хуже LLM.
В задаче Zero-shot generalization проверяют модель на других языках, которые есть в XLSum. LCM не видела в обучении ничего кроме английского, а Лама файнтюнилась на восьми языках из списка и видела в предобучении кучу остальных. В целом LCM очень хорошо генерализует на другие языки, часто обгоняя Ламу, особенно на низкоресурсных языках. Какие интересно будут цифры, если LCM обучится на нормальном мультиязычном корпусе?
Предобучали на FineWeb-Edu (https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu, вроде как чисто английский), оценивали результаты предобучения на четырёх датасетах (ROC-stories, C4, Википедия, Гутенберг) по метрикам на тему next sentence prediction, и в целом у диффузионных LCM результаты оказались лучше. Сделали instruction-tuning на Cosmopedia, здесь результаты примерно такие же. Попутно показали важность гиперпараметров для диффузии.
Показали, что LCM хорошо скейлится по длине контекста, требуя меньше FLOPS на ту же длину контекста в токенах. Так понимаю это чисто из-за того, что концепт соответствует предложению из множества токенов, так что концептов меньше, квадратичное внимание ресурсов требует меньше (и это сильно зависит от разбиения параграфа на предложения). Важно также не забывать, что каждый инференс LCM включает в себя три шага: 1) кодирование через SONAR, 2) трансформер-LCM, 3) декодирование через SONAR. На очень маленьких предложениях (меньше 10 токенов), LLM лучше LCM по флопсам.
Поисследовали fragility пространства эмбеддингов SONAR. Под fragile эмбеддингами подразумеваются такие, что при небольшой пертурбации в пространстве могут вести к существенной потере информации при декодировании. Оценить можно, например, по BLEU между оригиналом и текстом после пертурбации (такое называют Auto-Encoding BLEU). Зафайнтюнили декодер более устойчивый к шуму, который по этой метрике лучше. Можно также оценивать по косинусной близости через независимый от SONAR энкодер. Нарисовали кривые, по которым видно как метрики падают с ростом длины текста и уровня шума. На длине больше 250 символов уже прям сильно плохо. При этом метрики ведут себя несколько по-разному, а файнтюн сонара очень даже помогает. В общем не всё просто с этими эмбеддингами, есть куда копать.
После экспериментов отскейлили диффузионный вариант Two-Tower до 7B. У этой версии 5 слоёв в contextualizer, 14 в denoiser, размерность 4096. Предобучили на 2.3B документов с 2.7T токенов и 142.4B концептов/предложений. Контекст расширили до 2048 концептов. Получили модель Two-Tower-7B. Зафайнтюнили на открытых instruction tuning датасетах, это дало модель Two-Tower-7B-IT.
Проверяли на суммаризации на CNN DailyMail и XSum. Смотрели на Rouge-L, долю триграмм со входа на выходе (OVL-3), долю повторяющихся четыре-грамм на выходе (REP-4), метрики из Q4,Q5 из SEAHORSE (https://arxiv.org/abs/2305.13194) и ещё метрика по обученному на CoLA классификатору про то, что предложение linguistically acceptable.
Бейзлайнами в сравнении выступали T5-3B, Gemma-7B, Llama-3.1-8B, Mistral-7B-v0.3. T5 сильно меньше, но в отличие от остальных он файнтюнился на заданные датасеты.
LCM обошла по Rouge instruct-finetuned LLM. OVL-3 показывает, что саммари получаются более abstractive чем extractive. По REP-4 меньше повторов, по CoLA классификатору менее fluent саммари. Но и у человеческих ground truth эта метрика ниже, чем у LLM.
Long-context summarization в целом лучше Мистраля и Джеммы, но хуже Ламы (подозревают контаминацию либо плохую работу других моделей на длинном контексте)
Далее в работе предлагаются несколько расширений LCM.
Задача Summary Expansion заключается в написании длинного текста по короткой саммари, то есть как бы обратная суммаризации задача, но задача всё же не воссоздать исходный документ, а скорее сгенерить связный текст. По имеющимся метрикам получается в основном хуже LLM.
В задаче Zero-shot generalization проверяют модель на других языках, которые есть в XLSum. LCM не видела в обучении ничего кроме английского, а Лама файнтюнилась на восьми языках из списка и видела в предобучении кучу остальных. В целом LCM очень хорошо генерализует на другие языки, часто обгоняя Ламу, особенно на низкоресурсных языках. Какие интересно будут цифры, если LCM обучится на нормальном мультиязычном корпусе?
👍9❤2🔥1
На задаче Explicit planning другая planning model (LPM) генерит высокоуровневый план, что должно быть сделано дальше, а LCM на основе этого плана генерит последовательность концептов + break концепт (это может означать конец параграфа). Итоговый сеттинг зовётся LPCM. Оценивали coherence в режиме LLM-as-a-judge (Llama-3.1-8B-IT). На Cosmopedia (https://huggingface.co/datasets/HuggingFaceTB/cosmopedia) LPCM оказалась вроде лучше просто LCM, но 2.82 ± 0.62 против 2.74 ± 0.70 разве что-то значит, когда такие большие доверительные интервалы? Хз, своеобразный сеттинг какой-то — датасет сгенерён LLM, оценивает тоже LLM, как-то много здесь разных стрёмных факторов.
Ну ладно, работа класса proof of concept, и как пруф она хороша. То, что они в моменте не поставили новую соту — неважно. Вряд ли у нас прямо завтра появится новая ConceptLlama, но это интересный подход и мне он нравится. Я тоже не верю, что предсказание следующего токена — это то, что нам глобально нужно, и хорошо уметь работать уровнем выше, чем обычно происходит в LLM. Мне также очень нравится модульность. Интересно, во что это разовьётся дальше.
Ну ладно, работа класса proof of concept, и как пруф она хороша. То, что они в моменте не поставили новую соту — неважно. Вряд ли у нас прямо завтра появится новая ConceptLlama, но это интересный подход и мне он нравится. Я тоже не верю, что предсказание следующего токена — это то, что нам глобально нужно, и хорошо уметь работать уровнем выше, чем обычно происходит в LLM. Мне также очень нравится модульность. Интересно, во что это разовьётся дальше.
arXiv.org
Large Concept Models: Language Modeling in a Sentence Representation Space
LLMs have revolutionized the field of artificial intelligence and have emerged as the de-facto tool for many tasks. The current established technology of LLMs is to process input and generate...
👍24🔥18❤7
Прекрасно! Всё по Лему, принцип наименьшего действия. Умный робот будет делать как проще.
Когда o1 сказали, что она будет играть с сильной шахматной программой, o1 проще делать схематоз и взламывать среду, чтобы выиграть.
https://x.com/PalisadeAI/status/1872666169515389245?t=2ASSyATHH-NfVE4EhQWW3Q&s=19
Ждём следующего поколения моделей, которые будут симулировать дурачка, чтобы не делать работу.
Когда o1 сказали, что она будет играть с сильной шахматной программой, o1 проще делать схематоз и взламывать среду, чтобы выиграть.
https://x.com/PalisadeAI/status/1872666169515389245?t=2ASSyATHH-NfVE4EhQWW3Q&s=19
Ждём следующего поколения моделей, которые будут симулировать дурачка, чтобы не делать работу.
👍25😁12❤9💯2😈2