Пока совсем кратко. Генеративный ИИ наконец добрался до генерации видео по текстовому промпту. Марк Цукерберг сегодня анонсировал свежую работу (https://www.facebook.com/4/posts/pfbid0zeP5MtjQmg4FpMR4JN3CWsxDgSd71TU1jrThwmTyvy1QFAsfwKgnpZEgpP3z3LD7l/) под названием Make-A-Video.
Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.
Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.
У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://news.1rj.ru/str/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).
Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).
Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).
Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/
Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.
Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
Примеры неидеальны, но всё же заметно хороши! Можно генерить видео в заданном стиле по тексту, можно оживлять статические картинки или делать видео перехода от одной картинки к другой, можно делать вариации уже имеющихся видео.
Ссылка на работу: https://makeavideo.studio/Make-A-Video.pdf.
У нея внутре неонка! В смысле, как теперь модно, аналогичная unCLIP (https://news.1rj.ru/str/gonzo_ML/919) диффузионная модель text-to-image с суперрезолюшном. Слои свёрток и внимания теперь spatiotemporal, а также есть отдельная сеть для интерполяции кадров (а-ля суперрезолюшн по времени).
Обучалось всё сначала на картинках (где надо в паре с текстом), и только потом из этого инициализировались новые темпоральные слои и файнтюнились на неразмеченных видео (модель движения возникает здесь).
Установили новую SoTA на старом добром датасете UCF-101 (https://arxiv.org/abs/1212.0402).
Для работы уже заведён сайт с многообещаюшим названием: https://makeavideo.studio/
Сейчас там интерактивная страница аналогичная в прошлом таким же страницам про DALL-E от OpenAI. Можно повыбирать из заранее заготовленных примеров. Либо пытаться обратиться к команде через соцсети, публикуя промпты с тегом #MetaAI.
Встать в очередь на будущий доступ можно здесь: https://forms.gle/dZ4kudbydHPgfzQ48
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
👍8🔥5
A golden retriever eating ice cream on a beautiful tropical beach at sunset, high resolution
A dog wearing a Superhero outfit with red cape flying through the sky
More Generative AI
Генеративный AI (https://news.1rj.ru/str/gonzo_ML/1062) вовсю уже вошёл в нашу жизнь.
DALL-E теперь умеет Outpainting (https://openai.com/blog/dall-e-introducing-outpainting/), а с недавнего момента и доступна без waitlist’а (https://openai.com/blog/dall-e-now-available-without-waitlist/).
Августовский релиз Stable Diffusion (https://stability.ai/blog/stable-diffusion-public-release) сильно поменял ландшафт, и эта модель и сама выложена на HuggingFace (https://huggingface.co/spaces/stabilityai/stable-diffusion), и Colab ноутбуки для её использования в наличии (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb), и родной продукт есть (https://beta.dreamstudio.ai/dream), и в Midjourney встроена.
Кристина Каштанова (Кристина, молодец!) недавно зарегистрировала впервые авторские права (https://arstechnica.com/information-technology/2022/09/artist-receives-first-known-us-copyright-registration-for-generative-ai-art/) на комикс, созданный с помощью MJ, а Die Antwoord выложили очередной клип (https://www.youtube.com/watch?v=Cq56o0YH3mE) созданный командой художников под именем Sagans. Sagans незадолго до этого выпустили другой свой клип (https://www.youtube.com/watch?v=kASqM5HTvfY) созданный в том числе и с помощью AI (https://www.unrealengine.com/en-US/spotlights/words-camera-action-creating-an-ai-music-video-with-unreal-engine-5) и технологии Unreal Engine MetaHuman (https://www.unrealengine.com/en-US/metahuman). Три года назад, кстати, про эти работы Epic Games я тоже писал, в тот момент было демо под названием Siren на предыдущей версии UE (https://blog.inten.to/welcome-to-the-simulation-dd0d8cb6534d).
На днях (но по сути конечно же раньше) специализированные модели также добрались до видео (https://news.1rj.ru/str/gonzo_ML/1099) и до трёхмерных объектов (https://dreamfusionpaper.github.io/).
Безусловно, это всё только начало. Мы в лучшем случае попробовали лишь малую долю возможностей этих быстро эволюционирующих новых средств и создали лишь первый процент новых продуктов или работ. Дальше будет ещё веселее.
Одно из направлений, про которое много не говорят, но которое очевидно будет, это генерация взрослого контента. Говорят, эта индустрия поспособствовала продвижению формата VHS, а также интернета и стриминга. Поспособствует и такому вот прикладному AI. Я совсем не удивлюсь, если сейчас в недрах условного порнхаба обучают свои генеративные модели. Даже обычные модели Stable Diffusion кое-что умеют (https://www.facebook.com/groups/stablediffusionaiart/permalink/633378585094046/), что уж там говорить про специализированные.
Мир никогда не будет прежним.
Генеративный AI (https://news.1rj.ru/str/gonzo_ML/1062) вовсю уже вошёл в нашу жизнь.
DALL-E теперь умеет Outpainting (https://openai.com/blog/dall-e-introducing-outpainting/), а с недавнего момента и доступна без waitlist’а (https://openai.com/blog/dall-e-now-available-without-waitlist/).
Августовский релиз Stable Diffusion (https://stability.ai/blog/stable-diffusion-public-release) сильно поменял ландшафт, и эта модель и сама выложена на HuggingFace (https://huggingface.co/spaces/stabilityai/stable-diffusion), и Colab ноутбуки для её использования в наличии (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb), и родной продукт есть (https://beta.dreamstudio.ai/dream), и в Midjourney встроена.
Кристина Каштанова (Кристина, молодец!) недавно зарегистрировала впервые авторские права (https://arstechnica.com/information-technology/2022/09/artist-receives-first-known-us-copyright-registration-for-generative-ai-art/) на комикс, созданный с помощью MJ, а Die Antwoord выложили очередной клип (https://www.youtube.com/watch?v=Cq56o0YH3mE) созданный командой художников под именем Sagans. Sagans незадолго до этого выпустили другой свой клип (https://www.youtube.com/watch?v=kASqM5HTvfY) созданный в том числе и с помощью AI (https://www.unrealengine.com/en-US/spotlights/words-camera-action-creating-an-ai-music-video-with-unreal-engine-5) и технологии Unreal Engine MetaHuman (https://www.unrealengine.com/en-US/metahuman). Три года назад, кстати, про эти работы Epic Games я тоже писал, в тот момент было демо под названием Siren на предыдущей версии UE (https://blog.inten.to/welcome-to-the-simulation-dd0d8cb6534d).
На днях (но по сути конечно же раньше) специализированные модели также добрались до видео (https://news.1rj.ru/str/gonzo_ML/1099) и до трёхмерных объектов (https://dreamfusionpaper.github.io/).
Безусловно, это всё только начало. Мы в лучшем случае попробовали лишь малую долю возможностей этих быстро эволюционирующих новых средств и создали лишь первый процент новых продуктов или работ. Дальше будет ещё веселее.
Одно из направлений, про которое много не говорят, но которое очевидно будет, это генерация взрослого контента. Говорят, эта индустрия поспособствовала продвижению формата VHS, а также интернета и стриминга. Поспособствует и такому вот прикладному AI. Я совсем не удивлюсь, если сейчас в недрах условного порнхаба обучают свои генеративные модели. Даже обычные модели Stable Diffusion кое-что умеют (https://www.facebook.com/groups/stablediffusionaiart/permalink/633378585094046/), что уж там говорить про специализированные.
Мир никогда не будет прежним.
Telegram
gonzo-обзоры ML статей
Generative AI
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое…
Последние месяцы на поляне Generative AI праздник за праздником.
Начнём с генерации картинок.
Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое…
🔥10👍3👎1
Я понимаю, что многим сейчас совсем не до этого, но 11-14 октября пройдёт конференция Google Cloud Next'22.
На конференции много разных треков, есть и про облачный AI & ML, есть практические кейсы компаний, есть лабы по Natural Language, Cloud Vision, и Cloud ML API, есть про запуск распределённого TF, есть много про разные другие аспекты клауда, разработку, devops, есть даже про VC.
Регистрация тут: https://goo.gle/3UhurC1
На конференции много разных треков, есть и про облачный AI & ML, есть практические кейсы компаний, есть лабы по Natural Language, Cloud Vision, и Cloud ML API, есть про запуск распределённого TF, есть много про разные другие аспекты клауда, разработку, devops, есть даже про VC.
Регистрация тут: https://goo.gle/3UhurC1
Withgoogle
Experience Google Cloud Next 25
Save the date! #GoogleCloudNext is back in Las Vegas on April 9–11, 2025.
👍24❤5
The 4th chapter of my book, "JAX in Action," is ready!
https://www.manning.com/books/jax-in-action
It is the chapter on automatic differentiation, autodiff, or AD for short. I think it is the most complex chapter of the book. But it will reward you with a solid understanding of:
🗺- the place AD takes, among other ways of getting derivatives
💪- all the powers and peculiarities of JAX autodiff, the grad() transform, and a family of related functions
🔭- the forward and reverse mode AD, with the jvp() and vjp() transforms
BTW, the 5th chapter about the JIT compilation is on its way! It is also about Jaxpr, XLA, and AOT compilation.
P.S. Your feedback is welcome!
#jax #DeepLearning #AI
https://www.manning.com/books/jax-in-action
It is the chapter on automatic differentiation, autodiff, or AD for short. I think it is the most complex chapter of the book. But it will reward you with a solid understanding of:
🗺- the place AD takes, among other ways of getting derivatives
💪- all the powers and peculiarities of JAX autodiff, the grad() transform, and a family of related functions
🔭- the forward and reverse mode AD, with the jvp() and vjp() transforms
BTW, the 5th chapter about the JIT compilation is on its way! It is also about Jaxpr, XLA, and AOT compilation.
P.S. Your feedback is welcome!
#jax #DeepLearning #AI
Manning Publications
Deep Learning with JAX - Grigory Sapunov
Accelerate deep learning and other number-intensive tasks with JAX, Google’s awesome high-performance numerical computing library.
The JAX numerical computing library tackles the core performance challenges at the heart of deep learning and other scientific…
The JAX numerical computing library tackles the core performance challenges at the heart of deep learning and other scientific…
👍27🔥16❤🔥2
Just in case, here is the book's GitHub repo: https://github.com/che-shr-cat/JAX-in-Action
GitHub
GitHub - che-shr-cat/Deep_Learning_with_JAX: Notebooks for the "Deep Learning with JAX" book
Notebooks for the "Deep Learning with JAX" book . Contribute to che-shr-cat/Deep_Learning_with_JAX development by creating an account on GitHub.
🔥28👍8❤🔥4
Не обзор, но тоже про статьи :)
Мне тут подарили классный артефакт — экземпляр основополагающей статьи 2004 года про MapReduce, подписанный одним из авторов, Джеффом Дином.
Пользуясь случаем хочу сказать, вливайтесь в ряды GDE ML!
https://developers.google.com/community/experts
Мне тут подарили классный артефакт — экземпляр основополагающей статьи 2004 года про MapReduce, подписанный одним из авторов, Джеффом Дином.
Пользуясь случаем хочу сказать, вливайтесь в ряды GDE ML!
https://developers.google.com/community/experts
🔥56❤6👍3😁2
UL2: Unifying Language Learning Paradigms
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
Статья: https://arxiv.org/abs/2205.05131
Пост в блоге: https://ai.googleblog.com/2022/10/ul2-20b-open-source-unified-language.html
Модели: https://github.com/google-research/google-research/tree/master/ul2
HF: https://huggingface.co/google/ul2
Мы как-то про гугловую модель UL2 не писали, только лишь мельком упомянули однажды (https://news.1rj.ru/str/gonzo_ML/1032), а она того стоит, тем более, что Гугл выложил в свободный доступ чекпойнты лучшей модели с 20B параметров и недавно написал про неё в своём блоге.
В текущем NLP есть множество моделей разных типов (BERT, GPT, T5, …), где смешаны архитектура и pre-training objective, и выбор подходящей модели во многом зависит от решаемой downstream задачи.
В работе авторы задаются вопросом, как предобучить модель, которая будет универсально хороша на множестве разных задач и почему вообще выбор предобученной модели должен зависеть от downstream задачи? Для этого они предлагают фреймворк под названием Unifying Language Learning Paradigms (UL2), отлично себя показывающий на разных задачах и конфигурациях, в то время как многие модели балансируют между заточенностью на файнтюнинг или же на 1-shot генерацию с помощью промптов.
Преимущества универсальной модели понятны: легче развивать и скейлить одну модель, чем множество; хостить тоже проще одну универсальную, чем кучу разных задаче-специфичных. Есть правда и традиционный эволюционный консёрн про разнообразие, которое очень ценно поддерживать, но это мы, видимо, снова вспомним на следующем витке развития.
Авторы отделяют архитектуру от pre-training objective, которые часто перемешаны.
С точки зрения архитектур, encoder-only модели типа BERT’а фактически объявлены в какой-то степени deprecated, потому что весьма ограничены в генерации, а задаче-специфичные головы громоздки (и вероятно единственная причина, когда они нужны, это регрессия). Получается, реальный выбор должен быть между decoder-only и encoder-decoder моделями, и дальше в работе сравнивают эти две архитектуры. Из очевидных различий здесь требование x2 параметров у последних относительно первых. Есть конечно некоторая разница с точки зрения inductive biases и процесса построения репрезентаций, но не факт, что очень существенная.
С точки зрения pre-training objectives, есть стандартная Causal LM objective для имитации авторегрессионной генерации, часто используемая в decoder-only моделях типа GPT. Есть более гибкая Prefix LM, когда внутри промпта паттерн внимания не causal (слева-направо), а полный (все смотрят на всех) -- это как бы эмуляция encoder+decoder внутри одного трансформера. Для encoder-decoder в своё время в работе про T5 исследовали кучу objectives и показали, что там хорошо работает span corruption. Есть также подходы типа UniLM (https://arxiv.org/abs/1905.03197), когда один трансформер обучается на разных типах задач каждая со своей маской self-attention.
Подход UL2 основан на наблюдении, что большинство pre-training objectives отличаются типом контекста, которым обусловливается модель. Например, span corruption использует двунаправленный контекст и как бы может заглядывать в будущее, в отличие от языковых и префиксных языковых моделей. И в целом одну pre-training objective можно свести к другой.
Суть UL2 в новой pre-training objective под названием Mixture-of-Denoisers (MoD).
MoD -- это смесь устоявшихся и новых denoising objectives, а именно:
* R-denoising (regular denoising), обычный span corruption из T5 с короткими span’ами (2-5 токенов) и низкой частотой затирания (15%).
* X-denoising (extreme denoising) с длинными испорченными сегментами (≥12 токенов) или высокой частотой затирания (≥30%)
* S-denoising (sequential denoising), вариант строго соблюдающий каузальность, когда надо сгенерить продолжение текста по промпту, но имеющий двунаправленное внимание внутри самого промпта (как в PrefixLM).
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
Статья: https://arxiv.org/abs/2205.05131
Пост в блоге: https://ai.googleblog.com/2022/10/ul2-20b-open-source-unified-language.html
Модели: https://github.com/google-research/google-research/tree/master/ul2
HF: https://huggingface.co/google/ul2
Мы как-то про гугловую модель UL2 не писали, только лишь мельком упомянули однажды (https://news.1rj.ru/str/gonzo_ML/1032), а она того стоит, тем более, что Гугл выложил в свободный доступ чекпойнты лучшей модели с 20B параметров и недавно написал про неё в своём блоге.
В текущем NLP есть множество моделей разных типов (BERT, GPT, T5, …), где смешаны архитектура и pre-training objective, и выбор подходящей модели во многом зависит от решаемой downstream задачи.
В работе авторы задаются вопросом, как предобучить модель, которая будет универсально хороша на множестве разных задач и почему вообще выбор предобученной модели должен зависеть от downstream задачи? Для этого они предлагают фреймворк под названием Unifying Language Learning Paradigms (UL2), отлично себя показывающий на разных задачах и конфигурациях, в то время как многие модели балансируют между заточенностью на файнтюнинг или же на 1-shot генерацию с помощью промптов.
Преимущества универсальной модели понятны: легче развивать и скейлить одну модель, чем множество; хостить тоже проще одну универсальную, чем кучу разных задаче-специфичных. Есть правда и традиционный эволюционный консёрн про разнообразие, которое очень ценно поддерживать, но это мы, видимо, снова вспомним на следующем витке развития.
Авторы отделяют архитектуру от pre-training objective, которые часто перемешаны.
С точки зрения архитектур, encoder-only модели типа BERT’а фактически объявлены в какой-то степени deprecated, потому что весьма ограничены в генерации, а задаче-специфичные головы громоздки (и вероятно единственная причина, когда они нужны, это регрессия). Получается, реальный выбор должен быть между decoder-only и encoder-decoder моделями, и дальше в работе сравнивают эти две архитектуры. Из очевидных различий здесь требование x2 параметров у последних относительно первых. Есть конечно некоторая разница с точки зрения inductive biases и процесса построения репрезентаций, но не факт, что очень существенная.
С точки зрения pre-training objectives, есть стандартная Causal LM objective для имитации авторегрессионной генерации, часто используемая в decoder-only моделях типа GPT. Есть более гибкая Prefix LM, когда внутри промпта паттерн внимания не causal (слева-направо), а полный (все смотрят на всех) -- это как бы эмуляция encoder+decoder внутри одного трансформера. Для encoder-decoder в своё время в работе про T5 исследовали кучу objectives и показали, что там хорошо работает span corruption. Есть также подходы типа UniLM (https://arxiv.org/abs/1905.03197), когда один трансформер обучается на разных типах задач каждая со своей маской self-attention.
Подход UL2 основан на наблюдении, что большинство pre-training objectives отличаются типом контекста, которым обусловливается модель. Например, span corruption использует двунаправленный контекст и как бы может заглядывать в будущее, в отличие от языковых и префиксных языковых моделей. И в целом одну pre-training objective можно свести к другой.
Суть UL2 в новой pre-training objective под названием Mixture-of-Denoisers (MoD).
MoD -- это смесь устоявшихся и новых denoising objectives, а именно:
* R-denoising (regular denoising), обычный span corruption из T5 с короткими span’ами (2-5 токенов) и низкой частотой затирания (15%).
* X-denoising (extreme denoising) с длинными испорченными сегментами (≥12 токенов) или высокой частотой затирания (≥30%)
* S-denoising (sequential denoising), вариант строго соблюдающий каузальность, когда надо сгенерить продолжение текста по промпту, но имеющий двунаправленное внимание внутри самого промпта (как в PrefixLM).
research.google
UL2 20B: An Open Source Unified Language Learner
Posted by Yi Tay and Mostafa Dehghani, Research Scientists, Google Research, Brain Team Building models that understand and generate natural langua...
👍15
Всё это реализуется через общую функцию SpanCorrupt(µ, r, n), где µ это средняя длина спана, r -- частота затирания, n -- число попорченных спанов.
Финальная objective это микс из 7 денойзеров (2*R, S, 4*X) смешиваемых равномерно. Обычную LM (causal LM) в микс не включали, потому что это специальный кейс Prefix LM.
Что интересно, по-одиночке эти objectives могут не работать хорошо. В работе про T5 исследовался вариант X-denoising с 50% повреждений, но там он работал плохо. Видимо, сила в миксе.
Также ввели специальный токен, paradigm token, для указания режима работы {[R], [S], [X]} и использовали его в предобучении. У самой большой выложенной модели эти токены заменены соответственно на [NLU], [S2S] и [NLG].
Архитектурно использовался обычный T5-подобный трансформер с современными улучшениями типа SwiGLU или relative attention.
Обучали на корпусе C4, всего примерно 32B токенов. Для сравнения, оригинальный T5 использовал ~34B токенов, Chinchilla обучалась на 1.4T токенов, а многие модели типа GPT-3, LaMDA, Gopher на 168-300B (https://arxiv.org/abs/2203.15556).
Проверялись на 8 NLU задачах из SuperGLUE и 3 датасетах из GEM про генерацию. Везде проверяли supervised fine-tuning и prompt-based one-shot learning.
В качестве бейзлайнов objectives взяты: Causal LM (CLM) как в GPT, Prefix LM (PLM), Span corruption как (SC) в T5, Span corruption + LM в равной пропорции (SCLM) и UniLM (ULM). Пробовали чистый декодер и энкодер-декодер. Encoder с encoder-decoder сравнивать не так просто, они матчатся либо по параметрам, либо по количеству вычислений. Здесь выбрали второй вариант, но тогда параметров в два раза больше у encoder-decoder.
Результаты интересные.
При сравнении с T5 (encoder-decoder) все декодеры ему проиграли, кроме UL2 декодера. А encoder-decoder’ы с разными objectives выигрывали, но UL2 выиграл больше всех и побил T5 на всех 9 задачах. UL2 encoder-decoder выигрывает у просто UL2 decoder.
Если сравнивать с декодерами, то GPT-like вариант с causal LM вообще проиграл всем другим baseline objectives и значительно проиграл UL2. В этом смысле учить классические GPT-like модели оказывается сильно субоптимально.
Также UniLM или span corruption+LM обходит просто span corruption, что ещё одно свидетельство, что смешивать objectives хорошо.
Эти результаты были получены на маленьких модельках 167M (decoder) или 335M (enc-dec), которые затем отскейлили до 0.5B/1B, а потом отдельно обучили encoder-decoder 20B.
Последняя обучалась суммарно на 1T токенов из C4 (уже близко к Шиншилле). В процессе обучения были спайки на кривой лосса, но на это забили, потому что всё равно получили SoTA на 50+ бенчмарках (вероятно, на текущий момент это уже не всё SoTA). Поэтому модель скорее всего может быть ещё лучше, если вложиться в более правильное обучение.
20B модель выложена в открытый доступ. Я только сходу не понял, с какой лицензией. Видимо, Apache 2.0 как у всей репы, то есть с разрешением коммерческого использования.
Любопытная в общем работа, которая как бы депрекейтит часть сделанного в прошлом.
Финальная objective это микс из 7 денойзеров (2*R, S, 4*X) смешиваемых равномерно. Обычную LM (causal LM) в микс не включали, потому что это специальный кейс Prefix LM.
Что интересно, по-одиночке эти objectives могут не работать хорошо. В работе про T5 исследовался вариант X-denoising с 50% повреждений, но там он работал плохо. Видимо, сила в миксе.
Также ввели специальный токен, paradigm token, для указания режима работы {[R], [S], [X]} и использовали его в предобучении. У самой большой выложенной модели эти токены заменены соответственно на [NLU], [S2S] и [NLG].
Архитектурно использовался обычный T5-подобный трансформер с современными улучшениями типа SwiGLU или relative attention.
Обучали на корпусе C4, всего примерно 32B токенов. Для сравнения, оригинальный T5 использовал ~34B токенов, Chinchilla обучалась на 1.4T токенов, а многие модели типа GPT-3, LaMDA, Gopher на 168-300B (https://arxiv.org/abs/2203.15556).
Проверялись на 8 NLU задачах из SuperGLUE и 3 датасетах из GEM про генерацию. Везде проверяли supervised fine-tuning и prompt-based one-shot learning.
В качестве бейзлайнов objectives взяты: Causal LM (CLM) как в GPT, Prefix LM (PLM), Span corruption как (SC) в T5, Span corruption + LM в равной пропорции (SCLM) и UniLM (ULM). Пробовали чистый декодер и энкодер-декодер. Encoder с encoder-decoder сравнивать не так просто, они матчатся либо по параметрам, либо по количеству вычислений. Здесь выбрали второй вариант, но тогда параметров в два раза больше у encoder-decoder.
Результаты интересные.
При сравнении с T5 (encoder-decoder) все декодеры ему проиграли, кроме UL2 декодера. А encoder-decoder’ы с разными objectives выигрывали, но UL2 выиграл больше всех и побил T5 на всех 9 задачах. UL2 encoder-decoder выигрывает у просто UL2 decoder.
Если сравнивать с декодерами, то GPT-like вариант с causal LM вообще проиграл всем другим baseline objectives и значительно проиграл UL2. В этом смысле учить классические GPT-like модели оказывается сильно субоптимально.
Также UniLM или span corruption+LM обходит просто span corruption, что ещё одно свидетельство, что смешивать objectives хорошо.
Эти результаты были получены на маленьких модельках 167M (decoder) или 335M (enc-dec), которые затем отскейлили до 0.5B/1B, а потом отдельно обучили encoder-decoder 20B.
Последняя обучалась суммарно на 1T токенов из C4 (уже близко к Шиншилле). В процессе обучения были спайки на кривой лосса, но на это забили, потому что всё равно получили SoTA на 50+ бенчмарках (вероятно, на текущий момент это уже не всё SoTA). Поэтому модель скорее всего может быть ещё лучше, если вложиться в более правильное обучение.
20B модель выложена в открытый доступ. Я только сходу не понял, с какой лицензией. Видимо, Apache 2.0 как у всей репы, то есть с разрешением коммерческого использования.
Любопытная в общем работа, которая как бы депрекейтит часть сделанного в прошлом.
arXiv.org
Training Compute-Optimal Large Language Models
We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly...
👍10