UL2: Unifying Language Learning Paradigms
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
Статья: https://arxiv.org/abs/2205.05131
Пост в блоге: https://ai.googleblog.com/2022/10/ul2-20b-open-source-unified-language.html
Модели: https://github.com/google-research/google-research/tree/master/ul2
HF: https://huggingface.co/google/ul2
Мы как-то про гугловую модель UL2 не писали, только лишь мельком упомянули однажды (https://news.1rj.ru/str/gonzo_ML/1032), а она того стоит, тем более, что Гугл выложил в свободный доступ чекпойнты лучшей модели с 20B параметров и недавно написал про неё в своём блоге.
В текущем NLP есть множество моделей разных типов (BERT, GPT, T5, …), где смешаны архитектура и pre-training objective, и выбор подходящей модели во многом зависит от решаемой downstream задачи.
В работе авторы задаются вопросом, как предобучить модель, которая будет универсально хороша на множестве разных задач и почему вообще выбор предобученной модели должен зависеть от downstream задачи? Для этого они предлагают фреймворк под названием Unifying Language Learning Paradigms (UL2), отлично себя показывающий на разных задачах и конфигурациях, в то время как многие модели балансируют между заточенностью на файнтюнинг или же на 1-shot генерацию с помощью промптов.
Преимущества универсальной модели понятны: легче развивать и скейлить одну модель, чем множество; хостить тоже проще одну универсальную, чем кучу разных задаче-специфичных. Есть правда и традиционный эволюционный консёрн про разнообразие, которое очень ценно поддерживать, но это мы, видимо, снова вспомним на следующем витке развития.
Авторы отделяют архитектуру от pre-training objective, которые часто перемешаны.
С точки зрения архитектур, encoder-only модели типа BERT’а фактически объявлены в какой-то степени deprecated, потому что весьма ограничены в генерации, а задаче-специфичные головы громоздки (и вероятно единственная причина, когда они нужны, это регрессия). Получается, реальный выбор должен быть между decoder-only и encoder-decoder моделями, и дальше в работе сравнивают эти две архитектуры. Из очевидных различий здесь требование x2 параметров у последних относительно первых. Есть конечно некоторая разница с точки зрения inductive biases и процесса построения репрезентаций, но не факт, что очень существенная.
С точки зрения pre-training objectives, есть стандартная Causal LM objective для имитации авторегрессионной генерации, часто используемая в decoder-only моделях типа GPT. Есть более гибкая Prefix LM, когда внутри промпта паттерн внимания не causal (слева-направо), а полный (все смотрят на всех) -- это как бы эмуляция encoder+decoder внутри одного трансформера. Для encoder-decoder в своё время в работе про T5 исследовали кучу objectives и показали, что там хорошо работает span corruption. Есть также подходы типа UniLM (https://arxiv.org/abs/1905.03197), когда один трансформер обучается на разных типах задач каждая со своей маской self-attention.
Подход UL2 основан на наблюдении, что большинство pre-training objectives отличаются типом контекста, которым обусловливается модель. Например, span corruption использует двунаправленный контекст и как бы может заглядывать в будущее, в отличие от языковых и префиксных языковых моделей. И в целом одну pre-training objective можно свести к другой.
Суть UL2 в новой pre-training objective под названием Mixture-of-Denoisers (MoD).
MoD -- это смесь устоявшихся и новых denoising objectives, а именно:
* R-denoising (regular denoising), обычный span corruption из T5 с короткими span’ами (2-5 токенов) и низкой частотой затирания (15%).
* X-denoising (extreme denoising) с длинными испорченными сегментами (≥12 токенов) или высокой частотой затирания (≥30%)
* S-denoising (sequential denoising), вариант строго соблюдающий каузальность, когда надо сгенерить продолжение текста по промпту, но имеющий двунаправленное внимание внутри самого промпта (как в PrefixLM).
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler
Статья: https://arxiv.org/abs/2205.05131
Пост в блоге: https://ai.googleblog.com/2022/10/ul2-20b-open-source-unified-language.html
Модели: https://github.com/google-research/google-research/tree/master/ul2
HF: https://huggingface.co/google/ul2
Мы как-то про гугловую модель UL2 не писали, только лишь мельком упомянули однажды (https://news.1rj.ru/str/gonzo_ML/1032), а она того стоит, тем более, что Гугл выложил в свободный доступ чекпойнты лучшей модели с 20B параметров и недавно написал про неё в своём блоге.
В текущем NLP есть множество моделей разных типов (BERT, GPT, T5, …), где смешаны архитектура и pre-training objective, и выбор подходящей модели во многом зависит от решаемой downstream задачи.
В работе авторы задаются вопросом, как предобучить модель, которая будет универсально хороша на множестве разных задач и почему вообще выбор предобученной модели должен зависеть от downstream задачи? Для этого они предлагают фреймворк под названием Unifying Language Learning Paradigms (UL2), отлично себя показывающий на разных задачах и конфигурациях, в то время как многие модели балансируют между заточенностью на файнтюнинг или же на 1-shot генерацию с помощью промптов.
Преимущества универсальной модели понятны: легче развивать и скейлить одну модель, чем множество; хостить тоже проще одну универсальную, чем кучу разных задаче-специфичных. Есть правда и традиционный эволюционный консёрн про разнообразие, которое очень ценно поддерживать, но это мы, видимо, снова вспомним на следующем витке развития.
Авторы отделяют архитектуру от pre-training objective, которые часто перемешаны.
С точки зрения архитектур, encoder-only модели типа BERT’а фактически объявлены в какой-то степени deprecated, потому что весьма ограничены в генерации, а задаче-специфичные головы громоздки (и вероятно единственная причина, когда они нужны, это регрессия). Получается, реальный выбор должен быть между decoder-only и encoder-decoder моделями, и дальше в работе сравнивают эти две архитектуры. Из очевидных различий здесь требование x2 параметров у последних относительно первых. Есть конечно некоторая разница с точки зрения inductive biases и процесса построения репрезентаций, но не факт, что очень существенная.
С точки зрения pre-training objectives, есть стандартная Causal LM objective для имитации авторегрессионной генерации, часто используемая в decoder-only моделях типа GPT. Есть более гибкая Prefix LM, когда внутри промпта паттерн внимания не causal (слева-направо), а полный (все смотрят на всех) -- это как бы эмуляция encoder+decoder внутри одного трансформера. Для encoder-decoder в своё время в работе про T5 исследовали кучу objectives и показали, что там хорошо работает span corruption. Есть также подходы типа UniLM (https://arxiv.org/abs/1905.03197), когда один трансформер обучается на разных типах задач каждая со своей маской self-attention.
Подход UL2 основан на наблюдении, что большинство pre-training objectives отличаются типом контекста, которым обусловливается модель. Например, span corruption использует двунаправленный контекст и как бы может заглядывать в будущее, в отличие от языковых и префиксных языковых моделей. И в целом одну pre-training objective можно свести к другой.
Суть UL2 в новой pre-training objective под названием Mixture-of-Denoisers (MoD).
MoD -- это смесь устоявшихся и новых denoising objectives, а именно:
* R-denoising (regular denoising), обычный span corruption из T5 с короткими span’ами (2-5 токенов) и низкой частотой затирания (15%).
* X-denoising (extreme denoising) с длинными испорченными сегментами (≥12 токенов) или высокой частотой затирания (≥30%)
* S-denoising (sequential denoising), вариант строго соблюдающий каузальность, когда надо сгенерить продолжение текста по промпту, но имеющий двунаправленное внимание внутри самого промпта (как в PrefixLM).
research.google
UL2 20B: An Open Source Unified Language Learner
Posted by Yi Tay and Mostafa Dehghani, Research Scientists, Google Research, Brain Team Building models that understand and generate natural langua...
👍15
Всё это реализуется через общую функцию SpanCorrupt(µ, r, n), где µ это средняя длина спана, r -- частота затирания, n -- число попорченных спанов.
Финальная objective это микс из 7 денойзеров (2*R, S, 4*X) смешиваемых равномерно. Обычную LM (causal LM) в микс не включали, потому что это специальный кейс Prefix LM.
Что интересно, по-одиночке эти objectives могут не работать хорошо. В работе про T5 исследовался вариант X-denoising с 50% повреждений, но там он работал плохо. Видимо, сила в миксе.
Также ввели специальный токен, paradigm token, для указания режима работы {[R], [S], [X]} и использовали его в предобучении. У самой большой выложенной модели эти токены заменены соответственно на [NLU], [S2S] и [NLG].
Архитектурно использовался обычный T5-подобный трансформер с современными улучшениями типа SwiGLU или relative attention.
Обучали на корпусе C4, всего примерно 32B токенов. Для сравнения, оригинальный T5 использовал ~34B токенов, Chinchilla обучалась на 1.4T токенов, а многие модели типа GPT-3, LaMDA, Gopher на 168-300B (https://arxiv.org/abs/2203.15556).
Проверялись на 8 NLU задачах из SuperGLUE и 3 датасетах из GEM про генерацию. Везде проверяли supervised fine-tuning и prompt-based one-shot learning.
В качестве бейзлайнов objectives взяты: Causal LM (CLM) как в GPT, Prefix LM (PLM), Span corruption как (SC) в T5, Span corruption + LM в равной пропорции (SCLM) и UniLM (ULM). Пробовали чистый декодер и энкодер-декодер. Encoder с encoder-decoder сравнивать не так просто, они матчатся либо по параметрам, либо по количеству вычислений. Здесь выбрали второй вариант, но тогда параметров в два раза больше у encoder-decoder.
Результаты интересные.
При сравнении с T5 (encoder-decoder) все декодеры ему проиграли, кроме UL2 декодера. А encoder-decoder’ы с разными objectives выигрывали, но UL2 выиграл больше всех и побил T5 на всех 9 задачах. UL2 encoder-decoder выигрывает у просто UL2 decoder.
Если сравнивать с декодерами, то GPT-like вариант с causal LM вообще проиграл всем другим baseline objectives и значительно проиграл UL2. В этом смысле учить классические GPT-like модели оказывается сильно субоптимально.
Также UniLM или span corruption+LM обходит просто span corruption, что ещё одно свидетельство, что смешивать objectives хорошо.
Эти результаты были получены на маленьких модельках 167M (decoder) или 335M (enc-dec), которые затем отскейлили до 0.5B/1B, а потом отдельно обучили encoder-decoder 20B.
Последняя обучалась суммарно на 1T токенов из C4 (уже близко к Шиншилле). В процессе обучения были спайки на кривой лосса, но на это забили, потому что всё равно получили SoTA на 50+ бенчмарках (вероятно, на текущий момент это уже не всё SoTA). Поэтому модель скорее всего может быть ещё лучше, если вложиться в более правильное обучение.
20B модель выложена в открытый доступ. Я только сходу не понял, с какой лицензией. Видимо, Apache 2.0 как у всей репы, то есть с разрешением коммерческого использования.
Любопытная в общем работа, которая как бы депрекейтит часть сделанного в прошлом.
Финальная objective это микс из 7 денойзеров (2*R, S, 4*X) смешиваемых равномерно. Обычную LM (causal LM) в микс не включали, потому что это специальный кейс Prefix LM.
Что интересно, по-одиночке эти objectives могут не работать хорошо. В работе про T5 исследовался вариант X-denoising с 50% повреждений, но там он работал плохо. Видимо, сила в миксе.
Также ввели специальный токен, paradigm token, для указания режима работы {[R], [S], [X]} и использовали его в предобучении. У самой большой выложенной модели эти токены заменены соответственно на [NLU], [S2S] и [NLG].
Архитектурно использовался обычный T5-подобный трансформер с современными улучшениями типа SwiGLU или relative attention.
Обучали на корпусе C4, всего примерно 32B токенов. Для сравнения, оригинальный T5 использовал ~34B токенов, Chinchilla обучалась на 1.4T токенов, а многие модели типа GPT-3, LaMDA, Gopher на 168-300B (https://arxiv.org/abs/2203.15556).
Проверялись на 8 NLU задачах из SuperGLUE и 3 датасетах из GEM про генерацию. Везде проверяли supervised fine-tuning и prompt-based one-shot learning.
В качестве бейзлайнов objectives взяты: Causal LM (CLM) как в GPT, Prefix LM (PLM), Span corruption как (SC) в T5, Span corruption + LM в равной пропорции (SCLM) и UniLM (ULM). Пробовали чистый декодер и энкодер-декодер. Encoder с encoder-decoder сравнивать не так просто, они матчатся либо по параметрам, либо по количеству вычислений. Здесь выбрали второй вариант, но тогда параметров в два раза больше у encoder-decoder.
Результаты интересные.
При сравнении с T5 (encoder-decoder) все декодеры ему проиграли, кроме UL2 декодера. А encoder-decoder’ы с разными objectives выигрывали, но UL2 выиграл больше всех и побил T5 на всех 9 задачах. UL2 encoder-decoder выигрывает у просто UL2 decoder.
Если сравнивать с декодерами, то GPT-like вариант с causal LM вообще проиграл всем другим baseline objectives и значительно проиграл UL2. В этом смысле учить классические GPT-like модели оказывается сильно субоптимально.
Также UniLM или span corruption+LM обходит просто span corruption, что ещё одно свидетельство, что смешивать objectives хорошо.
Эти результаты были получены на маленьких модельках 167M (decoder) или 335M (enc-dec), которые затем отскейлили до 0.5B/1B, а потом отдельно обучили encoder-decoder 20B.
Последняя обучалась суммарно на 1T токенов из C4 (уже близко к Шиншилле). В процессе обучения были спайки на кривой лосса, но на это забили, потому что всё равно получили SoTA на 50+ бенчмарках (вероятно, на текущий момент это уже не всё SoTA). Поэтому модель скорее всего может быть ещё лучше, если вложиться в более правильное обучение.
20B модель выложена в открытый доступ. Я только сходу не понял, с какой лицензией. Видимо, Apache 2.0 как у всей репы, то есть с разрешением коммерческого использования.
Любопытная в общем работа, которая как бы депрекейтит часть сделанного в прошлом.
arXiv.org
Training Compute-Optimal Large Language Models
We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly...
👍10
"Because of the cumbersomeness of task specific classification heads, we strongly do not recommend using this class of autoencoding models moving forward and consider them somewhat deprecated. Caveats do apply."
Сегодня Гугл рассказал про свои свежие AI-разработки на ивенте AI@ '22:
https://www.youtube.com/watch?v=X5iLF-cszu0
Обсудили три горячие темы: AI for Social Good, AI for Creativity и AI for Language Inclusivity. Всё с фокусом на responsibility, AI principles и ближайшее будущее. По мне так довольно хорошее саммари того, что происходит и что важного за последний год опубликовали и сделали. В каком-то смысле, наверное, это ответ компании на их сложные шумные истории с командами вокруг этики ИИ (https://news.1rj.ru/str/gonzo_ML/1017, https://news.1rj.ru/str/gonzo_ML/1071).
В AI for Social Good много проектов вокруг climate forecasting, про затопления и пожары. И само собой про здоровье.
В AI for Creativity много всего.
В тексте прикольный проект Wordcraft Writers Workshop (https:/wordcraft-writers-workshop.appspot.com/), где мясные авторы с помощью LaMDA со-творили истории.
В коде есть свой автокомплит (не понял, насколько чисто внутренний), а в звуке GPT-подобная AudioLM (мне, кстати, кажется, что потенциал таких звуковых моделей сильно недооценён, их затмили текстовые модели, где всё проще и которых больше, но со звуком могут быть свои интересные продуктовые истории).
В изображениях -- старые добрые Imagen (https://news.1rj.ru/str/gonzo_ML/980) и Patri, зачётные DreamBooth (https://dreambooth.github.io/), где можно взять чьё-то фото и сделать с ним много творческих манипуляций, и DreamFusion (https://dreamfusion3d.github.io/), умеющий создавать 3D модели.
Классные проекты про видео, особенно Phenaki + Imagen video combination, где генерится консистентное видео по последовательности промптов -- это уже генерация видео по сценарию в зачатке. Посмотрите на эту своеобразную "The Mother of All Demos", здесь просвечивают контуры будущего.
Также есть интересный апп AI Test Kitchen (https://blog.google/technology/ai/join-us-in-the-ai-test-kitchen/).
В AI for Language Inclusivity большой фокус на расширение списка поддерживаемых языков. На IO уже объявляли +24 новых языка и они действительно выехали в прод (https://www.facebook.com/intentoco/photos/a.1093842744008324/5666061383453081/), также в работе проект 1000 languages initiative с фокусом на мультимодальность. Из особо интересного для меня это голосовая Universal Speech Model с поддержкой 400+ (!) языков. Также обещано проникновение мультиязычности во множество продуктов, что классно.
И много, много разговоров про открытость, responsibility, beneficial AI, risks and challenges. Что безусловно важно. Очень важно.
Посмотрите в общем видео, всего час.
https://www.youtube.com/watch?v=X5iLF-cszu0
Обсудили три горячие темы: AI for Social Good, AI for Creativity и AI for Language Inclusivity. Всё с фокусом на responsibility, AI principles и ближайшее будущее. По мне так довольно хорошее саммари того, что происходит и что важного за последний год опубликовали и сделали. В каком-то смысле, наверное, это ответ компании на их сложные шумные истории с командами вокруг этики ИИ (https://news.1rj.ru/str/gonzo_ML/1017, https://news.1rj.ru/str/gonzo_ML/1071).
В AI for Social Good много проектов вокруг climate forecasting, про затопления и пожары. И само собой про здоровье.
В AI for Creativity много всего.
В тексте прикольный проект Wordcraft Writers Workshop (https:/wordcraft-writers-workshop.appspot.com/), где мясные авторы с помощью LaMDA со-творили истории.
В коде есть свой автокомплит (не понял, насколько чисто внутренний), а в звуке GPT-подобная AudioLM (мне, кстати, кажется, что потенциал таких звуковых моделей сильно недооценён, их затмили текстовые модели, где всё проще и которых больше, но со звуком могут быть свои интересные продуктовые истории).
В изображениях -- старые добрые Imagen (https://news.1rj.ru/str/gonzo_ML/980) и Patri, зачётные DreamBooth (https://dreambooth.github.io/), где можно взять чьё-то фото и сделать с ним много творческих манипуляций, и DreamFusion (https://dreamfusion3d.github.io/), умеющий создавать 3D модели.
Классные проекты про видео, особенно Phenaki + Imagen video combination, где генерится консистентное видео по последовательности промптов -- это уже генерация видео по сценарию в зачатке. Посмотрите на эту своеобразную "The Mother of All Demos", здесь просвечивают контуры будущего.
Также есть интересный апп AI Test Kitchen (https://blog.google/technology/ai/join-us-in-the-ai-test-kitchen/).
В AI for Language Inclusivity большой фокус на расширение списка поддерживаемых языков. На IO уже объявляли +24 новых языка и они действительно выехали в прод (https://www.facebook.com/intentoco/photos/a.1093842744008324/5666061383453081/), также в работе проект 1000 languages initiative с фокусом на мультимодальность. Из особо интересного для меня это голосовая Universal Speech Model с поддержкой 400+ (!) языков. Также обещано проникновение мультиязычности во множество продуктов, что классно.
И много, много разговоров про открытость, responsibility, beneficial AI, risks and challenges. Что безусловно важно. Очень важно.
Посмотрите в общем видео, всего час.
YouTube
Google Presents: AI@ ‘22
Watch Google’s AI and Research teams talk about our latest work in the fields of robotics, natural language understanding, accessibility, healthcare, and creativity.
#GoogleAI #GoogleResearch
Chapters:
0:00 - Sundar Pichai
2:09 - Jeff Dean
5:03 - Katherine…
#GoogleAI #GoogleResearch
Chapters:
0:00 - Sundar Pichai
2:09 - Jeff Dean
5:03 - Katherine…
👍17❤3🔥2
“What We Owe The Future”
William MacAskill
https://amzn.to/3fyoMbk
Очередной нестандартный формат, на этот раз про книги.
Сейчас читаю интересную книгу “What We Owe The Future” (https://amzn.to/3fyoMbk), от William MacAskill. Четвёртая глава книги про Value Lock-in довольно сильно затрагивает тему про AGI.
Value Lock-in -- событие, приводящее к застреванию в какой-то системе ценностей, которая может установиться на очень долгое время, возможно экстремально долгое. Это сильно влияет на набор возможных и доступных будущих, к которым может прийти (или соответственно уже не прийти) общество.
Исторически мораль и ценности менялись со временем, например, ещё сравнительно недавно рабство массово считалось совершенно нормальным (и этому кейсу посвящена предыдущая, третья глава книги). Нет оснований считать, что наша текущая мораль -- это финальная точка и верх совершенства, и многие события в мире это вполне подтверждают. Так что, вероятно, ей есть куда улучшаться и лок на текущее её состояние -- это не то, что нам надо. Как, например, лок на текущую мораль ещё сравнительно недавнего прошлого с рабовладением, притеснением не-белых рас или сильным ограничением прав женщин был бы по современным меркам ужасным (а кому-то и сейчас это норм...). Наверняка так же будет и с нашими текущими ценностями в будущем. Наши институты должны способствовать моральному прогрессу, а для этого нужно сохранять разнообразие и конкуренцию.
На примере китайских школы мысли автор показывает как та или иная идеология (например, конфуцианство или легизм) становилась господствующей идеологией на долгое время. Конфуцианство, например, продержалось более тысячи лет. Другие школы и идеологии при этом часто сильно притеснялись, вплоть до уничтожения. И вообще многие идеологии стремятся к доминированию, так что lock-in для них даже желателен. Мы в целом уже в каких-то местах относительно залочены -- Homo sapiens вытеснил все конкурирующие виды, колониализм и глобализация привели к вестернизации многих стран. А ещё в каких-то местах разные аспекты нашей жизни и устройство мира в 21 веке по-прежнему определяют идеологии давнего прошлого.
Автор опасается, что value lock-in, который может произойти в этом веке, может продержаться намного дольше, возможно бесконечно. Сейчас мы находимся в аналоге периода “Ста школ китайской мысли”, когда было большое культурное разнообразие и разные школы эволюционировали и соревновались между собой (до того, как произошёл лок сначала на легизм, а потом на конфуцианство). Развитие технологий может привести к концу этого периода разнообразия. И ключевая технология здесь -- искусственный интеллект.
Разработка AGI может иметь эпохальное значение по двум причинам.
Во-первых, он может существенно ускорить технологический прогресс и экономический рост. Например, увеличивая размер экономики, плодя новых ИИ-работников -- здесь всё будет ограничиваться скоростью, с которой этих работников можно создавать. Если эти работники ещё и будут со временем улучшать свою производительность, то в пределе мы упрёмся только в физические лимиты. AGI также может автоматизировать процесс технологических инноваций и запустить цикл положительной обратной связи. Хотя, конечно, там есть ограничители в виде производства чипов, добычи минералов и строительства электростанций. Но всё равно следует всерьёз рассматривать возможность оказаться в ситуации, когда экономика удваивается за месяцы или годы, а не за десятилетия. На самом деле она и так растёт экспоненциально и эта скорость исторически увеличивается, просто периоды удвоения были очень большими относительно человеческой жизни.
William MacAskill
https://amzn.to/3fyoMbk
Очередной нестандартный формат, на этот раз про книги.
Сейчас читаю интересную книгу “What We Owe The Future” (https://amzn.to/3fyoMbk), от William MacAskill. Четвёртая глава книги про Value Lock-in довольно сильно затрагивает тему про AGI.
Value Lock-in -- событие, приводящее к застреванию в какой-то системе ценностей, которая может установиться на очень долгое время, возможно экстремально долгое. Это сильно влияет на набор возможных и доступных будущих, к которым может прийти (или соответственно уже не прийти) общество.
Исторически мораль и ценности менялись со временем, например, ещё сравнительно недавно рабство массово считалось совершенно нормальным (и этому кейсу посвящена предыдущая, третья глава книги). Нет оснований считать, что наша текущая мораль -- это финальная точка и верх совершенства, и многие события в мире это вполне подтверждают. Так что, вероятно, ей есть куда улучшаться и лок на текущее её состояние -- это не то, что нам надо. Как, например, лок на текущую мораль ещё сравнительно недавнего прошлого с рабовладением, притеснением не-белых рас или сильным ограничением прав женщин был бы по современным меркам ужасным (а кому-то и сейчас это норм...). Наверняка так же будет и с нашими текущими ценностями в будущем. Наши институты должны способствовать моральному прогрессу, а для этого нужно сохранять разнообразие и конкуренцию.
На примере китайских школы мысли автор показывает как та или иная идеология (например, конфуцианство или легизм) становилась господствующей идеологией на долгое время. Конфуцианство, например, продержалось более тысячи лет. Другие школы и идеологии при этом часто сильно притеснялись, вплоть до уничтожения. И вообще многие идеологии стремятся к доминированию, так что lock-in для них даже желателен. Мы в целом уже в каких-то местах относительно залочены -- Homo sapiens вытеснил все конкурирующие виды, колониализм и глобализация привели к вестернизации многих стран. А ещё в каких-то местах разные аспекты нашей жизни и устройство мира в 21 веке по-прежнему определяют идеологии давнего прошлого.
Автор опасается, что value lock-in, который может произойти в этом веке, может продержаться намного дольше, возможно бесконечно. Сейчас мы находимся в аналоге периода “Ста школ китайской мысли”, когда было большое культурное разнообразие и разные школы эволюционировали и соревновались между собой (до того, как произошёл лок сначала на легизм, а потом на конфуцианство). Развитие технологий может привести к концу этого периода разнообразия. И ключевая технология здесь -- искусственный интеллект.
Разработка AGI может иметь эпохальное значение по двум причинам.
Во-первых, он может существенно ускорить технологический прогресс и экономический рост. Например, увеличивая размер экономики, плодя новых ИИ-работников -- здесь всё будет ограничиваться скоростью, с которой этих работников можно создавать. Если эти работники ещё и будут со временем улучшать свою производительность, то в пределе мы упрёмся только в физические лимиты. AGI также может автоматизировать процесс технологических инноваций и запустить цикл положительной обратной связи. Хотя, конечно, там есть ограничители в виде производства чипов, добычи минералов и строительства электростанций. Но всё равно следует всерьёз рассматривать возможность оказаться в ситуации, когда экономика удваивается за месяцы или годы, а не за десятилетия. На самом деле она и так растёт экспоненциально и эта скорость исторически увеличивается, просто периоды удвоения были очень большими относительно человеческой жизни.
🔥22👍19🤔4👎3❤1🐳1💯1
Во-вторых, AGI потенциально долгоживущ. Агенты могут не зависеть от железа, копироваться без ошибок на новые носители, и быть потенциально бессмертными. И люди могут разными способами расширить влияние своих ценностей на будущее: создать AGI агентов, действующих от их имени и с близко выравненными целями; вообще цели могут быть захардкожены; кроме того люди потенциально могут научиться делать “upload” путём сканирования мозга и дальнейшей эмуляции на компьютере. Тема про бессмертие где-то содержательно очень сильно связана со всем этим, и lock-in может быть побочным эффектом этой темы. Многие правители, авторитарные и тоталитарные режимы активно копали в эту сторону, и при удачном для них раскладе мог бы случиться lock-in на их ценности, а также концентрация власти. [У меня, кстати, в отличие от Миши Батина, пока нет для себя чёткого ответа на вопрос, почему технологии бессмертия не усилят возможные диктатуры -- я опасаюсь, что усилят. То же самое с AI/AGI. И в этом смысле тру специалист по AGI (или скорее уже команда, потому что сложно в одну голову это всё вместить) в моём понимании кроме технических скиллов должен хорошо владеть историей, экономикой, политикой, биологией и разными их поддисциплинами] AGI может привести к сильному перераспределению власти и при плохом раскладе привести к локу на плохие для многих ценности.
При этом есть ещё и отдельный риск, что AI может взять себе контроль. Это не обязательно должно приводить к вымиранию человечества (всех шимпанзе или муравьёв люди таки не истребили, может быть будем существовать аналогично). Цивилизация вполне может продолжиться, может даже на миллиарды лет, и открытый вопрос, насколько она будет хороша или плоха. Вопрос, чья это будет цивилизация. В любом случае будут какие-то интеллектуальные существа, и плохо, если они окажутся в мире с залоченными плохими ценностями. Лучше если бы ценности будущего были open-minded, экуменическими и поощряли exploration в морали.
Но ещё лучше, чтобы лока не было вообще. Потому что с одной стороны это позволит избежать застревания в ущербных ценностях (вряд ли текущие ценности совершенны), а с другой устраняется стимул для гонки, кто будет первым.
Сколько ещё до AGI вопрос открытый. Известно, что экспоненциальный прогресс сложно ухватить и понять, даже если тренды на виду. Тем более сложно с сверхэкспоненциальным прогрессом. Есть много разных оценок, от немалого шанса через 10-15 лет, до следующего века. Автор считает, что не стоит опускаться ниже 10% шанса в течение следующих 50 лет, а это вполне реальный шанс получить крайне серьёзные изменения и одну из самых важных разработок в человеческой истории при нашей жизни.
Такие дела. Книга любопытная, буду читать дальше. Огромная библиография (https://whatweowethefuture.com/bibliography/) и комментарии (https://whatweowethefuture.com/notes/), интересные supplementary (https://whatweowethefuture.com/supplementary-materials/).
#books #AGI #longevity #longtermism
При этом есть ещё и отдельный риск, что AI может взять себе контроль. Это не обязательно должно приводить к вымиранию человечества (всех шимпанзе или муравьёв люди таки не истребили, может быть будем существовать аналогично). Цивилизация вполне может продолжиться, может даже на миллиарды лет, и открытый вопрос, насколько она будет хороша или плоха. Вопрос, чья это будет цивилизация. В любом случае будут какие-то интеллектуальные существа, и плохо, если они окажутся в мире с залоченными плохими ценностями. Лучше если бы ценности будущего были open-minded, экуменическими и поощряли exploration в морали.
Но ещё лучше, чтобы лока не было вообще. Потому что с одной стороны это позволит избежать застревания в ущербных ценностях (вряд ли текущие ценности совершенны), а с другой устраняется стимул для гонки, кто будет первым.
Сколько ещё до AGI вопрос открытый. Известно, что экспоненциальный прогресс сложно ухватить и понять, даже если тренды на виду. Тем более сложно с сверхэкспоненциальным прогрессом. Есть много разных оценок, от немалого шанса через 10-15 лет, до следующего века. Автор считает, что не стоит опускаться ниже 10% шанса в течение следующих 50 лет, а это вполне реальный шанс получить крайне серьёзные изменения и одну из самых важных разработок в человеческой истории при нашей жизни.
Такие дела. Книга любопытная, буду читать дальше. Огромная библиография (https://whatweowethefuture.com/bibliography/) и комментарии (https://whatweowethefuture.com/notes/), интересные supplementary (https://whatweowethefuture.com/supplementary-materials/).
#books #AGI #longevity #longtermism
What We Owe the Future
Bibliography - What We Owe the Future
A guide for making the future go better. Humanity’s written history spans only five thousand years. Our yet-unwritten future could last for millions more - or it could end tomorrow. Staggering numbers of people will lead lives of flourishing or misery or…
👍24🔥15🤔4🥴2❤1
The 5th chapter of my book, "JAX in Action," is ready and available in MEAP! It is the chapter about compilation.
http://mng.bz/nN4a
The chapter covers:
🗺- Just-in-Time (JIT) compilation
🔬- JIT internals: jaxpr, the JAX intermediate language
⚡️- XLA, Google’s Accelerated Linear Algebra compiler, and HLO, High Level Operations Intermediate Representation
💪- MLIR, Multi-Level Intermediate Representation, and MHLO
⏲- The recently appeared Ahead-of-Time (AOT) compilation
🚧- JIT limitations
P.S. Your feedback is welcome! The previous four chapters are adjusted based on your feedback and will be updated soon.
http://mng.bz/nN4a
The chapter covers:
🗺- Just-in-Time (JIT) compilation
🔬- JIT internals: jaxpr, the JAX intermediate language
⚡️- XLA, Google’s Accelerated Linear Algebra compiler, and HLO, High Level Operations Intermediate Representation
💪- MLIR, Multi-Level Intermediate Representation, and MHLO
⏲- The recently appeared Ahead-of-Time (AOT) compilation
🚧- JIT limitations
P.S. Your feedback is welcome! The previous four chapters are adjusted based on your feedback and will be updated soon.
Manning Publications
Deep Learning with JAX
Accelerate deep learning and other number-intensive tasks with JAX, Google’s awesome high-performance numerical computing library.</b>
The JAX numerical computing library tackles the core performance challenges at the heart of deep learning and other scientific…
The JAX numerical computing library tackles the core performance challenges at the heart of deep learning and other scientific…
🔥26👍5😁1
Not about AI, but definitely something interesting is happening.
Youtube video: https://www.youtube.com/watch?v=uOJCS1W1uzg
Quanta article: https://www.quantamagazine.org/physicists-create-a-wormhole-using-a-quantum-computer-20221130/
Nature article: https://www.nature.com/articles/s41586-022-05424-3
Youtube video: https://www.youtube.com/watch?v=uOJCS1W1uzg
Quanta article: https://www.quantamagazine.org/physicists-create-a-wormhole-using-a-quantum-computer-20221130/
Nature article: https://www.nature.com/articles/s41586-022-05424-3
YouTube
How Physicists Created a Holographic Wormhole in a Quantum Computer
UPDATE: In February 2023, an independent team of physicists presented evidence that the research described in this video did not create any wormholes, holographic or otherwise. Read our coverage of these developments at Quanta Magazine: https://www.quant…
👍15🔥4👎1
"One secret to success was Zlokapa, a waifish orchestra kid who joined Spiropulu’s research group as a Caltech undergrad. A gifted programmer, Zlokapa mapped the particle interactions of the SYK model onto the connections between neurons of a neural network, and trained the system to delete as many network connections as possible while preserving a key wormhole signature. The procedure reduced the number of four-way interactions from hundreds down to five."
👍13
[Google UL2R] Transcending Scaling Laws with 0.1% Extra Compute
Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, Denny Zhou, Donald Metzler, Slav Petrov, Neil Houlsby, Quoc V. Le, Mostafa Dehghani
Статья: https://arxiv.org/abs/2210.11399
Пост в блоге: https://ai.googleblog.com/2022/11/better-language-models-without-massive.html
Продолжение темы про UL2 (https://news.1rj.ru/str/gonzo_ML/1113).
Идея простая, давайте продолжим обучение обычной языковой каузальной модели, но с UL2 objective. Это будет стоить 0.1-1% FLOPs от оригинальной модели, и не будет требовать новых датасетов. Новый метод назовём UL2R или UL2Restore.
Берём оригинальную модель PaLM (только декодер, обучается через PrefixLM, https://arxiv.org/abs/2204.02311), уже обученный checkpoint, и тот же самый датасет, на котором её обучали.
Берём стандартные 7 denoiser’ов из UL2. Дальше правда оказывается, что достаточно микса 50% PrefixLM (S-denoiser), 25% Long (extreme) span corruption (X-denoiser), 25% regular span corruption (R-denoiser).
Дообучаем оригинальную 540B PaLM на 20к шагов с батчем 32. Это примерно 1.3B доп.токенов и 0.16% доп.вычислений. Обучается с cosine learning rate decay schedule, где learning rate отжигается с 10E−4 до 10E−6 (низкий постоянный learning rate даёт аналогичный результат).
Эта новая модель называется U-PaLM 540B, на её дообучение уходит 5 дней на 512 TPUv4 чипах. Это примерно $200k в ценах on-demand.
Результаты интересные.
Во-первых, качество существенно растёт при очень малой цене дообучения. Либо вы раза в два быстрее (чем если бы продолжали обучать оригинальную модель) получаете нужное качество, либо достигаете существенно более высокого качества при заданном вычислительном бюджете. Попутно давая новые SoTA в тех местах, где у PaLM были SoTA и раньше.
Во-вторых, U-PaLM даёт emergent abilities (https://news.1rj.ru/str/gonzo_ML/1031) на более мелких масштабах.
В работе много анализа по разным типам задач, но общее место в том, что заметный прогресс за небольшую цену есть практически везде.
Ещё из интересного то, что очень небольшое дообучение языковой модели PaLM в режиме UL2R с новыми objectives про denoising даёт модели возможности по in-filling’у, то есть открывает возможность решения нового класса задач, к которому оригинальная модель не была готова.
Также поведением модели становится можно управлять с помощью специальных токенов режима, использовавшихся в UL2: [NLU], [NLG] и [S2S]. Это влияет на выход модели.
В общем теперь у нас есть простой эффективный способ улучшения качества имеющихся моделей, которые с нуля заново уже так просто не обучишь. Интересно, конечно, как U-PaLM показал бы себя относительно PaLM целиком обученного с помощью UL2.
Интересно также, использовалось ли что-то подобное в последних моделях семейства GPT-3.5 (https://beta.openai.com/docs/model-index-for-researchers/models-referred-to-as-gpt-3-5), включая ChatGPT, и аналогов, а также секретной GPT-4, или их тоже можно улучшить и дальше.
В целом кейс с UL2R хорошо подсвечивает субоптимальность стандартных подходов к обучению языковых моделей.
Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, Denny Zhou, Donald Metzler, Slav Petrov, Neil Houlsby, Quoc V. Le, Mostafa Dehghani
Статья: https://arxiv.org/abs/2210.11399
Пост в блоге: https://ai.googleblog.com/2022/11/better-language-models-without-massive.html
Продолжение темы про UL2 (https://news.1rj.ru/str/gonzo_ML/1113).
Идея простая, давайте продолжим обучение обычной языковой каузальной модели, но с UL2 objective. Это будет стоить 0.1-1% FLOPs от оригинальной модели, и не будет требовать новых датасетов. Новый метод назовём UL2R или UL2Restore.
Берём оригинальную модель PaLM (только декодер, обучается через PrefixLM, https://arxiv.org/abs/2204.02311), уже обученный checkpoint, и тот же самый датасет, на котором её обучали.
Берём стандартные 7 denoiser’ов из UL2. Дальше правда оказывается, что достаточно микса 50% PrefixLM (S-denoiser), 25% Long (extreme) span corruption (X-denoiser), 25% regular span corruption (R-denoiser).
Дообучаем оригинальную 540B PaLM на 20к шагов с батчем 32. Это примерно 1.3B доп.токенов и 0.16% доп.вычислений. Обучается с cosine learning rate decay schedule, где learning rate отжигается с 10E−4 до 10E−6 (низкий постоянный learning rate даёт аналогичный результат).
Эта новая модель называется U-PaLM 540B, на её дообучение уходит 5 дней на 512 TPUv4 чипах. Это примерно $200k в ценах on-demand.
Результаты интересные.
Во-первых, качество существенно растёт при очень малой цене дообучения. Либо вы раза в два быстрее (чем если бы продолжали обучать оригинальную модель) получаете нужное качество, либо достигаете существенно более высокого качества при заданном вычислительном бюджете. Попутно давая новые SoTA в тех местах, где у PaLM были SoTA и раньше.
Во-вторых, U-PaLM даёт emergent abilities (https://news.1rj.ru/str/gonzo_ML/1031) на более мелких масштабах.
В работе много анализа по разным типам задач, но общее место в том, что заметный прогресс за небольшую цену есть практически везде.
Ещё из интересного то, что очень небольшое дообучение языковой модели PaLM в режиме UL2R с новыми objectives про denoising даёт модели возможности по in-filling’у, то есть открывает возможность решения нового класса задач, к которому оригинальная модель не была готова.
Также поведением модели становится можно управлять с помощью специальных токенов режима, использовавшихся в UL2: [NLU], [NLG] и [S2S]. Это влияет на выход модели.
В общем теперь у нас есть простой эффективный способ улучшения качества имеющихся моделей, которые с нуля заново уже так просто не обучишь. Интересно, конечно, как U-PaLM показал бы себя относительно PaLM целиком обученного с помощью UL2.
Интересно также, использовалось ли что-то подобное в последних моделях семейства GPT-3.5 (https://beta.openai.com/docs/model-index-for-researchers/models-referred-to-as-gpt-3-5), включая ChatGPT, и аналогов, а также секретной GPT-4, или их тоже можно улучшить и дальше.
В целом кейс с UL2R хорошо подсвечивает субоптимальность стандартных подходов к обучению языковых моделей.
research.google
Better Language Models Without Massive Compute
Posted by Jason Wei and Yi Tay, Research Scientists, Google Research, Brain Team In recent years, language models (LMs) have become more prominent ...
👍18