Pre-normalization c LayerNorm лучше, чем post. Другие варианты этой модификации или RMSNorm не улучшили ничего.
Нелинейную голову убрали, decoder bias тоже, сделали sparse token prediction и выиграли в памяти.
Также потюнили гиперпараметры (какую долю токенов скрывать), оптимизаторы, но оставили Adam. Сделали простую one-cycle learning rate треугольником с максимумом посередине.
Сделали агрегацию микро-батчей, когда градиенты считаются на каждом батче размера до 96, но агрегируются и апдейтят параметры только на каждый 16 или 42 батч (потому что с точки зрения лосса или качества на downstream задаче оптимальный батч сильно больше 96). Ещё и сделали постепенное увеличение числа агрегируемых микро-батчей. Дропаут на предобучении отключили.
Поскольку авторы считают, что scaling laws не дают нам добиться существенных изменений качества через модификации архитектуры, то можно зато вкладываться в качественный датасет.
Данные свежая англ. Википедия и bookcorpus + lower-case, strip accents & non-ascii. Токенизатор WordPiece со словарём 2^15 (меньшие работали хуже, а больший не лучше). SentencePiece с униграммами или BPE тоже не лучше. Нарезали на последовательности длины 128, батчи были от 64 до 96. При ограниченном вычислительном бюджете получилось достаточно сэмплов для одной эпохи без повторного обращения к любому элементу данных.
Можно поменять методы очистки, а можно и источник сменить. Пробовали на подмножествах The Pile и C4. The Pile оказался лучше с точки зрения качества на MNLI, но в принципе есть куда улучшать дедупликации, фильтрации и сортировки, особенно для C4. Про сортировку интересно, помогает отсортировать по убыванию средней частотности токена, так что сначала оказываются вероятные последовательности, а до маловероятных не добираемся. Также постепенное увеличение батча до 4096 к концу обучения особенно хорошо на C4. Вероятно, оба изменения помогают бороться с флуктуациями в распределении данных.
Далее систематически исследовали перформанс на GLUE без WNLI как в оригинальной работе про Берт.
Сравнивали с чекпойнтом 1) полноценного обученного Берта, 2) модели обученной по рецепту Берта, но в пределах заданного бюджета, 3) другой работы (https://arxiv.org/abs/2104.07705) про обучение BERT малой кровью. Перформанс неожиданно крутой, в среднем не сильно отстаёт от полного Берта. На некоторых датасетах даже превосходит.
По абляциям показали, что в среднем около 2 процентных пунктов по усреднённому GLUE даёт модификация архитектуры, 1 п.п. изменения в данных, и пол п.п. изменение процедуры обучения.
Если полученный рецепт теперь отскейлить вверх на 8 A6000 в течение 48 часов, это даёт бюджет примерно 30% оригинального BERT и 1.5% RoBERTa, при этом существенно превосходя по качеству первый и попадая в диапазон второй.
Работает в общем зубрёжка. Можно, получается, и дома на выходных обучать.
И ещё, кажется, такие эксперименты можно и нужно проводить автоматизированно, каким-нибудь эволюционным алгоритмом или даже через нечто типа network architecture search (NAS). По идее, большой запуск NAS в режиме cramming может быть на порядки эффективнее старых подходов (но это не точно, надо внимательно считать).
Нелинейную голову убрали, decoder bias тоже, сделали sparse token prediction и выиграли в памяти.
Также потюнили гиперпараметры (какую долю токенов скрывать), оптимизаторы, но оставили Adam. Сделали простую one-cycle learning rate треугольником с максимумом посередине.
Сделали агрегацию микро-батчей, когда градиенты считаются на каждом батче размера до 96, но агрегируются и апдейтят параметры только на каждый 16 или 42 батч (потому что с точки зрения лосса или качества на downstream задаче оптимальный батч сильно больше 96). Ещё и сделали постепенное увеличение числа агрегируемых микро-батчей. Дропаут на предобучении отключили.
Поскольку авторы считают, что scaling laws не дают нам добиться существенных изменений качества через модификации архитектуры, то можно зато вкладываться в качественный датасет.
Данные свежая англ. Википедия и bookcorpus + lower-case, strip accents & non-ascii. Токенизатор WordPiece со словарём 2^15 (меньшие работали хуже, а больший не лучше). SentencePiece с униграммами или BPE тоже не лучше. Нарезали на последовательности длины 128, батчи были от 64 до 96. При ограниченном вычислительном бюджете получилось достаточно сэмплов для одной эпохи без повторного обращения к любому элементу данных.
Можно поменять методы очистки, а можно и источник сменить. Пробовали на подмножествах The Pile и C4. The Pile оказался лучше с точки зрения качества на MNLI, но в принципе есть куда улучшать дедупликации, фильтрации и сортировки, особенно для C4. Про сортировку интересно, помогает отсортировать по убыванию средней частотности токена, так что сначала оказываются вероятные последовательности, а до маловероятных не добираемся. Также постепенное увеличение батча до 4096 к концу обучения особенно хорошо на C4. Вероятно, оба изменения помогают бороться с флуктуациями в распределении данных.
Далее систематически исследовали перформанс на GLUE без WNLI как в оригинальной работе про Берт.
Сравнивали с чекпойнтом 1) полноценного обученного Берта, 2) модели обученной по рецепту Берта, но в пределах заданного бюджета, 3) другой работы (https://arxiv.org/abs/2104.07705) про обучение BERT малой кровью. Перформанс неожиданно крутой, в среднем не сильно отстаёт от полного Берта. На некоторых датасетах даже превосходит.
По абляциям показали, что в среднем около 2 процентных пунктов по усреднённому GLUE даёт модификация архитектуры, 1 п.п. изменения в данных, и пол п.п. изменение процедуры обучения.
Если полученный рецепт теперь отскейлить вверх на 8 A6000 в течение 48 часов, это даёт бюджет примерно 30% оригинального BERT и 1.5% RoBERTa, при этом существенно превосходя по качеству первый и попадая в диапазон второй.
Работает в общем зубрёжка. Можно, получается, и дома на выходных обучать.
И ещё, кажется, такие эксперименты можно и нужно проводить автоматизированно, каким-нибудь эволюционным алгоритмом или даже через нечто типа network architecture search (NAS). По идее, большой запуск NAS в режиме cramming может быть на порядки эффективнее старых подходов (но это не точно, надо внимательно считать).
👍34🌭1
Interesting interview with Demis Hassabis:
https://time.com/6246119/demis-hassabis-deepmind-interview/
> "In the wrong hands, a 2021 DeepMind research paper says, language-generation tools like ChatGPT and its predecessor GPT-3 could turbocharge the spread of disinformation, facilitate government censorship or surveillance, and perpetuate harmful stereotypes under the guise of objectivity."
To be precise, OpenAI (and many others) said it in 2018:
https://openai.com/blog/preparing-for-malicious-uses-of-ai/
https://arxiv.org/abs/1802.07228
> "DeepMind is also considering releasing its own chatbot, called Sparrow, for a “private beta” some time in 2023. (The delay is in order for DeepMind to work on reinforcement learning-based features that ChatGPT lacks, like citing its sources."
The race continues...
And this is especially interesting:
> “We’re getting into an era where we have to start thinking about the freeloaders, or people who are reading but not contributing to that information base,” he says. “And that includes nation states as well.” He declines to name which states he means—“it’s pretty obvious, who you might think”—but he suggests that the AI industry’s culture of publishing its findings openly may soon need to end.
https://time.com/6246119/demis-hassabis-deepmind-interview/
> "In the wrong hands, a 2021 DeepMind research paper says, language-generation tools like ChatGPT and its predecessor GPT-3 could turbocharge the spread of disinformation, facilitate government censorship or surveillance, and perpetuate harmful stereotypes under the guise of objectivity."
To be precise, OpenAI (and many others) said it in 2018:
https://openai.com/blog/preparing-for-malicious-uses-of-ai/
https://arxiv.org/abs/1802.07228
> "DeepMind is also considering releasing its own chatbot, called Sparrow, for a “private beta” some time in 2023. (The delay is in order for DeepMind to work on reinforcement learning-based features that ChatGPT lacks, like citing its sources."
The race continues...
And this is especially interesting:
> “We’re getting into an era where we have to start thinking about the freeloaders, or people who are reading but not contributing to that information base,” he says. “And that includes nation states as well.” He declines to name which states he means—“it’s pretty obvious, who you might think”—but he suggests that the AI industry’s culture of publishing its findings openly may soon need to end.
TIME
DeepMind’s CEO Helped Take AI Mainstream. Now He’s Urging Caution
DeepMind brought artificial intelligence mainstream. Now its CEO Demis Hassabis is issuing a warning
👍13😱5
gonzo-обзоры ML статей
Interesting interview with Demis Hassabis: https://time.com/6246119/demis-hassabis-deepmind-interview/ > "In the wrong hands, a 2021 DeepMind research paper says, language-generation tools like ChatGPT and its predecessor GPT-3 could turbocharge the spread…
С комментарием про старую статью OpenAI и сотоварищей про Malicious use of AI, упустил свежую очень тематическую
https://openai.com/blog/forecasting-misuse/
https://openai.com/blog/forecasting-misuse/
Openai
Forecasting potential misuses of language models for disinformation campaigns and how to reduce risk
OpenAI researchers collaborated with Georgetown University’s Center for Security and Emerging Technology and the Stanford Internet Observatory to investigate how large language models might be misused for disinformation purposes. The collaboration included…
👍9