[Google] PaLM 2 Technical Report
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/
Вчера на Google I/O компания анонсировала свою новую модель PaLM 2. Это наследник модели PaLM с 540B параметров 2022 года (https://arxiv.org/abs/2204.02311), более вычислительно эффективный, меньший по размеру, но более качественный, а также мультиязычный с поддержкой более 100 языков, с хорошими способностями генерации кода и улучшенными способностями к reasoning’у.
Работа опубликована в формате похожем на GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383), технический отчёт без технических деталей.
Что при этом можно сказать про модель?
Это трансформер, скорее всего только декодер, как и PaLM.
В работе снова фокус на скейлинге, авторы незавиcимо подтвердили наблюдения из работы про Шиншиллу (https://news.1rj.ru/str/gonzo_ML/1216), что с ростом вычислительного бюджета данные надо скейлить в той же пропорции, что и саму модель. И получили оценки оптимального размера модели под бюджет очень близкие к той работе. При этом на downstream задачах более крупная модель всё равно может быть лучше, чем оптимальная по лоссу предобучения.
Текстовый корпус для предобучения модели существенно больше, чем был у PaLM. При этом доля не-английского в нём увеличилась. Кроме монолингвальных неанглийских текстов, в обучение также добавили параллельные данные по сотням языков в паре с английским. Благодаря этому модель сходу может и переводить, как могут переводить и ChatGPT (https://news.1rj.ru/str/gonzo_ML/1405) с GPT-4 (https://news.1rj.ru/str/gonzo_ML/1413). Скоро померяем и для PaLM 2 (как только текущая модель в preview скорректирует свою паранойю про несоответствие запросов полиси). Но заявлено, что она уже лучше текущего Google Translate.
В целом для задач работы с языками модель выглядит очень интересно, и по пока не подкреплённому реальным опытом ощущению это должно быть лучше GPT-4 в реальных задачах, где нужен не только английский.
Модель была обучена на контекстах значительно большей длины, чем PaLM (там было 2048 токенов). В обучении используется смесь разных objectives аналогичная UL2 (https://news.1rj.ru/str/gonzo_ML/1113). Вероятно есть и какие-то архитектурные улучшения.
Проверялись на трёх вариантах размера модели: Small (S), Medium (M), и Large (L). Самая большая из них значительно меньше по размеру, чем 540B PaLM, но требует вычислений больше. В API при этом будет вынесено 4 разных модели: Gecko, Otter, Bison, Unicorn (самая большая). Gecko заявлено что будет влезать на мобильные устройства и работать там достаточно быстро в локальном режиме оффлайн. Предположу, что Gecko меньше Small. По умолчанию все результаты репортятся для модели Large. При этом ещё и делают усреднение по последним пяти чекпойнтам модели.
Продолжая традицию измерения качества моделей не на специальных датасетах, а на человеческих экзаменах, модель успешно проходит множество экзаменов на разных языках (за вычетом разговорной части), например, у неё проходной балл на Goethe-Zertifikat C2, “proving high-level German language ability”.
Хорошее улучшение относительно PaLM на английских задачах QA и классификации в 1-shot. Заметное улучшение на неанглийских.
Новые SoTA на reasoning, включая заметно побитый результат GPT-4. Есть также версия модели Flan-PaLM 2, зафайнтюненная на инструкциях. Она, например, лучше обычной PaLM 2 в математических задачах.
Для работы с кодом взяли PaLM 2-S (для интерактивности нужна быстрая небольшая модель) и продолжили обучение на специальном мультиязычном датасете, где много кода. Она обошла намного более тяжёлую и медленную PaLM-540B-Coder.
Генерацию оценивать сложно, но там модель тоже, похоже, хороша. Намного лучше PaLM.
Исследовали запоминание данных моделью, оно ниже, чем у PaLM, особенно если не было много повторов в исходных данных.
Отдельная большая часть работы про токсичность и Responsible AI.
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/
Вчера на Google I/O компания анонсировала свою новую модель PaLM 2. Это наследник модели PaLM с 540B параметров 2022 года (https://arxiv.org/abs/2204.02311), более вычислительно эффективный, меньший по размеру, но более качественный, а также мультиязычный с поддержкой более 100 языков, с хорошими способностями генерации кода и улучшенными способностями к reasoning’у.
Работа опубликована в формате похожем на GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383), технический отчёт без технических деталей.
Что при этом можно сказать про модель?
Это трансформер, скорее всего только декодер, как и PaLM.
В работе снова фокус на скейлинге, авторы незавиcимо подтвердили наблюдения из работы про Шиншиллу (https://news.1rj.ru/str/gonzo_ML/1216), что с ростом вычислительного бюджета данные надо скейлить в той же пропорции, что и саму модель. И получили оценки оптимального размера модели под бюджет очень близкие к той работе. При этом на downstream задачах более крупная модель всё равно может быть лучше, чем оптимальная по лоссу предобучения.
Текстовый корпус для предобучения модели существенно больше, чем был у PaLM. При этом доля не-английского в нём увеличилась. Кроме монолингвальных неанглийских текстов, в обучение также добавили параллельные данные по сотням языков в паре с английским. Благодаря этому модель сходу может и переводить, как могут переводить и ChatGPT (https://news.1rj.ru/str/gonzo_ML/1405) с GPT-4 (https://news.1rj.ru/str/gonzo_ML/1413). Скоро померяем и для PaLM 2 (как только текущая модель в preview скорректирует свою паранойю про несоответствие запросов полиси). Но заявлено, что она уже лучше текущего Google Translate.
В целом для задач работы с языками модель выглядит очень интересно, и по пока не подкреплённому реальным опытом ощущению это должно быть лучше GPT-4 в реальных задачах, где нужен не только английский.
Модель была обучена на контекстах значительно большей длины, чем PaLM (там было 2048 токенов). В обучении используется смесь разных objectives аналогичная UL2 (https://news.1rj.ru/str/gonzo_ML/1113). Вероятно есть и какие-то архитектурные улучшения.
Проверялись на трёх вариантах размера модели: Small (S), Medium (M), и Large (L). Самая большая из них значительно меньше по размеру, чем 540B PaLM, но требует вычислений больше. В API при этом будет вынесено 4 разных модели: Gecko, Otter, Bison, Unicorn (самая большая). Gecko заявлено что будет влезать на мобильные устройства и работать там достаточно быстро в локальном режиме оффлайн. Предположу, что Gecko меньше Small. По умолчанию все результаты репортятся для модели Large. При этом ещё и делают усреднение по последним пяти чекпойнтам модели.
Продолжая традицию измерения качества моделей не на специальных датасетах, а на человеческих экзаменах, модель успешно проходит множество экзаменов на разных языках (за вычетом разговорной части), например, у неё проходной балл на Goethe-Zertifikat C2, “proving high-level German language ability”.
Хорошее улучшение относительно PaLM на английских задачах QA и классификации в 1-shot. Заметное улучшение на неанглийских.
Новые SoTA на reasoning, включая заметно побитый результат GPT-4. Есть также версия модели Flan-PaLM 2, зафайнтюненная на инструкциях. Она, например, лучше обычной PaLM 2 в математических задачах.
Для работы с кодом взяли PaLM 2-S (для интерактивности нужна быстрая небольшая модель) и продолжили обучение на специальном мультиязычном датасете, где много кода. Она обошла намного более тяжёлую и медленную PaLM-540B-Coder.
Генерацию оценивать сложно, но там модель тоже, похоже, хороша. Намного лучше PaLM.
Исследовали запоминание данных моделью, оно ниже, чем у PaLM, особенно если не было много повторов в исходных данных.
Отдельная большая часть работы про токсичность и Responsible AI.
👍18🔥8❤3
В общем, что сказать. Модель интересная, наверняка достойный конкурент GPT-4. И очень может быть, что в кодировании и в не-английских задачах она будет и лучше. А может и в английских тоже. Конкуренция -- это хорошо. Ждём массовых применений в продуктах.
Тем временем, Гугл сделал версию модели для медицины, Med-PaLM 2 (https://cloud.google.com/blog/topics/healthcare-life-sciences/sharing-google-med-palm-2-medical-large-language-model), которая заявлена “the first large language model to perform at “expert” level on U.S. Medical Licensing Exam-style questions”. И добавляют в неё мультимодальность, чтобы модель, например, могла анализировать рентгеновские снимки.
Другое богатое направление -- безопасность. Для него сделали модель Sec-PaLM (https://cloud.google.com/blog/products/identity-security/rsa-google-cloud-security-ai-workbench-generative-ai), которая должна помогать в задачах кибербезопасности.
Умных агентов-помощников будет всё больше. Причём с довольно крутыми скиллами. Гибридные команды становятся реальностью на новом уровне.
И параллельно как и ожидалось (https://news.1rj.ru/str/gonzo_ML/1442) Гугл работает над следующей мультимодальной моделью Gemini, которая обещает быть крута в использовании тулов и в интеграциях с API. Она ещё обучается.
Тем временем, Гугл сделал версию модели для медицины, Med-PaLM 2 (https://cloud.google.com/blog/topics/healthcare-life-sciences/sharing-google-med-palm-2-medical-large-language-model), которая заявлена “the first large language model to perform at “expert” level on U.S. Medical Licensing Exam-style questions”. И добавляют в неё мультимодальность, чтобы модель, например, могла анализировать рентгеновские снимки.
Другое богатое направление -- безопасность. Для него сделали модель Sec-PaLM (https://cloud.google.com/blog/products/identity-security/rsa-google-cloud-security-ai-workbench-generative-ai), которая должна помогать в задачах кибербезопасности.
Умных агентов-помощников будет всё больше. Причём с довольно крутыми скиллами. Гибридные команды становятся реальностью на новом уровне.
И параллельно как и ожидалось (https://news.1rj.ru/str/gonzo_ML/1442) Гугл работает над следующей мультимодальной моделью Gemini, которая обещает быть крута в использовании тулов и в интеграциях с API. Она ещё обучается.
Google Cloud Blog
Sharing Google’s Med-PaLM 2 medical large language model, or LLM | Google Cloud Blog
We’ve invited a select group of Google Cloud customers to test our Med-PaLM 2 LLM to evaluate how it answers complex medical questions.
❤9👍7