NEW BOT Телеграм, страница

[Google] PaLM 2 Technical Report
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/

Вчера на Google I/O компания анонсировала свою новую модель PaLM 2. Это наследник модели PaLM с 540B параметров 2022 года (https://arxiv.org/abs/2204.02311), более вычислительно эффективный, меньший по размеру, но более качественный, а также мультиязычный с поддержкой более 100 языков, с хорошими способностями генерации кода и улучшенными способностями к reasoning’у.

Работа опубликована в формате похожем на GPT-4 (https://news.1rj.ru/str/gonzo_ML/1383), технический отчёт без технических деталей.

Что при этом можно сказать про модель?

Это трансформер, скорее всего только декодер, как и PaLM.

В работе снова фокус на скейлинге, авторы незавиcимо подтвердили наблюдения из работы про Шиншиллу (https://news.1rj.ru/str/gonzo_ML/1216), что с ростом вычислительного бюджета данные надо скейлить в той же пропорции, что и саму модель. И получили оценки оптимального размера модели под бюджет очень близкие к той работе. При этом на downstream задачах более крупная модель всё равно может быть лучше, чем оптимальная по лоссу предобучения.

Текстовый корпус для предобучения модели существенно больше, чем был у PaLM. При этом доля не-английского в нём увеличилась. Кроме монолингвальных неанглийских текстов, в обучение также добавили параллельные данные по сотням языков в паре с английским. Благодаря этому модель сходу может и переводить, как могут переводить и ChatGPT (https://news.1rj.ru/str/gonzo_ML/1405) с GPT-4 (https://news.1rj.ru/str/gonzo_ML/1413). Скоро померяем и для PaLM 2 (как только текущая модель в preview скорректирует свою паранойю про несоответствие запросов полиси). Но заявлено, что она уже лучше текущего Google Translate.

В целом для задач работы с языками модель выглядит очень интересно, и по пока не подкреплённому реальным опытом ощущению это должно быть лучше GPT-4 в реальных задачах, где нужен не только английский.

Модель была обучена на контекстах значительно большей длины, чем PaLM (там было 2048 токенов). В обучении используется смесь разных objectives аналогичная UL2 (https://news.1rj.ru/str/gonzo_ML/1113). Вероятно есть и какие-то архитектурные улучшения.

Проверялись на трёх вариантах размера модели: Small (S), Medium (M), и Large (L). Самая большая из них значительно меньше по размеру, чем 540B PaLM, но требует вычислений больше. В API при этом будет вынесено 4 разных модели: Gecko, Otter, Bison, Unicorn (самая большая). Gecko заявлено что будет влезать на мобильные устройства и работать там достаточно быстро в локальном режиме оффлайн. Предположу, что Gecko меньше Small. По умолчанию все результаты репортятся для модели Large. При этом ещё и делают усреднение по последним пяти чекпойнтам модели.

Продолжая традицию измерения качества моделей не на специальных датасетах, а на человеческих экзаменах, модель успешно проходит множество экзаменов на разных языках (за вычетом разговорной части), например, у неё проходной балл на Goethe-Zertifikat C2, “proving high-level German language ability”.

Хорошее улучшение относительно PaLM на английских задачах QA и классификации в 1-shot. Заметное улучшение на неанглийских.

Новые SoTA на reasoning, включая заметно побитый результат GPT-4. Есть также версия модели Flan-PaLM 2, зафайнтюненная на инструкциях. Она, например, лучше обычной PaLM 2 в математических задачах.

Для работы с кодом взяли PaLM 2-S (для интерактивности нужна быстрая небольшая модель) и продолжили обучение на специальном мультиязычном датасете, где много кода. Она обошла намного более тяжёлую и медленную PaLM-540B-Coder.

Генерацию оценивать сложно, но там модель тоже, похоже, хороша. Намного лучше PaLM.

Исследовали запоминание данных моделью, оно ниже, чем у PaLM, особенно если не было много повторов в исходных данных.

Отдельная большая часть работы про токсичность и Responsible AI.

👍18🔥8❤3

4.78K views12:55

gonzo-обзоры ML статей

В общем, что сказать. Модель интересная, наверняка достойный конкурент GPT-4. И очень может быть, что в кодировании и в не-английских задачах она будет и лучше. А может и в английских тоже. Конкуренция -- это хорошо. Ждём массовых применений в продуктах.

Тем временем, Гугл сделал версию модели для медицины, Med-PaLM 2 (https://cloud.google.com/blog/topics/healthcare-life-sciences/sharing-google-med-palm-2-medical-large-language-model), которая заявлена “the first large language model to perform at “expert” level on U.S. Medical Licensing Exam-style questions”. И добавляют в неё мультимодальность, чтобы модель, например, могла анализировать рентгеновские снимки.

Другое богатое направление -- безопасность. Для него сделали модель Sec-PaLM (https://cloud.google.com/blog/products/identity-security/rsa-google-cloud-security-ai-workbench-generative-ai), которая должна помогать в задачах кибербезопасности.

Умных агентов-помощников будет всё больше. Причём с довольно крутыми скиллами. Гибридные команды становятся реальностью на новом уровне.

И параллельно как и ожидалось (https://news.1rj.ru/str/gonzo_ML/1442) Гугл работает над следующей мультимодальной моделью Gemini, которая обещает быть крута в использовании тулов и в интеграциях с API. Она ещё обучается.

Google Cloud Blog

Sharing Google’s Med-PaLM 2 medical large language model, or LLM | Google Cloud Blog

We’ve invited a select group of Google Cloud customers to test our Med-PaLM 2 LLM to evaluate how it answers complex medical questions.

❤9👍7

4.35K views12:55

gonzo-обзоры ML статей

3.73K views12:55

gonzo-обзоры ML статей

3.74K views12:56

gonzo-обзоры ML статей

3.68K views12:56

gonzo-обзоры ML статей