gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24.1K subscribers
2.72K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Последнее прекрасное на сегодня:

Late 19th early 20th century scientists and their wondrous machines.

https://www.facebook.com/groups/officialmidjourney/permalink/509885461303023/

Читать с описанием картин!
2
Ну, поехали!

Bing is running on a new, next-generation language model called Prometheus, he said, one more powerful than ChatGPT and one customizable for search.

The Prometheus model, Mehdi said, offers several improvements, including relevancy of answers, annotating answers with specific web links, getting more up-to-date information and improving geolocation, and increasing the safety of queries.

As a result, there have already been steady improvements on the Bing algorithm, he said. A few weeks ago Microsoft applied AI to its core search index and saw the “largest jump in relevancy” over the past two decades.

https://venturebeat.com/ai/the-race-starts-today-in-search-as-microsoft-reveals-new-ai-powered-bing-copilot-for-the-web/
🔥12👍2
Напоминаю, что завтрашний день тоже уже занят анонсами :)

Google has announced that it's holding a streaming event called Live from Paris that will be all about "Search, Maps and beyond," set to be livestreamed on YouTube on February 8th.

https://www.engadget.com/google-holding-event-next-week-on-search-maps-and-beyond-103745759.html
😁8
[OpenAI InstructGPT & RLHF] Training language models to follow instructions with human feedback
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
Статья: https://arxiv.org/abs/2203.02155
Пост в блоге: https://openai.com/blog/instruction-following/
Model card: https://github.com/openai/following-instructions-human-feedback

Мы уже много раз упоминали RLHF (Reinforcement Learning from Human Feedback), на котором построены модели OpenAI семейства InstructGPT (включая ChatGPT), а также модели конкурирующих фирм типа Sparrow от DeepMind (https://news.1rj.ru/str/gonzo_ML/1237). Надо разобрать эту классику.

Оригинальная цель работы -- alignment, выровнять поведение модели относительно интента пользователя. Под интентом в данном случае подразумевается как явное следование инструкциям (что запросил человек в промпте), так и неявные truthfulness, fairness, safety.

В OpenAI темой alignment занимается отдельная команда (https://openai.com/alignment/), их подход описан в этой статье (https://openai.com/blog/our-approach-to-alignment-research/). Вот дискуссия с обсуждением этого плана на AI alignment forum (https://www.alignmentforum.org/posts/FTk7ufqK2D4dkdBDr/notes-on-openai-s-alignment-plan). Отдельный вопрос, как это всё может переноситься на alignment сущностей умнее человека.

Если вдаваться в суть, то иерархия адаптации GPT-подобных моделей выглядит как-то так.

Во-первых, есть базовая модель GPT, обученная на каких-то достаточно универсальных и разнообразных данных. У моделей разных компаний эти наборы данных разные, хотя и пересекающиеся. Есть также специализированные версии GPT, обученные на специальных доменах, типа BioGPT от Microsoft (https://github.com/microsoft/BioGPT). Это всё предобученные модели (pre-trained models).

Дальше, предобученную модель можно уговаривать произвести нужный вам результат путём подбора правильного промпта. Это тот самый prompt-engineering. На выходе мы получаем prompt-tuned модель. Промпт-инжиниринг включает в себя добавление в промпт примеров решения нужной задачи, это тот самый few-shot learning через in-context learning, который основательно выстрелил после работы про GPT-3 (https://news.1rj.ru/str/gonzo_ML/305). По сути это всё тот же промпт с добавленными примерами.

Другой параллельный способ улучшения модели, это supervised fine-tuning, когда модель дообучается на той же задаче языкового моделирования (предсказания следующего токена), что и оригинальная GPT, но на специальном тематическом датасете. Так, например, LaMDA (https://news.1rj.ru/str/gonzo_ML/1229) дообучалась на примерах хороших по разным критериям диалогов.

Ну и наконец новый зверь в зоопарке, RLHF, также помогает получить более качественную модель, используя обучение с подкреплением, где в качестве сигнала для обучения выступают предпочтения человеков относительно разных генераций. Это далеко не первый пример использования RL, во многом у тех же авторов из OpenAI за пару лет до работы про InstructGPT была работа про суммаризацию с RL (https://openai.com/blog/learning-to-summarize-with-human-feedback/), а ещё раньше на NIPS 2017 года была совместная работа авторов из DeepMind и OpenAI под названием “Deep Reinforcement Learning from Human Preferences” (https://arxiv.org/abs/1706.03741).

Проблема применения RL для таких задач в том, что сигнал от людей собирать дорого, и большой его поток сложно обеспечить. Поэтому хотелось бы его на несколько порядков уменьшить, чтобы сделать применение RL реальным. В той работе 17 года предложили для этого использовать обучаемую на человеческих оценках reward function, которая дальше используется для предсказания награды агента. Функция не человек, её можно дёргать часто.
👍196🔥2
Делается всё в несколько ходов. Во-первых, авторы наняли 40 контракторов для разметки данных, которые нагенерили ответов, которые должна была бы давать модель по разным промптам, и на этих данных зафайнтюнили GPT. Промпты в основном писали разметчики, но немного взяли от живых пользователей из OpenAI Playground и beta API. Это supervised fine-tuning (SFT), а полученная модель затем будет выступать в роли supervised policy.

Затем собрали датасет сравнений разных ответов моделей и обучили на этом reward model (RM) на предсказание, какой ответ предпочёл бы человек. Для RM использовали только 6B модели, инициализированные зафайнтюненной на множество NLP задач GPT-3. RM делалась из SFT отрыванием финального unembedding слоя и (точные детали неясны), видимо, генеря эмбеддинг для “prompt+response”, по которому надо было посчитать скаляр (линейным слоем?). Каждый разметчик получал от K=4 до 9 ответов модели для ранжирования, а лосс считался между парами, что давало {K \choose 2} сравнений. Разметчиков просили предпочитать truthfulness и harmlessness.

Эта RM далее используется в качестве функции награды в RL алгоритме (PPO, proximal policy optimization) для дообучения supervised policy. По случайному промпту кастомера модель генерит ответ, по prompt+response RM выдаёт награду и на этом эпизод заканчивается. Value function инициализирована из RM. Для борьбы с деградациями на NLP датасетах также смешивали градиенты предобучения с градиентами PPO, такая модель в работе называется PPO-ptx.

Процесс обучения RM + RL можно повторять в цикле сколько надо раз и это дообучение выравнивает поведение GPT с человеческими предпочтениями. Полученные модели и называются InstructGPT.

Обучали три разных GPT (1.3B, 6B, 175B параметров), модели оценивали человеческие разметчики, плюс было автоматическое оценивание на разных NLP задачах. Относительно предобучения эта процедура использовала менее 2% вычислительного бюджета и данных.

Люди предпочитали ответ 1.3B InstructGPT ответу 175B GPT-3 даже если в последнюю добавить few-shot prompts. А 175B InstructGPT предпочитали 175B GPT-3 в 85% случаев (71% для few-shot prompts). Новая модель также оказалась лучше по truthfulness и токсичности, но не по bias.

Конечно, модель всё равно не идеальна и может генерировать токсичный контент, демонстрировать bias’ы и ошибаться.

Эти InstructGPT модели в итоге стали дефолтными для GPT-3 в API OpenAI в прошлом году (https://help.openai.com/en/articles/5832130-what-s-changed-with-engine-names-and-best-practices). Хотя это как правило не сами модели из статьи, а отдельно обученные (https://platform.openai.com/docs/model-index-for-researchers).

Такие дела. В целом ещё один хороший способ улучшения качества предобученных моделей (сравнительно) малой ценой.

Со времён статьи RLHF стал сильно популярен и теперь встречается часто.
🔥14👍63