NEW BOT Телеграм, страница

😁16👍6🔥3

6.73K views22:11

👍7🔥5👎1

2.99K views22:11

Последнее прекрасное на сегодня:

Late 19th early 20th century scientists and their wondrous machines.

https://www.facebook.com/groups/officialmidjourney/permalink/509885461303023/

Читать с описанием картин!

Facebook

See posts, photos and more on Facebook.

❤2

2.83K viewsedited 22:55

gonzo-обзоры ML статей

👍6

3.03K views22:55

gonzo-обзоры ML статей

Ну, поехали!

Bing is running on a new, next-generation language model called Prometheus, he said, one more powerful than ChatGPT and one customizable for search.

The Prometheus model, Mehdi said, offers several improvements, including relevancy of answers, annotating answers with specific web links, getting more up-to-date information and improving geolocation, and increasing the safety of queries.

As a result, there have already been steady improvements on the Bing algorithm, he said. A few weeks ago Microsoft applied AI to its core search index and saw the “largest jump in relevancy” over the past two decades.

https://venturebeat.com/ai/the-race-starts-today-in-search-as-microsoft-reveals-new-ai-powered-bing-copilot-for-the-web/

VentureBeat

The ‘race starts today’ in search as Microsoft reveals new OpenAI-powered Bing, ‘copilot for the web’

Microsoft just announced a reimagined search engine, web browser and chat powered by a more-powerful ChatGPT-like model from OpenAI.

🔥12👍2

3.64K viewsedited 19:23

gonzo-обзоры ML статей

Напоминаю, что завтрашний день тоже уже занят анонсами :)

Google has announced that it's holding a streaming event called Live from Paris that will be all about "Search, Maps and beyond," set to be livestreamed on YouTube on February 8th.

https://www.engadget.com/google-holding-event-next-week-on-search-maps-and-beyond-103745759.html

Engadget

Google's February 8th event will focus on 'Search, Maps and beyond'

Google has announced that it's holding an event next week called Live from Paris that will be all about "Search, Maps and beyond."

😁8

3.42K views19:36

gonzo-обзоры ML статей

Напоминаю, что завтрашний день тоже уже занят анонсами :) Google has announced that it's holding a streaming event called Live from Paris that will be all about "Search, Maps and beyond," set to be livestreamed on YouTube on February 8th. https://www.en…

😁17🔥10❤3💯1

3.91K views20:00

gonzo-обзоры ML статей

And one more search-chat-related news

As Richard Socher said today (https://www.facebook.com/rsocher/posts/pfbid0JGLQ1AMBCjvWKAj1aiUVAREgfJ5GKmYJ9T5GwLkvwNkCSpRH3W829xHE9X1nQTpHl):

Today, youChat went multi-modal !
and you can now share full interactive trannoscripts with others!

https://you.com/search?q=what%20does%20crm%20stand%20for%3F&fromSearchBar=true&tbm=youchat&sharedChatId=82afdd6b-f506-46eb-a29c-0c9157f2b891&

Facebook

See posts, photos and more on Facebook.

👍2

3.66K views20:24

gonzo-обзоры ML статей

👍3🔥1

3.95K views20:24

gonzo-обзоры ML статей

Сегодняшний Гугловый ивент:
https://www.youtube.com/watch?v=yLWXJ22LUEc

Для меня самое интересное, это пожалуй, Generative language API, обещанные со следующего месяца и через которые сначала будет доступна LaMDA (https://news.1rj.ru/str/gonzo_ML/1229), а потом и другие модели (интересно, какие именно):
https://www.youtube.com/live/yLWXJ22LUEc?feature=share&t=1109

Кому лень смотреть, вот текстом
https://www.theverge.com/2023/2/8/23590699/google-ai-search-features-bard-chatgpt-rival

https://www.theverge.com/2023/2/8/23589886/google-search-maps-translate-features-updates-live-from-paris-event

https://www.theverge.com/2023/2/8/23589724/google-maps-ev-charging-built-in-features

https://www.theverge.com/2023/2/8/23590667/google-maps-immersive-view-fly-3d-london-tokyo-nyc

YouTube

Google presents : Live from Paris

We're reimagining how people search for, explore and interact with information, making it more natural and intuitive than ever before to find what you need. Join us to learn how we're opening up greater access to information for people everywhere, through…

❤6👍4😁1🌚1

5.03K views18:21

gonzo-обзоры ML статей

[OpenAI InstructGPT & RLHF] Training language models to follow instructions with human feedback
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe
Статья: https://arxiv.org/abs/2203.02155
Пост в блоге: https://openai.com/blog/instruction-following/
Model card: https://github.com/openai/following-instructions-human-feedback

Мы уже много раз упоминали RLHF (Reinforcement Learning from Human Feedback), на котором построены модели OpenAI семейства InstructGPT (включая ChatGPT), а также модели конкурирующих фирм типа Sparrow от DeepMind (https://news.1rj.ru/str/gonzo_ML/1237). Надо разобрать эту классику.

Оригинальная цель работы -- alignment, выровнять поведение модели относительно интента пользователя. Под интентом в данном случае подразумевается как явное следование инструкциям (что запросил человек в промпте), так и неявные truthfulness, fairness, safety.

В OpenAI темой alignment занимается отдельная команда (https://openai.com/alignment/), их подход описан в этой статье (https://openai.com/blog/our-approach-to-alignment-research/). Вот дискуссия с обсуждением этого плана на AI alignment forum (https://www.alignmentforum.org/posts/FTk7ufqK2D4dkdBDr/notes-on-openai-s-alignment-plan). Отдельный вопрос, как это всё может переноситься на alignment сущностей умнее человека.

Если вдаваться в суть, то иерархия адаптации GPT-подобных моделей выглядит как-то так.

Во-первых, есть базовая модель GPT, обученная на каких-то достаточно универсальных и разнообразных данных. У моделей разных компаний эти наборы данных разные, хотя и пересекающиеся. Есть также специализированные версии GPT, обученные на специальных доменах, типа BioGPT от Microsoft (https://github.com/microsoft/BioGPT). Это всё предобученные модели (pre-trained models).

Дальше, предобученную модель можно уговаривать произвести нужный вам результат путём подбора правильного промпта. Это тот самый prompt-engineering. На выходе мы получаем prompt-tuned модель. Промпт-инжиниринг включает в себя добавление в промпт примеров решения нужной задачи, это тот самый few-shot learning через in-context learning, который основательно выстрелил после работы про GPT-3 (https://news.1rj.ru/str/gonzo_ML/305). По сути это всё тот же промпт с добавленными примерами.

Другой параллельный способ улучшения модели, это supervised fine-tuning, когда модель дообучается на той же задаче языкового моделирования (предсказания следующего токена), что и оригинальная GPT, но на специальном тематическом датасете. Так, например, LaMDA (https://news.1rj.ru/str/gonzo_ML/1229) дообучалась на примерах хороших по разным критериям диалогов.

Ну и наконец новый зверь в зоопарке, RLHF, также помогает получить более качественную модель, используя обучение с подкреплением, где в качестве сигнала для обучения выступают предпочтения человеков относительно разных генераций. Это далеко не первый пример использования RL, во многом у тех же авторов из OpenAI за пару лет до работы про InstructGPT была работа про суммаризацию с RL (https://openai.com/blog/learning-to-summarize-with-human-feedback/), а ещё раньше на NIPS 2017 года была совместная работа авторов из DeepMind и OpenAI под названием “Deep Reinforcement Learning from Human Preferences” (https://arxiv.org/abs/1706.03741).

Проблема применения RL для таких задач в том, что сигнал от людей собирать дорого, и большой его поток сложно обеспечить. Поэтому хотелось бы его на несколько порядков уменьшить, чтобы сделать применение RL реальным. В той работе 17 года предложили для этого использовать обучаемую на человеческих оценках reward function, которая дальше используется для предсказания награды агента. Функция не человек, её можно дёргать часто.

Openai

Aligning language models to follow instructions

We’ve trained language models that are much better at following user intentions than GPT-3 while also making them more truthful and less toxic, using techniques developed through our alignment research. These InstructGPT models, which are trained with humans…

👍19❤6🔥2

3.17K viewsedited 18:20

gonzo-обзоры ML статей

Делается всё в несколько ходов. Во-первых, авторы наняли 40 контракторов для разметки данных, которые нагенерили ответов, которые должна была бы давать модель по разным промптам, и на этих данных зафайнтюнили GPT. Промпты в основном писали разметчики, но немного взяли от живых пользователей из OpenAI Playground и beta API. Это supervised fine-tuning (SFT), а полученная модель затем будет выступать в роли supervised policy.

Затем собрали датасет сравнений разных ответов моделей и обучили на этом reward model (RM) на предсказание, какой ответ предпочёл бы человек. Для RM использовали только 6B модели, инициализированные зафайнтюненной на множество NLP задач GPT-3. RM делалась из SFT отрыванием финального unembedding слоя и (точные детали неясны), видимо, генеря эмбеддинг для “prompt+response”, по которому надо было посчитать скаляр (линейным слоем?). Каждый разметчик получал от K=4 до 9 ответов модели для ранжирования, а лосс считался между парами, что давало {K \choose 2} сравнений. Разметчиков просили предпочитать truthfulness и harmlessness.

Эта RM далее используется в качестве функции награды в RL алгоритме (PPO, proximal policy optimization) для дообучения supervised policy. По случайному промпту кастомера модель генерит ответ, по prompt+response RM выдаёт награду и на этом эпизод заканчивается. Value function инициализирована из RM. Для борьбы с деградациями на NLP датасетах также смешивали градиенты предобучения с градиентами PPO, такая модель в работе называется PPO-ptx.

Процесс обучения RM + RL можно повторять в цикле сколько надо раз и это дообучение выравнивает поведение GPT с человеческими предпочтениями. Полученные модели и называются InstructGPT.

Обучали три разных GPT (1.3B, 6B, 175B параметров), модели оценивали человеческие разметчики, плюс было автоматическое оценивание на разных NLP задачах. Относительно предобучения эта процедура использовала менее 2% вычислительного бюджета и данных.

Люди предпочитали ответ 1.3B InstructGPT ответу 175B GPT-3 даже если в последнюю добавить few-shot prompts. А 175B InstructGPT предпочитали 175B GPT-3 в 85% случаев (71% для few-shot prompts). Новая модель также оказалась лучше по truthfulness и токсичности, но не по bias.

Конечно, модель всё равно не идеальна и может генерировать токсичный контент, демонстрировать bias’ы и ошибаться.

Эти InstructGPT модели в итоге стали дефолтными для GPT-3 в API OpenAI в прошлом году (https://help.openai.com/en/articles/5832130-what-s-changed-with-engine-names-and-best-practices). Хотя это как правило не сами модели из статьи, а отдельно обученные (https://platform.openai.com/docs/model-index-for-researchers).

Такие дела. В целом ещё один хороший способ улучшения качества предобученных моделей (сравнительно) малой ценой.

Со времён статьи RLHF стал сильно популярен и теперь встречается часто.

🔥14👍6❤3

3.07K views18:20

gonzo-обзоры ML статей

2.85K views18:21

gonzo-обзоры ML статей

2.89K views18:21

About

Blog

Apps

Platform