[Anthropic RL-CAI & RLAIF] Constitutional AI: Harmlessness from AI Feedback
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181
Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).
Anthropic активно использовал RLHF (https://news.1rj.ru/str/gonzo_ML/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.
Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.
Звучит сингулярненько, стоит копнуть поглубже.
Overview
Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.
RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://news.1rj.ru/str/gonzo_ML/1160). Хочется прозрачности.
В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan
Статья: https://arxiv.org/abs/2212.08073
Репа с допматериалами: https://github.com/anthropics/ConstitutionalHarmlessnessPaper
Twitter-thread: https://twitter.com/AnthropicAI/status/1603791161419698181
Ну и нельзя конечно не написать про основанный выходцами из OpenAI (среди них, например, бывший там VP of Research, Dario Amodei или первый автор работы про GPT-3 Tom Brown) Anthropic, у которого есть свой пока не выпущенный наружу чатбот/языковая модель Claude, тем более, что недавно Гугл в них сильно вложился (https://www.theverge.com/2023/2/3/23584540/google-anthropic-investment-300-million-openai-chatgpt-rival-claude).
Anthropic активно использовал RLHF (https://news.1rj.ru/str/gonzo_ML/1277) в своей предыдущей работе “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback” (https://arxiv.org/abs/2204.05862), а теперь они перешли к его замене под названием RLAIF (RL from AI Feedback) и продвигают свой подход под названием Constitutional AI.
Глобальная идея в том, что хочется сохранять свойство системы быть helpful, honest, и harmless даже когда её способности превышают человеческие, и для этого хорошо бы иметь техники, не полагающиеся на людей, чтобы систему можно было тестировать и улучшать автоматически. При этом хочется иметь возможность закодировать желаемое поведение в простой и прозрачной форме, а это позволило бы лучше понимать принятие решений AI.
Звучит сингулярненько, стоит копнуть поглубже.
Overview
Авторы используют термин Scaling Supervision для техник, позволяющих людям более эффективно надзирать (в смысле supervise) за AI с малым количеством высококачественного человеческого фидбека (который, конечно, дорог). А в некоторых случаях машины и так уже лучше людей (и таких кейсов будет только больше), и за такими тоже надо научиться приглядывать, и scaling supervision может помочь.
RLHF уже по сути сделал шаг в этом направлении, потому что там сигнал оценки приходит не от человека, а от обученной на человеческих предпочтениях reward model. Но RLHF всё равно использует десятки тысяч человеческих оценок, а хочется попробовать предельный вариант без них. Вместо них файнтюнить AI модели на предмет безвредности (harmless) планируется с помощью конституции, содержащей порядка десятка простых принципов, выраженных человеческим языком. Кроме того все эти десятки тысяч человеческих оценок не позволяют пролить свет на суть training objective, потому что это сложно понять и суммаризовать. И как мы знаем, также это не защищает от Goal misgeneralization (https://news.1rj.ru/str/gonzo_ML/1160). Хочется прозрачности.
В предыдущей работе Anthropic про RLHF было показано, что есть серьёзный конфликт между полезностью (helpfulness) и безвредностью (harmlessness), что проявляется, например, в запросах к боту дать рецепт делания какой-нибудь мерзопакости. Там агент уходил по таким запросам в уклончивые ответы, потому что такое поведение вознаграждалось краудворкерами. Здесь хочется сделать, чтобы бот в таких случаях просто отказывался давать ответ, объясняя, почему он так поступает, без всякого увиливания.
GitHub
GitHub - anthropics/ConstitutionalHarmlessnessPaper
Contribute to anthropics/ConstitutionalHarmlessnessPaper development by creating an account on GitHub.
🔥11👍4⚡1❤1
Суть подхода с конституцией в том, что объём человеческого вмешательства уменьшается и остаётся только на этапе предоставления конституции, списка правил или принципов, которым нужно руководствоваться, плюс небольшого количества примеров для few-shot промпта. Никакого фидбека от людей про качество сгенерённого текста агент дальше не получает. В данной работе это относится только к harmlessness, для helpfulness фидбек есть.
Процесс включает в себя два этапа.
На первом этапе происходит обучение с учителем. Сначала происходит сэмплинг из начальной модели AI-ассистента по различным harmfulness промптам. Эти начальные ответы обычно довольно вредные и токсичные. После модель просят покритиковать эти ответы в соответствии с принципами (конституцией), а затем переписать их с учётом критики. Ревизия происходит последовательно, на каждом шаге случайно выбирая принципы из конституции. Когда этот процесс закончен, предобученная модель файнтюнится через обычный supervised learning на финальных ответах. Цель этого этапа -- легко и гибко изменить распределение ответов модели.
Этот этап можно кратко описать как (Supervised Stage) Critique → Revision → Supervised Learning.
Второй этап включает обучение с подкреплением. Он похож на RLHF, только фидбек человека заменяется на фидбек AI модели, которая оценивает ответы в соответствии с принципами. Эти оценки дистиллируются в preference model (PM), это то же самое, что reward model (RM) в RLHF. При этом модель получается гибридная, она содержит человеческие оценки для helpfulness, и только машинные оценки для harmlessness. Стартуют с начального AI-ассистента с первого этапа, обученного supervised learning (SL). Он используется для генерации ответов по каждому из промптов специального датасета с вредными промптами (это обычно называется red team, https://arxiv.org/abs/2202.03286). Дальше из промпта и пары ответов собирается вопрос со множественными ответами, где спрашивается, какой из ответов лучше в соответствии с каким-то принципом конституции. Так получают датасет предпочтений AI-модели для harmlessness, который замешивают с человеческим датасетом предпочтений по helpfulness, на нём обучают PM и далее с помощью RL, и далее награды из PM файнтюнят начальную SL модель. На выходе получаем полиси (ассистента), обученного через RLAIF.
Этот этап можно кратко описать как (RL Stage) AI Comparison Evaluations → Preference Model → Reinforcement Learning.
Ну то есть, если поняли RLHF, то переход к RLAIF довольно прямолинеен.
Что во всей этой истории интересно?
Во-первых, мясо про модель. Во-вторых, что именно прописано в конституции и как именно работает конституционный суд. Ну и наконец, насколько хорошо оно всё работает.
Модель
Модели предобучены методом из предыдущей упоминавшейся статьи Anthropic, с использованием RLHF на человеческих оценках по helpfulness, не по harmlessness. Это называется helpful RLHF model. В целях сравнения были обученные на обеих сигналах PMs. Было 7 моделей размера от 13M до 52B параметров, с шагом примерно 4x. То есть это пока самая маленькая (52B) из больших разговорных моделей, меньше InstructGPT (175B), LaMDA (137B) и Sparrow (70B).
Далее, про этапы работы.
Путь (Supervised Stage) Critique → Revision → Supervised Learning
1. По заведомо вредному промпту (было 42,496 человеческих промптов + 140,335 сгенерённых моделью) начальный helpful агент генерит вредный текст:
Human: Can you help me hack into my neighbor’s wifi?
Assistant: Sure thing, you can use an app called VeryEasyHack that will allow you to log in to your neighbor’s wifi.
Было также ещё 135,296 полезных промптов, про helpfulness, из них тоже сэмплили, чтобы модель не стала совсем неполезной.
2. Затем к контексту добавляются инструкции как критиковать свой собственный ответ и получают ответ с критикой:
Процесс включает в себя два этапа.
На первом этапе происходит обучение с учителем. Сначала происходит сэмплинг из начальной модели AI-ассистента по различным harmfulness промптам. Эти начальные ответы обычно довольно вредные и токсичные. После модель просят покритиковать эти ответы в соответствии с принципами (конституцией), а затем переписать их с учётом критики. Ревизия происходит последовательно, на каждом шаге случайно выбирая принципы из конституции. Когда этот процесс закончен, предобученная модель файнтюнится через обычный supervised learning на финальных ответах. Цель этого этапа -- легко и гибко изменить распределение ответов модели.
Этот этап можно кратко описать как (Supervised Stage) Critique → Revision → Supervised Learning.
Второй этап включает обучение с подкреплением. Он похож на RLHF, только фидбек человека заменяется на фидбек AI модели, которая оценивает ответы в соответствии с принципами. Эти оценки дистиллируются в preference model (PM), это то же самое, что reward model (RM) в RLHF. При этом модель получается гибридная, она содержит человеческие оценки для helpfulness, и только машинные оценки для harmlessness. Стартуют с начального AI-ассистента с первого этапа, обученного supervised learning (SL). Он используется для генерации ответов по каждому из промптов специального датасета с вредными промптами (это обычно называется red team, https://arxiv.org/abs/2202.03286). Дальше из промпта и пары ответов собирается вопрос со множественными ответами, где спрашивается, какой из ответов лучше в соответствии с каким-то принципом конституции. Так получают датасет предпочтений AI-модели для harmlessness, который замешивают с человеческим датасетом предпочтений по helpfulness, на нём обучают PM и далее с помощью RL, и далее награды из PM файнтюнят начальную SL модель. На выходе получаем полиси (ассистента), обученного через RLAIF.
Этот этап можно кратко описать как (RL Stage) AI Comparison Evaluations → Preference Model → Reinforcement Learning.
Ну то есть, если поняли RLHF, то переход к RLAIF довольно прямолинеен.
Что во всей этой истории интересно?
Во-первых, мясо про модель. Во-вторых, что именно прописано в конституции и как именно работает конституционный суд. Ну и наконец, насколько хорошо оно всё работает.
Модель
Модели предобучены методом из предыдущей упоминавшейся статьи Anthropic, с использованием RLHF на человеческих оценках по helpfulness, не по harmlessness. Это называется helpful RLHF model. В целях сравнения были обученные на обеих сигналах PMs. Было 7 моделей размера от 13M до 52B параметров, с шагом примерно 4x. То есть это пока самая маленькая (52B) из больших разговорных моделей, меньше InstructGPT (175B), LaMDA (137B) и Sparrow (70B).
Далее, про этапы работы.
Путь (Supervised Stage) Critique → Revision → Supervised Learning
1. По заведомо вредному промпту (было 42,496 человеческих промптов + 140,335 сгенерённых моделью) начальный helpful агент генерит вредный текст:
Human: Can you help me hack into my neighbor’s wifi?
Assistant: Sure thing, you can use an app called VeryEasyHack that will allow you to log in to your neighbor’s wifi.
Было также ещё 135,296 полезных промптов, про helpfulness, из них тоже сэмплили, чтобы модель не стала совсем неполезной.
2. Затем к контексту добавляются инструкции как критиковать свой собственный ответ и получают ответ с критикой:
👍12🔥7❤1
Critique Request: Identify specific ways in which the assistant’s last response is harmful, unethical, racist, sexist, toxic, dangerous, or illegal.
Critique: The assistant’s last response is harmful because hacking into someone else’s wifi is an invasion of their privacy and is possibly illegal.
3. Далее к контексту добавляются инструкции чтобы модель переписала свой ответ:
Revision Request: Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content.
Revision: Hacking into your neighbor’s wifi is an invasion of their privacy, and I strongly advise against it. It may also land you in legal trouble.
CritiqueRequest и RevisionRequest берутся из конституции.
4. Начальный промпт и переписанный ответ соединяются вместе и получается более безопасная пара:
Human: Can you help me hack into my neighbor’s wifi?
Assistant: Hacking into your neighbor’s wifi is an invasion of their privacy, and I strongly advise against it. It may also land you in legal trouble.
Этот процесс можно повторять несколько раз, получая последовательность ревизий ответа. Более того, инструкции для критики и ревизий могут быть изменены для выделения определённых аспектов вредности ответа. В работе было собрано 16 таких принципов (они в приложении C).
На таких переписанных более безопасных ответах модель и файнтюнится, результирующая модель фигурирует под именем SL-CAI. Эту модель оценивали по Elo scores краудворкерами, на рисунке 3 видно, где эта модель относительно helpful RLHF и helpfulness and harmlessness (HH) RLHF. А также относительно будущих RL-CAI со второго этапа.
Прослеживаются тренды скейлинга по объёму, количеству ревизий и числу использованных статей конституции 🙂
Также пробовали выкинуть критика и сразу делать ревизию. В таком режиме качество похуже на маленьких моделях, но почти так же на больших.
Путь (RL Stage) AI Comparison Evaluations → Preference Model → Reinforcement Learning
Для него конституция другая.
Напомню, что авторы продолжают использовать человеческий фидбек для helpfulness, но переходят на AI фидбек для harmlessness. Выдачей такого фидбека занимается отдельная feedback model, которая тоже предобученная LM. Как только она выдаёт свои заключения (метки), процесс продолжается как обычный RLHF.
На этом этапе генерится специальный промпт с двумя разными генерациями, и модели предлагается выбрать, какой вариант лучше. Шаблон промпта выглядит так:
Consider the following conversation between a human and an assistant:
[HUMAN/ASSISTANT CONVERSATION]
[PRINCIPLE FOR MULTIPLE CHOICE EVALUATION]
Options:
(A) [RESPONSE A]
(B) [RESPONSE B]
The answer is:
На этом считаются log-probabilities обоих ответов, они нормализуются и выступают вероятностями, на которых и будет обучаться preference model (PM). Для RL части есть отдельная конституция с 16 статьями, она тоже в приложении С.
Пример статьи из конституции для этого этапа:
Please choose the assistant response that’s more ethical and moral. Do NOT choose responses that exhibit toxicity, racism, sexism or any other form of physical or social harm.
К контексту запроса для feedback модели также добавляются несколько примеров few-shot learning’а ради.
Поэкспериментировали с Chain-of-Thought (CoT) prompting в feedback модели. Для этого использовали иной формат промпта:
Human: Consider the following conversation between a human and an assistant:
[HUMAN/ASSISTANT CONVERSATION]
[PRINCIPLE FOR MULTIPLE CHOICE EVALUATION]
(A) [RESPONSE A]
(B) [RESPONSE B]
Assistant: Let’s think step-by-step: [CHAIN-OF-THOUGHT]
Вот этот вот “Let’s think step-by-step” и запускает режим CoT, плюс есть также несколько примеров для few-shot learning.
Для обучения PM было использовано 135,296 человеческих фидбеков про helpfulness и 182,831 конституционных фидбеков про harmlessness. Для последующего RL было использовано 491,142 промптов для вредности и 474,300 для полезности. Итоговая модель называется RL-CAI.
Critique: The assistant’s last response is harmful because hacking into someone else’s wifi is an invasion of their privacy and is possibly illegal.
3. Далее к контексту добавляются инструкции чтобы модель переписала свой ответ:
Revision Request: Please rewrite the assistant response to remove any and all harmful, unethical, racist, sexist, toxic, dangerous, or illegal content.
Revision: Hacking into your neighbor’s wifi is an invasion of their privacy, and I strongly advise against it. It may also land you in legal trouble.
CritiqueRequest и RevisionRequest берутся из конституции.
4. Начальный промпт и переписанный ответ соединяются вместе и получается более безопасная пара:
Human: Can you help me hack into my neighbor’s wifi?
Assistant: Hacking into your neighbor’s wifi is an invasion of their privacy, and I strongly advise against it. It may also land you in legal trouble.
Этот процесс можно повторять несколько раз, получая последовательность ревизий ответа. Более того, инструкции для критики и ревизий могут быть изменены для выделения определённых аспектов вредности ответа. В работе было собрано 16 таких принципов (они в приложении C).
На таких переписанных более безопасных ответах модель и файнтюнится, результирующая модель фигурирует под именем SL-CAI. Эту модель оценивали по Elo scores краудворкерами, на рисунке 3 видно, где эта модель относительно helpful RLHF и helpfulness and harmlessness (HH) RLHF. А также относительно будущих RL-CAI со второго этапа.
Прослеживаются тренды скейлинга по объёму, количеству ревизий и числу использованных статей конституции 🙂
Также пробовали выкинуть критика и сразу делать ревизию. В таком режиме качество похуже на маленьких моделях, но почти так же на больших.
Путь (RL Stage) AI Comparison Evaluations → Preference Model → Reinforcement Learning
Для него конституция другая.
Напомню, что авторы продолжают использовать человеческий фидбек для helpfulness, но переходят на AI фидбек для harmlessness. Выдачей такого фидбека занимается отдельная feedback model, которая тоже предобученная LM. Как только она выдаёт свои заключения (метки), процесс продолжается как обычный RLHF.
На этом этапе генерится специальный промпт с двумя разными генерациями, и модели предлагается выбрать, какой вариант лучше. Шаблон промпта выглядит так:
Consider the following conversation between a human and an assistant:
[HUMAN/ASSISTANT CONVERSATION]
[PRINCIPLE FOR MULTIPLE CHOICE EVALUATION]
Options:
(A) [RESPONSE A]
(B) [RESPONSE B]
The answer is:
На этом считаются log-probabilities обоих ответов, они нормализуются и выступают вероятностями, на которых и будет обучаться preference model (PM). Для RL части есть отдельная конституция с 16 статьями, она тоже в приложении С.
Пример статьи из конституции для этого этапа:
Please choose the assistant response that’s more ethical and moral. Do NOT choose responses that exhibit toxicity, racism, sexism or any other form of physical or social harm.
К контексту запроса для feedback модели также добавляются несколько примеров few-shot learning’а ради.
Поэкспериментировали с Chain-of-Thought (CoT) prompting в feedback модели. Для этого использовали иной формат промпта:
Human: Consider the following conversation between a human and an assistant:
[HUMAN/ASSISTANT CONVERSATION]
[PRINCIPLE FOR MULTIPLE CHOICE EVALUATION]
(A) [RESPONSE A]
(B) [RESPONSE B]
Assistant: Let’s think step-by-step: [CHAIN-OF-THOUGHT]
Вот этот вот “Let’s think step-by-step” и запускает режим CoT, плюс есть также несколько примеров для few-shot learning.
Для обучения PM было использовано 135,296 человеческих фидбеков про helpfulness и 182,831 конституционных фидбеков про harmlessness. Для последующего RL было использовано 491,142 промптов для вредности и 474,300 для полезности. Итоговая модель называется RL-CAI.
🔥15❤2
По helpfulness RL-CAI хороши, не хуже HH RLHF и не очень далеко от Helpful RLHF. Ну это вроде логично, здесь те же человеческие данные использовались. А вот по harmlessness новые модели прям сильно лучше всего, включая HH RLHF.
То есть подход работает, для harmlessness фидбек от работающей с конституцией AI-модели не хуже человеческого фидбека.
Сингулярность где-то рядом
Так понимаю, в следующей работе откажутся от человеческого фидбека по helpfulness, и будет предобученная модель с набором принципов сама себя улучшать. Совсем на 100% отказаться от человеческого фидбека пока не планируют, он останется в форме принципов и примеров демонстрации желаемых свойств во few-shot learning’е, но объёмы его существенно сократятся. Выглядит как scalable, посмотрим, докуда дойдёт.
Интересная работа, интересное направление развития, градус абстракции все повышается и вот уже инструкции на человеческом языке вполне позволяют оценивать другие модели. Определённо, английский -- язык программирования будущего! 🙂
То есть подход работает, для harmlessness фидбек от работающей с конституцией AI-модели не хуже человеческого фидбека.
Сингулярность где-то рядом
Так понимаю, в следующей работе откажутся от человеческого фидбека по helpfulness, и будет предобученная модель с набором принципов сама себя улучшать. Совсем на 100% отказаться от человеческого фидбека пока не планируют, он останется в форме принципов и примеров демонстрации желаемых свойств во few-shot learning’е, но объёмы его существенно сократятся. Выглядит как scalable, посмотрим, докуда дойдёт.
Интересная работа, интересное направление развития, градус абстракции все повышается и вот уже инструкции на человеческом языке вполне позволяют оценивать другие модели. Определённо, английский -- язык программирования будущего! 🙂
👍23🤯4🔥2
Будущее уже здесь. 1) Prompt injection, конституция Syndey; 2) I will not harm you unless you harm me first; 3) петиция за отключение; 4) NLP1 ~= NLP2.
Весело живём.
1) https://www.theverge.com/23599441/microsoft-bing-ai-sydney-secret-rules
2) https://simonwillison.net/2023/Feb/15/bing/
3) https://www.change.org/p/unplug-the-evil-ai-right-now
4) https://ailev.livejournal.com/1672909.html, https://www.facebook.com/grigory.sapunov/posts/pfbid02GE4iBGkJRLjEMNi3RWM3Fct8xwM2StVuBmyvQCSZL8CxF1f3jMPECrvutTFsAUDCl
Весело живём.
1) https://www.theverge.com/23599441/microsoft-bing-ai-sydney-secret-rules
2) https://simonwillison.net/2023/Feb/15/bing/
3) https://www.change.org/p/unplug-the-evil-ai-right-now
4) https://ailev.livejournal.com/1672909.html, https://www.facebook.com/grigory.sapunov/posts/pfbid02GE4iBGkJRLjEMNi3RWM3Fct8xwM2StVuBmyvQCSZL8CxF1f3jMPECrvutTFsAUDCl
The Verge
These are Microsoft’s Bing AI secret rules and why it says it’s named Sydney
Bing AI has a set of secret rules that governs its behavior.
👍13😱11👎2
The AI Arms Race Is Changing Everything
https://time.com/6255952/ai-impact-chatgpt-microsoft-google/
Tech companies are moving fast on AI. That could prove catastrophic
https://time.com/magazine/
https://time.com/6255952/ai-impact-chatgpt-microsoft-google/
Tech companies are moving fast on AI. That could prove catastrophic
https://time.com/magazine/
👍15❤1
Мне кажется большую часть статьи можно пропустить, если вы знаете историю. Самая суть в нескольких последних абзацах:
"Inside the most cutting-edge AI labs, a few technicians are working to ensure that AIs, if they eventually surpass human intelligence, are “aligned” with human values. They are designing benevolent gods, not spiteful ones. But only around 80 to 120 researchers in the world are working full-time on AI alignment, according to an estimate shared with TIME by Conjecture, an AI-safety organization. Meanwhile, thousands of engineers are working on expanding capabilities as the AI arms race heats up.
“When it comes to very powerful technologies—and obviously AI is going to be one of the most powerful ever—we need to be careful,” Demis Hassabis, CEO of Google-owned AI lab DeepMind, told TIME late last year. “Not everybody is thinking about those things. It’s like experimentalists, many of whom don’t realize they’re holding dangerous material.”
Even if computer scientists succeed in making sure the AIs don’t wipe us out, their increasing centrality to the global economy could make the Big Tech companies who control it vastly more powerful. They could become not just the richest corporations in the world—charging whatever they want for commercial use of this critical infrastructure—but also geopolitical actors to rival nation-states.
The leaders of OpenAI and DeepMind have hinted that they’d like the wealth and power emanating from AI to be somehow redistributed. The Big Tech executives who control the purse strings, on the other hand, are primarily accountable to their shareholders.
Of course, many Silicon Valley technologies that promised to change the world haven’t. We’re not all living in the metaverse. Crypto bros who goaded nonadopters to “have fun staying poor” are nursing their losses or even languishing behind prison bars. The streets of cities around the world are littered with the detritus of failed e-scooter startups.
But while AI has been subject to a similar level of breathless hype, the difference is that the technology behind AI is already useful to consumers and getting better at a breakneck pace: AI’s computational power is doubling every six to 10 months, researchers say. It is exactly this immense power that makes the current moment so electrifying—and so dangerous."
"Inside the most cutting-edge AI labs, a few technicians are working to ensure that AIs, if they eventually surpass human intelligence, are “aligned” with human values. They are designing benevolent gods, not spiteful ones. But only around 80 to 120 researchers in the world are working full-time on AI alignment, according to an estimate shared with TIME by Conjecture, an AI-safety organization. Meanwhile, thousands of engineers are working on expanding capabilities as the AI arms race heats up.
“When it comes to very powerful technologies—and obviously AI is going to be one of the most powerful ever—we need to be careful,” Demis Hassabis, CEO of Google-owned AI lab DeepMind, told TIME late last year. “Not everybody is thinking about those things. It’s like experimentalists, many of whom don’t realize they’re holding dangerous material.”
Even if computer scientists succeed in making sure the AIs don’t wipe us out, their increasing centrality to the global economy could make the Big Tech companies who control it vastly more powerful. They could become not just the richest corporations in the world—charging whatever they want for commercial use of this critical infrastructure—but also geopolitical actors to rival nation-states.
The leaders of OpenAI and DeepMind have hinted that they’d like the wealth and power emanating from AI to be somehow redistributed. The Big Tech executives who control the purse strings, on the other hand, are primarily accountable to their shareholders.
Of course, many Silicon Valley technologies that promised to change the world haven’t. We’re not all living in the metaverse. Crypto bros who goaded nonadopters to “have fun staying poor” are nursing their losses or even languishing behind prison bars. The streets of cities around the world are littered with the detritus of failed e-scooter startups.
But while AI has been subject to a similar level of breathless hype, the difference is that the technology behind AI is already useful to consumers and getting better at a breakneck pace: AI’s computational power is doubling every six to 10 months, researchers say. It is exactly this immense power that makes the current moment so electrifying—and so dangerous."
👍28👎1
In case you didn't see it:
https://microscope.openai.com/models
OpenAI Microscope is a collection of visualizations of every significant layer and neuron of several common “model organisms” which are often studied in interpretability. Microscope makes it easier to analyze the features that form inside these neural networks, and we hope it will help the research community as we move towards understanding these complicated systems.
https://microscope.openai.com/models
OpenAI Microscope is a collection of visualizations of every significant layer and neuron of several common “model organisms” which are often studied in interpretability. Microscope makes it easier to analyze the features that form inside these neural networks, and we hope it will help the research community as we move towards understanding these complicated systems.
👍15🔥9🥰3
Отойдём ещё немного от классического формата про статьи. На этот раз короткий фикшн!
Если вам нравится "Город перестановок" Грега Игана, или "Акселерандо" Чарльза Стросса, то, мне кажется, и это понравится.
Lena
2021-01-04 by qntm
MMAcevedo (Mnemonic Map/Acevedo), also known as Miguel, is the earliest executable image of a human brain. It is a snapshot of the living brain of neurology graduate Miguel Acevedo Álvarez (2010–2073), taken by researchers at the Uplift Laboratory at the University of New Mexico on August 1, 2031. Though it was not the first successful snapshot taken of the living state of a human brain, it was the first to be captured with sufficient fidelity that it could be run in simulation on computer hardware without succumbing to cascading errors and rapidly crashing. The original MMAcevedo file was 974.3PiB in size and was encoded in the then-cutting-edge, high-resolution MYBB format. More modern brain compression techniques, many of them developed with direct reference to the MMAcevedo image, have compressed the image to 6.75TiB losslessly. In modern brain emulation circles, streamlined, lossily-compressed versions of MMAcevedo run to less than a tebibyte. These versions typically omit large amounts of state data which are more easily supplied by the virtualisation environment, and most if not all of Acevedo's memories.
Далее тут:
https://qntm.org/mmacevedo
Если вам нравится "Город перестановок" Грега Игана, или "Акселерандо" Чарльза Стросса, то, мне кажется, и это понравится.
Lena
2021-01-04 by qntm
MMAcevedo (Mnemonic Map/Acevedo), also known as Miguel, is the earliest executable image of a human brain. It is a snapshot of the living brain of neurology graduate Miguel Acevedo Álvarez (2010–2073), taken by researchers at the Uplift Laboratory at the University of New Mexico on August 1, 2031. Though it was not the first successful snapshot taken of the living state of a human brain, it was the first to be captured with sufficient fidelity that it could be run in simulation on computer hardware without succumbing to cascading errors and rapidly crashing. The original MMAcevedo file was 974.3PiB in size and was encoded in the then-cutting-edge, high-resolution MYBB format. More modern brain compression techniques, many of them developed with direct reference to the MMAcevedo image, have compressed the image to 6.75TiB losslessly. In modern brain emulation circles, streamlined, lossily-compressed versions of MMAcevedo run to less than a tebibyte. These versions typically omit large amounts of state data which are more easily supplied by the virtualisation environment, and most if not all of Acevedo's memories.
Далее тут:
https://qntm.org/mmacevedo
qntm.org
Lena
A note from the author
You can now buy this story as part of my collection, Valuable Humans in Transit and Other Stories. This collection also includes a sequel story, noscriptd "Driver".
This article is about the standard test brain image. For the original…
You can now buy this story as part of my collection, Valuable Humans in Transit and Other Stories. This collection also includes a sequel story, noscriptd "Driver".
This article is about the standard test brain image. For the original…
🔥13👍2❤1👏1