Интересный поворот
Discussions of AI chip strategies within the company have been ongoing since at least last year, according to Reuters, as the shortage of chips to train AI models worsens. OpenAI is reportedly considering a number of strategies to advance its chip ambitions, including acquiring an AI chip manufacturer or mounting an effort to design chips internally.
https://techcrunch.com/2023/10/06/openai-said-to-be-considering-developing-its-own-ai-chips/
Discussions of AI chip strategies within the company have been ongoing since at least last year, according to Reuters, as the shortage of chips to train AI models worsens. OpenAI is reportedly considering a number of strategies to advance its chip ambitions, including acquiring an AI chip manufacturer or mounting an effort to design chips internally.
https://techcrunch.com/2023/10/06/openai-said-to-be-considering-developing-its-own-ai-chips/
TechCrunch
OpenAI said to be considering developing its own AI chips
OpenAI is reportedly considering developing its own chips to train -- and possibly run -- future AI models.
🔥18👍5🥱1
Borges and AI
Léon Bottou, Bernhard Schölkopf
Статья: https://arxiv.org/abs/2310.01425
Код: https://www.penguin.co.uk/authors/181249/jorge-luis-borges
Формат выходного дня.
Работа для любителей Борхеса и AI (для меня бинго). Название работы -- аллюзия на Борхесовский рассказ о Борхесе, “Борхес и я” (“Borges and I”).
Современное понимание LLM (и шире AI) выстраивается через призму картинок, популяризируемых научной фантастикой. Ну вот это всё: обретёт ли машина сознание, восстанет ли, случится ли скрепочный апокалипсис. Но сперва стоит спросить, является ли эта картинка хорошим описанием имеющегося феномена? Авторы работы выступают за понимание LLM через призму Хорхе Луиса Борхеса и выводят отсюда новую перспективу, высвечивающую отношения между языковым моделированием и искусственным интеллектом.
Представьте бесконечную коллекцию всех возможных правдоподобных (plausible, that a human could read and at least superficially comprehend) текстов, произведённых людьми. Она может включать книги, диалоги, статьи, молитвы, веб-страницы, компьютерные программы, в любой форме и на любом языке. Теперь представьте длинную бумажную ленту с несколькими начальными словами текста. Аппарат (“Машина Борхеса”?) сканирует ленту, находит в бесконечной коллекции какое-то вхождение этого текста (рандомное, одно из), выбирает оттуда слово-продолжение, и печатает его на ленте после предшествующих слов. Далее процесс повторяется, добавляя и добавляя слова на ленту. В каждый момент последовательность напечатанных слов на ленте также может быть найдена где-то в этой бесконечной коллекции, и образует одно из правдоподобных продолжений изначального набора слов. Авторы называют это совершенной языковой моделью (perfect language model).
Такую модель легко сконвертировать в чат-бота, введя специальное ключевое слово, аналог кнопки “Send” в мессенджере, передающее ход от модели к человеку и наоборот.
Как в “Саду расходящихся тропок” (“El jardín de senderos que se bifurcan”) каждый добавленный текст ограничивает историю, персонажей, их роли и идеи, будущее, но в то же время выступает стартовой точкой для бесконечной последовательности разветвлений.
Написать такую книгу нереально, но можно её представить аналогично тому, как мы представляем число π, не пиша всех его знаков. Может ли компьютер предоставить аппроксимацию бесконечного сада всех возможных текстов аналогичным образом?
Коллекции присуща внутренняя структура. Каждый текст может быть трансформирован в другой текст множеством способов. Одна из самых простых трансформаций -- замена слова; среди более продвинутых будут изменение времени, тона текста, переименование персонажей, переписывание текста от имени другого персонажа и т.д.
Лингвист Зеллиг Харрис (https://zelligharris.org/) считал, что все предложения на английском могут быть сгенерированы из небольшого числа базовых форм применением последовательности чётко определённых трансформаций. Обучение LLM’ки может быть понято как анализ большого корпуса текста и обнаружение этих трансформаций и базовых форм. Забавно, что первая реально успешная в этой нейросеть была названа “трансформером”. Возможно, будут найдены новые методы обучения, лучше аппроксимирующие совершенную языковую модель.
Машина ограничена тем, что уже напечатано на ленте. Машина может продолжать текст заимствуя факты из обучающих данных (не обязательно истинные) и генерируя подходящие выдумки (не обязательно ложные). То, что принято называть галлюцинациями, лучше называть конфабуляциями (https://www.beren.io/2023-03-19-LLMs-confabulate-not-hallucinate/).
То есть совершенная языковая модель -- это машина, пишущая беллетристику (fiction machine) и из этого и надо исходить в попытках понять, как это на нас влияет. И истории Борхеса могут в этом помочь.
В “Вавилонской библиотеке” (The Library of Babel) содержатся все возможные книги с 410 страницами и с алфавитом в 25 символов, потенциально содержащие все созданные (и не созданные) человечеством тексты, включая и огромную массу фигни.
Léon Bottou, Bernhard Schölkopf
Статья: https://arxiv.org/abs/2310.01425
Код: https://www.penguin.co.uk/authors/181249/jorge-luis-borges
Формат выходного дня.
Работа для любителей Борхеса и AI (для меня бинго). Название работы -- аллюзия на Борхесовский рассказ о Борхесе, “Борхес и я” (“Borges and I”).
Современное понимание LLM (и шире AI) выстраивается через призму картинок, популяризируемых научной фантастикой. Ну вот это всё: обретёт ли машина сознание, восстанет ли, случится ли скрепочный апокалипсис. Но сперва стоит спросить, является ли эта картинка хорошим описанием имеющегося феномена? Авторы работы выступают за понимание LLM через призму Хорхе Луиса Борхеса и выводят отсюда новую перспективу, высвечивающую отношения между языковым моделированием и искусственным интеллектом.
Представьте бесконечную коллекцию всех возможных правдоподобных (plausible, that a human could read and at least superficially comprehend) текстов, произведённых людьми. Она может включать книги, диалоги, статьи, молитвы, веб-страницы, компьютерные программы, в любой форме и на любом языке. Теперь представьте длинную бумажную ленту с несколькими начальными словами текста. Аппарат (“Машина Борхеса”?) сканирует ленту, находит в бесконечной коллекции какое-то вхождение этого текста (рандомное, одно из), выбирает оттуда слово-продолжение, и печатает его на ленте после предшествующих слов. Далее процесс повторяется, добавляя и добавляя слова на ленту. В каждый момент последовательность напечатанных слов на ленте также может быть найдена где-то в этой бесконечной коллекции, и образует одно из правдоподобных продолжений изначального набора слов. Авторы называют это совершенной языковой моделью (perfect language model).
Такую модель легко сконвертировать в чат-бота, введя специальное ключевое слово, аналог кнопки “Send” в мессенджере, передающее ход от модели к человеку и наоборот.
Как в “Саду расходящихся тропок” (“El jardín de senderos que se bifurcan”) каждый добавленный текст ограничивает историю, персонажей, их роли и идеи, будущее, но в то же время выступает стартовой точкой для бесконечной последовательности разветвлений.
Написать такую книгу нереально, но можно её представить аналогично тому, как мы представляем число π, не пиша всех его знаков. Может ли компьютер предоставить аппроксимацию бесконечного сада всех возможных текстов аналогичным образом?
Коллекции присуща внутренняя структура. Каждый текст может быть трансформирован в другой текст множеством способов. Одна из самых простых трансформаций -- замена слова; среди более продвинутых будут изменение времени, тона текста, переименование персонажей, переписывание текста от имени другого персонажа и т.д.
Лингвист Зеллиг Харрис (https://zelligharris.org/) считал, что все предложения на английском могут быть сгенерированы из небольшого числа базовых форм применением последовательности чётко определённых трансформаций. Обучение LLM’ки может быть понято как анализ большого корпуса текста и обнаружение этих трансформаций и базовых форм. Забавно, что первая реально успешная в этой нейросеть была названа “трансформером”. Возможно, будут найдены новые методы обучения, лучше аппроксимирующие совершенную языковую модель.
Машина ограничена тем, что уже напечатано на ленте. Машина может продолжать текст заимствуя факты из обучающих данных (не обязательно истинные) и генерируя подходящие выдумки (не обязательно ложные). То, что принято называть галлюцинациями, лучше называть конфабуляциями (https://www.beren.io/2023-03-19-LLMs-confabulate-not-hallucinate/).
То есть совершенная языковая модель -- это машина, пишущая беллетристику (fiction machine) и из этого и надо исходить в попытках понять, как это на нас влияет. И истории Борхеса могут в этом помочь.
В “Вавилонской библиотеке” (The Library of Babel) содержатся все возможные книги с 410 страницами и с алфавитом в 25 символов, потенциально содержащие все созданные (и не созданные) человечеством тексты, включая и огромную массу фигни.
arXiv.org
Borges and AI
Many believe that Large Language Models (LLMs) open the era of Artificial Intelligence (AI). Some see opportunities while others see dangers. Yet both proponents and opponents grasp AI through the...
❤16👍16🤯3🥱3😍1
“the detailed history of the future, the autobiographies of the archangels, the faithful catalogue of the Library, thousands and thousands of false catalogues, the proof of the falsity of those false catalogues, the proof of the falsity of the true catalogue, the gnostic gospel of Basilides, the commentary upon that gospel, the commentary on the commentary on that gospel, the true story of your death, the translation of every book into every language” (русский перевод)
Это всё похоже на выдачу языковых моделей. Совершенная языковая модель даёт нам возможность навигации по Библиотеке, подавая в модель начальные слова текста. Но никак нельзя отличить ложь от истины, полезное от вводящего в заблуждение, верное от неверного. Библиотекари тщетно пытались это делать.
Это иллюзия, считать LLM настоящим ИИ с энциклопедическими знаниями и безупречной логикой вместо машин для генерации выдумки. Ни истина, ни намерение не важны для работы такой машины, только требования нарратива.
В рассказе кроме библиотекарей упоминаются очистители, уничтожавшие бессмысленные книги. Это похоже на попытки ограничить выдачу LLM, не дать ей сгенерировать вредные идеи, или что-то нерелевантное. Сейчас предпринимается множество таких попыток через промпты, файнтюнинг или RLHF. Но многое всё равно обходится созданием более изощрённой истории (привет, jailbreak). Более эффективные методы “alignment” могут потребовать постоянного мониторинга моделей и направления их вывода в нужное русло.
Но,
Far worse than a privacy invasion, in a future where almost everyone uses language models to enrich their thinking, a power over what language models write becomes a power over what we think. Can such a formidable power exist without being misused?
Многие опасаются этих fiction machines как всеведущего интеллекта, который может пережить нас. Однако более тёмным искушением может быть желание “сдать” все наши мысли этой современной Пифии, манипулируемой другими.
If we persistently mistake the fiction machine for an artificial intelligence that can spare us the burden of thinking, the endless chatter of the language models will make us as insane as the struggling Librarians.
Эти fiction machines с их историями могут и обогатить наши жизни, помочь переосмыслить прошлое, понять настоящее, уловить будущее. Нам могут понадобиться более приземлённые верификационные машины (verification machines) для проверки создаваемых историй относительно холодной реальности. Будут это отдельные машины, какой-то совмещённый вариант, или же техники выравнивания смогут преобразовать одни в другие -- открытый вопрос.
The invention of a machine that can not only write stories but also all their variations is thus a significant milestone in human history. It has been likened to the invention of the printing press. A more apt comparison might be what emerged to shape mankind long before printing or writing, before even the cave paintings: the art of storytelling.
Вот и всё. Вряд ли получившийся текст является точным пересказом статьи, скорее это моё продолжение заданного нарратива. Так что, возможно, оригинальную статью тоже стоит прочитать.
Ну и до кучи вам реализацию Вавилонской библиотеки в Интернете:
https://libraryofbabel.info/
И рассказ про создание этого проекта:
https://electricliterature.com/putting-borges-infinite-library-on-the-internet/
Это всё похоже на выдачу языковых моделей. Совершенная языковая модель даёт нам возможность навигации по Библиотеке, подавая в модель начальные слова текста. Но никак нельзя отличить ложь от истины, полезное от вводящего в заблуждение, верное от неверного. Библиотекари тщетно пытались это делать.
Это иллюзия, считать LLM настоящим ИИ с энциклопедическими знаниями и безупречной логикой вместо машин для генерации выдумки. Ни истина, ни намерение не важны для работы такой машины, только требования нарратива.
В рассказе кроме библиотекарей упоминаются очистители, уничтожавшие бессмысленные книги. Это похоже на попытки ограничить выдачу LLM, не дать ей сгенерировать вредные идеи, или что-то нерелевантное. Сейчас предпринимается множество таких попыток через промпты, файнтюнинг или RLHF. Но многое всё равно обходится созданием более изощрённой истории (привет, jailbreak). Более эффективные методы “alignment” могут потребовать постоянного мониторинга моделей и направления их вывода в нужное русло.
Но,
Far worse than a privacy invasion, in a future where almost everyone uses language models to enrich their thinking, a power over what language models write becomes a power over what we think. Can such a formidable power exist without being misused?
Многие опасаются этих fiction machines как всеведущего интеллекта, который может пережить нас. Однако более тёмным искушением может быть желание “сдать” все наши мысли этой современной Пифии, манипулируемой другими.
If we persistently mistake the fiction machine for an artificial intelligence that can spare us the burden of thinking, the endless chatter of the language models will make us as insane as the struggling Librarians.
Эти fiction machines с их историями могут и обогатить наши жизни, помочь переосмыслить прошлое, понять настоящее, уловить будущее. Нам могут понадобиться более приземлённые верификационные машины (verification machines) для проверки создаваемых историй относительно холодной реальности. Будут это отдельные машины, какой-то совмещённый вариант, или же техники выравнивания смогут преобразовать одни в другие -- открытый вопрос.
The invention of a machine that can not only write stories but also all their variations is thus a significant milestone in human history. It has been likened to the invention of the printing press. A more apt comparison might be what emerged to shape mankind long before printing or writing, before even the cave paintings: the art of storytelling.
Вот и всё. Вряд ли получившийся текст является точным пересказом статьи, скорее это моё продолжение заданного нарратива. Так что, возможно, оригинальную статью тоже стоит прочитать.
Ну и до кучи вам реализацию Вавилонской библиотеки в Интернете:
https://libraryofbabel.info/
И рассказ про создание этого проекта:
https://electricliterature.com/putting-borges-infinite-library-on-the-internet/
❤13👍6🤣1
Свежий Хинтон.
В принципе наверное ничего нового для тех, кто смотрел предыдущие видео с ним в последние полгода.
Но зато кратко за 13 минут его основные мысли.
https://www.cbsnews.com/news/geoffrey-hinton-ai-dangers-60-minutes-trannoscript/
В принципе наверное ничего нового для тех, кто смотрел предыдущие видео с ним в последние полгода.
Но зато кратко за 13 минут его основные мысли.
https://www.cbsnews.com/news/geoffrey-hinton-ai-dangers-60-minutes-trannoscript/
CBS News
"Godfather of Artificial Intelligence" Geoffrey Hinton on the promise, risks of advanced AI
There's no guaranteed path to safety as artificial intelligence advances, Geoffrey Hinton, AI pioneer, warns. He shares his thoughts on AI's benefits and dangers with Scott Pelley.
👍12🔥7❤3🐳1
Питер Норвиг, соавтор классического учебника по AI, соавтор первого MOOC (который тоже был про AI) и вообще значимый человек ещё лет десять назад, которого я уже давно не слышал, вместе с вице-президентом Google Research написали статью про то, что AGI уже здесь.
Nevertheless, today’s frontier models perform competently even on novel tasks they were not trained for, crossing a threshold that previous generations of AI and supervised deep learning systems never managed. Decades from now, they will be recognized as the first true examples of AGI, just as the 1945 ENIAC is now recognized as the first true general-purpose electronic computer.
https://www.noemamag.com/artificial-general-intelligence-is-already-here
Nevertheless, today’s frontier models perform competently even on novel tasks they were not trained for, crossing a threshold that previous generations of AI and supervised deep learning systems never managed. Decades from now, they will be recognized as the first true examples of AGI, just as the 1945 ENIAC is now recognized as the first true general-purpose electronic computer.
https://www.noemamag.com/artificial-general-intelligence-is-already-here
NOEMA
Artificial General Intelligence Is Already Here
Today’s most advanced AI models have many flaws, but decades from now, they will be recognized as the first true examples of artificial general intelligence.
👍38🔥7😁2❤1
TWIMC
Nathan and his team just published their fresh annual report on the state of AI
https://www.stateof.ai/
Nathan and his team just published their fresh annual report on the state of AI
https://www.stateof.ai/
www.stateof.ai
State of AI Report 2025
The State of AI Report analyses the most interesting developments in AI. Read and download here.
👍23❤4🥱2
Interesting thoughts by Jeff Clune:
"After a conversation with Joel Lehman @joelbot3000 & Ken Stanley @kenneth0stanley we concluded there’s an important AI safety point deserving broader discussion: In short, any mandatory “nutrition label” for foundation models needs to go well beyond just disclosures on training data.
Digital assistants will help & befriend us, but we should know if they have ulterior motives (eg to sell us products, influence us politically, or maximize engagement). A mandated "nutrition label for AI" should cover all the relevant ingredients.
Knowing an AI’s ingredients, such as its “motivation” (what it was designed to try to accomplish) helps humans make informed decisions about which AIs to “consume” (use/interact with). We should know if it is trying to change our political beliefs, make money, etc.
Some “ingredients” that should be disclosed: (A)The goal the AI's designers wanted it to achieve (B) The training objective, especially reinforcement learning objectives like making money, changing political views, etc. Unlike training data, RL objectives are easier to understand.
Programmed reward functions should be made available. For RL through human feedback (RLHF), the instructions (verbal and written) given to the raters (the humans providing the feedback) should be disclosed, as that drives what is rewarded. Key rater demographic information (including political leanings, if not representative of society) should be disclosed.
(C) An accurate summary of training data, especially whether it was curated to accomplish certain goals (with private inspections by enforcement agencies only when needed). Requiring a summary only makes regulation more likely to pass since it does not create unreasonable burdens or force disclosing trade secrets
(D) In general, even as training paradigms change, the spirit of the mandate should be to make the underlying motivations and expectations transparent, so this kind of disclosure should not be tied only to the methods that are currently best.
Focusing on disclosure strikes a healthy balance between allowing people to make informed choices, yet not curtailing innovation with undue disclosure or red tape. That’s why it’s important that disclosure is comprehensive.
Ideas like model cards (Mitchell et al) and Reward Reports (Gilbert et al) already provide a foundation for thinking about nutrition labels. We seek to strike the right balance between being comprehensive and lightweight to make a mandate viable.
What do you think? What other ingredients do you think we should advocate adding? Our intent with this proposal is to begin a conversation to learn, refine, debate, and end up in a good place, so we would love to hear from everyone."
https://facebook.com/story.php?story_fbid=pfbid0hXmLQSM3K4tJnHZafGDSoFNWG8vu8GV5fUBqWdSwNQZrQYMtjMH19WSoidmKwW7Nl&id=2355155
"After a conversation with Joel Lehman @joelbot3000 & Ken Stanley @kenneth0stanley we concluded there’s an important AI safety point deserving broader discussion: In short, any mandatory “nutrition label” for foundation models needs to go well beyond just disclosures on training data.
Digital assistants will help & befriend us, but we should know if they have ulterior motives (eg to sell us products, influence us politically, or maximize engagement). A mandated "nutrition label for AI" should cover all the relevant ingredients.
Knowing an AI’s ingredients, such as its “motivation” (what it was designed to try to accomplish) helps humans make informed decisions about which AIs to “consume” (use/interact with). We should know if it is trying to change our political beliefs, make money, etc.
Some “ingredients” that should be disclosed: (A)The goal the AI's designers wanted it to achieve (B) The training objective, especially reinforcement learning objectives like making money, changing political views, etc. Unlike training data, RL objectives are easier to understand.
Programmed reward functions should be made available. For RL through human feedback (RLHF), the instructions (verbal and written) given to the raters (the humans providing the feedback) should be disclosed, as that drives what is rewarded. Key rater demographic information (including political leanings, if not representative of society) should be disclosed.
(C) An accurate summary of training data, especially whether it was curated to accomplish certain goals (with private inspections by enforcement agencies only when needed). Requiring a summary only makes regulation more likely to pass since it does not create unreasonable burdens or force disclosing trade secrets
(D) In general, even as training paradigms change, the spirit of the mandate should be to make the underlying motivations and expectations transparent, so this kind of disclosure should not be tied only to the methods that are currently best.
Focusing on disclosure strikes a healthy balance between allowing people to make informed choices, yet not curtailing innovation with undue disclosure or red tape. That’s why it’s important that disclosure is comprehensive.
Ideas like model cards (Mitchell et al) and Reward Reports (Gilbert et al) already provide a foundation for thinking about nutrition labels. We seek to strike the right balance between being comprehensive and lightweight to make a mandate viable.
What do you think? What other ingredients do you think we should advocate adding? Our intent with this proposal is to begin a conversation to learn, refine, debate, and end up in a good place, so we would love to hear from everyone."
https://facebook.com/story.php?story_fbid=pfbid0hXmLQSM3K4tJnHZafGDSoFNWG8vu8GV5fUBqWdSwNQZrQYMtjMH19WSoidmKwW7Nl&id=2355155
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
👍13✍1😁1
Пятничное
"In a massive exercise to examine reproducibility, more than 200 biologists analysed the same sets of ecological data — and got widely divergent results. The first sweeping study of its kind in ecology demonstrates how much results in the field can vary, not because of differences in the environment, but because of scientists’ analytical choices."
https://www.nature.com/articles/d41586-023-03177-1
"In a massive exercise to examine reproducibility, more than 200 biologists analysed the same sets of ecological data — and got widely divergent results. The first sweeping study of its kind in ecology demonstrates how much results in the field can vary, not because of differences in the environment, but because of scientists’ analytical choices."
https://www.nature.com/articles/d41586-023-03177-1
Nature
Reproducibility trial: 246 biologists get different results from same data sets
Nature - Wide distribution of findings shows how analytical choices drive conclusions.
🔥21❤6😁5👍1
Я таки добрался поразвлекаться с GPT-4V и старыми картинками из классической работы:
https://gonzoml.substack.com/p/building-machines-that-learn-and
https://gonzoml.substack.com/p/building-machines-that-learn-and
Gonzo ML
"Building Machines That Learn and Think Like People", 7 years later
In the post about GPT-4V, I mentioned the paper “Building Machines That Learn and Think Like People” (https://arxiv.org/abs/1604.00289) by Brenden Lake, Tomer Ullman, Joshua Tenenbaum, and Samuel Gershman. In that seminal paper the authors suggested that…
🔥32👍6🤯3
Ещё гонзо-обзор книги.
Книга: How to think about abstract algebra
Автор: Lara Alcock
URL: https://global.oup.com/ukhe/product/how-to-think-about-abstract-algebra-9780198843382?cc=us&lang=en
Для отвлечения и после книги про Монстра (https://news.1rj.ru/str/gonzo_ML/1825) решил почитать что-то ненапряжное по теме. "How to think about abstract algebra" Лары Алкок выглядело подходящим вариантом.
Надо сказать, хорошая книга. Если бы попалась мне в мои институтские годы, очень бы помогла (выпущена в 2021). Она про то, как подходить к изучению абстрактной алгебры, в чем отличия в подходе от анализа, какая интуиция стоит за базовыми концептами, как понимать доказательства теорем и т.п. Она идейно похожа на хороший и популярный курс Learning How To Learn (https://www.coursera.org/learn/learning-how-to-learn), который оказывается тоже вышел в виде книги (https://barbaraoakley.com/books/learning-how-to-learn/).
Но кроме части про "как" есть и большая часть про "что", где все базовые концепты объяснены и на пальцах, и с разбором некоторых теорем. Группы, подгруппы, бинарные операции, циклические группы, группы перестановок, факторгруппы, нормальные подгруппы, изоморфизмы и гомоморфизмы, кольца, поля и прочее. Книга как бы не претендует на то чтобы быть учебником по теме и заявляется как книга, которую стоит прочитать перед учебником, но кажется частично некоторые учебники она может заменить.
Я вот неожиданно для себя словил инсайт в супербазовой вещи, про которую не думал вообще. Про связь операций "умножения" и "сложения" в кольцах и соответствующие им identity. История про 0*a=0 выглядит очень банальной и школьной, но если в качестве нуля выступает additive identity, то "умножение" (или любая другая аналогичная вторая операция в кольце) на additive (не multiplicative!) identity будет давать эту additive identity и в других кольцах тоже, не только в числовых. Мне понравилось.
Будем дальше повышать градус абстракции.
#books
Книга: How to think about abstract algebra
Автор: Lara Alcock
URL: https://global.oup.com/ukhe/product/how-to-think-about-abstract-algebra-9780198843382?cc=us&lang=en
Для отвлечения и после книги про Монстра (https://news.1rj.ru/str/gonzo_ML/1825) решил почитать что-то ненапряжное по теме. "How to think about abstract algebra" Лары Алкок выглядело подходящим вариантом.
Надо сказать, хорошая книга. Если бы попалась мне в мои институтские годы, очень бы помогла (выпущена в 2021). Она про то, как подходить к изучению абстрактной алгебры, в чем отличия в подходе от анализа, какая интуиция стоит за базовыми концептами, как понимать доказательства теорем и т.п. Она идейно похожа на хороший и популярный курс Learning How To Learn (https://www.coursera.org/learn/learning-how-to-learn), который оказывается тоже вышел в виде книги (https://barbaraoakley.com/books/learning-how-to-learn/).
Но кроме части про "как" есть и большая часть про "что", где все базовые концепты объяснены и на пальцах, и с разбором некоторых теорем. Группы, подгруппы, бинарные операции, циклические группы, группы перестановок, факторгруппы, нормальные подгруппы, изоморфизмы и гомоморфизмы, кольца, поля и прочее. Книга как бы не претендует на то чтобы быть учебником по теме и заявляется как книга, которую стоит прочитать перед учебником, но кажется частично некоторые учебники она может заменить.
Я вот неожиданно для себя словил инсайт в супербазовой вещи, про которую не думал вообще. Про связь операций "умножения" и "сложения" в кольцах и соответствующие им identity. История про 0*a=0 выглядит очень банальной и школьной, но если в качестве нуля выступает additive identity, то "умножение" (или любая другая аналогичная вторая операция в кольце) на additive (не multiplicative!) identity будет давать эту additive identity и в других кольцах тоже, не только в числовых. Мне понравилось.
Будем дальше повышать градус абстракции.
#books
👍26❤10🔥3🤣1
Ну и раз сегодня математическая тема, то вот ещё.
"There are five fundamental operations in mathematics,” the German mathematician Martin Eichler supposedly said. “Addition, subtraction, multiplication, division and modular forms.”
Как бонус в конце там про Монстра.
https://www.quantamagazine.org/behold-modular-forms-the-fifth-fundamental-operation-of-math-20230921/
"There are five fundamental operations in mathematics,” the German mathematician Martin Eichler supposedly said. “Addition, subtraction, multiplication, division and modular forms.”
Как бонус в конце там про Монстра.
https://www.quantamagazine.org/behold-modular-forms-the-fifth-fundamental-operation-of-math-20230921/
Quanta Magazine
Behold Modular Forms, the ‘Fifth Fundamental Operation’ of Math | Quanta Magazine
Modular forms are one of the most beautiful and mysterious objects in mathematics. What are they?
❤8🍌4🤯3
Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading
Howard Chen, Ramakanth Pasunuru, Jason Weston, Asli Celikyilmaz
Статья: https://arxiv.org/abs/2310.05029
Вечная проблема трансформеров -- ограниченный контекст и необходимость работать с длинными входами. Для решения проблемы уже существует множество подходов. Это и “просто” увеличение размера окна контекста, как правило совмещённое с какой-то модификацией механизма внимания. Про множество таких подходов мы писали типа вариантов sparse attention и/или linear attention или хотя бы не квадратичных, коих уже миллион, например Reformer (https://news.1rj.ru/str/gonzo_ML/176), Longformer (https://news.1rj.ru/str/gonzo_ML/292), Linformer (https://news.1rj.ru/str/gonzo_ML/397), Big Bird (https://news.1rj.ru/str/gonzo_ML/381) и т.п. Где-то рядом здесь также находится вариант с экстраполяцией позиционных эмбеддингов. Другие способы решения включают введение рекуррентности, и про многие их таких решений мы тоже писали. Эта ветка прослеживается начиная с Transformer-XL, Compressive transformer (https://news.1rj.ru/str/gonzo_ML/165), Feedback memory (https://news.1rj.ru/str/gonzo_ML/508), RMT (https://arxiv.org/abs/2304.11062), к предшественнику которого даже я приложился (https://arxiv.org/abs/2006.11527). Здесь же рядом retrieval-augmented models, про которые тоже было достаточно, например Unlimiformer (https://news.1rj.ru/str/gonzo_ML/1507). И ещё есть подход с агентами, которые могут работать с частями текста и выполнять какие-то действия, тот же WebGPT (https://news.1rj.ru/str/gonzo_ML/1140) или различные варианты итеративного промптинга. Но всё равно этого не хватает.
Текущая работа предлагает интересное альтернативное решение под названием MemWalker. Метод работает в два этапа.
Первый этап, построение memory tree, дерева памяти. Дерево содержит узлы, суммаризирующие куски входных данных. Для этого длинная входная последовательность нарезается на кусочки, влезающие в контекст модели. Каждый кусочек суммаризируется в текст, а несколько таких саммари далее суммаризируются в саммари следующего уровня. Так возникает древесная иерархическая структура. Дерево не зависит от запроса, который будет задаваться модели, так что его можно просчитать заранее.
По сути используются два промпта для генерации саммари, один для листьев (саммари из куска текста), другой для узлов (саммари из других саммари). Для узлов делаем суммаризацию стольких саммари, сколько влезает, потом повторяем для оставшихся.
Второй этап -- навигация. При получении запроса, MemWalker проходит по дереву в поисках релевантной информации, начиная с корня. И как только набрал её достаточно, генерирует ответ.
Здесь тоже два промпта, один для листьев (leaf prompt), другой для узлов (triage prompt). В каждом узле LLM получает саммари из всех дочерних узлов и в промпте её просят выбрать (с обоснованием, через Chain-of-Thougth, CoT с “First provide reasoning to compare the summaries before you make the decision“) в каком из пассажей наиболее вероятно содержится ответ на вопрос. В статье также написано, что если там ничего нет, то надо уйти в родительский узел, но по промпту я этого не увидел. Если дошли до листа дерева, то модель либо принимает его и отвечает на вопрос, либо откатывается к родительскому узлу.
Ответы требуются в определённом формате, если LLM не смогла это сделать, её просят перегенерить. Если не смогла три раза подряд, навигация прерывается с “no answer”. По мере навигации также поддерживается рабочая память, которая добавляется в промпт для листьев. Вроде как это контент родительских узлов.
Вообще логика оркестрации всего этого процесса описана плохо, очень много умолчаний, работа не воспроизводима в чистом виде. Как минимум явно надо трекать, где модель уже была, чтобы при возврате к родителю не уйти снова в тот же узел. Или неявно не позволять через процедуру поиска, но ничего этого не описано.
Проверялись по accuracy на трёх датасетах QuALITY, SummScreenFD, и GovReport из бенчмарка SCROLLS.
QuALITY это multiple choice question answering dataset по длинным текстам из Project Gutenberg. Оттуда взяли 187 примеров.
Howard Chen, Ramakanth Pasunuru, Jason Weston, Asli Celikyilmaz
Статья: https://arxiv.org/abs/2310.05029
Вечная проблема трансформеров -- ограниченный контекст и необходимость работать с длинными входами. Для решения проблемы уже существует множество подходов. Это и “просто” увеличение размера окна контекста, как правило совмещённое с какой-то модификацией механизма внимания. Про множество таких подходов мы писали типа вариантов sparse attention и/или linear attention или хотя бы не квадратичных, коих уже миллион, например Reformer (https://news.1rj.ru/str/gonzo_ML/176), Longformer (https://news.1rj.ru/str/gonzo_ML/292), Linformer (https://news.1rj.ru/str/gonzo_ML/397), Big Bird (https://news.1rj.ru/str/gonzo_ML/381) и т.п. Где-то рядом здесь также находится вариант с экстраполяцией позиционных эмбеддингов. Другие способы решения включают введение рекуррентности, и про многие их таких решений мы тоже писали. Эта ветка прослеживается начиная с Transformer-XL, Compressive transformer (https://news.1rj.ru/str/gonzo_ML/165), Feedback memory (https://news.1rj.ru/str/gonzo_ML/508), RMT (https://arxiv.org/abs/2304.11062), к предшественнику которого даже я приложился (https://arxiv.org/abs/2006.11527). Здесь же рядом retrieval-augmented models, про которые тоже было достаточно, например Unlimiformer (https://news.1rj.ru/str/gonzo_ML/1507). И ещё есть подход с агентами, которые могут работать с частями текста и выполнять какие-то действия, тот же WebGPT (https://news.1rj.ru/str/gonzo_ML/1140) или различные варианты итеративного промптинга. Но всё равно этого не хватает.
Текущая работа предлагает интересное альтернативное решение под названием MemWalker. Метод работает в два этапа.
Первый этап, построение memory tree, дерева памяти. Дерево содержит узлы, суммаризирующие куски входных данных. Для этого длинная входная последовательность нарезается на кусочки, влезающие в контекст модели. Каждый кусочек суммаризируется в текст, а несколько таких саммари далее суммаризируются в саммари следующего уровня. Так возникает древесная иерархическая структура. Дерево не зависит от запроса, который будет задаваться модели, так что его можно просчитать заранее.
По сути используются два промпта для генерации саммари, один для листьев (саммари из куска текста), другой для узлов (саммари из других саммари). Для узлов делаем суммаризацию стольких саммари, сколько влезает, потом повторяем для оставшихся.
Второй этап -- навигация. При получении запроса, MemWalker проходит по дереву в поисках релевантной информации, начиная с корня. И как только набрал её достаточно, генерирует ответ.
Здесь тоже два промпта, один для листьев (leaf prompt), другой для узлов (triage prompt). В каждом узле LLM получает саммари из всех дочерних узлов и в промпте её просят выбрать (с обоснованием, через Chain-of-Thougth, CoT с “First provide reasoning to compare the summaries before you make the decision“) в каком из пассажей наиболее вероятно содержится ответ на вопрос. В статье также написано, что если там ничего нет, то надо уйти в родительский узел, но по промпту я этого не увидел. Если дошли до листа дерева, то модель либо принимает его и отвечает на вопрос, либо откатывается к родительскому узлу.
Ответы требуются в определённом формате, если LLM не смогла это сделать, её просят перегенерить. Если не смогла три раза подряд, навигация прерывается с “no answer”. По мере навигации также поддерживается рабочая память, которая добавляется в промпт для листьев. Вроде как это контент родительских узлов.
Вообще логика оркестрации всего этого процесса описана плохо, очень много умолчаний, работа не воспроизводима в чистом виде. Как минимум явно надо трекать, где модель уже была, чтобы при возврате к родителю не уйти снова в тот же узел. Или неявно не позволять через процедуру поиска, но ничего этого не описано.
Проверялись по accuracy на трёх датасетах QuALITY, SummScreenFD, и GovReport из бенчмарка SCROLLS.
QuALITY это multiple choice question answering dataset по длинным текстам из Project Gutenberg. Оттуда взяли 187 примеров.
Telegram
gonzo-обзоры ML статей
Reformer: The Efficient Transformer
Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya
Статья: https://arxiv.org/abs/2001.04451
Код: https://github.com/google/trax/tree/master/trax/models/reformer
Больше трансформеров, хороших и разных! Łukasz Kaiser, кстати…
Nikita Kitaev, Łukasz Kaiser, Anselm Levskaya
Статья: https://arxiv.org/abs/2001.04451
Код: https://github.com/google/trax/tree/master/trax/models/reformer
Больше трансформеров, хороших и разных! Łukasz Kaiser, кстати…
❤8👍4🔥4🤯3
SummScreenFD содержит диалоги актёров в сериалах, в оригинале сделан для суммаризации, здесь преобразован в вопросы-ответы, отсюда взяли 306 примеров.
GovReport содержит документы из Congressional Research Service и U.S. Government Accountability Office вместе с экспертными саммари. Его тоже преобразовали в вопросно-ответный и взяли 101 пример.
Результаты репортили на этих датасетах, а также на их подмножествах с более длинными документами (для каждого датасета свой порог, от 6 до 12к токенов).
В качестве LLM взяли Stable Beluga 2 (https://stability.ai/blog/stable-beluga-large-instruction-fine-tuned-models), это файнтюн Llama 2 70B. Длина контекста 4096 токенов. Дальнейшего файнтюна не было, few-shot тоже, модель используется в режиме zero-shot.
Макс.количество узлов на уровне дерева было 8, 5, 8, а размер сегмента 1000, 1000, 1200 соответственно для этих трёх датасетов.
Сравнивались с тремя бейзлайнами:
1. Full context window с обрезанием до 4096 токенов.
2. Рекуррентность через суммаризацию, где каждый сегмент 2500 токенов и максимальный размер саммари 500 токенов.
3. Retrieval -- использовали Contriever (https://github.com/facebookresearch/contriever) для выбора сегментов под запрос.
Рекуррентность через суммаризацию работает хуже всего. Этот конкретный retrieval средне. Full context работает неплохо, в зависимости от датасета обрезание лучше либо слева, либо справа. Иногда сравнимо с MemWalker, но в целом последний лучше. На подмножестве особо длинных документов MemWalker стабильно лучше.
Сравнились также с LongChat 13B (16k) и MPT 13B (8k). Они хуже, но они и ощутимо легче по сравнению с 70B моделью. При прогоне MemWalker на LLaMA 2 Chat 13B результат тоже довольно фиговый.
В общем сложно реально оценить, было бы интересно на одной модели с большим контекстом это всё сравнить. Или ещё лучше на разных, включая Claude, у которого контекст 100к токенов, и GPT-4 с 32к. То, что full context даёт очень высокий результат наводит на мысль, что модель с большим контекстом и из коробки хорошо сработает.
Отдельно проверили насколько полезен CoT с этим “First provide reasoning…”. На самом деле для LLaMA 2 Chat 13B и 70B без него лучше. Для Stable Beluga 2 70B с ним лучше. С добавлением рабочей памяти тоже заметно лучше. Авторы считают, что большая instruction-tuned модель с reasoning ability необходима для работы. Но мне честно говоря кажется, что для этого недостаточно проверок сделали, просто у них оказалась модель, работающая через CoT лучше. Необходим ли он, хз.
Во время навигации по дереву откат к родительскому узлу и изменение пути по дереву случается в 15-20% случаев, и из этих случаев в 60-80% получается корректный результат.
Ну в общем любопытная техника. Так можно работать с данными размера большего, чем позволяет размер окна контекста модели. При этом модель не надо как-то дополнительно дообучать. Нужна только логика оркестрирования этой активности. Это снова ложится на концепцию LLM Programs (https://news.1rj.ru/str/gonzo_ML/1584), как, например, и Tree-of-Thought, ToT (https://news.1rj.ru/str/gonzo_ML/1885). И в принципе это такая вариация ToT и есть, только с этапом предобработки (построения дерева).
Не выглядит как прямо game changer, но своё место в арсенале занять может. Кажется, назревает потребность в библиотеке стандартных алгоритмов поверх LLM, такой STL или Boost для новой эры.
GovReport содержит документы из Congressional Research Service и U.S. Government Accountability Office вместе с экспертными саммари. Его тоже преобразовали в вопросно-ответный и взяли 101 пример.
Результаты репортили на этих датасетах, а также на их подмножествах с более длинными документами (для каждого датасета свой порог, от 6 до 12к токенов).
В качестве LLM взяли Stable Beluga 2 (https://stability.ai/blog/stable-beluga-large-instruction-fine-tuned-models), это файнтюн Llama 2 70B. Длина контекста 4096 токенов. Дальнейшего файнтюна не было, few-shot тоже, модель используется в режиме zero-shot.
Макс.количество узлов на уровне дерева было 8, 5, 8, а размер сегмента 1000, 1000, 1200 соответственно для этих трёх датасетов.
Сравнивались с тремя бейзлайнами:
1. Full context window с обрезанием до 4096 токенов.
2. Рекуррентность через суммаризацию, где каждый сегмент 2500 токенов и максимальный размер саммари 500 токенов.
3. Retrieval -- использовали Contriever (https://github.com/facebookresearch/contriever) для выбора сегментов под запрос.
Рекуррентность через суммаризацию работает хуже всего. Этот конкретный retrieval средне. Full context работает неплохо, в зависимости от датасета обрезание лучше либо слева, либо справа. Иногда сравнимо с MemWalker, но в целом последний лучше. На подмножестве особо длинных документов MemWalker стабильно лучше.
Сравнились также с LongChat 13B (16k) и MPT 13B (8k). Они хуже, но они и ощутимо легче по сравнению с 70B моделью. При прогоне MemWalker на LLaMA 2 Chat 13B результат тоже довольно фиговый.
В общем сложно реально оценить, было бы интересно на одной модели с большим контекстом это всё сравнить. Или ещё лучше на разных, включая Claude, у которого контекст 100к токенов, и GPT-4 с 32к. То, что full context даёт очень высокий результат наводит на мысль, что модель с большим контекстом и из коробки хорошо сработает.
Отдельно проверили насколько полезен CoT с этим “First provide reasoning…”. На самом деле для LLaMA 2 Chat 13B и 70B без него лучше. Для Stable Beluga 2 70B с ним лучше. С добавлением рабочей памяти тоже заметно лучше. Авторы считают, что большая instruction-tuned модель с reasoning ability необходима для работы. Но мне честно говоря кажется, что для этого недостаточно проверок сделали, просто у них оказалась модель, работающая через CoT лучше. Необходим ли он, хз.
Во время навигации по дереву откат к родительскому узлу и изменение пути по дереву случается в 15-20% случаев, и из этих случаев в 60-80% получается корректный результат.
Ну в общем любопытная техника. Так можно работать с данными размера большего, чем позволяет размер окна контекста модели. При этом модель не надо как-то дополнительно дообучать. Нужна только логика оркестрирования этой активности. Это снова ложится на концепцию LLM Programs (https://news.1rj.ru/str/gonzo_ML/1584), как, например, и Tree-of-Thought, ToT (https://news.1rj.ru/str/gonzo_ML/1885). И в принципе это такая вариация ToT и есть, только с этапом предобработки (построения дерева).
Не выглядит как прямо game changer, но своё место в арсенале занять может. Кажется, назревает потребность в библиотеке стандартных алгоритмов поверх LLM, такой STL или Boost для новой эры.
Stability AI
Meet Stable Beluga 1 and Stable Beluga 2, Our Large and Mighty Instruction Fine-Tuned Language Models — Stability AI
Stability AI and its CarperAI lab are proud to announce FreeWilly1 and its successor FreeWilly2, two powerful new, open access, Large Language Models (LLMs). Both models demonstrate exceptional reasoning ability across varied benchmarks.
👍11❤1