NLSOM состоит из пяти агентов (предобученных сетей). Двое (organizer, leader) построены на базе text-davinci-003, ещё трое -- картиночно-языковые модели (VLM, https://news.1rj.ru/str/gonzo_ML/1364): BLIP2 (https://arxiv.org/abs/2301.12597), OFA (https://arxiv.org/abs/2202.03052), mPLUG (https://arxiv.org/abs/2205.12005).
Организатор получает вопрос и генерит другой вопрос (sub-question), все VLM на него отвечают и отправляют результат организатору, а тот на основе этих ответов генерит следующий под-вопрос. Этот пинг-понг продолжается заданное число ходов, затем лидер просит организатора суммаризировать историю общения. Наконец, лидер читает полученную саммари и выбирает ответ на оригинальный вопрос. Такая иерархическая структура может считаться монархической. Пробовали также и демократическую, где агенты видят ответы других и могут за них голосовать.
Монархический LNSOM побил другие индивидуальные модели в бенчмарке A-OKVQA, а также демократического коллегу (KAUST счастлив!). При увеличении VLM от 1 до 3 качество стабильно росло. Но возможно это из-за качества самих VLM, которые для понимания текста не очень.
2) Image Captioning. Сгенерить описание картинки, при этом со сложными примерами, требующими детального описания.
Тот же сетап, 2 LLM + 3 VLM с заменой промптов с VQA на captioning. Оценивались на датасете TARA, для сравнения взят BLIP2 и после десяти раундов mindstorm’а LNSOM лучше.
3) Prompt Generation for Text-to-Image Synthesis. Надо улучшить промпт для DALL-E 2, изначально заданный человеком.
В конфигурации работают 26 artists, 50 critics, и 1 collector. Каждый художник в свою очередь включает 3 LLM: a questioner, an answerer, and a leader. Все эти модели GPT3.5-turbo. Дополнительно есть модель painter (DALL-E 2). Каждый answerer промптом настроен на один конкретный (из 26) стиль рисования. Также им поступает общий запрос на рисование. Затем questioner за несколько раундов mindstorm’а получает уточнённые промпты для рисования. Каждый leader собирает всю эту коммуникацию и генерит более детальный промпт с конкретным стилем. Эти промпты оцениваются критиками. Для разнообразия мнений каждому критику заданы свои профессии (типа “You are a lawyer”). Критики голосуют за предложенные промпты. Collector агрегирует все голоса критиков, считает и продуцирует выигравший промпт, который и отправляется живописцу. Получилась иерархическая NSLOM, где на нижнем уровне Questioner-Answerer NLSOM для художников, а на верхнем Artist-Critic NLSOM. Итого 128 LLMs + 1 vision expert. Результаты прикольные.
4) 3D Generation. Надо сгенерить 3D модель из текстового описания.
В NLSOM входит 3D дизайнер (Luma AI’s Imagine3D), LLM leader (GPT3.5-turbo) и 3 критика (BLIP2). Дизайнер генерит начальную версию модели по запросу, критики получают 2D рендеры модели и пишут что про это думают, а лидер на основе этого фидбека модифицирует промпт.
Оценивают на наборе промптов, измеряя средний Clip score по нескольким view получившейся модели. Больших изменений после двух раундов взаимодействия не видно. Но даже этот примитивный mindstorm показывает неплохой результат.
5) Egocentric Retrieval. Парсинг видео от первого лица и поиск специально заданного сегмента видео (типа, в видео с поваром, готовившим спагетти, найти сегмент, где видно сколько сыпали соли).
В NLSOM пять агентов: четыре дебатёра и один редактор, все GPT3.5-turbo. Описание видео даётся извне человеком. Каждый дебатёр получает свой кусок сцены затем они обсуждают между собой как ответить на вопрос. Через несколько раундов обсужденийприходит лесник и всех разгоняет редактор и генерит саммари дискуссии, а из него и ответ на вопрос. Это тоже монархическая структура, в демократической дебатёры голосуют и выбирают сами.
Проверялись на части Ego4D датасета, получается намного лучше, чем с одним агентом (который не перебил рандомный бейзлайн). В этой конкретной задаче и конфигурации демократия рулила.
6) Embodied AI. Среди задач исследование роботом неизвестной среды и затем ответы на его основе (embodied question answering).
Организатор получает вопрос и генерит другой вопрос (sub-question), все VLM на него отвечают и отправляют результат организатору, а тот на основе этих ответов генерит следующий под-вопрос. Этот пинг-понг продолжается заданное число ходов, затем лидер просит организатора суммаризировать историю общения. Наконец, лидер читает полученную саммари и выбирает ответ на оригинальный вопрос. Такая иерархическая структура может считаться монархической. Пробовали также и демократическую, где агенты видят ответы других и могут за них голосовать.
Монархический LNSOM побил другие индивидуальные модели в бенчмарке A-OKVQA, а также демократического коллегу (KAUST счастлив!). При увеличении VLM от 1 до 3 качество стабильно росло. Но возможно это из-за качества самих VLM, которые для понимания текста не очень.
2) Image Captioning. Сгенерить описание картинки, при этом со сложными примерами, требующими детального описания.
Тот же сетап, 2 LLM + 3 VLM с заменой промптов с VQA на captioning. Оценивались на датасете TARA, для сравнения взят BLIP2 и после десяти раундов mindstorm’а LNSOM лучше.
3) Prompt Generation for Text-to-Image Synthesis. Надо улучшить промпт для DALL-E 2, изначально заданный человеком.
В конфигурации работают 26 artists, 50 critics, и 1 collector. Каждый художник в свою очередь включает 3 LLM: a questioner, an answerer, and a leader. Все эти модели GPT3.5-turbo. Дополнительно есть модель painter (DALL-E 2). Каждый answerer промптом настроен на один конкретный (из 26) стиль рисования. Также им поступает общий запрос на рисование. Затем questioner за несколько раундов mindstorm’а получает уточнённые промпты для рисования. Каждый leader собирает всю эту коммуникацию и генерит более детальный промпт с конкретным стилем. Эти промпты оцениваются критиками. Для разнообразия мнений каждому критику заданы свои профессии (типа “You are a lawyer”). Критики голосуют за предложенные промпты. Collector агрегирует все голоса критиков, считает и продуцирует выигравший промпт, который и отправляется живописцу. Получилась иерархическая NSLOM, где на нижнем уровне Questioner-Answerer NLSOM для художников, а на верхнем Artist-Critic NLSOM. Итого 128 LLMs + 1 vision expert. Результаты прикольные.
4) 3D Generation. Надо сгенерить 3D модель из текстового описания.
В NLSOM входит 3D дизайнер (Luma AI’s Imagine3D), LLM leader (GPT3.5-turbo) и 3 критика (BLIP2). Дизайнер генерит начальную версию модели по запросу, критики получают 2D рендеры модели и пишут что про это думают, а лидер на основе этого фидбека модифицирует промпт.
Оценивают на наборе промптов, измеряя средний Clip score по нескольким view получившейся модели. Больших изменений после двух раундов взаимодействия не видно. Но даже этот примитивный mindstorm показывает неплохой результат.
5) Egocentric Retrieval. Парсинг видео от первого лица и поиск специально заданного сегмента видео (типа, в видео с поваром, готовившим спагетти, найти сегмент, где видно сколько сыпали соли).
В NLSOM пять агентов: четыре дебатёра и один редактор, все GPT3.5-turbo. Описание видео даётся извне человеком. Каждый дебатёр получает свой кусок сцены затем они обсуждают между собой как ответить на вопрос. Через несколько раундов обсуждений
Проверялись на части Ego4D датасета, получается намного лучше, чем с одним агентом (который не перебил рандомный бейзлайн). В этой конкретной задаче и конфигурации демократия рулила.
6) Embodied AI. Среди задач исследование роботом неизвестной среды и затем ответы на его основе (embodied question answering).
Telegram
gonzo-обзоры ML статей
[Microsoft Kosmos-1] Language Is Not All You Need: Aligning Perception with Language Models
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal…
Авторы: Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal…
👍6❤3
Здесь три агента: капитан (LLM), контролирующий робота; наблюдатель (observer VLM), отвечающий на вопросы про картинки из наблюдений; первый помощник (first mate LLM), опрашивающий VLM и докладывающий капитану. Агенты на BLIP2 и GPT3.5-turbo.
Тестировали на одном из датасетов Habitat (кстати недавно вышла третья версия этого симулятора, https://ai.meta.com/blog/habitat-3-socially-intelligent-robots-siro/) с 3D интерьерами жилищ. NLSOM исследует среду лучше, чем равномерный рандом (не уверен, что нельзя было взять более мощный бейзлайн), осваивает бОльшую часть среды.
7) General Language-based Task Solving. Надо предложить решение для произвольной языковой задачи. Очень открытая постановка.
Использовали KAUST’овский же фреймворк CAMEL (https://arxiv.org/abs/2303.17760), сделали три агента (все на GPT3.5-turbo). Один агент специфицирует задачу на основе пользовательского промпта. Два других агента исполняют роли, заданные пользователем. Агенты могут коллаборировать и решать заданные задачи. Например, “Python Programmer” и “Game Developer” агенты вместе делают игру с костями.
Короче, прикольные результаты. Я думаю, будущее где-то здесь. На одних промптах, очевидно, далеко не уедешь, во многих сколь-нибудь серьёзных задачах уже нужна внешняя оркестрация и работа в парадигме LLM Programs. Здесь добавляется новое измерение, когда одного агента уже недостаточно, и задач с такой постановкой тоже может быть много. При желании это можно рассматривать как Chain-of-Thought (https://news.1rj.ru/str/gonzo_ML/1885), но не в одной модели, а между разными. Или на это можно посмотреть как на ансамблирование, но с более богатыми коммуникационными протоколами. Как минимум в этой парадигме уже можно оформить любой кейс, где надо оценивать результат внутри процедуры, и критик вполне может быть одним из агентов. Это по идее классно ложится на акторную модель и языки типа Erlang/Elixir, было бы интересно, если бы на их базе появился какой-нибудь DSL или вообще аналог OTP (https://www.erlang.org/).
---
Дальше в работе начинается другая забористая тема.
Отдельный интересный вопрос -- credit assignment для отдельных модулей в NLSOM в парадигме Reinforcement Learning. И шире экономика агентов. Стандартный путь это policy gradients для LSTM, которая обучает участников NLSOM. Но у Шмидхубера есть и другие варианты, например, старый добрый локальный механизм Neural Bucket Brigade (NBB) (https://people.idsia.ch/~juergen/FKI-124-90ocr.pdf), где соревнующиеся нейроны платят "weight substance” активировавшим их нейронам. Кажется, этот метод является развитием ещё более старого Bucket Brigade (https://gwern.net/doc/reinforcement-learning/multi-agent/1985-holland.pdf) Джона Холланда, который очень много сделал для генетических алгоритмов (моя отдельная любовь).
Далее, если речь идёт про NLSOM, то и общаются они между собой на человеческом языке, а тогда и вознаграждения тоже можно сделать в человечески понятной форме --натурой деньгами.
И дальше просто пир духа!
Некоторые члены NLSOM могут взаимодействовать со средой, а среда платить им деньгами (USD). Допустим, некий член NLSOM, M вначале наделён некой суммой USD. Но он должен платить ренту, налоги, счета внутри NLSOM и другим релевантным игрокам в среде. Если M банкротится, то он исключается из NLSOM. Всё это можно обозвать Economy of Minds (EOM). M может платить другим членам NLSOM за услуги, тогда некий другой член N может принять оффер, оказать услугу M и получить от него оплату. А контракт между M и N должен пройти проверку на валидность и исполнимость, например, в соответствии с законами ЕС. Нужен некий legal authority, валидирующий такой контракт. Например, это может быть LLM, прошедшая legal bar exam. Она же в случае диспутов будет решать разногласия. А ещё богатые члены NLSOM могут заводить детей (как свои копии или как модификации) и передавать им часть своего благосостояния.
Тестировали на одном из датасетов Habitat (кстати недавно вышла третья версия этого симулятора, https://ai.meta.com/blog/habitat-3-socially-intelligent-robots-siro/) с 3D интерьерами жилищ. NLSOM исследует среду лучше, чем равномерный рандом (не уверен, что нельзя было взять более мощный бейзлайн), осваивает бОльшую часть среды.
7) General Language-based Task Solving. Надо предложить решение для произвольной языковой задачи. Очень открытая постановка.
Использовали KAUST’овский же фреймворк CAMEL (https://arxiv.org/abs/2303.17760), сделали три агента (все на GPT3.5-turbo). Один агент специфицирует задачу на основе пользовательского промпта. Два других агента исполняют роли, заданные пользователем. Агенты могут коллаборировать и решать заданные задачи. Например, “Python Programmer” и “Game Developer” агенты вместе делают игру с костями.
Короче, прикольные результаты. Я думаю, будущее где-то здесь. На одних промптах, очевидно, далеко не уедешь, во многих сколь-нибудь серьёзных задачах уже нужна внешняя оркестрация и работа в парадигме LLM Programs. Здесь добавляется новое измерение, когда одного агента уже недостаточно, и задач с такой постановкой тоже может быть много. При желании это можно рассматривать как Chain-of-Thought (https://news.1rj.ru/str/gonzo_ML/1885), но не в одной модели, а между разными. Или на это можно посмотреть как на ансамблирование, но с более богатыми коммуникационными протоколами. Как минимум в этой парадигме уже можно оформить любой кейс, где надо оценивать результат внутри процедуры, и критик вполне может быть одним из агентов. Это по идее классно ложится на акторную модель и языки типа Erlang/Elixir, было бы интересно, если бы на их базе появился какой-нибудь DSL или вообще аналог OTP (https://www.erlang.org/).
---
Дальше в работе начинается другая забористая тема.
Отдельный интересный вопрос -- credit assignment для отдельных модулей в NLSOM в парадигме Reinforcement Learning. И шире экономика агентов. Стандартный путь это policy gradients для LSTM, которая обучает участников NLSOM. Но у Шмидхубера есть и другие варианты, например, старый добрый локальный механизм Neural Bucket Brigade (NBB) (https://people.idsia.ch/~juergen/FKI-124-90ocr.pdf), где соревнующиеся нейроны платят "weight substance” активировавшим их нейронам. Кажется, этот метод является развитием ещё более старого Bucket Brigade (https://gwern.net/doc/reinforcement-learning/multi-agent/1985-holland.pdf) Джона Холланда, который очень много сделал для генетических алгоритмов (моя отдельная любовь).
Далее, если речь идёт про NLSOM, то и общаются они между собой на человеческом языке, а тогда и вознаграждения тоже можно сделать в человечески понятной форме --
И дальше просто пир духа!
Некоторые члены NLSOM могут взаимодействовать со средой, а среда платить им деньгами (USD). Допустим, некий член NLSOM, M вначале наделён некой суммой USD. Но он должен платить ренту, налоги, счета внутри NLSOM и другим релевантным игрокам в среде. Если M банкротится, то он исключается из NLSOM. Всё это можно обозвать Economy of Minds (EOM). M может платить другим членам NLSOM за услуги, тогда некий другой член N может принять оффер, оказать услугу M и получить от него оплату. А контракт между M и N должен пройти проверку на валидность и исполнимость, например, в соответствии с законами ЕС. Нужен некий legal authority, валидирующий такой контракт. Например, это может быть LLM, прошедшая legal bar exam. Она же в случае диспутов будет решать разногласия. А ещё богатые члены NLSOM могут заводить детей (как свои копии или как модификации) и передавать им часть своего благосостояния.
Meta AI
Embodied AI: Toward effective collaboration between humans and socially intelligent robots
Today, we’re announcing three major advancements toward the development of social embodied AI agents that can cooperate with and assist humans in their daily lives.
👍11❤3
LLM-based EOMs могут быть слиты с другими EOMs, или даже встроены в реальные человеческие экономики и маркетплейсы. Ещё различные EOMs (и NLSOMs в общем) могут частично пересекаться: агент может быть членом разных группировок. EOMs могут кооперироваться и конкурировать как корпорации. Они могут обслуживать различных заказчиков. Должны иметь место правила для предотвращения конфликта интересов (типа, одни EOM не должны шпионить за другими). Ну и в целом человеческие общества могут знатно подпитать воображение для дальнейшего развития этой темы.
Закончу фразой из работы:
“Just like current LLMs consist of millions of neurons connected through connections with real-valued weights, future AIs may consist of millions of NLSOMs connected through natural language, distributed across the planet, with dynamically changing affiliations, just like human employees may move from one company to another under certain conditions, in the interest of the greater good. The possibilities opened up by NLSOMs and EOMs seem endless. Done correctly, this new line of research has the potential to address many of the grand challenges of our time.”
Закончу фразой из работы:
“Just like current LLMs consist of millions of neurons connected through connections with real-valued weights, future AIs may consist of millions of NLSOMs connected through natural language, distributed across the planet, with dynamically changing affiliations, just like human employees may move from one company to another under certain conditions, in the interest of the greater good. The possibilities opened up by NLSOMs and EOMs seem endless. Done correctly, this new line of research has the potential to address many of the grand challenges of our time.”
👍11🔥4❤2👌1