Parti Hard
Парад моделей для генерации изображений по описанию не останавливается. После диффузионных DALL-E 2 от OpenAI и Imagen от Google Research, последние вывели на подиум ещё и Parti (Pathways Autoregressive Text-to-Image).
У неё авторегрессионная архитектура, которая чаще всего используется для масштабных языковых моделей. Они разбивают текст на фрагменты — «токены» — и обучаются предсказывать следующий, исходя из предыдущих и из контекста. Аналогичным образом и Parti работает с текстом и изображениями.
Также, подобно языковым моделям, в Parti вычисляется огромное количество параметров: различные версии системы включают 350 млн, 750 млн, 3 млрд и 20 млрд значений! Чем их больше, тем реалистичнее генерация, что видно на примерах с кенгуру. Но самое главное — большая Parti даже пишет без ошибок! В отличии от DALL-E 2 и Imagen.
Модель обучали с помощью облачного вычислительного кластера Google Cloud TPUs. Опираясь на текстовую «затравку», она генерирует изображения размерами 256 х 256 пикселей, после чего повышают разрешение до 1024 х 1024.
Пока ни Imagen, ни Parti нет в открытом доступе. Якобы из-за того, что обучались на массиве данных, собранном из интернета, и «унаследовали» соответствующие токсичные стереотипы. Мол, вот вычистим, тогда и выложим.
Но на деле причина иная. И кроется она в первом слове полного названия модели. Pathways — это разрабатываемая в Google мультимодальная архитектура, которая может лечь в основу будущего сильного ИИ. Возможно, Parti стала результатом отработки отдельных компонентов такой системы, или же сама войдет в её состав.
Почитать подробнее: для всех и для продвинутых (раз и два)
#Обработка_естественного_языка, #Генеративные_модели, #Text2Image, #Сильный_искусственный_интеллект
Парад моделей для генерации изображений по описанию не останавливается. После диффузионных DALL-E 2 от OpenAI и Imagen от Google Research, последние вывели на подиум ещё и Parti (Pathways Autoregressive Text-to-Image).
У неё авторегрессионная архитектура, которая чаще всего используется для масштабных языковых моделей. Они разбивают текст на фрагменты — «токены» — и обучаются предсказывать следующий, исходя из предыдущих и из контекста. Аналогичным образом и Parti работает с текстом и изображениями.
Также, подобно языковым моделям, в Parti вычисляется огромное количество параметров: различные версии системы включают 350 млн, 750 млн, 3 млрд и 20 млрд значений! Чем их больше, тем реалистичнее генерация, что видно на примерах с кенгуру. Но самое главное — большая Parti даже пишет без ошибок! В отличии от DALL-E 2 и Imagen.
Модель обучали с помощью облачного вычислительного кластера Google Cloud TPUs. Опираясь на текстовую «затравку», она генерирует изображения размерами 256 х 256 пикселей, после чего повышают разрешение до 1024 х 1024.
Пока ни Imagen, ни Parti нет в открытом доступе. Якобы из-за того, что обучались на массиве данных, собранном из интернета, и «унаследовали» соответствующие токсичные стереотипы. Мол, вот вычистим, тогда и выложим.
Но на деле причина иная. И кроется она в первом слове полного названия модели. Pathways — это разрабатываемая в Google мультимодальная архитектура, которая может лечь в основу будущего сильного ИИ. Возможно, Parti стала результатом отработки отдельных компонентов такой системы, или же сама войдет в её состав.
Почитать подробнее: для всех и для продвинутых (раз и два)
#Обработка_естественного_языка, #Генеративные_модели, #Text2Image, #Сильный_искусственный_интеллект
👍20🔥2😱1🤮1
Никогда не задумывались, почему в переполненном метро и подземных переходах люди не сталкиваются друг с другом? Ответ даёт социология (точнее, такое её направление, как этнометодология). В любом пространстве возникает локальный социальный порядок. Люди усваивают определённые социальные практики (простой пример — стоять только с правой стороны эскалатора, оставляя левую свободной для прохода), которые данный порядок поддерживают. «Смазкой» для их реализации выступают множественные невербальные знаки. Любой человек посылает и считывает их бессознательно, но как научить подобному робота?
Ситуация: В области сервисной робототехники наиболее востребованы сейчас роботы-ассистенты. Их используют в больших супермаркетах и торговых центрах, клиниках, аэропортах, кинотеатрах. Они помогают людям перевезти багаж, сориентироваться, получить справки и другую информацию. Современные модели содержат диалоговые системы, способные понимать и отвечать на естественном языке. При необходимости они могут сопроводить человека до места его назначения.
Проблема: В местах, где эти роботы особенно необходимы, часто бывает слишком много людей. Перемещаться в толпе крайне непросто, поэтому для безопасности машинам приходится ограничивать скорость. Встретившись со сложной ситуаций, они замирают на месте, дожидаясь более удобного момента для начала движения. Всё это сильно замедляет работу автоматических ассистентов.
Решение: Учёные из Германии разработали новую модель глубокого обучения с подкреплением (Deep-Reinforcement-Learning, DLT). Она позволяет роботам ориентироваться при выполнении различных задач: следовании за человеком, сопровождении его к нужной точке и просто движении к цели среди толпы. Для этого модель учитывает «семантические» аспекты своего окружения. Например, торопливо или медленно идёт человек, стоит неподвижно или занят разговором. В соответствии с ними алгоритм оценивает вероятность дальнейших действий, чтобы обойти все препятствия.
Проверка: Эффективность модели протестировали в виртуальной двумерной среде arena-rosnav, разработанной той же командой ещё в 2021 году. Система продемонстрировала способность двигаться за человеком или впереди него, подстраиваясь под его скорость и успешно обходя соседние препятствия. Тем не менее, теперь модели предстоит испытание в реальных условиях физического мира. И если она покажет себя столь же успешно, то может появиться в следующих поколениях роботов-ассистентов.
Почитать подробнее: препринт в arXiv.
#Сервисная_робототехника, #Машинное_обучение
Ситуация: В области сервисной робототехники наиболее востребованы сейчас роботы-ассистенты. Их используют в больших супермаркетах и торговых центрах, клиниках, аэропортах, кинотеатрах. Они помогают людям перевезти багаж, сориентироваться, получить справки и другую информацию. Современные модели содержат диалоговые системы, способные понимать и отвечать на естественном языке. При необходимости они могут сопроводить человека до места его назначения.
Проблема: В местах, где эти роботы особенно необходимы, часто бывает слишком много людей. Перемещаться в толпе крайне непросто, поэтому для безопасности машинам приходится ограничивать скорость. Встретившись со сложной ситуаций, они замирают на месте, дожидаясь более удобного момента для начала движения. Всё это сильно замедляет работу автоматических ассистентов.
Решение: Учёные из Германии разработали новую модель глубокого обучения с подкреплением (Deep-Reinforcement-Learning, DLT). Она позволяет роботам ориентироваться при выполнении различных задач: следовании за человеком, сопровождении его к нужной точке и просто движении к цели среди толпы. Для этого модель учитывает «семантические» аспекты своего окружения. Например, торопливо или медленно идёт человек, стоит неподвижно или занят разговором. В соответствии с ними алгоритм оценивает вероятность дальнейших действий, чтобы обойти все препятствия.
Проверка: Эффективность модели протестировали в виртуальной двумерной среде arena-rosnav, разработанной той же командой ещё в 2021 году. Система продемонстрировала способность двигаться за человеком или впереди него, подстраиваясь под его скорость и успешно обходя соседние препятствия. Тем не менее, теперь модели предстоит испытание в реальных условиях физического мира. И если она покажет себя столь же успешно, то может появиться в следующих поколениях роботов-ассистентов.
Почитать подробнее: препринт в arXiv.
#Сервисная_робототехника, #Машинное_обучение
👍33🤮3😱1
Богиню обучили школьной математике
Появившиеся за последние годы крупномасштабные модели обработки естественного языка оказались исключительно универсальны. Обученные на больших массивах разнообразных данных, они отлично проявляют себя и в анализе текстов, и в генерации программного кода, и в ответах на вопросы при ведении свободного диалога с пользователем. Однако стоит сочетать обычный текст с математическим, — и они уже не справляются. Задачка по геометрии школьного уровня ставит в тупик все эти сложные системы.
🔢 Количественные рассуждения (Quantitative Reasoning) требуют понимания математических символов, формул и констант, а также реальных отношений физического мира и хотя бы простейших вычислений. Всё это лежит за пределами возможностей даже таких мощных моделей как BERT или GPT-3. Многие специалисты полагали, что языковым моделям математика в принципе недоступна, или же потребует существенных изменений в их архитектуре, например, внедрения отдельных модулей для вычислений.
🧖🏼♀️ Однако на днях Google Research представили новый алгоритм Minerva (
📄 Дело в том, что в отличие от обычного текста, для математического крайне важно форматирование (в частности, взаимное расположение знаков и чисел), которое обычно стирается при подготовке данных для обучения. Создатели же Minerva, наоборот, максимально старались сохранить его.
Кроме того, для выбора правильного решения в модели используется новый метод «самосогласованности» (Self-consistency method). Он включает три шага:
1️⃣ В качестве затравки (prompt) используется цепочка размышлений. Например, вопрос:
2️⃣ В ответ на затравку модель генерирует множество альтернативных цепочек рассуждений. Среди них могут быть как имеющие «неправильные» ответы (4 или 6). Так и «правильный» — 5.
3️⃣ В конце включается специальный механизм «большинства голосов». Обычно языковые модели генерируют набор ответов на запрос и выбирают тот, который считают наиболее вероятным. Однако Minerva действует чуть иначе — она отбирает цепочку рассуждений с ответом, который появлялся чаще других.
🧾 Дообученная модель испытывалась на нескольких специализированных бенчмарках с задачами из области науки, технологий, инженерии и математики (Science, Technology, Engineering, and Mathematics, STEM). Например, бенчмарке MATH, который содержит задания по математике уровня старшей школы. С ними Minerva успешно справлялась в 50% случаев, тогда как прежние SOTA-модели оставались в пределах нескольких процентов.
Почитать подробнее: препринт в arXiv.
Пограться: демо на GitHub.
#Машинное_обучение, #Обработка_естественного_языка, #Образование
Появившиеся за последние годы крупномасштабные модели обработки естественного языка оказались исключительно универсальны. Обученные на больших массивах разнообразных данных, они отлично проявляют себя и в анализе текстов, и в генерации программного кода, и в ответах на вопросы при ведении свободного диалога с пользователем. Однако стоит сочетать обычный текст с математическим, — и они уже не справляются. Задачка по геометрии школьного уровня ставит в тупик все эти сложные системы.
🔢 Количественные рассуждения (Quantitative Reasoning) требуют понимания математических символов, формул и констант, а также реальных отношений физического мира и хотя бы простейших вычислений. Всё это лежит за пределами возможностей даже таких мощных моделей как BERT или GPT-3. Многие специалисты полагали, что языковым моделям математика в принципе недоступна, или же потребует существенных изменений в их архитектуре, например, внедрения отдельных модулей для вычислений.
🧖🏼♀️ Однако на днях Google Research представили новый алгоритм Minerva (
Минерва — римский вариант богини мудрости Афины). В его основе лежит языковая модель PaLM, в вариантах на 62 и 530 миллиардов параметров. Для понимания «языка» математики её дополнительно обучали на специально составленном датасете из 118 Гб академических статей, в которых используется математическая нотация в популярных форматах LaTeX, MathJax и др.📄 Дело в том, что в отличие от обычного текста, для математического крайне важно форматирование (в частности, взаимное расположение знаков и чисел), которое обычно стирается при подготовке данных для обучения. Создатели же Minerva, наоборот, максимально старались сохранить его.
Кроме того, для выбора правильного решения в модели используется новый метод «самосогласованности» (Self-consistency method). Он включает три шага:
1️⃣ В качестве затравки (prompt) используется цепочка размышлений. Например, вопрос:
«Три машины стояли на стоянке. Две приехали. Стало ли их больше?». И рассуждение-ответ: «Так как три машины было и две добавилось, значит 3 + 2 = 5. Следовательно, машин стало больше».2️⃣ В ответ на затравку модель генерирует множество альтернативных цепочек рассуждений. Среди них могут быть как имеющие «неправильные» ответы (4 или 6). Так и «правильный» — 5.
3️⃣ В конце включается специальный механизм «большинства голосов». Обычно языковые модели генерируют набор ответов на запрос и выбирают тот, который считают наиболее вероятным. Однако Minerva действует чуть иначе — она отбирает цепочку рассуждений с ответом, который появлялся чаще других.
🧾 Дообученная модель испытывалась на нескольких специализированных бенчмарках с задачами из области науки, технологий, инженерии и математики (Science, Technology, Engineering, and Mathematics, STEM). Например, бенчмарке MATH, который содержит задания по математике уровня старшей школы. С ними Minerva успешно справлялась в 50% случаев, тогда как прежние SOTA-модели оставались в пределах нескольких процентов.
Почитать подробнее: препринт в arXiv.
Пограться: демо на GitHub.
#Машинное_обучение, #Обработка_естественного_языка, #Образование
minerva-demo.github.io
Minerva sample explorer
Explore samples from a large language model trained on technical content
👍25🔥4❤1🤔1🎉1🤮1
«Всё взять и поделить!»
Искусственный интеллект нашёл наиболее справедливый вариант распределения доходов. Понравилось даже людям.
💰 Одна из ключевых проблем человеческого общества — справедливое распределение ресурсов. Различные идеологии предлагают разные решения. Либертарианство подразумевает, что прибыль всегда пропорциональна вложениям. Иными словами, чем больше твой вклад в капитал, тем выше дивиденды. Однако такой подход даёт серьёзное преимущество тем, кто уже обладает большими средствами.
💵 Эгалитарное распределение — в крайних вариантах, всем поровну — чревато потерей стимулов к экономической активности и часто приводит к «трагедии общин», когда каждый готов извлекать максимальную прибыль из общих ресурсов, но не нести связанные с ними издержки. Есть ли третий путь? И могут ли машины быть более экономически справедливы, чем люди?
💶 Компания DeepMind совместно с британскими учёными разработала экономический симулятор. На первом этапе в него играли только люди. Четверо участников получали разное количество денег. Они могли сохранить их у себя или вложить в общий фонд, который периодически выплачивает проценты по этим инвестициям.
💷 Доход фонда распределялся между игроками, в зависимости от выбранной стратегии. При «эгалитарном» распределении все получали поровну. При «либертарианском» — пропорционально сделанным вкладам. А при третьем варианте — смешанном или «либерально-эгалитарном» — в зависимости от того, какую долю собственного капитала вложил каждый игрок. (
💴 Учёные провели множество сеансов этой игры с 5000 добровольцами на различных краудсорсинговых платформах. Условия варьировались: разная степень неравенства в первоначальном распределении средств между игроками с различными вариантами дележа процентов от общего фонда. По итогам всех игр участники голосовали, какой вариант они считают наиболее справедливым, имитируя демократический процесс.
🤖 Полученные результаты использовались для обучения аналогичной игре интеллектуальных программных агентов, которые затем провели тысячи виртуальных матчей друг с другом. При этом за их игрой всё время наблюдал ещё один алгоритм искусственного интеллекта. Он регулярно менял условия в зависимости от голосования агентов и оценок справедливости итогового распределения денежных средств.
💸 В итоге система пришла к распределению, близкому к смешанному, «либерально-эгалитарному» варианту. Агенты получали доход в зависимости от доли собственного капитала, вложенной в общий фонд, однако лишь в том случае, если она составляла не менее половины от всех их средств.
🏝 Далее учёные вновь провели серию игр с людьми. Выяснилось, что живые игроки также чаще голосовали за такой же вариант распределения, считая его наиболее справедливым. Судя по всему, установление минимальной планки вложений не позволяет самым богатым игрокам, потратив совсем небольшую долю своих средств, «перебить» вложения бедных, инвестировавших куда большую часть своего капитала. А приравнивание дивидендов к доле капитала — в итоге сбалансировать распределение средств и сделать всех богатыми в равной степени.
Почитать подробнее: научная статья в Nature Human Behavior
#Цифровизация_и_общество, #Интеллектуальные_агенты, #Теория_игр
Искусственный интеллект нашёл наиболее справедливый вариант распределения доходов. Понравилось даже людям.
💰 Одна из ключевых проблем человеческого общества — справедливое распределение ресурсов. Различные идеологии предлагают разные решения. Либертарианство подразумевает, что прибыль всегда пропорциональна вложениям. Иными словами, чем больше твой вклад в капитал, тем выше дивиденды. Однако такой подход даёт серьёзное преимущество тем, кто уже обладает большими средствами.
💵 Эгалитарное распределение — в крайних вариантах, всем поровну — чревато потерей стимулов к экономической активности и часто приводит к «трагедии общин», когда каждый готов извлекать максимальную прибыль из общих ресурсов, но не нести связанные с ними издержки. Есть ли третий путь? И могут ли машины быть более экономически справедливы, чем люди?
💶 Компания DeepMind совместно с британскими учёными разработала экономический симулятор. На первом этапе в него играли только люди. Четверо участников получали разное количество денег. Они могли сохранить их у себя или вложить в общий фонд, который периодически выплачивает проценты по этим инвестициям.
💷 Доход фонда распределялся между игроками, в зависимости от выбранной стратегии. При «эгалитарном» распределении все получали поровну. При «либертарианском» — пропорционально сделанным вкладам. А при третьем варианте — смешанном или «либерально-эгалитарном» — в зависимости от того, какую долю собственного капитала вложил каждый игрок. (
Например, при вложении 50% от $1000 и 50% от $10000 дивиденды будут равны).💴 Учёные провели множество сеансов этой игры с 5000 добровольцами на различных краудсорсинговых платформах. Условия варьировались: разная степень неравенства в первоначальном распределении средств между игроками с различными вариантами дележа процентов от общего фонда. По итогам всех игр участники голосовали, какой вариант они считают наиболее справедливым, имитируя демократический процесс.
🤖 Полученные результаты использовались для обучения аналогичной игре интеллектуальных программных агентов, которые затем провели тысячи виртуальных матчей друг с другом. При этом за их игрой всё время наблюдал ещё один алгоритм искусственного интеллекта. Он регулярно менял условия в зависимости от голосования агентов и оценок справедливости итогового распределения денежных средств.
💸 В итоге система пришла к распределению, близкому к смешанному, «либерально-эгалитарному» варианту. Агенты получали доход в зависимости от доли собственного капитала, вложенной в общий фонд, однако лишь в том случае, если она составляла не менее половины от всех их средств.
🏝 Далее учёные вновь провели серию игр с людьми. Выяснилось, что живые игроки также чаще голосовали за такой же вариант распределения, считая его наиболее справедливым. Судя по всему, установление минимальной планки вложений не позволяет самым богатым игрокам, потратив совсем небольшую долю своих средств, «перебить» вложения бедных, инвестировавших куда большую часть своего капитала. А приравнивание дивидендов к доле капитала — в итоге сбалансировать распределение средств и сделать всех богатыми в равной степени.
Почитать подробнее: научная статья в Nature Human Behavior
#Цифровизация_и_общество, #Интеллектуальные_агенты, #Теория_игр
👍40🔥9🤔2
Кажется, сильно много сложных новостей о моделях сразу 🙈 Поэтому держите красавчика, которого нагенерил Kandinsky 😍
Запрос «Чебурашка в скафандре».
Особенно умилительно, как алгоритм предусмотрел специальные отверстия в шлемофоне для его больших ушек 🥰
Наш супергерой — Чебунавт!
Запрос «Чебурашка в скафандре».
Особенно умилительно, как алгоритм предусмотрел специальные отверстия в шлемофоне для его больших ушек 🥰
Наш супергерой — Чебунавт!
❤36👍10🔥6🥰3😱3
ИИ научили предсказывать будущее. Правда точность прогнозов всё ещё хуже «мудрости толпы»
В открытый доступ выложен датасет Autocast. С его помощью можно обучить языковые модели прогнозировать события из области политики, экономики, науки и технологий.
🏛 В работе над Autocast участвовала команда учёных из Оксфорда, Беркли и Массачусетского технологического института. Они использовали архивы Metaculus, Good Judgment Open и CSET Foretell. Всё это общественные краудсорсинговые проекты, чьи участники состязаются в предсказаниях будущих событий, зарабатывая рейтинговые очки.
Итогом стал массив из 6707 комплексных единиц, каждая из которых содержит:
1️⃣ вопрос (например,
2️⃣ временной промежуток от момента задания вопроса до даты предсказанного события (скажем,
3️⃣ ответ на вопрос (
4️⃣ «мудрость толпы» в виде процента предсказывающих данное событие пользователей платформ в те или иные моменты времени, а также в зависимости от текущих новостей.
📈 Полученный датасет применили для обучения широкого спектра моделей, как способных к информационному поиску (Fusion-in-Decoder), так и без него (UnifiedQA-v2 и T5).
🔜 Наиболее сложный вариант — FID Temporal — сочетал Fusion-in-Decoder с языковой моделью-трансформером GPT-2, которая получала на вход эмбеддинги — машиночитаемые векторные представления главных новостных сюжетов за соответствующие даты. Это позволяло ей точно так же делать прогнозы и уточнять их на протяжении длительного отрезка «симулированного времени», как и в прошлом людям.
✅ Данная система продемонстрировала и наибольшую эффективность среди всех моделей с точностью предсказаний в 37,8%, что более чем вдвое превосходит случайное угадывание — 18,8%. Однако сильно уступает «мудрости толпы». Совокупный прогноз на основе оценок множества людей точен в 82,5% случаев.
Тем не менее эксперименты показали, что с увеличением числа расчётных параметров точность машинных предсказаний растёт. А значит при увеличении размеров датасетов и самих языковых моделей, сложных архитектурах и тонкой настройки (файнтьюнов) — можно добиться существенного прогресса в предсказаниях будущих событий.
Главное, чтобы прогнозы ИИ люди не стали считать истиной в последней инстанции!
Почитать подробнее: препринт на Arxiv
#Прогнозные_системы, #Обработка_естественного_языка
В открытый доступ выложен датасет Autocast. С его помощью можно обучить языковые модели прогнозировать события из области политики, экономики, науки и технологий.
🏛 В работе над Autocast участвовала команда учёных из Оксфорда, Беркли и Массачусетского технологического института. Они использовали архивы Metaculus, Good Judgment Open и CSET Foretell. Всё это общественные краудсорсинговые проекты, чьи участники состязаются в предсказаниях будущих событий, зарабатывая рейтинговые очки.
Итогом стал массив из 6707 комплексных единиц, каждая из которых содержит:
1️⃣ вопрос (например,
запустит ли Северная Корея баллистическую ракету с дальностью поражения 10 тыс. км?);2️⃣ временной промежуток от момента задания вопроса до даты предсказанного события (скажем,
с 01.01.2021 до 01.01.2022);3️⃣ ответ на вопрос (
утверждение «правда» или «ложь», либо один из пунктов в ответе с множественным выбором, а также иногда точная дата события или количество);4️⃣ «мудрость толпы» в виде процента предсказывающих данное событие пользователей платформ в те или иные моменты времени, а также в зависимости от текущих новостей.
📈 Полученный датасет применили для обучения широкого спектра моделей, как способных к информационному поиску (Fusion-in-Decoder), так и без него (UnifiedQA-v2 и T5).
🔜 Наиболее сложный вариант — FID Temporal — сочетал Fusion-in-Decoder с языковой моделью-трансформером GPT-2, которая получала на вход эмбеддинги — машиночитаемые векторные представления главных новостных сюжетов за соответствующие даты. Это позволяло ей точно так же делать прогнозы и уточнять их на протяжении длительного отрезка «симулированного времени», как и в прошлом людям.
✅ Данная система продемонстрировала и наибольшую эффективность среди всех моделей с точностью предсказаний в 37,8%, что более чем вдвое превосходит случайное угадывание — 18,8%. Однако сильно уступает «мудрости толпы». Совокупный прогноз на основе оценок множества людей точен в 82,5% случаев.
Тем не менее эксперименты показали, что с увеличением числа расчётных параметров точность машинных предсказаний растёт. А значит при увеличении размеров датасетов и самих языковых моделей, сложных архитектурах и тонкой настройки (файнтьюнов) — можно добиться существенного прогресса в предсказаниях будущих событий.
Главное, чтобы прогнозы ИИ люди не стали считать истиной в последней инстанции!
Почитать подробнее: препринт на Arxiv
#Прогнозные_системы, #Обработка_естественного_языка
GitHub
GitHub - facebookresearch/FiD: Fusion-in-Decoder
Fusion-in-Decoder. Contribute to facebookresearch/FiD development by creating an account on GitHub.
👍14🤔4🔥1
Machines Can See — и ты посмотри
На YouTube выложили записи всех докладов с конференции Machines Can See 2022. Теперь полностью доступны и научная, и бизнес-программы.
ЧТО ПОНРАВИЛОСЬ ЛИЧНО МНЕ:
Во-первых, рекомендую посмотреть в паре два доклада — Александра Чигорина из VisionLabs про распознавание динамических жестов, типа свайпов по воздуху или прокрутки «колеса громкости». А затем сразу Александра Капитанова из SberDevices, который посмотрел на распознавание жестов с точки зрения управления гаджетами, а также рассказал про создание недавно опубликованного датасета HaGRID (HAnd Gesture Recognition Image Dataset) (я, кстати, подробно писала о нём).
Далее, феерическое выступление Андрея Незнамова, председателя национальной комиссии по этике искусственного интеллекта. Образец евангелиста, способного популярно и на интересных исторических кейсах рассказать о трудной и неочевидной для многих инженеров и продактов теме.
Классный доклад Андрея Кузнецова из Sber AI, где он подробно рассказал о создании генеративной модели Kandinsky (и о ней я тоже писала), а также обозрел ряд крутых файнтюнов и показал фантастически красивые генерации.
Выступление Кузнецова хорошо дополняет и продолжает доклад его коллеги по Sber AI Дениса Димитрова о мультимодальном обучении и мультизадачных архитектурах. Вы поймёте, как одни и те же модели можно использовать для обработки разной информации, например, тех же языковых — для естественной речи, кода, временных рядов и т.д. И как предобученные большие модели можно быстро адаптировать для конкретных задач, экономя ресурсы и время.
А вообще, рекомендую посмотреть всё! Сама я этого на конференции сделать не успела, буду теперь вечерами наверстывать 😉
На YouTube выложили записи всех докладов с конференции Machines Can See 2022. Теперь полностью доступны и научная, и бизнес-программы.
ЧТО ПОНРАВИЛОСЬ ЛИЧНО МНЕ:
Во-первых, рекомендую посмотреть в паре два доклада — Александра Чигорина из VisionLabs про распознавание динамических жестов, типа свайпов по воздуху или прокрутки «колеса громкости». А затем сразу Александра Капитанова из SberDevices, который посмотрел на распознавание жестов с точки зрения управления гаджетами, а также рассказал про создание недавно опубликованного датасета HaGRID (HAnd Gesture Recognition Image Dataset) (я, кстати, подробно писала о нём).
Далее, феерическое выступление Андрея Незнамова, председателя национальной комиссии по этике искусственного интеллекта. Образец евангелиста, способного популярно и на интересных исторических кейсах рассказать о трудной и неочевидной для многих инженеров и продактов теме.
Классный доклад Андрея Кузнецова из Sber AI, где он подробно рассказал о создании генеративной модели Kandinsky (и о ней я тоже писала), а также обозрел ряд крутых файнтюнов и показал фантастически красивые генерации.
Выступление Кузнецова хорошо дополняет и продолжает доклад его коллеги по Sber AI Дениса Димитрова о мультимодальном обучении и мультизадачных архитектурах. Вы поймёте, как одни и те же модели можно использовать для обработки разной информации, например, тех же языковых — для естественной речи, кода, временных рядов и т.д. И как предобученные большие модели можно быстро адаптировать для конкретных задач, экономя ресурсы и время.
А вообще, рекомендую посмотреть всё! Сама я этого на конференции сделать не успела, буду теперь вечерами наверстывать 😉
YouTube
Machines Can See 2022. Main Stage.
Программа главной сцены шестого саммита по компьютерному зрению и машинному обучению Machines Can See 2022. 1 июля, Цифровое Деловое Пространство. Партнеры саммита - Sber AI, MTS AI.
00:00 Заставка
11:04 Приветственное слово Дмитрия Маркова, генерального…
00:00 Заставка
11:04 Приветственное слово Дмитрия Маркова, генерального…
👍12❤8🔥2🥰1
В рекламных агентствах ведь не только креативный дизайн придумывают, но и креативный подход могут создать к любым процессам. Так, в «Студии Артемия Лебедева» год назад появился новый дизайнер логотипов Николай Иронов. Его работы полюбились многим клиентам, а потом неожиданно выяснилось, что все их создал не дизайнер. Не волшебная палочка, конечно, накреативила, а искусственный интеллект- нейронная сеть.
Нельзя не отметить, что все клиенты работами неизвестного креативщика были довольны, как обычно людям нравятся произведения современного искусства. Да и сложно представить что-то более современное, чем иронично-нейронные творения.
Похожая история произошла в Лондоне. Три брата Джолион, Джордж и Доминик задумали переосмыслить логотипы всех известных брендов. Хорошо получилось или нет, каждый может лично оценить в галерее. Хотя Ray-ban, например, мне понравился. А вам?
Нельзя не отметить, что все клиенты работами неизвестного креативщика были довольны, как обычно людям нравятся произведения современного искусства. Да и сложно представить что-то более современное, чем иронично-нейронные творения.
Похожая история произошла в Лондоне. Три брата Джолион, Джордж и Доминик задумали переосмыслить логотипы всех известных брендов. Хорошо получилось или нет, каждый может лично оценить в галерее. Хотя Ray-ban, например, мне понравился. А вам?
😁10👍6❤2🔥2🥰1💩1
Страдания робота Вертера
В старом советском фильме «Гостья из будущего» одна из самых душераздирающих сцен — гибель робота-андроида Вертера. Во всех эпизодах он двигается и говорит нарочито механически, но его смерть вызывает неподдельную грусть. И неспроста — если робот при взаимодействии с нами имитирует эмоции, мы начинаем воспринимать его как личность.
🤖 Группа психологов из Италии провела серию экспериментов с гуманоидным роботом iCub. В мире существует всего пара десятков таких машин. Их разрабатывает международный консорциум The RobotCub Project. Все они предназначены для исследований взаимодействия людей с антропоморфными машинами.
🦾 iCub метр высотой и в общих чертах повторяет геометрию человеческого тела. С помощью подвижных глаз и световых индикаторов на месте бровей и рта он способен имитировать мимику. Его пятипалые руки позволяют воспроизводить сложные жесты, а набор сервоприводов в ногах и теле — разнообразные позы.
🧑🏻💼👨🏻💼 Для общения с роботом были отобраны 119 добровольцев. До и после эксперимента они заполняли опросник Intentional Stance Test (IST), разработанный психологами несколько лет назад. Испытуемым требовалось ответить — из каких побуждений действуют роботы, запечатленные в различных бытовых ситуациях.
❤️⚙️ Вариантов ответа всегда два. Первый подразумевает чисто рациональный выбор машины. Второй же исходит из наличия у неё интенций и желаний. Например, изображение на котором робот выбирает один из разложенных перед ним инструментов, предлагается интерпретировать как
☺️ Испытуемых поделили на две группы. Членов экспериментальной робот встречал и радостно приветствовал, представлялся сам и знакомился с ними, удерживая зрительный контакт. Затем волонтёры просматривали совместно с iCub несколько коротких документальных фильмов. При этом робот бурно реагировал на происходящее на экране, изображая в соответствующих моментах радость или грусть.
😐 А вот с контрольной группой машина вела холодно и механистично. Во время сеанса iCub никак не реагировал на происходящее, не изображал эмоций, лишь периодически издавал компьютерное «пиканье».
📑 После сеансов испытуемые из обеих групп вновь отвечали на вопросник с интерпретацией намерений робота. Выяснилось, что те, кто взаимодействовал с демонстрировавшей живые и эмоциональные «антропоморфные» реакции машиной, намного чаще оценивали её действия как намеренные. Тогда как члены контрольной группы, наоборот, считали их запрограммированными.
🫂 По мнению психологов, это показывает, что совместное переживание эмоций заставляет людей считать роботов наделенными личностью, собственными потребностями и желаниями. Это подчеркивает важность имитации эмоций для роботов-компаньонов, занятых, например, поддержкой одиноких и престарелых людей.
❓ Но кажется, данные результаты могут внести ясность и в недавние дискуссии о «разумности» языковой модели LaMDA. Напомним, что работавший с ней в Google инженер Блейк Лемойн объявил систему разумной личностью. Возможно, он просто слишком долго взаимодействовал с чатботом, способным достоверно имитировать живую речь и человеческие эмоциональные реакции.
Почитать подробнее: научная статья в Technology, Mind, and Behavior.
#Робототехника, #Цифровизация_и_общество, #Психология_общения_с_роботами
В старом советском фильме «Гостья из будущего» одна из самых душераздирающих сцен — гибель робота-андроида Вертера. Во всех эпизодах он двигается и говорит нарочито механически, но его смерть вызывает неподдельную грусть. И неспроста — если робот при взаимодействии с нами имитирует эмоции, мы начинаем воспринимать его как личность.
🤖 Группа психологов из Италии провела серию экспериментов с гуманоидным роботом iCub. В мире существует всего пара десятков таких машин. Их разрабатывает международный консорциум The RobotCub Project. Все они предназначены для исследований взаимодействия людей с антропоморфными машинами.
🦾 iCub метр высотой и в общих чертах повторяет геометрию человеческого тела. С помощью подвижных глаз и световых индикаторов на месте бровей и рта он способен имитировать мимику. Его пятипалые руки позволяют воспроизводить сложные жесты, а набор сервоприводов в ногах и теле — разнообразные позы.
🧑🏻💼👨🏻💼 Для общения с роботом были отобраны 119 добровольцев. До и после эксперимента они заполняли опросник Intentional Stance Test (IST), разработанный психологами несколько лет назад. Испытуемым требовалось ответить — из каких побуждений действуют роботы, запечатленные в различных бытовых ситуациях.
❤️⚙️ Вариантов ответа всегда два. Первый подразумевает чисто рациональный выбор машины. Второй же исходит из наличия у неё интенций и желаний. Например, изображение на котором робот выбирает один из разложенных перед ним инструментов, предлагается интерпретировать как
«Он возьмет ближайший» или «Ему очень нравится пользоваться инструментами».☺️ Испытуемых поделили на две группы. Членов экспериментальной робот встречал и радостно приветствовал, представлялся сам и знакомился с ними, удерживая зрительный контакт. Затем волонтёры просматривали совместно с iCub несколько коротких документальных фильмов. При этом робот бурно реагировал на происходящее на экране, изображая в соответствующих моментах радость или грусть.
😐 А вот с контрольной группой машина вела холодно и механистично. Во время сеанса iCub никак не реагировал на происходящее, не изображал эмоций, лишь периодически издавал компьютерное «пиканье».
📑 После сеансов испытуемые из обеих групп вновь отвечали на вопросник с интерпретацией намерений робота. Выяснилось, что те, кто взаимодействовал с демонстрировавшей живые и эмоциональные «антропоморфные» реакции машиной, намного чаще оценивали её действия как намеренные. Тогда как члены контрольной группы, наоборот, считали их запрограммированными.
🫂 По мнению психологов, это показывает, что совместное переживание эмоций заставляет людей считать роботов наделенными личностью, собственными потребностями и желаниями. Это подчеркивает важность имитации эмоций для роботов-компаньонов, занятых, например, поддержкой одиноких и престарелых людей.
❓ Но кажется, данные результаты могут внести ясность и в недавние дискуссии о «разумности» языковой модели LaMDA. Напомним, что работавший с ней в Google инженер Блейк Лемойн объявил систему разумной личностью. Возможно, он просто слишком долго взаимодействовал с чатботом, способным достоверно имитировать живую речь и человеческие эмоциональные реакции.
Почитать подробнее: научная статья в Technology, Mind, and Behavior.
#Робототехника, #Цифровизация_и_общество, #Психология_общения_с_роботами
👍12🤔5🔥1💩1