Кажется, сильно много сложных новостей о моделях сразу 🙈 Поэтому держите красавчика, которого нагенерил Kandinsky 😍
Запрос «Чебурашка в скафандре».
Особенно умилительно, как алгоритм предусмотрел специальные отверстия в шлемофоне для его больших ушек 🥰
Наш супергерой — Чебунавт!
Запрос «Чебурашка в скафандре».
Особенно умилительно, как алгоритм предусмотрел специальные отверстия в шлемофоне для его больших ушек 🥰
Наш супергерой — Чебунавт!
❤36👍10🔥6🥰3😱3
ИИ научили предсказывать будущее. Правда точность прогнозов всё ещё хуже «мудрости толпы»
В открытый доступ выложен датасет Autocast. С его помощью можно обучить языковые модели прогнозировать события из области политики, экономики, науки и технологий.
🏛 В работе над Autocast участвовала команда учёных из Оксфорда, Беркли и Массачусетского технологического института. Они использовали архивы Metaculus, Good Judgment Open и CSET Foretell. Всё это общественные краудсорсинговые проекты, чьи участники состязаются в предсказаниях будущих событий, зарабатывая рейтинговые очки.
Итогом стал массив из 6707 комплексных единиц, каждая из которых содержит:
1️⃣ вопрос (например,
2️⃣ временной промежуток от момента задания вопроса до даты предсказанного события (скажем,
3️⃣ ответ на вопрос (
4️⃣ «мудрость толпы» в виде процента предсказывающих данное событие пользователей платформ в те или иные моменты времени, а также в зависимости от текущих новостей.
📈 Полученный датасет применили для обучения широкого спектра моделей, как способных к информационному поиску (Fusion-in-Decoder), так и без него (UnifiedQA-v2 и T5).
🔜 Наиболее сложный вариант — FID Temporal — сочетал Fusion-in-Decoder с языковой моделью-трансформером GPT-2, которая получала на вход эмбеддинги — машиночитаемые векторные представления главных новостных сюжетов за соответствующие даты. Это позволяло ей точно так же делать прогнозы и уточнять их на протяжении длительного отрезка «симулированного времени», как и в прошлом людям.
✅ Данная система продемонстрировала и наибольшую эффективность среди всех моделей с точностью предсказаний в 37,8%, что более чем вдвое превосходит случайное угадывание — 18,8%. Однако сильно уступает «мудрости толпы». Совокупный прогноз на основе оценок множества людей точен в 82,5% случаев.
Тем не менее эксперименты показали, что с увеличением числа расчётных параметров точность машинных предсказаний растёт. А значит при увеличении размеров датасетов и самих языковых моделей, сложных архитектурах и тонкой настройки (файнтьюнов) — можно добиться существенного прогресса в предсказаниях будущих событий.
Главное, чтобы прогнозы ИИ люди не стали считать истиной в последней инстанции!
Почитать подробнее: препринт на Arxiv
#Прогнозные_системы, #Обработка_естественного_языка
В открытый доступ выложен датасет Autocast. С его помощью можно обучить языковые модели прогнозировать события из области политики, экономики, науки и технологий.
🏛 В работе над Autocast участвовала команда учёных из Оксфорда, Беркли и Массачусетского технологического института. Они использовали архивы Metaculus, Good Judgment Open и CSET Foretell. Всё это общественные краудсорсинговые проекты, чьи участники состязаются в предсказаниях будущих событий, зарабатывая рейтинговые очки.
Итогом стал массив из 6707 комплексных единиц, каждая из которых содержит:
1️⃣ вопрос (например,
запустит ли Северная Корея баллистическую ракету с дальностью поражения 10 тыс. км?);2️⃣ временной промежуток от момента задания вопроса до даты предсказанного события (скажем,
с 01.01.2021 до 01.01.2022);3️⃣ ответ на вопрос (
утверждение «правда» или «ложь», либо один из пунктов в ответе с множественным выбором, а также иногда точная дата события или количество);4️⃣ «мудрость толпы» в виде процента предсказывающих данное событие пользователей платформ в те или иные моменты времени, а также в зависимости от текущих новостей.
📈 Полученный датасет применили для обучения широкого спектра моделей, как способных к информационному поиску (Fusion-in-Decoder), так и без него (UnifiedQA-v2 и T5).
🔜 Наиболее сложный вариант — FID Temporal — сочетал Fusion-in-Decoder с языковой моделью-трансформером GPT-2, которая получала на вход эмбеддинги — машиночитаемые векторные представления главных новостных сюжетов за соответствующие даты. Это позволяло ей точно так же делать прогнозы и уточнять их на протяжении длительного отрезка «симулированного времени», как и в прошлом людям.
✅ Данная система продемонстрировала и наибольшую эффективность среди всех моделей с точностью предсказаний в 37,8%, что более чем вдвое превосходит случайное угадывание — 18,8%. Однако сильно уступает «мудрости толпы». Совокупный прогноз на основе оценок множества людей точен в 82,5% случаев.
Тем не менее эксперименты показали, что с увеличением числа расчётных параметров точность машинных предсказаний растёт. А значит при увеличении размеров датасетов и самих языковых моделей, сложных архитектурах и тонкой настройки (файнтьюнов) — можно добиться существенного прогресса в предсказаниях будущих событий.
Главное, чтобы прогнозы ИИ люди не стали считать истиной в последней инстанции!
Почитать подробнее: препринт на Arxiv
#Прогнозные_системы, #Обработка_естественного_языка
GitHub
GitHub - facebookresearch/FiD: Fusion-in-Decoder
Fusion-in-Decoder. Contribute to facebookresearch/FiD development by creating an account on GitHub.
👍14🤔4🔥1
Machines Can See — и ты посмотри
На YouTube выложили записи всех докладов с конференции Machines Can See 2022. Теперь полностью доступны и научная, и бизнес-программы.
ЧТО ПОНРАВИЛОСЬ ЛИЧНО МНЕ:
Во-первых, рекомендую посмотреть в паре два доклада — Александра Чигорина из VisionLabs про распознавание динамических жестов, типа свайпов по воздуху или прокрутки «колеса громкости». А затем сразу Александра Капитанова из SberDevices, который посмотрел на распознавание жестов с точки зрения управления гаджетами, а также рассказал про создание недавно опубликованного датасета HaGRID (HAnd Gesture Recognition Image Dataset) (я, кстати, подробно писала о нём).
Далее, феерическое выступление Андрея Незнамова, председателя национальной комиссии по этике искусственного интеллекта. Образец евангелиста, способного популярно и на интересных исторических кейсах рассказать о трудной и неочевидной для многих инженеров и продактов теме.
Классный доклад Андрея Кузнецова из Sber AI, где он подробно рассказал о создании генеративной модели Kandinsky (и о ней я тоже писала), а также обозрел ряд крутых файнтюнов и показал фантастически красивые генерации.
Выступление Кузнецова хорошо дополняет и продолжает доклад его коллеги по Sber AI Дениса Димитрова о мультимодальном обучении и мультизадачных архитектурах. Вы поймёте, как одни и те же модели можно использовать для обработки разной информации, например, тех же языковых — для естественной речи, кода, временных рядов и т.д. И как предобученные большие модели можно быстро адаптировать для конкретных задач, экономя ресурсы и время.
А вообще, рекомендую посмотреть всё! Сама я этого на конференции сделать не успела, буду теперь вечерами наверстывать 😉
На YouTube выложили записи всех докладов с конференции Machines Can See 2022. Теперь полностью доступны и научная, и бизнес-программы.
ЧТО ПОНРАВИЛОСЬ ЛИЧНО МНЕ:
Во-первых, рекомендую посмотреть в паре два доклада — Александра Чигорина из VisionLabs про распознавание динамических жестов, типа свайпов по воздуху или прокрутки «колеса громкости». А затем сразу Александра Капитанова из SberDevices, который посмотрел на распознавание жестов с точки зрения управления гаджетами, а также рассказал про создание недавно опубликованного датасета HaGRID (HAnd Gesture Recognition Image Dataset) (я, кстати, подробно писала о нём).
Далее, феерическое выступление Андрея Незнамова, председателя национальной комиссии по этике искусственного интеллекта. Образец евангелиста, способного популярно и на интересных исторических кейсах рассказать о трудной и неочевидной для многих инженеров и продактов теме.
Классный доклад Андрея Кузнецова из Sber AI, где он подробно рассказал о создании генеративной модели Kandinsky (и о ней я тоже писала), а также обозрел ряд крутых файнтюнов и показал фантастически красивые генерации.
Выступление Кузнецова хорошо дополняет и продолжает доклад его коллеги по Sber AI Дениса Димитрова о мультимодальном обучении и мультизадачных архитектурах. Вы поймёте, как одни и те же модели можно использовать для обработки разной информации, например, тех же языковых — для естественной речи, кода, временных рядов и т.д. И как предобученные большие модели можно быстро адаптировать для конкретных задач, экономя ресурсы и время.
А вообще, рекомендую посмотреть всё! Сама я этого на конференции сделать не успела, буду теперь вечерами наверстывать 😉
YouTube
Machines Can See 2022. Main Stage.
Программа главной сцены шестого саммита по компьютерному зрению и машинному обучению Machines Can See 2022. 1 июля, Цифровое Деловое Пространство. Партнеры саммита - Sber AI, MTS AI.
00:00 Заставка
11:04 Приветственное слово Дмитрия Маркова, генерального…
00:00 Заставка
11:04 Приветственное слово Дмитрия Маркова, генерального…
👍12❤8🔥2🥰1
В рекламных агентствах ведь не только креативный дизайн придумывают, но и креативный подход могут создать к любым процессам. Так, в «Студии Артемия Лебедева» год назад появился новый дизайнер логотипов Николай Иронов. Его работы полюбились многим клиентам, а потом неожиданно выяснилось, что все их создал не дизайнер. Не волшебная палочка, конечно, накреативила, а искусственный интеллект- нейронная сеть.
Нельзя не отметить, что все клиенты работами неизвестного креативщика были довольны, как обычно людям нравятся произведения современного искусства. Да и сложно представить что-то более современное, чем иронично-нейронные творения.
Похожая история произошла в Лондоне. Три брата Джолион, Джордж и Доминик задумали переосмыслить логотипы всех известных брендов. Хорошо получилось или нет, каждый может лично оценить в галерее. Хотя Ray-ban, например, мне понравился. А вам?
Нельзя не отметить, что все клиенты работами неизвестного креативщика были довольны, как обычно людям нравятся произведения современного искусства. Да и сложно представить что-то более современное, чем иронично-нейронные творения.
Похожая история произошла в Лондоне. Три брата Джолион, Джордж и Доминик задумали переосмыслить логотипы всех известных брендов. Хорошо получилось или нет, каждый может лично оценить в галерее. Хотя Ray-ban, например, мне понравился. А вам?
😁10👍6❤2🔥2🥰1💩1
Страдания робота Вертера
В старом советском фильме «Гостья из будущего» одна из самых душераздирающих сцен — гибель робота-андроида Вертера. Во всех эпизодах он двигается и говорит нарочито механически, но его смерть вызывает неподдельную грусть. И неспроста — если робот при взаимодействии с нами имитирует эмоции, мы начинаем воспринимать его как личность.
🤖 Группа психологов из Италии провела серию экспериментов с гуманоидным роботом iCub. В мире существует всего пара десятков таких машин. Их разрабатывает международный консорциум The RobotCub Project. Все они предназначены для исследований взаимодействия людей с антропоморфными машинами.
🦾 iCub метр высотой и в общих чертах повторяет геометрию человеческого тела. С помощью подвижных глаз и световых индикаторов на месте бровей и рта он способен имитировать мимику. Его пятипалые руки позволяют воспроизводить сложные жесты, а набор сервоприводов в ногах и теле — разнообразные позы.
🧑🏻💼👨🏻💼 Для общения с роботом были отобраны 119 добровольцев. До и после эксперимента они заполняли опросник Intentional Stance Test (IST), разработанный психологами несколько лет назад. Испытуемым требовалось ответить — из каких побуждений действуют роботы, запечатленные в различных бытовых ситуациях.
❤️⚙️ Вариантов ответа всегда два. Первый подразумевает чисто рациональный выбор машины. Второй же исходит из наличия у неё интенций и желаний. Например, изображение на котором робот выбирает один из разложенных перед ним инструментов, предлагается интерпретировать как
☺️ Испытуемых поделили на две группы. Членов экспериментальной робот встречал и радостно приветствовал, представлялся сам и знакомился с ними, удерживая зрительный контакт. Затем волонтёры просматривали совместно с iCub несколько коротких документальных фильмов. При этом робот бурно реагировал на происходящее на экране, изображая в соответствующих моментах радость или грусть.
😐 А вот с контрольной группой машина вела холодно и механистично. Во время сеанса iCub никак не реагировал на происходящее, не изображал эмоций, лишь периодически издавал компьютерное «пиканье».
📑 После сеансов испытуемые из обеих групп вновь отвечали на вопросник с интерпретацией намерений робота. Выяснилось, что те, кто взаимодействовал с демонстрировавшей живые и эмоциональные «антропоморфные» реакции машиной, намного чаще оценивали её действия как намеренные. Тогда как члены контрольной группы, наоборот, считали их запрограммированными.
🫂 По мнению психологов, это показывает, что совместное переживание эмоций заставляет людей считать роботов наделенными личностью, собственными потребностями и желаниями. Это подчеркивает важность имитации эмоций для роботов-компаньонов, занятых, например, поддержкой одиноких и престарелых людей.
❓ Но кажется, данные результаты могут внести ясность и в недавние дискуссии о «разумности» языковой модели LaMDA. Напомним, что работавший с ней в Google инженер Блейк Лемойн объявил систему разумной личностью. Возможно, он просто слишком долго взаимодействовал с чатботом, способным достоверно имитировать живую речь и человеческие эмоциональные реакции.
Почитать подробнее: научная статья в Technology, Mind, and Behavior.
#Робототехника, #Цифровизация_и_общество, #Психология_общения_с_роботами
В старом советском фильме «Гостья из будущего» одна из самых душераздирающих сцен — гибель робота-андроида Вертера. Во всех эпизодах он двигается и говорит нарочито механически, но его смерть вызывает неподдельную грусть. И неспроста — если робот при взаимодействии с нами имитирует эмоции, мы начинаем воспринимать его как личность.
🤖 Группа психологов из Италии провела серию экспериментов с гуманоидным роботом iCub. В мире существует всего пара десятков таких машин. Их разрабатывает международный консорциум The RobotCub Project. Все они предназначены для исследований взаимодействия людей с антропоморфными машинами.
🦾 iCub метр высотой и в общих чертах повторяет геометрию человеческого тела. С помощью подвижных глаз и световых индикаторов на месте бровей и рта он способен имитировать мимику. Его пятипалые руки позволяют воспроизводить сложные жесты, а набор сервоприводов в ногах и теле — разнообразные позы.
🧑🏻💼👨🏻💼 Для общения с роботом были отобраны 119 добровольцев. До и после эксперимента они заполняли опросник Intentional Stance Test (IST), разработанный психологами несколько лет назад. Испытуемым требовалось ответить — из каких побуждений действуют роботы, запечатленные в различных бытовых ситуациях.
❤️⚙️ Вариантов ответа всегда два. Первый подразумевает чисто рациональный выбор машины. Второй же исходит из наличия у неё интенций и желаний. Например, изображение на котором робот выбирает один из разложенных перед ним инструментов, предлагается интерпретировать как
«Он возьмет ближайший» или «Ему очень нравится пользоваться инструментами».☺️ Испытуемых поделили на две группы. Членов экспериментальной робот встречал и радостно приветствовал, представлялся сам и знакомился с ними, удерживая зрительный контакт. Затем волонтёры просматривали совместно с iCub несколько коротких документальных фильмов. При этом робот бурно реагировал на происходящее на экране, изображая в соответствующих моментах радость или грусть.
😐 А вот с контрольной группой машина вела холодно и механистично. Во время сеанса iCub никак не реагировал на происходящее, не изображал эмоций, лишь периодически издавал компьютерное «пиканье».
📑 После сеансов испытуемые из обеих групп вновь отвечали на вопросник с интерпретацией намерений робота. Выяснилось, что те, кто взаимодействовал с демонстрировавшей живые и эмоциональные «антропоморфные» реакции машиной, намного чаще оценивали её действия как намеренные. Тогда как члены контрольной группы, наоборот, считали их запрограммированными.
🫂 По мнению психологов, это показывает, что совместное переживание эмоций заставляет людей считать роботов наделенными личностью, собственными потребностями и желаниями. Это подчеркивает важность имитации эмоций для роботов-компаньонов, занятых, например, поддержкой одиноких и престарелых людей.
❓ Но кажется, данные результаты могут внести ясность и в недавние дискуссии о «разумности» языковой модели LaMDA. Напомним, что работавший с ней в Google инженер Блейк Лемойн объявил систему разумной личностью. Возможно, он просто слишком долго взаимодействовал с чатботом, способным достоверно имитировать живую речь и человеческие эмоциональные реакции.
Почитать подробнее: научная статья в Technology, Mind, and Behavior.
#Робототехника, #Цифровизация_и_общество, #Психология_общения_с_роботами
👍12🤔5🔥1💩1
ИИ научили понимать физику на уровне трёхмесячного младенца. На самом деле это огромное достижение
👶 Играя и экспериментируя, младенцы быстро усваивают физические законы окружающего их мира. Например, они понимают, что объект, скрытый за препятствием, никуда не исчезает. Когда такое происходит при демонстрации фокуса — малыши выказывают сильное удивление.
🤖 Подобное интуитивное понимание физики необходимо и машинам для ориентации в реальном мире. Ряд специалистов считает, что без активного освоения и деятельности в условиях сложных сред из материальных объектов принципиально невозможно появление сильного или общего ИИ (AGI).
🤱🏻 Поэтому в компании DeepMind предложили модель PLATO (Physics Learning through Auto-encoding and Tracking Objects) или «Обучение физике с помощью автокодировщика и отслеживания объектов». Подход к её тренировке вдохновлен развитием восприятия физических отношений у младенцев.
🔵🔴 Для начала исследователи сгенерировали датасет Physical Concepts. В нём 300 тыс. видеороликов простых взаимодействий объектов: качение шара с горки, столкновение пары шаров и т.д.
↗️↘️Сама PLATO состоит из двух модулей. Первый отвечает за «восприятие» — кодирует изображения и формирует эмбеддинги — сжатые векторные представления. Затем они поступают в динамический модуль, который на их основе учится предсказывать поведение объектов — координаты, векторы скорости и т.п.
⁉️ Построен он с использованием «долгой краткосрочной памяти» (Long short-term memory, LSTM). В ней сохраняется как текущий, так и ряд предыдущих эмбеддингов, что позволяет успешно предсказывать последующие. Интересно, что в случае несовпадения предсказаний с происходящим на видеозаписи, система отмечала «удивление» — тем более выраженное, чем сильнее оказалось отклонение.
В ходе обучения система развила все базовые физические концепции, такие как непрерывность движения, постоянство структуры (неспособность твердых тел исчезать или проходить одно сквозь другое), сохранение формы, неизменность свойств (например, упругости) объектов и т.п., которые есть у младенцев 2,5 - 3 месяцев от роду. Правда достичь их удалось всего за 28 часов зрительного опыта.
Почитать подробнее: для всех в блоге и для продвинутых в научном журнале Nature Human Behaviour
Датасет Physical Concepts доступен на GitHub.
#Машинное_обучение, #Сильный_искусственный_интеллект
👶 Играя и экспериментируя, младенцы быстро усваивают физические законы окружающего их мира. Например, они понимают, что объект, скрытый за препятствием, никуда не исчезает. Когда такое происходит при демонстрации фокуса — малыши выказывают сильное удивление.
🤖 Подобное интуитивное понимание физики необходимо и машинам для ориентации в реальном мире. Ряд специалистов считает, что без активного освоения и деятельности в условиях сложных сред из материальных объектов принципиально невозможно появление сильного или общего ИИ (AGI).
🤱🏻 Поэтому в компании DeepMind предложили модель PLATO (Physics Learning through Auto-encoding and Tracking Objects) или «Обучение физике с помощью автокодировщика и отслеживания объектов». Подход к её тренировке вдохновлен развитием восприятия физических отношений у младенцев.
🔵🔴 Для начала исследователи сгенерировали датасет Physical Concepts. В нём 300 тыс. видеороликов простых взаимодействий объектов: качение шара с горки, столкновение пары шаров и т.д.
↗️↘️Сама PLATO состоит из двух модулей. Первый отвечает за «восприятие» — кодирует изображения и формирует эмбеддинги — сжатые векторные представления. Затем они поступают в динамический модуль, который на их основе учится предсказывать поведение объектов — координаты, векторы скорости и т.п.
⁉️ Построен он с использованием «долгой краткосрочной памяти» (Long short-term memory, LSTM). В ней сохраняется как текущий, так и ряд предыдущих эмбеддингов, что позволяет успешно предсказывать последующие. Интересно, что в случае несовпадения предсказаний с происходящим на видеозаписи, система отмечала «удивление» — тем более выраженное, чем сильнее оказалось отклонение.
В ходе обучения система развила все базовые физические концепции, такие как непрерывность движения, постоянство структуры (неспособность твердых тел исчезать или проходить одно сквозь другое), сохранение формы, неизменность свойств (например, упругости) объектов и т.п., которые есть у младенцев 2,5 - 3 месяцев от роду. Правда достичь их удалось всего за 28 часов зрительного опыта.
Почитать подробнее: для всех в блоге и для продвинутых в научном журнале Nature Human Behaviour
Датасет Physical Concepts доступен на GitHub.
#Машинное_обучение, #Сильный_искусственный_интеллект
Deepmind
Intuitive physics learning in a deep-learning model inspired by developmental psychology
Although recent years have seen striking advances in artificial intelligence (AI), it is increasingly remarked that most of this progress is limited to narrow domains. Less success has been gained in capturing what are broadly referred to as commonsense…
👍15🔥8😁2❤1💩1
Не утихают разговоры о том, что DALL-E 2 и другие новейшие модели для генерации изображений по текстовым описаниям убьют профессию иллюстратора. Я с этим категорически не согласна. Наиболее умные и продвинутые дизайнеры уже активно используют ИИ для обработки своих изображений и быстрого создания прототипов визуалов.
Будущее — за кентавр-системами. Это будет гармоничное сочетание профессионала-человека и целого арсенала инструментов на основе искусственного интеллекта. Нечто подобное описывал Виктор Пелевин в романе S.N.U.F.F., когда от орка Грыма требовалось дать дикую, насыщенную эмоциями интенцию тексту, а алгоритм-доводчик превращал её в гладкую статью любого выбранного жанра. Дионисийское человеческое начало, уложенное в аполлоническое машинное.
Впрочем, внимательно следить за трендами надо и специалистам по инфографике. Генеративные модели уже могут и в неё. Да, пока это скорее забавный эксперимент, но скоро и здесь дизайнеры вполне смогут прототипировать и черпать вдохновение для своих работ.
Так, дизайнер, специалист по инфографике и главный редактор Journal of the Data Visualization Society — Nightingale в честь Дня освобождения рабов сделал DALL-E 2 запрос: «
Восемь инфографик получились вполне визуально интересными, хотя и не отображающими точно данные, период, суть явления, тип графика или изобразительный стиль Нойрата. Но всё ещё впереди. Вполне возможно крупнейшая вариация Parti даже сейчас справится гораздо лучше.
Будущее — за кентавр-системами. Это будет гармоничное сочетание профессионала-человека и целого арсенала инструментов на основе искусственного интеллекта. Нечто подобное описывал Виктор Пелевин в романе S.N.U.F.F., когда от орка Грыма требовалось дать дикую, насыщенную эмоциями интенцию тексту, а алгоритм-доводчик превращал её в гладкую статью любого выбранного жанра. Дионисийское человеческое начало, уложенное в аполлоническое машинное.
Впрочем, внимательно следить за трендами надо и специалистам по инфографике. Генеративные модели уже могут и в неё. Да, пока это скорее забавный эксперимент, но скоро и здесь дизайнеры вполне смогут прототипировать и черпать вдохновение для своих работ.
Так, дизайнер, специалист по инфографике и главный редактор Journal of the Data Visualization Society — Nightingale в честь Дня освобождения рабов сделал DALL-E 2 запрос: «
Визуализация данных об экономическом прогрессе в афро-американском сообществе начиная с 1886 года в стиле работ Отто Нойрата» (“Data visualization about economic progress in the African-American community since 1886 as designed by Otto Neurath”). Восемь инфографик получились вполне визуально интересными, хотя и не отображающими точно данные, период, суть явления, тип графика или изобразительный стиль Нойрата. Но всё ещё впереди. Вполне возможно крупнейшая вариация Parti даже сейчас справится гораздо лучше.
🔥12👍2🤔1💩1