Sber AI – Telegram
Sber AI
39.3K subscribers
2.42K photos
620 videos
1 file
2.05K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
Богиню обучили школьной математике

Появившиеся за последние годы крупномасштабные модели обработки естественного языка оказались исключительно универсальны. Обученные на больших массивах разнообразных данных, они отлично проявляют себя и в анализе текстов, и в генерации программного кода, и в ответах на вопросы при ведении свободного диалога с пользователем. Однако стоит сочетать обычный текст с математическим, — и они уже не справляются. Задачка по геометрии школьного уровня ставит в тупик все эти сложные системы.

🔢 Количественные рассуждения (Quantitative Reasoning) требуют понимания математических символов, формул и констант, а также реальных отношений физического мира и хотя бы простейших вычислений. Всё это лежит за пределами возможностей даже таких мощных моделей как BERT или GPT-3. Многие специалисты полагали, что языковым моделям математика в принципе недоступна, или же потребует существенных изменений в их архитектуре, например, внедрения отдельных модулей для вычислений.

🧖🏼‍♀️ Однако на днях Google Research представили новый алгоритм Minerva (Минерва — римский вариант богини мудрости Афины). В его основе лежит языковая модель PaLM, в вариантах на 62 и 530 миллиардов параметров. Для понимания «языка» математики её дополнительно обучали на специально составленном датасете из 118 Гб академических статей, в которых используется математическая нотация в популярных форматах LaTeX, MathJax и др.

📄 Дело в том, что в отличие от обычного текста, для математического крайне важно форматирование (в частности, взаимное расположение знаков и чисел), которое обычно стирается при подготовке данных для обучения. Создатели же Minerva, наоборот, максимально старались сохранить его.

Кроме того, для выбора правильного решения в модели используется новый метод «самосогласованности» (Self-consistency method). Он включает три шага:

1️⃣ В качестве затравки (prompt) используется цепочка размышлений. Например, вопрос: «Три машины стояли на стоянке. Две приехали. Стало ли их больше?». И рассуждение-ответ: «Так как три машины было и две добавилось, значит 3 + 2 = 5. Следовательно, машин стало больше».

2️⃣ В ответ на затравку модель генерирует множество альтернативных цепочек рассуждений. Среди них могут быть как имеющие «неправильные» ответы (4 или 6). Так и «правильный» — 5.

3️⃣ В конце включается специальный механизм «большинства голосов». Обычно языковые модели генерируют набор ответов на запрос и выбирают тот, который считают наиболее вероятным. Однако Minerva действует чуть иначе — она отбирает цепочку рассуждений с ответом, который появлялся чаще других.

🧾 Дообученная модель испытывалась на нескольких специализированных бенчмарках с задачами из области науки, технологий, инженерии и математики (Science, Technology, Engineering, and Mathematics, STEM). Например, бенчмарке MATH, который содержит задания по математике уровня старшей школы. С ними Minerva успешно справлялась в 50% случаев, тогда как прежние SOTA-модели оставались в пределах нескольких процентов.

Почитать подробнее: препринт в arXiv.

Пограться: демо на GitHub.

#Машинное_обучение, #Обработка_естественного_языка, #Образование
👍25🔥41🤔1🎉1🤮1
«Всё взять и поделить!»

Искусственный интеллект нашёл наиболее справедливый вариант распределения доходов. Понравилось даже людям.

💰 Одна из ключевых проблем человеческого общества — справедливое распределение ресурсов. Различные идеологии предлагают разные решения. Либертарианство подразумевает, что прибыль всегда пропорциональна вложениям. Иными словами, чем больше твой вклад в капитал, тем выше дивиденды. Однако такой подход даёт серьёзное преимущество тем, кто уже обладает большими средствами.

💵 Эгалитарное распределение — в крайних вариантах, всем поровну — чревато потерей стимулов к экономической активности и часто приводит к «трагедии общин», когда каждый готов извлекать максимальную прибыль из общих ресурсов, но не нести связанные с ними издержки. Есть ли третий путь? И могут ли машины быть более экономически справедливы, чем люди?

💶 Компания DeepMind совместно с британскими учёными разработала экономический симулятор. На первом этапе в него играли только люди. Четверо участников получали разное количество денег. Они могли сохранить их у себя или вложить в общий фонд, который периодически выплачивает проценты по этим инвестициям.

💷 Доход фонда распределялся между игроками, в зависимости от выбранной стратегии. При «эгалитарном» распределении все получали поровну. При «либертарианском» — пропорционально сделанным вкладам. А при третьем варианте — смешанном или «либерально-эгалитарном» — в зависимости от того, какую долю собственного капитала вложил каждый игрок. (Например, при вложении 50% от $1000 и 50% от $10000 дивиденды будут равны).

💴 Учёные провели множество сеансов этой игры с 5000 добровольцами на различных краудсорсинговых платформах. Условия варьировались: разная степень неравенства в первоначальном распределении средств между игроками с различными вариантами дележа процентов от общего фонда. По итогам всех игр участники голосовали, какой вариант они считают наиболее справедливым, имитируя демократический процесс.

🤖 Полученные результаты использовались для обучения аналогичной игре интеллектуальных программных агентов, которые затем провели тысячи виртуальных матчей друг с другом. При этом за их игрой всё время наблюдал ещё один алгоритм искусственного интеллекта. Он регулярно менял условия в зависимости от голосования агентов и оценок справедливости итогового распределения денежных средств.

💸 В итоге система пришла к распределению, близкому к смешанному, «либерально-эгалитарному» варианту. Агенты получали доход в зависимости от доли собственного капитала, вложенной в общий фонд, однако лишь в том случае, если она составляла не менее половины от всех их средств.

🏝 Далее учёные вновь провели серию игр с людьми. Выяснилось, что живые игроки также чаще голосовали за такой же вариант распределения, считая его наиболее справедливым. Судя по всему, установление минимальной планки вложений не позволяет самым богатым игрокам, потратив совсем небольшую долю своих средств, «перебить» вложения бедных, инвестировавших куда большую часть своего капитала. А приравнивание дивидендов к доле капитала — в итоге сбалансировать распределение средств и сделать всех богатыми в равной степени.

Почитать подробнее: научная статья в Nature Human Behavior

#Цифровизация_и_общество, #Интеллектуальные_агенты, #Теория_игр
👍40🔥9🤔2
Немного инфографики к посту выше.
👍14🔥2🤔2
Кажется, сильно много сложных новостей о моделях сразу 🙈 Поэтому держите красавчика, которого нагенерил Kandinsky 😍

Запрос «Чебурашка в скафандре».

Особенно умилительно, как алгоритм предусмотрел специальные отверстия в шлемофоне для его больших ушек 🥰

Наш супергерой — Чебунавт!
36👍10🔥6🥰3😱3
ИИ научили предсказывать будущее. Правда точность прогнозов всё ещё хуже «мудрости толпы»

В открытый доступ выложен датасет Autocast. С его помощью можно обучить языковые модели прогнозировать события из области политики, экономики, науки и технологий.

🏛 В работе над Autocast участвовала команда учёных из Оксфорда, Беркли и Массачусетского технологического института. Они использовали архивы Metaculus, Good Judgment Open и CSET Foretell. Всё это общественные краудсорсинговые проекты, чьи участники состязаются в предсказаниях будущих событий, зарабатывая рейтинговые очки.

Итогом стал массив из 6707 комплексных единиц, каждая из которых содержит:

1️⃣ вопрос (например, запустит ли Северная Корея баллистическую ракету с дальностью поражения 10 тыс. км?);

2️⃣ временной промежуток от момента задания вопроса до даты предсказанного события (скажем, с 01.01.2021 до 01.01.2022);

3️⃣ ответ на вопрос (утверждение «правда» или «ложь», либо один из пунктов в ответе с множественным выбором, а также иногда точная дата события или количество);

4️⃣ «мудрость толпы» в виде процента предсказывающих данное событие пользователей платформ в те или иные моменты времени, а также в зависимости от текущих новостей.

📈 Полученный датасет применили для обучения широкого спектра моделей, как способных к информационному поиску (Fusion-in-Decoder), так и без него (UnifiedQA-v2 и T5).

🔜 Наиболее сложный вариант — FID Temporal — сочетал Fusion-in-Decoder с языковой моделью-трансформером GPT-2, которая получала на вход эмбеддинги — машиночитаемые векторные представления главных новостных сюжетов за соответствующие даты. Это позволяло ей точно так же делать прогнозы и уточнять их на протяжении длительного отрезка «симулированного времени», как и в прошлом людям.

Данная система продемонстрировала и наибольшую эффективность среди всех моделей с точностью предсказаний в 37,8%, что более чем вдвое превосходит случайное угадывание — 18,8%. Однако сильно уступает «мудрости толпы». Совокупный прогноз на основе оценок множества людей точен в 82,5% случаев.

Тем не менее эксперименты показали, что с увеличением числа расчётных параметров точность машинных предсказаний растёт. А значит при увеличении размеров датасетов и самих языковых моделей, сложных архитектурах и тонкой настройки (файнтьюнов) — можно добиться существенного прогресса в предсказаниях будущих событий.

Главное, чтобы прогнозы ИИ люди не стали считать истиной в последней инстанции!

Почитать подробнее: препринт на Arxiv

#Прогнозные_системы, #Обработка_естественного_языка
👍14🤔4🔥1
Machines Can See — и ты посмотри

На YouTube выложили записи всех докладов с конференции Machines Can See 2022. Теперь полностью доступны и научная, и бизнес-программы.

ЧТО ПОНРАВИЛОСЬ ЛИЧНО МНЕ:

Во-первых, рекомендую посмотреть в паре два доклада — Александра Чигорина из VisionLabs про распознавание динамических жестов, типа свайпов по воздуху или прокрутки «колеса громкости». А затем сразу Александра Капитанова из SberDevices, который посмотрел на распознавание жестов с точки зрения управления гаджетами, а также рассказал про создание недавно опубликованного датасета HaGRID (HAnd Gesture Recognition Image Dataset) (я, кстати, подробно писала о нём).

Далее, феерическое выступление Андрея Незнамова, председателя национальной комиссии по этике искусственного интеллекта. Образец евангелиста, способного популярно и на интересных исторических кейсах рассказать о трудной и неочевидной для многих инженеров и продактов теме.

Классный доклад Андрея Кузнецова из Sber AI, где он подробно рассказал о создании генеративной модели Kandinsky (и о ней я тоже писала), а также обозрел ряд крутых файнтюнов и показал фантастически красивые генерации.

Выступление Кузнецова хорошо дополняет и продолжает доклад его коллеги по Sber AI Дениса Димитрова о мультимодальном обучении и мультизадачных архитектурах. Вы поймёте, как одни и те же модели можно использовать для обработки разной информации, например, тех же языковых — для естественной речи, кода, временных рядов и т.д. И как предобученные большие модели можно быстро адаптировать для конкретных задач, экономя ресурсы и время.

А вообще, рекомендую посмотреть всё! Сама я этого на конференции сделать не успела, буду теперь вечерами наверстывать 😉
👍128🔥2🥰1
В рекламных агентствах ведь не только креативный дизайн придумывают, но и креативный подход могут создать к любым процессам. Так, в «Студии Артемия Лебедева» год назад появился новый дизайнер логотипов Николай Иронов. Его работы полюбились многим клиентам, а потом неожиданно выяснилось, что все их создал не дизайнер. Не волшебная палочка, конечно, накреативила, а искусственный интеллект- нейронная сеть.

Нельзя не отметить, что все клиенты работами неизвестного креативщика были довольны, как обычно людям нравятся произведения современного искусства. Да и сложно представить что-то более современное, чем иронично-нейронные творения.

Похожая история произошла в Лондоне. Три брата Джолион, Джордж и Доминик задумали переосмыслить логотипы всех известных брендов. Хорошо получилось или нет, каждый может лично оценить в галерее. Хотя Ray-ban, например, мне понравился. А вам?
😁10👍62🔥2🥰1💩1
Страдания робота Вертера

В старом советском фильме «Гостья из будущего» одна из самых душераздирающих сцен — гибель робота-андроида Вертера. Во всех эпизодах он двигается и говорит нарочито механически, но его смерть вызывает неподдельную грусть. И неспроста — если робот при взаимодействии с нами имитирует эмоции, мы начинаем воспринимать его как личность.

🤖 Группа психологов из Италии провела серию экспериментов с гуманоидным роботом iCub. В мире существует всего пара десятков таких машин. Их разрабатывает международный консорциум The RobotCub Project. Все они предназначены для исследований взаимодействия людей с антропоморфными машинами.

🦾 iCub метр высотой и в общих чертах повторяет геометрию человеческого тела. С помощью подвижных глаз и световых индикаторов на месте бровей и рта он способен имитировать мимику. Его пятипалые руки позволяют воспроизводить сложные жесты, а набор сервоприводов в ногах и теле — разнообразные позы.

🧑🏻‍💼👨🏻‍💼 Для общения с роботом были отобраны 119 добровольцев. До и после эксперимента они заполняли опросник Intentional Stance Test (IST), разработанный психологами несколько лет назад. Испытуемым требовалось ответить — из каких побуждений действуют роботы, запечатленные в различных бытовых ситуациях.

❤️⚙️ Вариантов ответа всегда два. Первый подразумевает чисто рациональный выбор машины. Второй же исходит из наличия у неё интенций и желаний. Например, изображение на котором робот выбирает один из разложенных перед ним инструментов, предлагается интерпретировать как «Он возьмет ближайший» или «Ему очень нравится пользоваться инструментами».

☺️ Испытуемых поделили на две группы. Членов экспериментальной робот встречал и радостно приветствовал, представлялся сам и знакомился с ними, удерживая зрительный контакт. Затем волонтёры просматривали совместно с iCub несколько коротких документальных фильмов. При этом робот бурно реагировал на происходящее на экране, изображая в соответствующих моментах радость или грусть.

😐 А вот с контрольной группой машина вела холодно и механистично. Во время сеанса iCub никак не реагировал на происходящее, не изображал эмоций, лишь периодически издавал компьютерное «пиканье».

📑 После сеансов испытуемые из обеих групп вновь отвечали на вопросник с интерпретацией намерений робота. Выяснилось, что те, кто взаимодействовал с демонстрировавшей живые и эмоциональные «антропоморфные» реакции машиной, намного чаще оценивали её действия как намеренные. Тогда как члены контрольной группы, наоборот, считали их запрограммированными.

🫂 По мнению психологов, это показывает, что совместное переживание эмоций заставляет людей считать роботов наделенными личностью, собственными потребностями и желаниями. Это подчеркивает важность имитации эмоций для роботов-компаньонов, занятых, например, поддержкой одиноких и престарелых людей.

Но кажется, данные результаты могут внести ясность и в недавние дискуссии о «разумности» языковой модели LaMDA. Напомним, что работавший с ней в Google инженер Блейк Лемойн объявил систему разумной личностью. Возможно, он просто слишком долго взаимодействовал с чатботом, способным достоверно имитировать живую речь и человеческие эмоциональные реакции.

Почитать подробнее: научная статья в Technology, Mind, and Behavior.

#Робототехника, #Цифровизация_и_общество, #Психология_общения_с_роботами
👍12🤔5🔥1💩1
ИИ научили понимать физику на уровне трёхмесячного младенца. На самом деле это огромное достижение

👶 Играя и экспериментируя, младенцы быстро усваивают физические законы окружающего их мира. Например, они понимают, что объект, скрытый за препятствием, никуда не исчезает. Когда такое происходит при демонстрации фокуса — малыши выказывают сильное удивление.

🤖 Подобное интуитивное понимание физики необходимо и машинам для ориентации в реальном мире. Ряд специалистов считает, что без активного освоения и деятельности в условиях сложных сред из материальных объектов принципиально невозможно появление сильного или общего ИИ (AGI).

🤱🏻 Поэтому в компании DeepMind предложили модель PLATO (Physics Learning through Auto-encoding and Tracking Objects) или «Обучение физике с помощью автокодировщика и отслеживания объектов». Подход к её тренировке вдохновлен развитием восприятия физических отношений у младенцев.

🔵🔴 Для начала исследователи сгенерировали датасет Physical Concepts. В нём 300 тыс. видеороликов простых взаимодействий объектов: качение шара с горки, столкновение пары шаров и т.д.

↗️↘️Сама PLATO состоит из двух модулей. Первый отвечает за «восприятие» — кодирует изображения и формирует эмбеддинги — сжатые векторные представления. Затем они поступают в динамический модуль, который на их основе учится предсказывать поведение объектов — координаты, векторы скорости и т.п.

⁉️ Построен он с использованием «долгой краткосрочной памяти» (Long short-term memory, LSTM). В ней сохраняется как текущий, так и ряд предыдущих эмбеддингов, что позволяет успешно предсказывать последующие. Интересно, что в случае несовпадения предсказаний с происходящим на видеозаписи, система отмечала «удивление» — тем более выраженное, чем сильнее оказалось отклонение.

В ходе обучения система развила все базовые физические концепции, такие как непрерывность движения, постоянство структуры (неспособность твердых тел исчезать или проходить одно сквозь другое), сохранение формы, неизменность свойств (например, упругости) объектов и т.п., которые есть у младенцев 2,5 - 3 месяцев от роду. Правда достичь их удалось всего за 28 часов зрительного опыта.

Почитать подробнее: для всех в блоге и для продвинутых в научном журнале Nature Human Behaviour

Датасет Physical Concepts доступен на GitHub.

#Машинное_обучение, #Сильный_искусственный_интеллект
👍15🔥8😁21💩1
Не утихают разговоры о том, что DALL-E 2 и другие новейшие модели для генерации изображений по текстовым описаниям убьют профессию иллюстратора. Я с этим категорически не согласна. Наиболее умные и продвинутые дизайнеры уже активно используют ИИ для обработки своих изображений и быстрого создания прототипов визуалов.

Будущее — за кентавр-системами. Это будет гармоничное сочетание профессионала-человека и целого арсенала инструментов на основе искусственного интеллекта. Нечто подобное описывал Виктор Пелевин в романе S.N.U.F.F., когда от орка Грыма требовалось дать дикую, насыщенную эмоциями интенцию тексту, а алгоритм-доводчик превращал её в гладкую статью любого выбранного жанра. Дионисийское человеческое начало, уложенное в аполлоническое машинное.

Впрочем, внимательно следить за трендами надо и специалистам по инфографике. Генеративные модели уже могут и в неё. Да, пока это скорее забавный эксперимент, но скоро и здесь дизайнеры вполне смогут прототипировать и черпать вдохновение для своих работ.

Так, дизайнер, специалист по инфографике и главный редактор Journal of the Data Visualization Society — Nightingale в честь Дня освобождения рабов сделал DALL-E 2 запрос: «Визуализация данных об экономическом прогрессе в афро-американском сообществе начиная с 1886 года в стиле работ Отто Нойрата» (“Data visualization about economic progress in the African-American community since 1886 as designed by Otto Neurath”).

Восемь инфографик получились вполне визуально интересными, хотя и не отображающими точно данные, период, суть явления, тип графика или изобразительный стиль Нойрата. Но всё ещё впереди. Вполне возможно крупнейшая вариация Parti даже сейчас справится гораздо лучше.
🔥12👍2🤔1💩1