Марат пишет про науку (в основном) – Telegram
Марат пишет про науку (в основном)
820 subscribers
133 photos
14 videos
1 file
756 links
Кидаю сюда ссылки на свои тексты, рассуждаю про физику, искусственный интеллект и их связь с видеоиграми
@zumrus
Download Telegram
Два года назад я «заказал» нейросети (на тот момент, ранней версии Midjourney) аватарку с промптом в виде названия канала. За это время генеративные модели скакнули вперёд, да и желание обновиться назрело.

Новую аву мне нарисовала сетка, которую всем желающим предоставляет стартап neural.love. Команда этой маленькой компании, кстати, состоит из людей, которые делали когда-то милый моему сердцу TJournal, поэтому здесь есть и эмоциональный момент тоже
🔥9👍7🍓1
Я сейчас в Санкт-Петербурге, слушаю лекции на Летней школе Института искусственного интеллекта AIRI для студентов и аспирантов «Лето с AIRI», которая стартовала сегодня. В прошлом году партнёром AIRI был Иннополис, на этот раз школу помогает делать ИТМО. Питер, конечно, сильно дальше, но мне всё равно удалось выделить время и приехать.

На фото доклад руководителя лаборатории Fusion Brain Андрея Кузнецова, который рассказывает о том, чем сильный ИИ отличается от слабого.

Коридоры ИТМО, к слову, вызывают у меня приятное чувство ностальгии. Я гулял по ним в 2009 и 2010 годах, когда участвовал в конференциях по оптике
👍18🔥52🍓1
Media is too big
VIEW IN TELEGRAM
Как любитель видеоигр и искусственного интеллекта, не могу пройти мимо этой новости.

Исследователи из Google и университета Тель-Авива продемонстрировали игровой движок, который полностью отрисовывает кадры с помощью нейросетей. В качестве объекта для опытов они выбрали первый DOOM.

Результаты видны на видео. Если честно, они напоминают мне сон геймера из 90-х, который переиграл в свою любимую игру: картинка немного плавающая, объекты исчезают и появляются, но, не зная, что это нейросети, на первый взгляд легко обмануться: даже патроны и HP уменьшаются согласно событиям игры.

Впрочем, это не совсем игра, в которую можно поиграть. Сначала авторы научили играть в дум RL-агента, а затем использовали записи этих игр, чтобы обучить диффузионные модели предсказывать следующий кадр. Таким образом, геймплей, который мы видим — это буквально сон нейросети. Однако в будущем этот сон можно будет обусловить на управление, и тогда мы получим настоящий игровой нейродвижок.

Подробности можно почитать по ссылке.

Думаю, уже можно смело объявить, что DOOM запустили на нейросетях!
🔥12😁611😱1🍓1
Недавно я рассказывал вам об успехах одной из команд AIRI, а именно лаборатории Fusion Brain, на поприще создания методов, которые бы умели эффективно и быстро редактировать изображения с помощью нейросетей. Особенностью той работы была в том, что исследователи строили модели на основе GAN’ов или, по-русски, генеративно-состязательных сетей (о них я тоже писал).

Но GAN — это не единственная нейросеть-рисовалка. Другой популярный подход — это диффузионные модели, которые также часто гостят на моём канале. У них совсем другая архитектура, поэтому и принципы редактирования с их помощью иные. Но это не помешало исследователям из Fusion Brain добиться успехов и там.

Подробнее об этом рассказывает на Хабре один из членов команды Вадим Титов. Как и в прошлый раз, ребята подготовили демо, с которым может поиграться любой желающий
👍3🔥21🍓1
Обучение с подкреплением — это когда ИИ-модель учится методом проб и ошибок, а вы подсказываете ей, правильно она поступает или нет. Про него часто упоминают, говоря о роботах или о победе компьютера над человеком в очередной игре (настольной или компьютерной).

Но применяют этот метод куда шире, например, для поиска новых лекарств. Наилучшим решением в этом направлении 2021 году стала модель FREED, которая для данного белка поатомно собирала (или, как говорят в области ИИ, генерировала) нужный лиганд (теоретически, разумеется).

Но оказалось, что во FREED ещё много багов и недостатков. Это выяснила команда исследователей из AIRI. Они не только исправили все ошибки, но и сильно улучшили модель, назвав своё детище FREED++.

Подробностями разработки делится на Хабре один из членов команды, а я, как водится, помог ему выпустить этот текст
10👍5
Сегодня Google Translate или ему подобные средства машинного перевода стали обыденным инструментом для большинства людей, использующих Интернет. Завтра обыденными станут чатботы по типу ChatGPT (а для кого-то уже). Во всех этих технологиях применяются большие языковые модели или LLMки.

Чтобы обучить LLM, вам нужно много текста. И если на английском или русском написано много всего разного, то вот собрать большой датасет для удмуртского или алеутского уже сложнее. Хотя именно исчезающим языкам хорошая модель нужнее всего — так можно сохранить хотя бы их цифрового носителя-нейросеть. Ну и необходимость в переводчиках и ИИ-ассистентах для говорящих на них тоже имеется. Значит ли это, что такие малоресурсные языки невозможно смоделировать?

Оказалось, что помочь здесь может технология трансферного обучения или обучения с переносом знаний. Это когда модель предобучается на одном обширном типе данных, а потом доучивается на более специализированном, но бедном датасете. Такая схема работает, если оба типа данных (или домена, как их называют в ML) близки. Например, я уже рассказывал, как это работает с картинками.

К языкам трансферное обучение тоже применимо, однако традиционно принято предобучать LLM на английском. Исследователи из AIRI и Сколтеха в ходе масштабных экспериментов с почти пятью тысячами пар языков, включая исчезающие, выяснили, что это не самый оптимальный язык-донор: вместо него лучше использовать африкаанс или словенский. Они не только выяснили, какие факторы делают перенос знаний наиболее эффективным, но поставили рекорд по числу смоделированных языков.

Рассказываю об исследовании в блоге на сайте AIRI
🔥11👍4
Кстати, а ещё сегодня исполняется 11 лет с момента выхода на консоли легендарной игры Grand Theft Auto V. Лично для меня эта игра остаётся знаковой, так как в течение пары лет она занимала довольно большую часть моего игрового досуга, главным образом благодаря её онлайн режиму.

Но причём здесь наука? Сейчас расскажу.

Ещё в период, когда я активно следил за научно-новостной повесткой, я часто видел упоминание GTA V в своём инфополе. То её проверяли на стимулы к агрессии у игроков, то использовали в качестве полигона для нейросетей.

В честь знаменательной даты я решил исследовать, что там по научным публикациям с упоминанием Пятёрки. Поскольку к Scopus доступа нынче нет, а Google Scholar слишком уж демократичный, я воспользовался платформой openalex.org. Оказалось, что на момент написания этого поста Grand Theft Auto V фигурирует в 743 статьях, книгах и диссертациях, и ещё 131 раза её указывали как Grand Theft Auto 5.

Что интересно: в рубрикаторе лидируют, конечно, социальные науки, но дальше плотным строем идут различные инженерные и компьютерные направления, такие как, к примеру, Computer Vision (см картинку к посту). Примечательно также, что последние годы число статей лишь растёт. Лично меня всё это очень радует, поскольку я пребываю в уверенности, что современная академия ещё далеко не до конца раскрыла ресурсы, которые могут ей предоставить интерактивные развлечения.

Поздравляю именинницу и всех причастных!
🔥15🎉5👍321🫡1
Как научить робота строить маршрут в сложном лабиринте? Сегодня эту решение этой задачи разбивают на две части.

Сначала какой-нибудь классический алгоритм решает упрощенную задачу, предлагая траекторию в виде ломаной прямой (например алгоритм A*, про который я пару раз рассказывал здесь).

Но настоящий робот — это не точка, а целый агретат, обычно на колёсах, который и размер имеет, и резко повернуть не может. Поэтому нужна вторая часть вычислительной схемы — алгоритм, который адаптирует ломаную под эти ограничения, делая её гладкой и не давая роботу сталкиваться с препятствиями.

В свежем Хабре, который я помог выпустить сегодня, один из исследователей AIRI рассказывает, как их группа приспособила под эту задачу нейросети
👍4🔥2
Вообще-то писать рецензии на нон-фикшн литературу — это не то, что я регулярно практикую, и в этом посте я не собираюсь этого делать. Но не упомянуть книгу, которую я недавно закончил читать, не могу. Речь идёт о книге Нассима Талеба под названием «Черный лебедь. Под знаком непредсказуемости», посвященную случайностям и неопределённостям и их влиянию на сложные системы.

Тезисно: случайности бывают двух типов. Первый тип регулируется нормальным распределением, при котором шанс встретить аномалию сверхэкспоненциально уменьшается по мере удаления от среднего значения — обычно у этого есть какие-либо естественные причины. Во втором случае распределения менее формализованы, но обычно похожи на степенной закон с плавающей степенью — такое наблюдается в средах, где нет физических ограничений на масштаб величин, например, в финансах.

Если продраться через самолюбование автора собой, оскорбления коллег и сведения счётов с оппонентами, из книги можно усвоить важную мысль: со вторым случаем мы сталкиваемся гораздо чаще, чем нам кажется и хочется, и применение тут теорий на основе нормального распределения создаёт опасную иллюзию, что мы понимаем сути процессов при реальном отсутствии такового понимания. Лично я после знакомства с этой книгой стал не только с подозрением относится к экономическим теориям, которые хает автор, но и даже к тому, как у нас в физике считают ошибки (но, надеюсь, беспочвенно).

Взяться за эту книгу меня побудило две вещи. Сначала мне её рекомендовал один авторитетный для меня человек, а на следующий же день я натолкнулся на ссылку на эту книгу в одной из свежих статей в Nature
👍12🤔3🔥1
Вдогонку.

То издание, которое я читал, вышло в 2007 году. В это время ещё не были изобретены трансформеры, генеративно‑состязательные нейросети и большинство архитектур, которые прямо сейчас производят революцию в машинном обучении. Вместе с тем, это всё статистические методы, и идеи Талеба здесь наверняка к месту.

Собственно, на эту книгу сослались авторы статьи, которые обнаружили, что при многократном обучении нейросети на сгенерированных ею же самой данных, выдача модели сильно деградирует. Причина этого в искажениях статистических свойств данных, а именно потеря «хвостов» — краёв распределений с редкими примерами.

В этой связи не могу не вспомнить и методы оценки неопределенности моделей, которые позволяют им отказаться от ответа в случае неуверенности в прогнозе. Полагаю, что это чем-то похоже на оценку рисков при сборке инвестиционного портфеля, поэтому теория «черных лебедей» здесь, возможно, тоже могла бы пригодиться
👍9🔥31
Многие исследователи преподают. Мои коллеги по AIRI, изучающие трансформерные модели, — не исключение. Трансформеры, однако, универсальны в том смысле, что такая архитектура может быть полезна в самом широком спектре практических задач цифрового мира: тексты, аудио, изображения и тому подобное.

Это значит, что интерес к ним большой не только со стороны учёных исследователей, но и со стороны представителей индустрии. И тех, и других нужно трансформером обучать, желательно, в рамках одной учебной программы с небольшими корректировками.

Эту-то задачу и смогли решить сотрудники Института, создав оригинальный курс по трансформерам, который они уже несколько лет читают в некоторых московских ВУЗах на русском и английском, постоянно его обновляя и адаптируя. Рассказ о курсе от первого лица вышел сегодня на Хабре, ну а я, как обычно, помог ему увидеть свет
👍12🔥1
Марат пишет про науку (в основном) pinned «Для вновь подключившихся поясню. У меня есть хобби: искать видеоигры, в которых сюжет или дизайн окружения (но не механики!) черпают идеи из глубоких физических концепций, а потом делать разборы, которые выходят на N + 1. За несколько лет, что я этим занимаюсь…»
Учитывая тематику моего канала, не могу не прокомментировать свежую Нобелевку по физике: «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей». Как следует из пресс-релиза, Хинтон и Хопфилд развивали концепции и модели, которые впоследствии помогли создать эффективные нейросети.

Примечательно, что недовольство решением комитета бурлит по обе стороны научной границы. Физикам непонятно, причём здесь нейросети, и зачем давать премию за, по сути, математику. Исследователи ИИ удивляются, почему были выбраны именно эти модели: машина Больцмана и память Хопфилда, которые не нашли широкого применения, в то время как революция нейросетей идёт на поле иных алгоритмов. Продолжаю наблюдать за ситуацией.

Но лично мне кажется, что премия 2024 — это жест авансом. С одной стороны, в машинное обучение пришло из физики немало концепций: те же энергетические модели или диффузия. С другой — в ближайшие 5-10 лет вычислительная физика изменится до неузнаваемости благодаря нейросетям. Уже сейчас такие области как физика высоких энергий или моделирование климата не может обходиться без машинного обучения.

В общем, будем следить за комментариями экспертов
👍13🤔3🔥2🍓1
Для обучения по-настоящему успешных больших языковых моделей нужно много, очень много текста. Сейчас его берут из интернета, но количество человеческой писанины в вебе растёт несравненно медленнее, чем потребности ИИ.

Эту проблему хотят решать с помощью текстов, написанных другими нейросетями. Но будет ли это работать? В попытке ответить на этот вопрос, одна из групп провела эксперимент, который показал, что при обучении модели на тексте, написанном моделью, которая обучалась на тексте, написанном моделью [повторить N раз], на выходе получится полная ерунда. Особенность этой работы (я уже упоминал её недавно) в том, что она не ограничилась препринтом или публикацией в сборнике конференции, а добралась не много не мало до Nature — вообще говоря, редкость для ИИ, — затратив, однако, на это целый год.

Статья вышла в июле и наделала шуму в медиасфере. Шутка ли, выходит, что развитие LLM семимильными шагами несётся в тупик! Действительно, такой вывод кажется неизбежным, учитывая, что скоро количество текстов в интернете, написанных машинами, превысит человеческие.

Я решил разобраться, что к чему, и вооружился мнением экспертов по ИИ, которых в моём окружении сейчас достаточно. Итог увидел свет сегодня в виде материала на N + 1
🔥174🍓21👍1
Немного мыслей с бэкстейджа.

Статья, о которой я говорю, вышла в июле. Меня ещё на этапе эмбарго звали писать новость, но я отказался, поскольку у меня большая нагрузка в AIRI. Тем не менее, мы решили, что сделать разбор для энки с привлечением эксперта Института будет полезно, поэтому я получил зелёный свет.

Сам черновик был готов ещё в начале августа. Но на этапе редактуры оказалось, что писать про ИИ так же, как я писал про физику не получится. Во всяком случае, не материал для N + 1. Термины, которые казались мне само собой разумеющимися, вызывали у выпускающего редактора постоянные спотыкания. Конечно, в этом есть некоторый элемент привыкания и авторов, и редакторов, и, конечно, читателей. Если слово «бозон» объяснять не надо, то «токен» — будьте любезны!

В конечном итоге редактура затянулась, и поэтому материал вышел только сейчас. Текст, фактически, почти целиком оказался переписан совместными усилиями меня и выпускающего. Все проблемные термины либо получили определение, либо были заменены более «бытовыми» синонимами. Местами с потерей точности изложения, конечно, но по-другому, видимо, никак.

Конечно, желание писать большие материалы про ИИ куда-то, помимо Хабра или подобных профильных источников, немного поубавилось (надеюсь, временно), но это был ценный урок
13🔥5🤔2🍓2👍1
Глядя на снимок флюорографии или УЗИ, я редко могу разобрать что там изображено, не говоря уж о том, чтобы ставить какие-то диагнозы. Это работа специалистов-врачей. Но в теории можно было бы научить делать это медицинскую ИИ-модель, которая способна облегчить работу докторов и сэкономить им время.

На практике же для этого нужны большие наборы данных, и тут прогресс зависит от конкретной области медицины. Если тот же рентген делается быстро и часто, то, скажем, эндоскопические исследования желудка и кишечника довольно сложны, болезненны и неприятны. Кроме того, в таких случаях есть трудности с обработкой персональных данных.

Один из выходов из ситуации — синтезировать данные гастроскопии и колоноскопии. О том, как это делается, рассказал недавно на Хабре инженера-исследователь AIRI Михаил Чайчук.

Должен предупредить: не читайте его текст за обедом. Тамошние фотографии с эндоскопов, хотя и искусственные, но от этого не менее неаппетитные
👍7🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, я рассказывал вам о нейросетевом движке, который отрисовывал DOOM? Я, кстати, тогда ошибся — исследователи создали полноценную игру, просто играли сами, а нам показали лишь видео.

На этот раз всё по-другому. Калифорнийский стартап Decart провернул такой же трюк с Minecraft, но на этот раз поиграть может любой желающий по ссылке. Имейте в виду — там очередь, играть дают 4 минуты, а сама игра может вылететь. Но тем не менее, это первый известный мне кейс, когда нейроигра доступна сразу всем.

Ощущения очень странные, движок галлюцинирует перманентно: попробуйте покрутиться на месте. Для тех же, кому важны подробности, оставлю ссылку на блог команды.
👍5🔥4
С чем у вас ассоциируется слово «знание»? Предположу, что, как и у меня, с книгами.

Это не спроста: текст считается самой распространённой формой хранения знаний. Но вместе с тем это не самой оптимальной. Действительно, любой мало-мальски читабельный текст содержит кучу ненужного с точки зрения информатики, но важного с точки зрения банального человеческого восприятия. Даже сухие справочники с таблицами принято сопровождать введением и комментариями.

Куда более оптимальным способом организации знаний являются графы знаний. Граф — это математическая абстракция, представляющая собой совокупность узлов и ребёр между ними. В графах знаний на место узлов ставят сущности, а рёбра соответствуют их отношениям друг с другом (я уже подробнее рассказывал о них в одном из постов). В таком виде, например, легче искать информацию, именно поэтому Google использует их у себя в поисковике с 2012 года.

Но как создавать такие графы? Пока только вручную. Так, крупнейший в мире опенсорсный граф знаний WikiData содержит более 1,54 миллиарда элементов, а его актуальность и наполнение поддерживается целым экспертным сообществом волонтёров. Несложно представить, сколько у них работы!

Тяжкую долю этих людей могут облегчить алгоритмы, которые строят графы знаний на основе текстов. Исследователи из AIRI придумали один из таких алгоритмов и назвали его Prompt Me One More Time (мои ровесники легко узнают отсылку 🧑‍🎤). О том, как они его делали, рассказала недавно на Хабре Алла Чепурова, соавтор работы. Кратко я пересказываю это исследование в блоге на сайте Института.
👍952🔥2
В том году пропустил, в этом — исправляюсь!

7 ноября все поклонники Sci-Fi саги Mass Effect — к коим относится автор этого канала — празднуют день N7. Отличный повод вспомнить, как я разбирал технологии, используемые расами Пространства Цитадели через призму известной нам сегодня физики.

Кстати, вечерами я пописываю разбор следующей одной легендарной игры. Какой — пока не скажу 😃
10🎉5👍31
Если вам звонят мошенники, лучше с ними не разговаривать. Истории о том, что они могут украсть ваш голос, дабы потом обманывать ваших друзей и родственников — это не городские страшилки, а реальные кейсы применения предобученных моделей синтеза речи и преобразования голоса, которые в последнее время становятся всё доступнее.

Такой тип атаки на человека называется аудиоспуфингом. С его помощью можно не только обманывать окружающих, но и получать доступ к чему-то, что защищено голосовой биометрией, начиная от банковских счетов и заканчивая смартфонами.

Вокруг создания антиспуфинг‑систем сформировалось целое сообщество ML-исследователей, которые собираются на конференциях и организуют хакатоны. Один из таких хакатонов запускает AIRI совместно с МТУСИ. О том, чему он будет посвящён, рассказали с моей помощью на Хабре ребята из команды организаторов.
👍12😱31🔥1
Я не перестаю говорить своим студентам, чтобы налегали на высшую математику: анализ, линейную алгебру. Мало ли, где пригодится?

Например, те, кто часто рисует с помощью нейросетей (например, бесплатной Stable Diffusion), знают, что к рисовалкам надо подключать нечто под названием LoRA, и всё станет получаться лучше. Но что такое LoRA, большинство не знает.

А меж тем LoRA расшифровывается как Low-Rank Adaptation или, если по-русски, низкоранговая адаптация. Суть этого метода в том, что вы представляете многомерный тензор с весами (а, точнее, поправками к весам) в виде произведения двух матриц с небольшими рангами, существенно сокращая память, нужную для их хранения. Это позволяет, скачав основную и тяжёлую модель один раз, подстраивать её под нужную задачу (например, уточняя стиль) дополнительными моделями, не занимающими много места.

Такое разложение применяется и к другим популярным нейросетям — трансформерам, лежащим в сердце больших языковых моделей. Однако LoRA и аналогичные методы применяют там только в части архитектуры (а конкретно к блоку внимания), игнорируя остальное.

Команда исследователей из AIRI и Сколтеха решила исправить этот недочёт. Они придумали новый метод, который переводит нужные матрицы MLP-блоков (это другие части трансформера) в специальное разреженное пространство, где те имеют компактный вид. Кстати, ровно теми методами, которые проходят на линейной алгебре первокурсники.

За подробностями — в свежий блог
👍13🔥53🤔1