Сегодня Google Translate или ему подобные средства машинного перевода стали обыденным инструментом для большинства людей, использующих Интернет. Завтра обыденными станут чатботы по типу ChatGPT (а для кого-то уже). Во всех этих технологиях применяются большие языковые модели или LLMки.
Чтобы обучить LLM, вам нужно много текста. И если на английском или русском написано много всего разного, то вот собрать большой датасет для удмуртского или алеутского уже сложнее. Хотя именно исчезающим языкам хорошая модель нужнее всего — так можно сохранить хотя бы их цифрового носителя-нейросеть. Ну и необходимость в переводчиках и ИИ-ассистентах для говорящих на них тоже имеется. Значит ли это, что такие малоресурсные языки невозможно смоделировать?
Оказалось, что помочь здесь может технология трансферного обучения или обучения с переносом знаний. Это когда модель предобучается на одном обширном типе данных, а потом доучивается на более специализированном, но бедном датасете. Такая схема работает, если оба типа данных (или домена, как их называют в ML) близки. Например, я уже рассказывал, как это работает с картинками.
К языкам трансферное обучение тоже применимо, однако традиционно принято предобучать LLM на английском. Исследователи из AIRI и Сколтеха в ходе масштабных экспериментов с почти пятью тысячами пар языков, включая исчезающие, выяснили, что это не самый оптимальный язык-донор: вместо него лучше использовать африкаанс или словенский. Они не только выяснили, какие факторы делают перенос знаний наиболее эффективным, но поставили рекорд по числу смоделированных языков.
Рассказываю об исследовании в блоге на сайте AIRI
Чтобы обучить LLM, вам нужно много текста. И если на английском или русском написано много всего разного, то вот собрать большой датасет для удмуртского или алеутского уже сложнее. Хотя именно исчезающим языкам хорошая модель нужнее всего — так можно сохранить хотя бы их цифрового носителя-нейросеть. Ну и необходимость в переводчиках и ИИ-ассистентах для говорящих на них тоже имеется. Значит ли это, что такие малоресурсные языки невозможно смоделировать?
Оказалось, что помочь здесь может технология трансферного обучения или обучения с переносом знаний. Это когда модель предобучается на одном обширном типе данных, а потом доучивается на более специализированном, но бедном датасете. Такая схема работает, если оба типа данных (или домена, как их называют в ML) близки. Например, я уже рассказывал, как это работает с картинками.
К языкам трансферное обучение тоже применимо, однако традиционно принято предобучать LLM на английском. Исследователи из AIRI и Сколтеха в ходе масштабных экспериментов с почти пятью тысячами пар языков, включая исчезающие, выяснили, что это не самый оптимальный язык-донор: вместо него лучше использовать африкаанс или словенский. Они не только выяснили, какие факторы делают перенос знаний наиболее эффективным, но поставили рекорд по числу смоделированных языков.
Рассказываю об исследовании в блоге на сайте AIRI
🔥11👍4
Кстати, а ещё сегодня исполняется 11 лет с момента выхода на консоли легендарной игры Grand Theft Auto V. Лично для меня эта игра остаётся знаковой, так как в течение пары лет она занимала довольно большую часть моего игрового досуга, главным образом благодаря её онлайн режиму.
Но причём здесь наука? Сейчас расскажу.
Ещё в период, когда я активно следил за научно-новостной повесткой, я часто видел упоминание GTA V в своём инфополе. То её проверяли на стимулы к агрессии у игроков, то использовали в качестве полигона для нейросетей.
В честь знаменательной даты я решил исследовать, что там по научным публикациям с упоминанием Пятёрки. Поскольку к Scopus доступа нынче нет, а Google Scholar слишком уж демократичный, я воспользовался платформой openalex.org. Оказалось, что на момент написания этого поста Grand Theft Auto V фигурирует в 743 статьях, книгах и диссертациях, и ещё 131 раза её указывали как Grand Theft Auto 5.
Что интересно: в рубрикаторе лидируют, конечно, социальные науки, но дальше плотным строем идут различные инженерные и компьютерные направления, такие как, к примеру, Computer Vision (см картинку к посту). Примечательно также, что последние годы число статей лишь растёт. Лично меня всё это очень радует, поскольку я пребываю в уверенности, что современная академия ещё далеко не до конца раскрыла ресурсы, которые могут ей предоставить интерактивные развлечения.
Поздравляю именинницу и всех причастных!
Но причём здесь наука? Сейчас расскажу.
Ещё в период, когда я активно следил за научно-новостной повесткой, я часто видел упоминание GTA V в своём инфополе. То её проверяли на стимулы к агрессии у игроков, то использовали в качестве полигона для нейросетей.
В честь знаменательной даты я решил исследовать, что там по научным публикациям с упоминанием Пятёрки. Поскольку к Scopus доступа нынче нет, а Google Scholar слишком уж демократичный, я воспользовался платформой openalex.org. Оказалось, что на момент написания этого поста Grand Theft Auto V фигурирует в 743 статьях, книгах и диссертациях, и ещё 131 раза её указывали как Grand Theft Auto 5.
Что интересно: в рубрикаторе лидируют, конечно, социальные науки, но дальше плотным строем идут различные инженерные и компьютерные направления, такие как, к примеру, Computer Vision (см картинку к посту). Примечательно также, что последние годы число статей лишь растёт. Лично меня всё это очень радует, поскольку я пребываю в уверенности, что современная академия ещё далеко не до конца раскрыла ресурсы, которые могут ей предоставить интерактивные развлечения.
Поздравляю именинницу и всех причастных!
🔥15🎉5👍3⚡2❤1🫡1
Как научить робота строить маршрут в сложном лабиринте? Сегодня эту решение этой задачи разбивают на две части.
Сначала какой-нибудь классический алгоритм решает упрощенную задачу, предлагая траекторию в виде ломаной прямой (например алгоритм A*, про который я пару раз рассказывал здесь).
Но настоящий робот — это не точка, а целый агретат, обычно на колёсах, который и размер имеет, и резко повернуть не может. Поэтому нужна вторая часть вычислительной схемы — алгоритм, который адаптирует ломаную под эти ограничения, делая её гладкой и не давая роботу сталкиваться с препятствиями.
В свежем Хабре, который я помог выпустить сегодня, один из исследователей AIRI рассказывает, как их группа приспособила под эту задачу нейросети
Сначала какой-нибудь классический алгоритм решает упрощенную задачу, предлагая траекторию в виде ломаной прямой (например алгоритм A*, про который я пару раз рассказывал здесь).
Но настоящий робот — это не точка, а целый агретат, обычно на колёсах, который и размер имеет, и резко повернуть не может. Поэтому нужна вторая часть вычислительной схемы — алгоритм, который адаптирует ломаную под эти ограничения, делая её гладкой и не давая роботу сталкиваться с препятствиями.
В свежем Хабре, который я помог выпустить сегодня, один из исследователей AIRI рассказывает, как их группа приспособила под эту задачу нейросети
Хабр
Улучшаем навигацию роботов с помощью нейронного потенциального поля
Всем привет! Меня зовут Алексей Староверов, я научный сотрудник группы «Embodied agents» в AIRI. К числу моих научных интересов в основном относятся алгоритмы обучения...
👍4🔥2
Вообще-то писать рецензии на нон-фикшн литературу — это не то, что я регулярно практикую, и в этом посте я не собираюсь этого делать. Но не упомянуть книгу, которую я недавно закончил читать, не могу. Речь идёт о книге Нассима Талеба под названием «Черный лебедь. Под знаком непредсказуемости», посвященную случайностям и неопределённостям и их влиянию на сложные системы.
Тезисно: случайности бывают двух типов. Первый тип регулируется нормальным распределением, при котором шанс встретить аномалию сверхэкспоненциально уменьшается по мере удаления от среднего значения — обычно у этого есть какие-либо естественные причины. Во втором случае распределения менее формализованы, но обычно похожи на степенной закон с плавающей степенью — такое наблюдается в средах, где нет физических ограничений на масштаб величин, например, в финансах.
Если продраться через самолюбование автора собой, оскорбления коллег и сведения счётов с оппонентами, из книги можно усвоить важную мысль: со вторым случаем мы сталкиваемся гораздо чаще, чем нам кажется и хочется, и применение тут теорий на основе нормального распределения создаёт опасную иллюзию, что мы понимаем сути процессов при реальном отсутствии такового понимания. Лично я после знакомства с этой книгой стал не только с подозрением относится к экономическим теориям, которые хает автор, но и даже к тому, как у нас в физике считают ошибки (но, надеюсь, беспочвенно).
Взяться за эту книгу меня побудило две вещи. Сначала мне её рекомендовал один авторитетный для меня человек, а на следующий же день я натолкнулся на ссылку на эту книгу в одной из свежих статей в Nature
Тезисно: случайности бывают двух типов. Первый тип регулируется нормальным распределением, при котором шанс встретить аномалию сверхэкспоненциально уменьшается по мере удаления от среднего значения — обычно у этого есть какие-либо естественные причины. Во втором случае распределения менее формализованы, но обычно похожи на степенной закон с плавающей степенью — такое наблюдается в средах, где нет физических ограничений на масштаб величин, например, в финансах.
Если продраться через самолюбование автора собой, оскорбления коллег и сведения счётов с оппонентами, из книги можно усвоить важную мысль: со вторым случаем мы сталкиваемся гораздо чаще, чем нам кажется и хочется, и применение тут теорий на основе нормального распределения создаёт опасную иллюзию, что мы понимаем сути процессов при реальном отсутствии такового понимания. Лично я после знакомства с этой книгой стал не только с подозрением относится к экономическим теориям, которые хает автор, но и даже к тому, как у нас в физике считают ошибки (но, надеюсь, беспочвенно).
Взяться за эту книгу меня побудило две вещи. Сначала мне её рекомендовал один авторитетный для меня человек, а на следующий же день я натолкнулся на ссылку на эту книгу в одной из свежих статей в Nature
👍12🤔3🔥1
Вдогонку.
То издание, которое я читал, вышло в 2007 году. В это время ещё не были изобретены трансформеры, генеративно‑состязательные нейросети и большинство архитектур, которые прямо сейчас производят революцию в машинном обучении. Вместе с тем, это всё статистические методы, и идеи Талеба здесь наверняка к месту.
Собственно, на эту книгу сослались авторы статьи, которые обнаружили, что при многократном обучении нейросети на сгенерированных ею же самой данных, выдача модели сильно деградирует. Причина этого в искажениях статистических свойств данных, а именно потеря «хвостов» — краёв распределений с редкими примерами.
В этой связи не могу не вспомнить и методы оценки неопределенности моделей, которые позволяют им отказаться от ответа в случае неуверенности в прогнозе. Полагаю, что это чем-то похоже на оценку рисков при сборке инвестиционного портфеля, поэтому теория «черных лебедей» здесь, возможно, тоже могла бы пригодиться
То издание, которое я читал, вышло в 2007 году. В это время ещё не были изобретены трансформеры, генеративно‑состязательные нейросети и большинство архитектур, которые прямо сейчас производят революцию в машинном обучении. Вместе с тем, это всё статистические методы, и идеи Талеба здесь наверняка к месту.
Собственно, на эту книгу сослались авторы статьи, которые обнаружили, что при многократном обучении нейросети на сгенерированных ею же самой данных, выдача модели сильно деградирует. Причина этого в искажениях статистических свойств данных, а именно потеря «хвостов» — краёв распределений с редкими примерами.
В этой связи не могу не вспомнить и методы оценки неопределенности моделей, которые позволяют им отказаться от ответа в случае неуверенности в прогнозе. Полагаю, что это чем-то похоже на оценку рисков при сборке инвестиционного портфеля, поэтому теория «черных лебедей» здесь, возможно, тоже могла бы пригодиться
Nature
AI models collapse when trained on recursively generated data
Nature - Analysis shows that indiscriminately training generative artificial intelligence on real and generated content, usually done by scraping data from the Internet, can lead to a collapse in...
👍9🔥3❤1
Многие исследователи преподают. Мои коллеги по AIRI, изучающие трансформерные модели, — не исключение. Трансформеры, однако, универсальны в том смысле, что такая архитектура может быть полезна в самом широком спектре практических задач цифрового мира: тексты, аудио, изображения и тому подобное.
Это значит, что интерес к ним большой не только со стороны учёных исследователей, но и со стороны представителей индустрии. И тех, и других нужно трансформером обучать, желательно, в рамках одной учебной программы с небольшими корректировками.
Эту-то задачу и смогли решить сотрудники Института, создав оригинальный курс по трансформерам, который они уже несколько лет читают в некоторых московских ВУЗах на русском и английском, постоянно его обновляя и адаптируя. Рассказ о курсе от первого лица вышел сегодня на Хабре, ну а я, как обычно, помог ему увидеть свет
Это значит, что интерес к ним большой не только со стороны учёных исследователей, но и со стороны представителей индустрии. И тех, и других нужно трансформером обучать, желательно, в рамках одной учебной программы с небольшими корректировками.
Эту-то задачу и смогли решить сотрудники Института, создав оригинальный курс по трансформерам, который они уже несколько лет читают в некоторых московских ВУЗах на русском и английском, постоянно его обновляя и адаптируя. Рассказ о курсе от первого лица вышел сегодня на Хабре, ну а я, как обычно, помог ему увидеть свет
Хабр
Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям
Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео,...
👍12🔥1
Марат пишет про науку (в основном) pinned «Для вновь подключившихся поясню. У меня есть хобби: искать видеоигры, в которых сюжет или дизайн окружения (но не механики!) черпают идеи из глубоких физических концепций, а потом делать разборы, которые выходят на N + 1. За несколько лет, что я этим занимаюсь…»
Учитывая тематику моего канала, не могу не прокомментировать свежую Нобелевку по физике: «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей». Как следует из пресс-релиза, Хинтон и Хопфилд развивали концепции и модели, которые впоследствии помогли создать эффективные нейросети.
Примечательно, что недовольство решением комитета бурлит по обе стороны научной границы. Физикам непонятно, причём здесь нейросети, и зачем давать премию за, по сути, математику. Исследователи ИИ удивляются, почему были выбраны именно эти модели: машина Больцмана и память Хопфилда, которые не нашли широкого применения, в то время как революция нейросетей идёт на поле иных алгоритмов. Продолжаю наблюдать за ситуацией.
Но лично мне кажется, что премия 2024 — это жест авансом. С одной стороны, в машинное обучение пришло из физики немало концепций: те же энергетические модели или диффузия. С другой — в ближайшие 5-10 лет вычислительная физика изменится до неузнаваемости благодаря нейросетям. Уже сейчас такие области как физика высоких энергий или моделирование климата не может обходиться без машинного обучения.
В общем, будем следить за комментариями экспертов
Примечательно, что недовольство решением комитета бурлит по обе стороны научной границы. Физикам непонятно, причём здесь нейросети, и зачем давать премию за, по сути, математику. Исследователи ИИ удивляются, почему были выбраны именно эти модели: машина Больцмана и память Хопфилда, которые не нашли широкого применения, в то время как революция нейросетей идёт на поле иных алгоритмов. Продолжаю наблюдать за ситуацией.
Но лично мне кажется, что премия 2024 — это жест авансом. С одной стороны, в машинное обучение пришло из физики немало концепций: те же энергетические модели или диффузия. С другой — в ближайшие 5-10 лет вычислительная физика изменится до неузнаваемости благодаря нейросетям. Уже сейчас такие области как физика высоких энергий или моделирование климата не может обходиться без машинного обучения.
В общем, будем следить за комментариями экспертов
NobelPrize.org
Nobel Prize in Physics 2024
The Nobel Prize in Physics 2024 was awarded jointly to John J. Hopfield and Geoffrey Hinton "for foundational discoveries and inventions that enable machine learning with artificial neural networks"
👍13🤔3🔥2🍓1
Для обучения по-настоящему успешных больших языковых моделей нужно много, очень много текста. Сейчас его берут из интернета, но количество человеческой писанины в вебе растёт несравненно медленнее, чем потребности ИИ.
Эту проблему хотят решать с помощью текстов, написанных другими нейросетями. Но будет ли это работать? В попытке ответить на этот вопрос, одна из групп провела эксперимент, который показал, что при обучении модели на тексте, написанном моделью, которая обучалась на тексте, написанном моделью [повторить N раз], на выходе получится полная ерунда. Особенность этой работы (я уже упоминал её недавно) в том, что она не ограничилась препринтом или публикацией в сборнике конференции, а добралась не много не мало до Nature — вообще говоря, редкость для ИИ, — затратив, однако, на это целый год.
Статья вышла в июле и наделала шуму в медиасфере. Шутка ли, выходит, что развитие LLM семимильными шагами несётся в тупик! Действительно, такой вывод кажется неизбежным, учитывая, что скоро количество текстов в интернете, написанных машинами, превысит человеческие.
Я решил разобраться, что к чему, и вооружился мнением экспертов по ИИ, которых в моём окружении сейчас достаточно. Итог увидел свет сегодня в виде материала на N + 1
Эту проблему хотят решать с помощью текстов, написанных другими нейросетями. Но будет ли это работать? В попытке ответить на этот вопрос, одна из групп провела эксперимент, который показал, что при обучении модели на тексте, написанном моделью, которая обучалась на тексте, написанном моделью [повторить N раз], на выходе получится полная ерунда. Особенность этой работы (я уже упоминал её недавно) в том, что она не ограничилась препринтом или публикацией в сборнике конференции, а добралась не много не мало до Nature — вообще говоря, редкость для ИИ, — затратив, однако, на это целый год.
Статья вышла в июле и наделала шуму в медиасфере. Шутка ли, выходит, что развитие LLM семимильными шагами несётся в тупик! Действительно, такой вывод кажется неизбежным, учитывая, что скоро количество текстов в интернете, написанных машинами, превысит человеческие.
Я решил разобраться, что к чему, и вооружился мнением экспертов по ИИ, которых в моём окружении сейчас достаточно. Итог увидел свет сегодня в виде материала на N + 1
N + 1 — главное издание о науке, технике и технологиях
И целого интернета мало
🔥17⚡4🍓2✍1👍1
Немного мыслей с бэкстейджа.
Статья, о которой я говорю, вышла в июле. Меня ещё на этапе эмбарго звали писать новость, но я отказался, поскольку у меня большая нагрузка в AIRI. Тем не менее, мы решили, что сделать разбор для энки с привлечением эксперта Института будет полезно, поэтому я получил зелёный свет.
Сам черновик был готов ещё в начале августа. Но на этапе редактуры оказалось, что писать про ИИ так же, как я писал про физику не получится. Во всяком случае, не материал для N + 1. Термины, которые казались мне само собой разумеющимися, вызывали у выпускающего редактора постоянные спотыкания. Конечно, в этом есть некоторый элемент привыкания и авторов, и редакторов, и, конечно, читателей. Если слово «бозон» объяснять не надо, то «токен» — будьте любезны!
В конечном итоге редактура затянулась, и поэтому материал вышел только сейчас. Текст, фактически, почти целиком оказался переписан совместными усилиями меня и выпускающего. Все проблемные термины либо получили определение, либо были заменены более «бытовыми» синонимами. Местами с потерей точности изложения, конечно, но по-другому, видимо, никак.
Конечно, желание писать большие материалы про ИИ куда-то, помимо Хабра или подобных профильных источников, немного поубавилось (надеюсь, временно), но это был ценный урок
Статья, о которой я говорю, вышла в июле. Меня ещё на этапе эмбарго звали писать новость, но я отказался, поскольку у меня большая нагрузка в AIRI. Тем не менее, мы решили, что сделать разбор для энки с привлечением эксперта Института будет полезно, поэтому я получил зелёный свет.
Сам черновик был готов ещё в начале августа. Но на этапе редактуры оказалось, что писать про ИИ так же, как я писал про физику не получится. Во всяком случае, не материал для N + 1. Термины, которые казались мне само собой разумеющимися, вызывали у выпускающего редактора постоянные спотыкания. Конечно, в этом есть некоторый элемент привыкания и авторов, и редакторов, и, конечно, читателей. Если слово «бозон» объяснять не надо, то «токен» — будьте любезны!
В конечном итоге редактура затянулась, и поэтому материал вышел только сейчас. Текст, фактически, почти целиком оказался переписан совместными усилиями меня и выпускающего. Все проблемные термины либо получили определение, либо были заменены более «бытовыми» синонимами. Местами с потерей точности изложения, конечно, но по-другому, видимо, никак.
Конечно, желание писать большие материалы про ИИ куда-то, помимо Хабра или подобных профильных источников, немного поубавилось (надеюсь, временно), но это был ценный урок
❤13🔥5🤔2🍓2👍1
Глядя на снимок флюорографии или УЗИ, я редко могу разобрать что там изображено, не говоря уж о том, чтобы ставить какие-то диагнозы. Это работа специалистов-врачей. Но в теории можно было бы научить делать это медицинскую ИИ-модель, которая способна облегчить работу докторов и сэкономить им время.
На практике же для этого нужны большие наборы данных, и тут прогресс зависит от конкретной области медицины. Если тот же рентген делается быстро и часто, то, скажем, эндоскопические исследования желудка и кишечника довольно сложны, болезненны и неприятны. Кроме того, в таких случаях есть трудности с обработкой персональных данных.
Один из выходов из ситуации — синтезировать данные гастроскопии и колоноскопии. О том, как это делается, рассказал недавно на Хабре инженера-исследователь AIRI Михаил Чайчук.
Должен предупредить: не читайте его текст за обедом. Тамошние фотографии с эндоскопов, хотя и искусственные, но от этого не менее неаппетитные
На практике же для этого нужны большие наборы данных, и тут прогресс зависит от конкретной области медицины. Если тот же рентген делается быстро и часто, то, скажем, эндоскопические исследования желудка и кишечника довольно сложны, болезненны и неприятны. Кроме того, в таких случаях есть трудности с обработкой персональных данных.
Один из выходов из ситуации — синтезировать данные гастроскопии и колоноскопии. О том, как это делается, рассказал недавно на Хабре инженера-исследователь AIRI Михаил Чайчук.
Должен предупредить: не читайте его текст за обедом. Тамошние фотографии с эндоскопов, хотя и искусственные, но от этого не менее неаппетитные
Хабр
Как мы выиграли соревнование CLEF 2024 по генерации медицинских снимков
Всем привет! Меня зовут Михаил Чайчук, я учусь в магистратуре Вышки на ФКН, где также являюсь исследователем в НУЛ моделей и методов вычислительной прагматики. А недавно я пришел работать в AIRI на...
👍7🔥1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, я рассказывал вам о нейросетевом движке, который отрисовывал DOOM? Я, кстати, тогда ошибся — исследователи создали полноценную игру, просто играли сами, а нам показали лишь видео.
На этот раз всё по-другому. Калифорнийский стартап Decart провернул такой же трюк с Minecraft, но на этот раз поиграть может любой желающий по ссылке. Имейте в виду — там очередь, играть дают 4 минуты, а сама игра может вылететь. Но тем не менее, это первый известный мне кейс, когда нейроигра доступна сразу всем.
Ощущения очень странные, движок галлюцинирует перманентно: попробуйте покрутиться на месте. Для тех же, кому важны подробности, оставлю ссылку на блог команды.
На этот раз всё по-другому. Калифорнийский стартап Decart провернул такой же трюк с Minecraft, но на этот раз поиграть может любой желающий по ссылке. Имейте в виду — там очередь, играть дают 4 минуты, а сама игра может вылететь. Но тем не менее, это первый известный мне кейс, когда нейроигра доступна сразу всем.
Ощущения очень странные, движок галлюцинирует перманентно: попробуйте покрутиться на месте. Для тех же, кому важны подробности, оставлю ссылку на блог команды.
👍5🔥4
С чем у вас ассоциируется слово «знание»? Предположу, что, как и у меня, с книгами.
Это не спроста: текст считается самой распространённой формой хранения знаний. Но вместе с тем это не самой оптимальной. Действительно, любой мало-мальски читабельный текст содержит кучу ненужного с точки зрения информатики, но важного с точки зрения банального человеческого восприятия. Даже сухие справочники с таблицами принято сопровождать введением и комментариями.
Куда более оптимальным способом организации знаний являются графы знаний. Граф — это математическая абстракция, представляющая собой совокупность узлов и ребёр между ними. В графах знаний на место узлов ставят сущности, а рёбра соответствуют их отношениям друг с другом (я уже подробнее рассказывал о них в одном из постов). В таком виде, например, легче искать информацию, именно поэтому Google использует их у себя в поисковике с 2012 года.
Но как создавать такие графы? Пока только вручную. Так, крупнейший в мире опенсорсный граф знаний WikiData содержит более 1,54 миллиарда элементов, а его актуальность и наполнение поддерживается целым экспертным сообществом волонтёров. Несложно представить, сколько у них работы!
Тяжкую долю этих людей могут облегчить алгоритмы, которые строят графы знаний на основе текстов. Исследователи из AIRI придумали один из таких алгоритмов и назвали его Prompt Me One More Time (мои ровесники легко узнают отсылку 🧑🎤). О том, как они его делали, рассказала недавно на Хабре Алла Чепурова, соавтор работы. Кратко я пересказываю это исследование в блоге на сайте Института.
Это не спроста: текст считается самой распространённой формой хранения знаний. Но вместе с тем это не самой оптимальной. Действительно, любой мало-мальски читабельный текст содержит кучу ненужного с точки зрения информатики, но важного с точки зрения банального человеческого восприятия. Даже сухие справочники с таблицами принято сопровождать введением и комментариями.
Куда более оптимальным способом организации знаний являются графы знаний. Граф — это математическая абстракция, представляющая собой совокупность узлов и ребёр между ними. В графах знаний на место узлов ставят сущности, а рёбра соответствуют их отношениям друг с другом (я уже подробнее рассказывал о них в одном из постов). В таком виде, например, легче искать информацию, именно поэтому Google использует их у себя в поисковике с 2012 года.
Но как создавать такие графы? Пока только вручную. Так, крупнейший в мире опенсорсный граф знаний WikiData содержит более 1,54 миллиарда элементов, а его актуальность и наполнение поддерживается целым экспертным сообществом волонтёров. Несложно представить, сколько у них работы!
Тяжкую долю этих людей могут облегчить алгоритмы, которые строят графы знаний на основе текстов. Исследователи из AIRI придумали один из таких алгоритмов и назвали его Prompt Me One More Time (мои ровесники легко узнают отсылку 🧑🎤). О том, как они его делали, рассказала недавно на Хабре Алла Чепурова, соавтор работы. Кратко я пересказываю это исследование в блоге на сайте Института.
Хабр
Prompt Me One More Time. Учим LLM строить графы знаний из текстов
Привет, Хабр! Меня зовут Алла, я работаю младшим исследователем в команде Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI и занимаюсь ресерчем на пересечений...
👍9⚡5❤2🔥2
В том году пропустил, в этом — исправляюсь!
7 ноября все поклонники Sci-Fi саги Mass Effect — к коим относится автор этого канала — празднуют день N7. Отличный повод вспомнить, как я разбирал технологии, используемые расами Пространства Цитадели через призму известной нам сегодня физики.
Кстати, вечерами я пописываю разбор следующей одной легендарной игры. Какой — пока не скажу 😃
7 ноября все поклонники Sci-Fi саги Mass Effect — к коим относится автор этого канала — празднуют день N7. Отличный повод вспомнить, как я разбирал технологии, используемые расами Пространства Цитадели через призму известной нам сегодня физики.
Кстати, вечерами я пописываю разбор следующей одной легендарной игры. Какой — пока не скажу 😃
N + 1 — главное издание о науке, технике и технологиях
Масса эффектов
Насколько реальна физика вселенной Mass Effect?
❤10🎉5👍3⚡1
Если вам звонят мошенники, лучше с ними не разговаривать. Истории о том, что они могут украсть ваш голос, дабы потом обманывать ваших друзей и родственников — это не городские страшилки, а реальные кейсы применения предобученных моделей синтеза речи и преобразования голоса, которые в последнее время становятся всё доступнее.
Такой тип атаки на человека называется аудиоспуфингом. С его помощью можно не только обманывать окружающих, но и получать доступ к чему-то, что защищено голосовой биометрией, начиная от банковских счетов и заканчивая смартфонами.
Вокруг создания антиспуфинг‑систем сформировалось целое сообщество ML-исследователей, которые собираются на конференциях и организуют хакатоны. Один из таких хакатонов запускает AIRI совместно с МТУСИ. О том, чему он будет посвящён, рассказали с моей помощью на Хабре ребята из команды организаторов.
Такой тип атаки на человека называется аудиоспуфингом. С его помощью можно не только обманывать окружающих, но и получать доступ к чему-то, что защищено голосовой биометрией, начиная от банковских счетов и заканчивая смартфонами.
Вокруг создания антиспуфинг‑систем сформировалось целое сообщество ML-исследователей, которые собираются на конференциях и организуют хакатоны. Один из таких хакатонов запускает AIRI совместно с МТУСИ. О том, чему он будет посвящён, рассказали с моей помощью на Хабре ребята из команды организаторов.
Хабр
Голос под защитой. Запускаем хакатон SafeSpeak-2024, посвящённый борьбе с голосовыми дипфейками
Всем привет! Как и многие читатели Хабра (надеемся), мы в AIRI и МТУСИ терпеть не можем телефонных мошенников. К сожалению, с каждым годом арсенал их методов расширяется....
👍12😱3❤1🔥1
Я не перестаю говорить своим студентам, чтобы налегали на высшую математику: анализ, линейную алгебру. Мало ли, где пригодится?
Например, те, кто часто рисует с помощью нейросетей (например, бесплатной Stable Diffusion), знают, что к рисовалкам надо подключать нечто под названием LoRA, и всё станет получаться лучше. Но что такое LoRA, большинство не знает.
А меж тем LoRA расшифровывается как Low-Rank Adaptation или, если по-русски, низкоранговая адаптация. Суть этого метода в том, что вы представляете многомерный тензор с весами (а, точнее, поправками к весам) в виде произведения двух матриц с небольшими рангами, существенно сокращая память, нужную для их хранения. Это позволяет, скачав основную и тяжёлую модель один раз, подстраивать её под нужную задачу (например, уточняя стиль) дополнительными моделями, не занимающими много места.
Такое разложение применяется и к другим популярным нейросетям — трансформерам, лежащим в сердце больших языковых моделей. Однако LoRA и аналогичные методы применяют там только в части архитектуры (а конкретно к блоку внимания), игнорируя остальное.
Команда исследователей из AIRI и Сколтеха решила исправить этот недочёт. Они придумали новый метод, который переводит нужные матрицы MLP-блоков (это другие части трансформера) в специальное разреженное пространство, где те имеют компактный вид. Кстати, ровно теми методами, которые проходят на линейной алгебре первокурсники.
За подробностями — в свежий блог
Например, те, кто часто рисует с помощью нейросетей (например, бесплатной Stable Diffusion), знают, что к рисовалкам надо подключать нечто под названием LoRA, и всё станет получаться лучше. Но что такое LoRA, большинство не знает.
А меж тем LoRA расшифровывается как Low-Rank Adaptation или, если по-русски, низкоранговая адаптация. Суть этого метода в том, что вы представляете многомерный тензор с весами (а, точнее, поправками к весам) в виде произведения двух матриц с небольшими рангами, существенно сокращая память, нужную для их хранения. Это позволяет, скачав основную и тяжёлую модель один раз, подстраивать её под нужную задачу (например, уточняя стиль) дополнительными моделями, не занимающими много места.
Такое разложение применяется и к другим популярным нейросетям — трансформерам, лежащим в сердце больших языковых моделей. Однако LoRA и аналогичные методы применяют там только в части архитектуры (а конкретно к блоку внимания), игнорируя остальное.
Команда исследователей из AIRI и Сколтеха решила исправить этот недочёт. Они придумали новый метод, который переводит нужные матрицы MLP-блоков (это другие части трансформера) в специальное разреженное пространство, где те имеют компактный вид. Кстати, ровно теми методами, которые проходят на линейной алгебре первокурсники.
За подробностями — в свежий блог
👍13🔥5⚡3🤔1
Глядя на один и тот же снимок рентгена лёгких, разные врачи могут выделить на них разные области затемнений, вызванные пневмонией. И тем не менее, на таких вот неоднозначных разметках нужно обучать ИИ-модели, которые как раз таки должны облегчить труд этих же самых врачей.
Оказалось, что это задача сложная, но вполне решаемое. В этом можно убедиться, взглянув на победителей соревнования MIDRC XAI Challenge, организованного одноимённым американским фондом по развитию медицинских ИИ-моделей.
Команда исследователей из AIRI приняла в нём участие и заняла там пятое призовое место. Сегодня на Хабре при моём участии вышел текст о том, с какими трудностями им пришлось столкнуться, и как они с ними справились
Оказалось, что это задача сложная, но вполне решаемое. В этом можно убедиться, взглянув на победителей соревнования MIDRC XAI Challenge, организованного одноимённым американским фондом по развитию медицинских ИИ-моделей.
Команда исследователей из AIRI приняла в нём участие и заняла там пятое призовое место. Сегодня на Хабре при моём участии вышел текст о том, с какими трудностями им пришлось столкнуться, и как они с ними справились
Хабр
Как мы приняли участие в соревновании по машинной диагностике затемнений в лёгких MIDRC XAI Challenge
Всем привет! Мы — научно‑исследовательская лаборатория «Сильный ИИ в медицине» в Институте AIRI. Наша группа разрабатывает решения на основе искусственного интеллекта...
🔥10⚡4👍4🍓1🆒1
Соревнования — это ещё одна отличительная черта науки об ИИ, которой нет в остальных областях. Скорее всего, я ещё не раз и не два буду про них рассказывать.
Родом из IT-культуры, эта традиция позволяет быстро получить спектр подходов для решения определённой прикладной задачи с теми или иными ограничениями. Соревнования состоят из задач, которые готовят разные научные группы для участников (денежные призы там тоже положены, естественно).
Одну такую задачу подготовили мои коллеги из лаборатории FusionBrain AIRI в рамках соревнования AIJ Contest. Целью участников было научить ИИ понимать социальные взаимодействия по видео. Название задачи было соответствующим: Emotional FusionBrain 4.0.
Соревнование уже подошло к концу, победители определены. Про итоги своей задачи и про подходы, выбранные победителями, исследователи из FusionBrain рассказали сегодня при моей поддержке в статье на Хабре
https://habr.com/ru/companies/airi/articles/864422/
Родом из IT-культуры, эта традиция позволяет быстро получить спектр подходов для решения определённой прикладной задачи с теми или иными ограничениями. Соревнования состоят из задач, которые готовят разные научные группы для участников (денежные призы там тоже положены, естественно).
Одну такую задачу подготовили мои коллеги из лаборатории FusionBrain AIRI в рамках соревнования AIJ Contest. Целью участников было научить ИИ понимать социальные взаимодействия по видео. Название задачи было соответствующим: Emotional FusionBrain 4.0.
Соревнование уже подошло к концу, победители определены. Про итоги своей задачи и про подходы, выбранные победителями, исследователи из FusionBrain рассказали сегодня при моей поддержке в статье на Хабре
https://habr.com/ru/companies/airi/articles/864422/
Хабр
Задача Emotional FusionBrain 4.0: итоги и победители
Всем привет! На связи снова лаборатория FusionBrain! В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стала частью соревнования AI Journey Contest. Участникам предстояло...
👍7✍3🔥1🍓1🆒1
Давным-давно, когда только появился фотошоп, меня крайне поражал тамошний инструмент под названием «Волшебная палочка». Эта опция позволяла одним кликом выделять границы объектов, чтобы потом его можно было скопировать и вставить на другую картинку. Так создавались первые неказистые коллажи, в которых головы друзей ставились на плечи супергероям (или ещё чего похуже…).
Та волшебная палочка алгоритмически работала очень просто, и впечатление чуда от её использования рутинизировалось по мере того, как приходилось выделять на изображении более сложные объекты. Сегодня же интерактивную сегментацию изображений — именно так называется это задача по-умному — решают с помощью самых разнообразных моделей машинного обучения.
Чтобы учить эти модели, разработчикам нужны хорошие модели пользовательского поведения при их использовании: куда кликает/тапает человек, что на это влияет и тому подобное. Оказывается, этих моделей не так-то и много.
Эту проблему смогла решить большая сборная исследователей из AIRI. Для этого они собрали большой датасет, в который попали без малого полмиллиона живых человечьих кликов и тапов, собранных через специальный интерфейс. Авторы не только построили новую модель кликающего человека, но и создали на основе датасета бенчмарк, прогнав через него существующие решения для сегментации, чтобы понять, какое лучше.
Про результаты этой работы вышла сегодня с моей помощью статья на Хабре. А сам я кратко изложил суть работы в новостной заметке на сайте AIRI
Та волшебная палочка алгоритмически работала очень просто, и впечатление чуда от её использования рутинизировалось по мере того, как приходилось выделять на изображении более сложные объекты. Сегодня же интерактивную сегментацию изображений — именно так называется это задача по-умному — решают с помощью самых разнообразных моделей машинного обучения.
Чтобы учить эти модели, разработчикам нужны хорошие модели пользовательского поведения при их использовании: куда кликает/тапает человек, что на это влияет и тому подобное. Оказывается, этих моделей не так-то и много.
Эту проблему смогла решить большая сборная исследователей из AIRI. Для этого они собрали большой датасет, в который попали без малого полмиллиона живых человечьих кликов и тапов, собранных через специальный интерфейс. Авторы не только построили новую модель кликающего человека, но и создали на основе датасета бенчмарк, прогнав через него существующие решения для сегментации, чтобы понять, какое лучше.
Про результаты этой работы вышла сегодня с моей помощью статья на Хабре. А сам я кратко изложил суть работы в новостной заметке на сайте AIRI
Хабр
Homo clickus. Как моделирование кликающих людей пригодится для сегментации изображений
Приветствую всех читающих! Меня зовут Антон Антонов, я инженер — исследователь, работаю в Институте искусственного интеллекта AIRI в команде FusionBrain.Robotics, мы занимаемся Embodied...
🔥12👍5🍓2
Если вы долго общаетесь с ChatGPT, он начинает забывать, что вы писали ему ранее. То количество слов, с которого начинается такое забвение, определяется величиной, которая называется длиной контекста или длиной входной последовательности. Если она у LLM слишком мала, вы не сможете, к примеру, подать туда все книги про Гарри Поттера и ждать, что модель безошибочно найдёт там нужный вам факт.
Стандартная длина контекста большинства распространённых моделей — 128 тысяч токенов, что примерно составляет весь текст книги про Хоббита на английском языке. Большие входные последовательности требуют от разработчиков больше усилий, но такие усовершенствования необходимы, чтобы системы ИИ развивались. Кроме того, неплохо было бы иметь надёжные тесты того, что длинные контексты в моделях работают: недавно стало известно, что без дополнительных ухищрений LLM охотно забывают информацию из середины последовательности.
Одним из таких инструментов для проверки стал новый бенчмарк BABILong, который разработали исследователи из AIRI и их коллеги. О том, что это за новинка, рассказал сегодня на Хабре один из его авторов Айдар Булатов. Я же кратко пересказал эту работу в блоге на сайте Института.
Если вкратце: бенчмарк показывает, что даже лучшие LLM, которые заявляют работу с длинными контекстами, норовят терять информацию. Зато этого не происходит с трансформерами на основе памяти, про которые я уже писал ранее: там контекстное окно удаётся расширить до 50 миллионов токенов
Стандартная длина контекста большинства распространённых моделей — 128 тысяч токенов, что примерно составляет весь текст книги про Хоббита на английском языке. Большие входные последовательности требуют от разработчиков больше усилий, но такие усовершенствования необходимы, чтобы системы ИИ развивались. Кроме того, неплохо было бы иметь надёжные тесты того, что длинные контексты в моделях работают: недавно стало известно, что без дополнительных ухищрений LLM охотно забывают информацию из середины последовательности.
Одним из таких инструментов для проверки стал новый бенчмарк BABILong, который разработали исследователи из AIRI и их коллеги. О том, что это за новинка, рассказал сегодня на Хабре один из его авторов Айдар Булатов. Я же кратко пересказал эту работу в блоге на сайте Института.
Если вкратце: бенчмарк показывает, что даже лучшие LLM, которые заявляют работу с длинными контекстами, норовят терять информацию. Зато этого не происходит с трансформерами на основе памяти, про которые я уже писал ранее: там контекстное окно удаётся расширить до 50 миллионов токенов
Хабр
BABILong — бенчмарк для оценки LLM на больших контекстах
Привет, Хабр! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут...
👍9✍2🔥1🍓1
Сейчас везде принято оглядываться на проделанное за год. В рамках этой традиции я вспомнил, что не рассказывал ещё об одном большом тексте про физику.
Его история начинается более года назад, когда N + 1 был информационным партнёром премии Вызов 2023, и меня попросили написать коммерческий материал про поляритонику — группа одного из победителей ею занимается. Судьба у черновика оказалась непростая: он, как говорят в медиаиндустрии, попал в производственный ад, сменив несколько выпускающих редакторов, проверяющих экспертов, а также полежав в долгом ящике несколько месяцев. Осенью его спешно решили выпустить, поэтому что получилось, то получилось. В суете нынешних задач я даже забыл рассказать о нём в канале.
Тем не менее, мне всё ещё нравится этот текст. В нём я рассказываю про квантовую статистику и про квазичастицы. Как следует из названия, в первую очередь он посвящён поляритонам — квазичастицам, в которых смешаны свободные фотоны и колебания среды. Для меня было важно, что я смог на широкую аудиторию (пошире, чем две группы на моих лекциях) показать, как принцип суперпозиции в фейнмановской формулировке квантовой механики превращается в показатель преломления, известный ещё со школы: мысль, которая не выходит у меня из головы уже несколько лет, но которую я не встречал в учебниках по классической или квантовой оптике.
Занятный момент: поляритонов существует довольно много, но у меня сложилось ощущение, что термин «поляритоника» забрали себе исследователи экситон-поляритонов. Вероятно, предполагалось, что текст будет посвящён только им, но я всегда стараюсь раздавать всем сёстрам по серьгам. В итоге я получил очень много правок и комментариев в разделе с экситон-поляритонами, и ни одной — в разделах с другими поляритонами.
В общем, текст тут, почитайте на досуге
Его история начинается более года назад, когда N + 1 был информационным партнёром премии Вызов 2023, и меня попросили написать коммерческий материал про поляритонику — группа одного из победителей ею занимается. Судьба у черновика оказалась непростая: он, как говорят в медиаиндустрии, попал в производственный ад, сменив несколько выпускающих редакторов, проверяющих экспертов, а также полежав в долгом ящике несколько месяцев. Осенью его спешно решили выпустить, поэтому что получилось, то получилось. В суете нынешних задач я даже забыл рассказать о нём в канале.
Тем не менее, мне всё ещё нравится этот текст. В нём я рассказываю про квантовую статистику и про квазичастицы. Как следует из названия, в первую очередь он посвящён поляритонам — квазичастицам, в которых смешаны свободные фотоны и колебания среды. Для меня было важно, что я смог на широкую аудиторию (пошире, чем две группы на моих лекциях) показать, как принцип суперпозиции в фейнмановской формулировке квантовой механики превращается в показатель преломления, известный ещё со школы: мысль, которая не выходит у меня из головы уже несколько лет, но которую я не встречал в учебниках по классической или квантовой оптике.
Занятный момент: поляритонов существует довольно много, но у меня сложилось ощущение, что термин «поляритоника» забрали себе исследователи экситон-поляритонов. Вероятно, предполагалось, что текст будет посвящён только им, но я всегда стараюсь раздавать всем сёстрам по серьгам. В итоге я получил очень много правок и комментариев в разделе с экситон-поляритонами, и ни одной — в разделах с другими поляритонами.
В общем, текст тут, почитайте на досуге
N + 1 — главное издание о науке, технике и технологиях
На гибридной волне
👍9🔥6❤2🍓1