Представьте себе такую задачу: нужно сопоставить человеческому темпераменту определенную марку автомобиля. Или категорию товаров в аптеке — определенному музыкальному предпочтению. Или фотографиям людей — их аниме-аватары.
Все эти задачи можно описать как задачи переноса данных одного типа в другой с сохранением классов. На картинке к этому посту приведена иллюстрация этой идеи: изображениям одежды определенных типов (платья, штаны) ставятся в соответствие рукописные цифры, написанные разными почерками.
Обычно эти задачи решаются хорошо известными методами машинного обучения, в которых происходит некоторая оптимизация с помощью вычисления какой-либо евклидовой дистанции, то есть расстояния между двумя точками в некотором пространстве. В данном случае речь идёт о пространстве векторов, в которое кодируются нужные данные. Примером таких дистанций могут служить функции стоимости l1 (сумма модулей разниц между предсказанием модели и целевым значением) и l2 (сумма квадратов того же самого).
Иногда на эти задачи смотрят с точки зрения теории оптимального транспорта, основы которого заложил ещё советский математик и экономист Леонид Канторович. В частности, этим занимается одна из команд в Институте AIRI, про чьи исследования я здесь регулярно пишу.
На этот раз наши учёные подвергли сомнению оптимальность использования эвклидовых дистанций в задачах о переносе с сохранением класса и предложили вместо функций использовать функционалы. О том, что из этого вышло, рассказываю в свежем блоге
Все эти задачи можно описать как задачи переноса данных одного типа в другой с сохранением классов. На картинке к этому посту приведена иллюстрация этой идеи: изображениям одежды определенных типов (платья, штаны) ставятся в соответствие рукописные цифры, написанные разными почерками.
Обычно эти задачи решаются хорошо известными методами машинного обучения, в которых происходит некоторая оптимизация с помощью вычисления какой-либо евклидовой дистанции, то есть расстояния между двумя точками в некотором пространстве. В данном случае речь идёт о пространстве векторов, в которое кодируются нужные данные. Примером таких дистанций могут служить функции стоимости l1 (сумма модулей разниц между предсказанием модели и целевым значением) и l2 (сумма квадратов того же самого).
Иногда на эти задачи смотрят с точки зрения теории оптимального транспорта, основы которого заложил ещё советский математик и экономист Леонид Канторович. В частности, этим занимается одна из команд в Институте AIRI, про чьи исследования я здесь регулярно пишу.
На этот раз наши учёные подвергли сомнению оптимальность использования эвклидовых дистанций в задачах о переносе с сохранением класса и предложили вместо функций использовать функционалы. О том, что из этого вышло, рассказываю в свежем блоге
🔥6👍3🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
Инструменты для редактирования изображений постепенно становятся обыденной вещью, а их качество растёт с каждым годом. Теперь вы можете поменять причёску на фото, снять очки или даже состарить лицо без необходимости фотографирования повторно.
Интересно и то, как по какому алгоритму работают эти инструменты. Нейросети умеют раскладывать изображение на составные части, причём буквально (это называется инверсией). Во внутренних слоях модели кодируются все те элементы, которые требуется изменить, будь то очки, морщины или даже угол поворота головы. Мне это чем-то напоминает разложение функции в ряд Фурье.
Но если для коэффициентов ряда Фурье существуют простые формулы, то в случае с инверсией и последующим редактированием изображений всё гораздо сложнее. Нейросеть нужно сначала обучить — причём на уровне многомерный параметрических пространств — какое смещение вектора представлений какому изменению на фото соответствует. И вот тут-то и кроется самое сложное и интересное.
Не так давно исследователи из AIRI разработали метод, который справляется с описанным задачами лучше, чем какой-либо ещё. Подробности своих достижений они представили не только в научной статье, но и в большом тексте на Хабре, который я помог им составить.
P.S. Ребята сделали открытое demo, в котором вы можете загрузить своё фото и попробовать его отредактировать!
Интересно и то, как по какому алгоритму работают эти инструменты. Нейросети умеют раскладывать изображение на составные части, причём буквально (это называется инверсией). Во внутренних слоях модели кодируются все те элементы, которые требуется изменить, будь то очки, морщины или даже угол поворота головы. Мне это чем-то напоминает разложение функции в ряд Фурье.
Но если для коэффициентов ряда Фурье существуют простые формулы, то в случае с инверсией и последующим редактированием изображений всё гораздо сложнее. Нейросеть нужно сначала обучить — причём на уровне многомерный параметрических пространств — какое смещение вектора представлений какому изменению на фото соответствует. И вот тут-то и кроется самое сложное и интересное.
Не так давно исследователи из AIRI разработали метод, который справляется с описанным задачами лучше, чем какой-либо ещё. Подробности своих достижений они представили не только в научной статье, но и в большом тексте на Хабре, который я помог им составить.
P.S. Ребята сделали открытое demo, в котором вы можете загрузить своё фото и попробовать его отредактировать!
👍7🔥4🍓1😎1
ChatGPT — это языковая модель, то есть она составляет наиболее правильные последовательности символов с точки зрения обучающей выборки. Тем не менее, иногда она может научиться решать специфичные задачи, которым её никто специально не учил, если подать ей на вход несколько текстовых примеров формата «вопрос-ответ». Этот феномен носит название контекстного обучения (in‑context learning), поскольку множество примеров в данном случае формирует контекст.
Эта техника стала развиваться сравнительно недавно благодаря тому, что в современных LLM сильно выросла длина входной последовательности (подробнее об этом я уже рассказывал ранее). Чем она больше, тем больше можно показать модели примеров, а, значит, большей точности от неё ожидать.
И, как и в любой ML-области, контекстному обучению нужны хорошие бенчмарки и датасеты. А с ними до недавнего времени было туго. Ситуацию исправили исследователи из научной группы «Адаптивные агенты» в AIRI. Они собрали такой датасет и презентовали его в научной статье. А чтобы рассказать об этом русскоязычным коллегам, один из членов команды написал статью для Хабра с небольшим обзором in‑context learning и техническими деталями исследования. А я, как водится, помог этому тексту увидеть свет
Эта техника стала развиваться сравнительно недавно благодаря тому, что в современных LLM сильно выросла длина входной последовательности (подробнее об этом я уже рассказывал ранее). Чем она больше, тем больше можно показать модели примеров, а, значит, большей точности от неё ожидать.
И, как и в любой ML-области, контекстному обучению нужны хорошие бенчмарки и датасеты. А с ними до недавнего времени было туго. Ситуацию исправили исследователи из научной группы «Адаптивные агенты» в AIRI. Они собрали такой датасет и презентовали его в научной статье. А чтобы рассказать об этом русскоязычным коллегам, один из членов команды написал статью для Хабра с небольшим обзором in‑context learning и техническими деталями исследования. А я, как водится, помог этому тексту увидеть свет
Хабр
XLand-100B: первый в мире большой датасет для контекстного обучения с подкреплением
Хабр, привет! Меня зовут Александр Никулин, я аспирант МФТИ и один из исследователей научной группы «Адаптивные агенты» в Институте AIRI. Как можно понять из названия, наша группа заинтересована...
👍4❤1🔥1🍓1
Машинное обучение с разной скоростью проникает во все области науки. Одна из моделей такого синтеза — это когда профессор, далёкий от ML/DL, берёт в аспирантуру/магистратуру вычислительного математика, и вместе они начинают искать скрытые закономерности.
И здесь кроется ряд опасностей, ноги которых растут в том, что в команде нет человека, обладающего полнотой картины. Профессор не шарит за алгоритмы, студент/аспирант — в предметной области. Как следствие, группа рискует попасть в плен иллюзий и когнитивных искажений: модели строятся, статьи пишутся, гранты получаются, но реального научного знания не прибавляется.
Похоже, именно это сейчас массово происходит в такой области, как биология старения, а в частности — поиска часов старения. Во всяком случае, если верить научному сотруднику лаборатории «Сильный ИИ в медицине» в AIRI Дмитрию Крюкову. Его группа недавно опубликовала научную статью, в которой привела аргументы, почему большинство часов старения, которые базируются на слепом использовании базовых ML-алгоритмов, скорее всего не предсказывают ничего из-за неумения их авторов учитывать неопределенности.
Своё мнение на этот счёт Дмитрий изложил в большой колонке на Хабре, которую мы вместе с ним сегодня выпустили
И здесь кроется ряд опасностей, ноги которых растут в том, что в команде нет человека, обладающего полнотой картины. Профессор не шарит за алгоритмы, студент/аспирант — в предметной области. Как следствие, группа рискует попасть в плен иллюзий и когнитивных искажений: модели строятся, статьи пишутся, гранты получаются, но реального научного знания не прибавляется.
Похоже, именно это сейчас массово происходит в такой области, как биология старения, а в частности — поиска часов старения. Во всяком случае, если верить научному сотруднику лаборатории «Сильный ИИ в медицине» в AIRI Дмитрию Крюкову. Его группа недавно опубликовала научную статью, в которой привела аргументы, почему большинство часов старения, которые базируются на слепом использовании базовых ML-алгоритмов, скорее всего не предсказывают ничего из-за неумения их авторов учитывать неопределенности.
Своё мнение на этот счёт Дмитрий изложил в большой колонке на Хабре, которую мы вместе с ним сегодня выпустили
Wiley Online Library
Epistemic uncertainty challenges aging clock reliability in predicting rejuvenation effects
Epigenetic aging clocks are used to validate rejuvenation during cellular reprogramming, but their predictions are unverifiable due to the unknown true biological ages of reprogrammed cells. Our fram...
🔥8⚡2🍓1🆒1
Помните, я упоминал, что после работы над досками из Black Mesa, они теперь привлекают моё внимание всюду, даже в командировках? Это была не шутка и даже не преувеличение.
На этот раз одна такая доска попалась мне в самом первом эпизоде сериала «Кибердеревня». Многие из вас, вероятно, узнали в записях уравнение Шрёдингера в координатном представлении. По версии авторов сериала именно оно является решающим компонентом в вопросе переселения сознания из одного носителя в другой
На этот раз одна такая доска попалась мне в самом первом эпизоде сериала «Кибердеревня». Многие из вас, вероятно, узнали в записях уравнение Шрёдингера в координатном представлении. По версии авторов сериала именно оно является решающим компонентом в вопросе переселения сознания из одного носителя в другой
😁14👍3🍓1
Два года назад я «заказал» нейросети (на тот момент, ранней версии Midjourney) аватарку с промптом в виде названия канала. За это время генеративные модели скакнули вперёд, да и желание обновиться назрело.
Новую аву мне нарисовала сетка, которую всем желающим предоставляет стартап neural.love. Команда этой маленькой компании, кстати, состоит из людей, которые делали когда-то милый моему сердцу TJournal, поэтому здесь есть и эмоциональный момент тоже
Новую аву мне нарисовала сетка, которую всем желающим предоставляет стартап neural.love. Команда этой маленькой компании, кстати, состоит из людей, которые делали когда-то милый моему сердцу TJournal, поэтому здесь есть и эмоциональный момент тоже
neural.love
Free AI Art Generator – Create Unlimited Art | neural.love
Transform ideas into stunning AI-generated art with neural.love's free online image generator. Text to image, no skills needed. Start creating now!
🔥9👍7🍓1
Я сейчас в Санкт-Петербурге, слушаю лекции на Летней школе Института искусственного интеллекта AIRI для студентов и аспирантов «Лето с AIRI», которая стартовала сегодня. В прошлом году партнёром AIRI был Иннополис, на этот раз школу помогает делать ИТМО. Питер, конечно, сильно дальше, но мне всё равно удалось выделить время и приехать.
На фото доклад руководителя лаборатории Fusion Brain Андрея Кузнецова, который рассказывает о том, чем сильный ИИ отличается от слабого.
Коридоры ИТМО, к слову, вызывают у меня приятное чувство ностальгии. Я гулял по ним в 2009 и 2010 годах, когда участвовал в конференциях по оптике
На фото доклад руководителя лаборатории Fusion Brain Андрея Кузнецова, который рассказывает о том, чем сильный ИИ отличается от слабого.
Коридоры ИТМО, к слову, вызывают у меня приятное чувство ностальгии. Я гулял по ним в 2009 и 2010 годах, когда участвовал в конференциях по оптике
👍18🔥5❤2🍓1
Media is too big
VIEW IN TELEGRAM
Как любитель видеоигр и искусственного интеллекта, не могу пройти мимо этой новости.
Исследователи из Google и университета Тель-Авива продемонстрировали игровой движок, который полностью отрисовывает кадры с помощью нейросетей. В качестве объекта для опытов они выбрали первый DOOM.
Результаты видны на видео. Если честно, они напоминают мне сон геймера из 90-х, который переиграл в свою любимую игру: картинка немного плавающая, объекты исчезают и появляются, но, не зная, что это нейросети, на первый взгляд легко обмануться: даже патроны и HP уменьшаются согласно событиям игры.
Впрочем, это не совсем игра, в которую можно поиграть. Сначала авторы научили играть в дум RL-агента, а затем использовали записи этих игр, чтобы обучить диффузионные модели предсказывать следующий кадр. Таким образом, геймплей, который мы видим — это буквально сон нейросети. Однако в будущем этот сон можно будет обусловить на управление, и тогда мы получим настоящий игровой нейродвижок.
Подробности можно почитать по ссылке.
Думаю, уже можно смело объявить, что DOOM запустили на нейросетях!
Исследователи из Google и университета Тель-Авива продемонстрировали игровой движок, который полностью отрисовывает кадры с помощью нейросетей. В качестве объекта для опытов они выбрали первый DOOM.
Результаты видны на видео. Если честно, они напоминают мне сон геймера из 90-х, который переиграл в свою любимую игру: картинка немного плавающая, объекты исчезают и появляются, но, не зная, что это нейросети, на первый взгляд легко обмануться: даже патроны и HP уменьшаются согласно событиям игры.
Впрочем, это не совсем игра, в которую можно поиграть. Сначала авторы научили играть в дум RL-агента, а затем использовали записи этих игр, чтобы обучить диффузионные модели предсказывать следующий кадр. Таким образом, геймплей, который мы видим — это буквально сон нейросети. Однако в будущем этот сон можно будет обусловить на управление, и тогда мы получим настоящий игровой нейродвижок.
Подробности можно почитать по ссылке.
Думаю, уже можно смело объявить, что DOOM запустили на нейросетях!
🔥12😁6❤1⚡1😱1🍓1
Недавно я рассказывал вам об успехах одной из команд AIRI, а именно лаборатории Fusion Brain, на поприще создания методов, которые бы умели эффективно и быстро редактировать изображения с помощью нейросетей. Особенностью той работы была в том, что исследователи строили модели на основе GAN’ов или, по-русски, генеративно-состязательных сетей (о них я тоже писал).
Но GAN — это не единственная нейросеть-рисовалка. Другой популярный подход — это диффузионные модели, которые также часто гостят на моём канале. У них совсем другая архитектура, поэтому и принципы редактирования с их помощью иные. Но это не помешало исследователям из Fusion Brain добиться успехов и там.
Подробнее об этом рассказывает на Хабре один из членов команды Вадим Титов. Как и в прошлый раз, ребята подготовили демо, с которым может поиграться любой желающий
Но GAN — это не единственная нейросеть-рисовалка. Другой популярный подход — это диффузионные модели, которые также часто гостят на моём канале. У них совсем другая архитектура, поэтому и принципы редактирования с их помощью иные. Но это не помешало исследователям из Fusion Brain добиться успехов и там.
Подробнее об этом рассказывает на Хабре один из членов команды Вадим Титов. Как и в прошлый раз, ребята подготовили демо, с которым может поиграться любой желающий
Хабр
Путеводитель для диффузионок. Как заставить нейросети качественно редактировать изображения
Привет, Хабр! Меня зовут Вадим, я — младший научный сотрудник группы Controllable Generative AI лаборатории FusionBrain в AIRI. Последние несколько лет я занимаюсь исследованием генеративных моделей в...
👍3🔥2❤1🍓1
Обучение с подкреплением — это когда ИИ-модель учится методом проб и ошибок, а вы подсказываете ей, правильно она поступает или нет. Про него часто упоминают, говоря о роботах или о победе компьютера над человеком в очередной игре (настольной или компьютерной).
Но применяют этот метод куда шире, например, для поиска новых лекарств. Наилучшим решением в этом направлении 2021 году стала модель FREED, которая для данного белка поатомно собирала (или, как говорят в области ИИ, генерировала) нужный лиганд (теоретически, разумеется).
Но оказалось, что во FREED ещё много багов и недостатков. Это выяснила команда исследователей из AIRI. Они не только исправили все ошибки, но и сильно улучшили модель, назвав своё детище FREED++.
Подробностями разработки делится на Хабре один из членов команды, а я, как водится, помог ему выпустить этот текст
Но применяют этот метод куда шире, например, для поиска новых лекарств. Наилучшим решением в этом направлении 2021 году стала модель FREED, которая для данного белка поатомно собирала (или, как говорят в области ИИ, генерировала) нужный лиганд (теоретически, разумеется).
Но оказалось, что во FREED ещё много багов и недостатков. Это выяснила команда исследователей из AIRI. Они не только исправили все ошибки, но и сильно улучшили модель, назвав своё детище FREED++.
Подробностями разработки делится на Хабре один из членов команды, а я, как водится, помог ему выпустить этот текст
Хабр
FREED++. Ускоряем поиск новых лекарств с помощью нейросетей
Привет! Меня зовут Александр Телепов, я — исследователь в Институте AIRI. Наша команда занимается применением глубокого обучения в науках о жизни. В сферу наших интересов...
❤10👍5
Сегодня Google Translate или ему подобные средства машинного перевода стали обыденным инструментом для большинства людей, использующих Интернет. Завтра обыденными станут чатботы по типу ChatGPT (а для кого-то уже). Во всех этих технологиях применяются большие языковые модели или LLMки.
Чтобы обучить LLM, вам нужно много текста. И если на английском или русском написано много всего разного, то вот собрать большой датасет для удмуртского или алеутского уже сложнее. Хотя именно исчезающим языкам хорошая модель нужнее всего — так можно сохранить хотя бы их цифрового носителя-нейросеть. Ну и необходимость в переводчиках и ИИ-ассистентах для говорящих на них тоже имеется. Значит ли это, что такие малоресурсные языки невозможно смоделировать?
Оказалось, что помочь здесь может технология трансферного обучения или обучения с переносом знаний. Это когда модель предобучается на одном обширном типе данных, а потом доучивается на более специализированном, но бедном датасете. Такая схема работает, если оба типа данных (или домена, как их называют в ML) близки. Например, я уже рассказывал, как это работает с картинками.
К языкам трансферное обучение тоже применимо, однако традиционно принято предобучать LLM на английском. Исследователи из AIRI и Сколтеха в ходе масштабных экспериментов с почти пятью тысячами пар языков, включая исчезающие, выяснили, что это не самый оптимальный язык-донор: вместо него лучше использовать африкаанс или словенский. Они не только выяснили, какие факторы делают перенос знаний наиболее эффективным, но поставили рекорд по числу смоделированных языков.
Рассказываю об исследовании в блоге на сайте AIRI
Чтобы обучить LLM, вам нужно много текста. И если на английском или русском написано много всего разного, то вот собрать большой датасет для удмуртского или алеутского уже сложнее. Хотя именно исчезающим языкам хорошая модель нужнее всего — так можно сохранить хотя бы их цифрового носителя-нейросеть. Ну и необходимость в переводчиках и ИИ-ассистентах для говорящих на них тоже имеется. Значит ли это, что такие малоресурсные языки невозможно смоделировать?
Оказалось, что помочь здесь может технология трансферного обучения или обучения с переносом знаний. Это когда модель предобучается на одном обширном типе данных, а потом доучивается на более специализированном, но бедном датасете. Такая схема работает, если оба типа данных (или домена, как их называют в ML) близки. Например, я уже рассказывал, как это работает с картинками.
К языкам трансферное обучение тоже применимо, однако традиционно принято предобучать LLM на английском. Исследователи из AIRI и Сколтеха в ходе масштабных экспериментов с почти пятью тысячами пар языков, включая исчезающие, выяснили, что это не самый оптимальный язык-донор: вместо него лучше использовать африкаанс или словенский. Они не только выяснили, какие факторы делают перенос знаний наиболее эффективным, но поставили рекорд по числу смоделированных языков.
Рассказываю об исследовании в блоге на сайте AIRI
🔥11👍4
Кстати, а ещё сегодня исполняется 11 лет с момента выхода на консоли легендарной игры Grand Theft Auto V. Лично для меня эта игра остаётся знаковой, так как в течение пары лет она занимала довольно большую часть моего игрового досуга, главным образом благодаря её онлайн режиму.
Но причём здесь наука? Сейчас расскажу.
Ещё в период, когда я активно следил за научно-новостной повесткой, я часто видел упоминание GTA V в своём инфополе. То её проверяли на стимулы к агрессии у игроков, то использовали в качестве полигона для нейросетей.
В честь знаменательной даты я решил исследовать, что там по научным публикациям с упоминанием Пятёрки. Поскольку к Scopus доступа нынче нет, а Google Scholar слишком уж демократичный, я воспользовался платформой openalex.org. Оказалось, что на момент написания этого поста Grand Theft Auto V фигурирует в 743 статьях, книгах и диссертациях, и ещё 131 раза её указывали как Grand Theft Auto 5.
Что интересно: в рубрикаторе лидируют, конечно, социальные науки, но дальше плотным строем идут различные инженерные и компьютерные направления, такие как, к примеру, Computer Vision (см картинку к посту). Примечательно также, что последние годы число статей лишь растёт. Лично меня всё это очень радует, поскольку я пребываю в уверенности, что современная академия ещё далеко не до конца раскрыла ресурсы, которые могут ей предоставить интерактивные развлечения.
Поздравляю именинницу и всех причастных!
Но причём здесь наука? Сейчас расскажу.
Ещё в период, когда я активно следил за научно-новостной повесткой, я часто видел упоминание GTA V в своём инфополе. То её проверяли на стимулы к агрессии у игроков, то использовали в качестве полигона для нейросетей.
В честь знаменательной даты я решил исследовать, что там по научным публикациям с упоминанием Пятёрки. Поскольку к Scopus доступа нынче нет, а Google Scholar слишком уж демократичный, я воспользовался платформой openalex.org. Оказалось, что на момент написания этого поста Grand Theft Auto V фигурирует в 743 статьях, книгах и диссертациях, и ещё 131 раза её указывали как Grand Theft Auto 5.
Что интересно: в рубрикаторе лидируют, конечно, социальные науки, но дальше плотным строем идут различные инженерные и компьютерные направления, такие как, к примеру, Computer Vision (см картинку к посту). Примечательно также, что последние годы число статей лишь растёт. Лично меня всё это очень радует, поскольку я пребываю в уверенности, что современная академия ещё далеко не до конца раскрыла ресурсы, которые могут ей предоставить интерактивные развлечения.
Поздравляю именинницу и всех причастных!
🔥15🎉5👍3⚡2❤1🫡1
Как научить робота строить маршрут в сложном лабиринте? Сегодня эту решение этой задачи разбивают на две части.
Сначала какой-нибудь классический алгоритм решает упрощенную задачу, предлагая траекторию в виде ломаной прямой (например алгоритм A*, про который я пару раз рассказывал здесь).
Но настоящий робот — это не точка, а целый агретат, обычно на колёсах, который и размер имеет, и резко повернуть не может. Поэтому нужна вторая часть вычислительной схемы — алгоритм, который адаптирует ломаную под эти ограничения, делая её гладкой и не давая роботу сталкиваться с препятствиями.
В свежем Хабре, который я помог выпустить сегодня, один из исследователей AIRI рассказывает, как их группа приспособила под эту задачу нейросети
Сначала какой-нибудь классический алгоритм решает упрощенную задачу, предлагая траекторию в виде ломаной прямой (например алгоритм A*, про который я пару раз рассказывал здесь).
Но настоящий робот — это не точка, а целый агретат, обычно на колёсах, который и размер имеет, и резко повернуть не может. Поэтому нужна вторая часть вычислительной схемы — алгоритм, который адаптирует ломаную под эти ограничения, делая её гладкой и не давая роботу сталкиваться с препятствиями.
В свежем Хабре, который я помог выпустить сегодня, один из исследователей AIRI рассказывает, как их группа приспособила под эту задачу нейросети
Хабр
Улучшаем навигацию роботов с помощью нейронного потенциального поля
Всем привет! Меня зовут Алексей Староверов, я научный сотрудник группы «Embodied agents» в AIRI. К числу моих научных интересов в основном относятся алгоритмы обучения...
👍4🔥2
Вообще-то писать рецензии на нон-фикшн литературу — это не то, что я регулярно практикую, и в этом посте я не собираюсь этого делать. Но не упомянуть книгу, которую я недавно закончил читать, не могу. Речь идёт о книге Нассима Талеба под названием «Черный лебедь. Под знаком непредсказуемости», посвященную случайностям и неопределённостям и их влиянию на сложные системы.
Тезисно: случайности бывают двух типов. Первый тип регулируется нормальным распределением, при котором шанс встретить аномалию сверхэкспоненциально уменьшается по мере удаления от среднего значения — обычно у этого есть какие-либо естественные причины. Во втором случае распределения менее формализованы, но обычно похожи на степенной закон с плавающей степенью — такое наблюдается в средах, где нет физических ограничений на масштаб величин, например, в финансах.
Если продраться через самолюбование автора собой, оскорбления коллег и сведения счётов с оппонентами, из книги можно усвоить важную мысль: со вторым случаем мы сталкиваемся гораздо чаще, чем нам кажется и хочется, и применение тут теорий на основе нормального распределения создаёт опасную иллюзию, что мы понимаем сути процессов при реальном отсутствии такового понимания. Лично я после знакомства с этой книгой стал не только с подозрением относится к экономическим теориям, которые хает автор, но и даже к тому, как у нас в физике считают ошибки (но, надеюсь, беспочвенно).
Взяться за эту книгу меня побудило две вещи. Сначала мне её рекомендовал один авторитетный для меня человек, а на следующий же день я натолкнулся на ссылку на эту книгу в одной из свежих статей в Nature
Тезисно: случайности бывают двух типов. Первый тип регулируется нормальным распределением, при котором шанс встретить аномалию сверхэкспоненциально уменьшается по мере удаления от среднего значения — обычно у этого есть какие-либо естественные причины. Во втором случае распределения менее формализованы, но обычно похожи на степенной закон с плавающей степенью — такое наблюдается в средах, где нет физических ограничений на масштаб величин, например, в финансах.
Если продраться через самолюбование автора собой, оскорбления коллег и сведения счётов с оппонентами, из книги можно усвоить важную мысль: со вторым случаем мы сталкиваемся гораздо чаще, чем нам кажется и хочется, и применение тут теорий на основе нормального распределения создаёт опасную иллюзию, что мы понимаем сути процессов при реальном отсутствии такового понимания. Лично я после знакомства с этой книгой стал не только с подозрением относится к экономическим теориям, которые хает автор, но и даже к тому, как у нас в физике считают ошибки (но, надеюсь, беспочвенно).
Взяться за эту книгу меня побудило две вещи. Сначала мне её рекомендовал один авторитетный для меня человек, а на следующий же день я натолкнулся на ссылку на эту книгу в одной из свежих статей в Nature
👍12🤔3🔥1
Вдогонку.
То издание, которое я читал, вышло в 2007 году. В это время ещё не были изобретены трансформеры, генеративно‑состязательные нейросети и большинство архитектур, которые прямо сейчас производят революцию в машинном обучении. Вместе с тем, это всё статистические методы, и идеи Талеба здесь наверняка к месту.
Собственно, на эту книгу сослались авторы статьи, которые обнаружили, что при многократном обучении нейросети на сгенерированных ею же самой данных, выдача модели сильно деградирует. Причина этого в искажениях статистических свойств данных, а именно потеря «хвостов» — краёв распределений с редкими примерами.
В этой связи не могу не вспомнить и методы оценки неопределенности моделей, которые позволяют им отказаться от ответа в случае неуверенности в прогнозе. Полагаю, что это чем-то похоже на оценку рисков при сборке инвестиционного портфеля, поэтому теория «черных лебедей» здесь, возможно, тоже могла бы пригодиться
То издание, которое я читал, вышло в 2007 году. В это время ещё не были изобретены трансформеры, генеративно‑состязательные нейросети и большинство архитектур, которые прямо сейчас производят революцию в машинном обучении. Вместе с тем, это всё статистические методы, и идеи Талеба здесь наверняка к месту.
Собственно, на эту книгу сослались авторы статьи, которые обнаружили, что при многократном обучении нейросети на сгенерированных ею же самой данных, выдача модели сильно деградирует. Причина этого в искажениях статистических свойств данных, а именно потеря «хвостов» — краёв распределений с редкими примерами.
В этой связи не могу не вспомнить и методы оценки неопределенности моделей, которые позволяют им отказаться от ответа в случае неуверенности в прогнозе. Полагаю, что это чем-то похоже на оценку рисков при сборке инвестиционного портфеля, поэтому теория «черных лебедей» здесь, возможно, тоже могла бы пригодиться
Nature
AI models collapse when trained on recursively generated data
Nature - Analysis shows that indiscriminately training generative artificial intelligence on real and generated content, usually done by scraping data from the Internet, can lead to a collapse in...
👍9🔥3❤1
Многие исследователи преподают. Мои коллеги по AIRI, изучающие трансформерные модели, — не исключение. Трансформеры, однако, универсальны в том смысле, что такая архитектура может быть полезна в самом широком спектре практических задач цифрового мира: тексты, аудио, изображения и тому подобное.
Это значит, что интерес к ним большой не только со стороны учёных исследователей, но и со стороны представителей индустрии. И тех, и других нужно трансформером обучать, желательно, в рамках одной учебной программы с небольшими корректировками.
Эту-то задачу и смогли решить сотрудники Института, создав оригинальный курс по трансформерам, который они уже несколько лет читают в некоторых московских ВУЗах на русском и английском, постоянно его обновляя и адаптируя. Рассказ о курсе от первого лица вышел сегодня на Хабре, ну а я, как обычно, помог ему увидеть свет
Это значит, что интерес к ним большой не только со стороны учёных исследователей, но и со стороны представителей индустрии. И тех, и других нужно трансформером обучать, желательно, в рамках одной учебной программы с небольшими корректировками.
Эту-то задачу и смогли решить сотрудники Института, создав оригинальный курс по трансформерам, который они уже несколько лет читают в некоторых московских ВУЗах на русском и английском, постоянно его обновляя и адаптируя. Рассказ о курсе от первого лица вышел сегодня на Хабре, ну а я, как обычно, помог ему увидеть свет
Хабр
Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям
Привет, Хабр. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео,...
👍12🔥1
Марат пишет про науку (в основном) pinned «Для вновь подключившихся поясню. У меня есть хобби: искать видеоигры, в которых сюжет или дизайн окружения (но не механики!) черпают идеи из глубоких физических концепций, а потом делать разборы, которые выходят на N + 1. За несколько лет, что я этим занимаюсь…»
Учитывая тематику моего канала, не могу не прокомментировать свежую Нобелевку по физике: «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей». Как следует из пресс-релиза, Хинтон и Хопфилд развивали концепции и модели, которые впоследствии помогли создать эффективные нейросети.
Примечательно, что недовольство решением комитета бурлит по обе стороны научной границы. Физикам непонятно, причём здесь нейросети, и зачем давать премию за, по сути, математику. Исследователи ИИ удивляются, почему были выбраны именно эти модели: машина Больцмана и память Хопфилда, которые не нашли широкого применения, в то время как революция нейросетей идёт на поле иных алгоритмов. Продолжаю наблюдать за ситуацией.
Но лично мне кажется, что премия 2024 — это жест авансом. С одной стороны, в машинное обучение пришло из физики немало концепций: те же энергетические модели или диффузия. С другой — в ближайшие 5-10 лет вычислительная физика изменится до неузнаваемости благодаря нейросетям. Уже сейчас такие области как физика высоких энергий или моделирование климата не может обходиться без машинного обучения.
В общем, будем следить за комментариями экспертов
Примечательно, что недовольство решением комитета бурлит по обе стороны научной границы. Физикам непонятно, причём здесь нейросети, и зачем давать премию за, по сути, математику. Исследователи ИИ удивляются, почему были выбраны именно эти модели: машина Больцмана и память Хопфилда, которые не нашли широкого применения, в то время как революция нейросетей идёт на поле иных алгоритмов. Продолжаю наблюдать за ситуацией.
Но лично мне кажется, что премия 2024 — это жест авансом. С одной стороны, в машинное обучение пришло из физики немало концепций: те же энергетические модели или диффузия. С другой — в ближайшие 5-10 лет вычислительная физика изменится до неузнаваемости благодаря нейросетям. Уже сейчас такие области как физика высоких энергий или моделирование климата не может обходиться без машинного обучения.
В общем, будем следить за комментариями экспертов
NobelPrize.org
Nobel Prize in Physics 2024
The Nobel Prize in Physics 2024 was awarded jointly to John J. Hopfield and Geoffrey Hinton "for foundational discoveries and inventions that enable machine learning with artificial neural networks"
👍13🤔3🔥2🍓1
Для обучения по-настоящему успешных больших языковых моделей нужно много, очень много текста. Сейчас его берут из интернета, но количество человеческой писанины в вебе растёт несравненно медленнее, чем потребности ИИ.
Эту проблему хотят решать с помощью текстов, написанных другими нейросетями. Но будет ли это работать? В попытке ответить на этот вопрос, одна из групп провела эксперимент, который показал, что при обучении модели на тексте, написанном моделью, которая обучалась на тексте, написанном моделью [повторить N раз], на выходе получится полная ерунда. Особенность этой работы (я уже упоминал её недавно) в том, что она не ограничилась препринтом или публикацией в сборнике конференции, а добралась не много не мало до Nature — вообще говоря, редкость для ИИ, — затратив, однако, на это целый год.
Статья вышла в июле и наделала шуму в медиасфере. Шутка ли, выходит, что развитие LLM семимильными шагами несётся в тупик! Действительно, такой вывод кажется неизбежным, учитывая, что скоро количество текстов в интернете, написанных машинами, превысит человеческие.
Я решил разобраться, что к чему, и вооружился мнением экспертов по ИИ, которых в моём окружении сейчас достаточно. Итог увидел свет сегодня в виде материала на N + 1
Эту проблему хотят решать с помощью текстов, написанных другими нейросетями. Но будет ли это работать? В попытке ответить на этот вопрос, одна из групп провела эксперимент, который показал, что при обучении модели на тексте, написанном моделью, которая обучалась на тексте, написанном моделью [повторить N раз], на выходе получится полная ерунда. Особенность этой работы (я уже упоминал её недавно) в том, что она не ограничилась препринтом или публикацией в сборнике конференции, а добралась не много не мало до Nature — вообще говоря, редкость для ИИ, — затратив, однако, на это целый год.
Статья вышла в июле и наделала шуму в медиасфере. Шутка ли, выходит, что развитие LLM семимильными шагами несётся в тупик! Действительно, такой вывод кажется неизбежным, учитывая, что скоро количество текстов в интернете, написанных машинами, превысит человеческие.
Я решил разобраться, что к чему, и вооружился мнением экспертов по ИИ, которых в моём окружении сейчас достаточно. Итог увидел свет сегодня в виде материала на N + 1
N + 1 — главное издание о науке, технике и технологиях
И целого интернета мало
🔥17⚡4🍓2✍1👍1
Немного мыслей с бэкстейджа.
Статья, о которой я говорю, вышла в июле. Меня ещё на этапе эмбарго звали писать новость, но я отказался, поскольку у меня большая нагрузка в AIRI. Тем не менее, мы решили, что сделать разбор для энки с привлечением эксперта Института будет полезно, поэтому я получил зелёный свет.
Сам черновик был готов ещё в начале августа. Но на этапе редактуры оказалось, что писать про ИИ так же, как я писал про физику не получится. Во всяком случае, не материал для N + 1. Термины, которые казались мне само собой разумеющимися, вызывали у выпускающего редактора постоянные спотыкания. Конечно, в этом есть некоторый элемент привыкания и авторов, и редакторов, и, конечно, читателей. Если слово «бозон» объяснять не надо, то «токен» — будьте любезны!
В конечном итоге редактура затянулась, и поэтому материал вышел только сейчас. Текст, фактически, почти целиком оказался переписан совместными усилиями меня и выпускающего. Все проблемные термины либо получили определение, либо были заменены более «бытовыми» синонимами. Местами с потерей точности изложения, конечно, но по-другому, видимо, никак.
Конечно, желание писать большие материалы про ИИ куда-то, помимо Хабра или подобных профильных источников, немного поубавилось (надеюсь, временно), но это был ценный урок
Статья, о которой я говорю, вышла в июле. Меня ещё на этапе эмбарго звали писать новость, но я отказался, поскольку у меня большая нагрузка в AIRI. Тем не менее, мы решили, что сделать разбор для энки с привлечением эксперта Института будет полезно, поэтому я получил зелёный свет.
Сам черновик был готов ещё в начале августа. Но на этапе редактуры оказалось, что писать про ИИ так же, как я писал про физику не получится. Во всяком случае, не материал для N + 1. Термины, которые казались мне само собой разумеющимися, вызывали у выпускающего редактора постоянные спотыкания. Конечно, в этом есть некоторый элемент привыкания и авторов, и редакторов, и, конечно, читателей. Если слово «бозон» объяснять не надо, то «токен» — будьте любезны!
В конечном итоге редактура затянулась, и поэтому материал вышел только сейчас. Текст, фактически, почти целиком оказался переписан совместными усилиями меня и выпускающего. Все проблемные термины либо получили определение, либо были заменены более «бытовыми» синонимами. Местами с потерей точности изложения, конечно, но по-другому, видимо, никак.
Конечно, желание писать большие материалы про ИИ куда-то, помимо Хабра или подобных профильных источников, немного поубавилось (надеюсь, временно), но это был ценный урок
❤13🔥5🤔2🍓2👍1
