Pro AI – Telegram
Видеозапись вебинара Алексея Староверова "Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками" доступна по ссылке
👍6
“Attention is all you need” — так говорило название статьи, представившей трансформеры в 2017. Какое-то время так и казалось, но сейчас архитектуры без внимания возвращают себе былую популярность. Какие-то делают ставку на гейты, какие-то — на свертку, какие-то — комбинируют их. Есть вполне успешные примеры, получалось даже добиться лучшего масштабирования, чем у внимания. Однако, например, на Pile лучшие сверточные модели проигрывают в перплексии трансформером на 2.1 балла.

Такой серьезный провал, как выяснилось, возникает из-за одной единственной характеристики — способности запоминать информацию, которая уже была озвучена. Другими словами — запомнить n-граммы на входе и выдать такие же на выходе. Это свойство называется ассоциативная память (AR - associative recall). Считается, что AR показывает качество понимания контекста. На синтетических задачах новые модели с гейтами и сверткой не уступали вниманию по AR, поэтому разрыв в 2.1 балла перплексии на реальном языке стал сюрпризом.

Синтетические примеры предполагают “один вход-один запрос”. В реальных задачах иногда нужно вспомнить сразу несколько ассоциаций для нескольких токенов. Поэтому исследователи из Стенфорда предложили переформализовать AR в MQAR (multi-query AR). Выглядит это как точная копия AR, только для каждого токена последовательности.

Причиной большой разницы в перплексии оказалось то, что сверточные модели обрабатывают входные последовательности с помощью фиксированных фильтров, заданных весами модели. В моделях же со вниманием есть зависимость от входа, так как они учитывают взаимосвязь токенов, когда собирают последовательность. Разобравшись с теоретической основой проблемы, авторы предложили минимальную архитектуру BaseConv, которая ее закрывает на MQAR на Pile. BaseConv — это гибрид свертки и внимания с зависящим от входа вниманием и сложностью менее (типичной для трансформеров) квадратичной. Он на 97,4% закрывает разрыв в перплексии.
🔥11👍4
Нео-РНН или Make RNNs great again

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.

Читать дальше
🔥7👍3
Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности

Следом за накатившей волной LLM с их правилом “чем больше, тем лучше” сразу возникает естественный запрос добиться повышения эффективности не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше “хитрых” подходов, которые делают ставку не на размер. Попробуем разобрать некоторые из них.
👍12🙏2
Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.

Известен недавний пример, который авторы окрестили “проклятьем обратимости” (reversal curse). Даже GPT-4 может быть не в состоянии построить обратную логическую связь между простыми фактами. Например, на вопрос о том, как зовут маму Тома Круза GPT-4 отвечает правильно (Мэри Ли Пфайффер). А вот как зовут сына Мэри Ли Пфайффер GPT-4, к сожалению, не знает.

Читать дальше про то, как с этим помогают графы знаний
🔥13👍3👏1😁1
Основная часть параметров LLM относится к слоям прямого распространения (FF, feedforward). Но для выхода не нужны все нейроны этих слоев. В реальности на инференсе играет роль только небольшая доля нейронов FF. Отсюда возникает идея оптимизировать каким-то образом этот процесс и не тратить лишние вычисления на нейроны, которые потом никак не повлияют на выход.

Авторы из ETH Zurich предложили сеть UltraFastBERT, вариант BERT, который используют 0,3% его нейронов, но даёт сравнимые результаты. На инференсе каждого слоя используется всего 12 из 4095 нейронов.

Читать дальше
👍21🔥15
Почти детективное расследование провели в Калифорнийском университете. Авторы взяли 12 разных LLM, включая GPT-3, и проверили их на датасетах, созданных в разное время — до и после обучения моделей. Обнаруженные артефакты указывают на то, что one-shot и few-shot задания улучшают работу модели просто потому, что она уже встречала эти данные в процессе обучения. Авторы назвали это загрязнением заданий, task contamination.

Читать дальше
👍20🔥3😁1😱1
На следующей неделе приглашаем на вебинар Алексея Зайцева "Оценка неопределенности для глубоких нейронных сетей"

🗣Спикер: Алексей Зайцев, Сколтех, Москва, Россия

🕰 Вторник 20 февраля 2024, 16:00 MCK

🖊Алексей о вебинаре:
Нейронные сети используются во многих приложениях. Однако они все рано совершают ошибки, и мы не в полной мере осознаем, когда это происходит. Улучшить качество решений в таком случае позволит оценка степень уверенности в прогнозе. Однако текущие способы оценки неопределенности не очень хороши в силу ряда проблем. В этом докладе мы сделаем общий обзор существующих подходов к оценке неопределенности с фокусом на вероятностные методы. Отдельное внимание мы уделим оценке на основе ансамблей и численно эффективным подходам, основанным на одной нейронной сети, не требующим построения ансамбля и существенные изменения в процедуре обучения.

Сайт мероприятия

Регистрация на вебинар
👍83🔥1
LLM развились до того момента, когда человек стал для них ограничением. Точнее — человеческая обратная связь выходит слабым звеном. Чтобы развиваться дальше, AI нужно избавиться от человека — заголовок, достойный желтой прессы. Но если серьезно, об успешной попытке сделать это рассказали Meta и NYU.

Читать дальше
👍12💩2🤡1🥱1
А на следующей неделе приглашаем всех на вебинар Женисбека Ассылбекова "Hardness of Learning AES with Gradient-Based Methods"

🗣Спикер: Женисбек Ассылбеков, Assistant Professor of Data Science, Purdue University Fort Wayne.

🕰 Вторник 27 февраля 2024, 18:00 MCK

🖊Женисбек о вебинаре:
We show the approximate pairwise orthogonality of a class of functions formed by a single AES output bit under the assumption that all of its round keys except the initial one are independent. This result implies the hardness of learning AES encryption (and decryption) with gradient-based methods. The proof relies on the Boas-Bellman type of inequality in inner-product spaces

Сайт мероприятия

Регистрация на вебинар
🔥4👍1
На любом этапе развития AI активно идут философские или около того рассуждения. Сейчас, например, мы спорим насчет того, что такое AGI или world model. Последняя концепция впервые появилась, наверное, несколько десятков лет назад, но на новый уровень её вывел Ян Лекун.

Как сделать, чтобы машины обучались настолько же эффективно, как люди или животные? Как машины могут обучиться репрезентациям и планировать действия на нескольких уровнях абстракции? Для этого, по мнению Лекуна, машине нужна такая же внутренняя модель мира, которая есть у животных. Когда в 2022 году он высказался о своем дальнейшем видении AI, вопросов было больше чем ответов. С тех пор концепция world model постепенно вошла в оборот, хотя до сих пор не совсем понятно, что же имеется в виду. Но тем не менее, что-то, что называют world model появляется.

Читать дальше
🔥10👍2🤡1
2-3 абзаца — привычный размер входного текста для языковых моделей. Больше — тяжело, потому что вычислительная сложность растет квадратичным образом. Поэтому битва за удлинение контекста продолжается и постоянно возникают новые, общие или не очень, подходы. В этом обзоре мы расскажем о двух подходах, связанных с суммаризацией большого текста. Первый — LOCOST — направлен на длинные тексты (статьи и целые книги). Второй — SPECTRUM — на долгие диалоги.

Читать дальше
🔥10👍3
Помните, как на школьных уроках литературы иногда надо было развернуто ответить на вопрос о сюжетной линии героя или каком-то событии книги? Например, объяснить мотивацию и развитие Евгения Онегина. Чтобы ответить на этот вопрос на пятёрку, мало пролистать краткий пересказ романа — придётся прочитать его весь.

Примерно для этого в 2020 году предложили RAG (retrieval-augmented generation) методы. Есть и другая мотивация для RAG — после обучения LLM на большой базе данных возникает вопрос, что делать с обновлением этой самой базы. Дообучение — не беспроигрышный вариант, так как это не всегда удобно для гигантских объемов данных. В базовом подходе RAG база знаний нарезается на небольшие куски текста, chunks, в 100-1000 слов, которые в виде эмбеддингов хранятся, как правило, в векторной БД, пока не понадобятся. Запросы пользователя дополняются найденными чанками в качестве контекста и выглядят для модели как один большой запрос.

Так вот, большинство существующих RAG методов способны переварить только небольшое количество достаточно коротких и последовательных чанков. Это ограничивает возможность оперировать крупномасштабным контекстом. Возвращаясь к уроку литературы, если перед тем, как выдать ответ, прочитать несколько последовательных строф романа, этого явно будет недостаточно. Недавно вышедшая Стэнфордская статья RAPTOR: Recursive Abstractive Processing for Tree-organized Retrieval призвана решить эту проблему

Читать дальше
👍10🔥3👏2
На следующей неделе приглашаем всех на вебинар «Расстояние Выготского: подход к оценке схожести интеллектуальных задач»

🗣Спикер: Иван Ямщиков, Technische Hochschule Würzburg-Schweinfurt, Center for Artificial Intelligence and Robotics

🕰 Вторник 19 марта, 17:00 MCK

🖊Иван о вебинаре:

Оценка моделей играет значительную роль в современной обработке естественного языка. Большинство современных тестов NLP состоят из произвольных наборов задач, которые не гарантируют какого-либо потенциала обобщения для модели при применении модели вне набора тестов и не пытаются минимизировать потребление ресурсов, необходимых для оценки модели.
Мы обсудим теоретический инструмент и практический алгоритм для вычисления сходства между заданиями, который мы называем "расстоянием Выготского". Основная идея этого показателя сходства заключается в том, что он основан на относительных результатах "учеников" на выбранном задании, а не на свойствах самой задачи. Если две задачи близки друг к другу с точки зрения расстояния Выготского, модели, как правило, имеют сходную относительную успеваемость по ним. Таким образом, зная расстояние Выготского между задачами, можно значительно сократить количество оценочных заданий при сохранении высокого качества валидации.
Эксперименты с различными бенчмарками, включая GLUE, SuperCLUE, CLUE и RussianSuperGLUE, демонстрируют, что подавляющее большинство бенчмарков NLP могут быть как минимум на 40% меньше по объему включенных задач. Также расстояние Выготского может быть использовано для валидации новых задач и бенчмарков, тем самым расширяя потенциал обобщения будущих моделей.

Сайт мероприятия

Регистрация на вебинар
👍4🤔4🔥1
Тренды трендами, а всегда найдутся те, кто плывет против течения. Пока трендом становится уменьшение размеров модели, авторы из университета штата Вашингтон решили вообще не обращать внимание на размер и проверить, имеет ли смысл в эпоху LLM вернуться к N-граммным языковым моделям. Оказалось, что имеет. Во всяком случае, хотя бы просто из интереса.

На N-граммы, пожалуй, действительно давно никто не обращал внимания. Техники масштабирования, выведшие трансформеры на заоблачные высоты, к ним не применяли. Но авторы статьи Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens обучили N-граммную модель на 1,4 триллиона токенов — это самая гигантская модель такой архитектуры. Она занимает 10 тебибайт, зато ей нужно всего 20 миллисекунд, чтобы подсчитать n-граммы, вне зависимости от того чему равно n. Самое интересное — возможные значения n.

Читать дальше
👍8🔥53
5 самых классических статей по вычислительной лингвистике

На мой взгляд, читать классические статьи по специальности полезнее, чем самые свежие. Часто идеи в них богаче, а примеры - неожиданнее, чем в массовой научной продукции последних лет. Ниже - 5 самых классических, на мой взгляд, статей по вычислительной лингвистике.

Авторегрессионные языковые модели

А.А. Марковъ, Примѣръ статистическаго изслѣдованія надъ текстомъ "Евгенія Онѣгина" иллюстрирующій связь испытаній въ цѣпь. 1913

В статье Марков строит то, что сейчас назвали бы char-level bigram language model. Естественно, такие модели эквивалентны марковским цепям, и явились едва ли не первым примером применения механизма условной вероятности, на котором держится вся вычислительная лингвистика, и марковских цепей.Таким образом, языковая модель, вводимая им - это авторегрессионная модель, и является прадедушкой GPT.


Lalit R. Bahl, Frederick Jelinek, and Robert L. Mercer. A Maximum Likelihood Approach to Continuous Speech Recognition, 1983

В статье Йелинек с соавторами описывает подход, используемый с тех пор во всех системах распознавания речи, и архитектуру с разделением на акустическую и языковую модели, которые используются до сих пор. Также статья вводит в современную вычислительную лингвистику марковский подход (см. выше) с марковскими цепями и условными вероятностями.


Формальные грамматики


Noam Chomsky. Three Models for the Denoscription of Language, 1953

C практической победой статистического подхода Йелинека (см. выше) в вычислительной лингвистике в 90-х годах прошлого века генеративные грамматики очутились на окраине вычислительнолингвистических интересов. Однако, до этого эта работа 40 лет определяла развитие вычислительной лингвистики. Формальные грамматики по-прежнему лежат в основе всего, что мы программируем, ибо все языки программирования определяются формальными грамматиками.


Дистрибуционные семантики


Zellig S. Harris. Distributional Structure. 1954

Видимо, впервые вводится идея о том, что слово определяется своим контекстом.


Информация

А. Н. Колмогоров, Три подхода к определению понятия “количество информации. 1965

Обсуждая шенноновский подход к определению информации, Колмогоров вводит то, что теперь называется колмогоровской сложностью. Парадоксы, вытекающие из этой работы, до сих пор не разрешены удовлетворительно. Хотя значимость этой работы сильно выходит за рамки вычислительной лингвистики, бОльшая часть приводимых Колмогоровым примеров - именно лингвистические.

А вы бы что к этому списку добавили? У меня есть еще один список чуть менее классических, но все равно любимых старых статей. Написать в следующий раз?
👍17🔥5
На следующей неделе приглашаем всех на вебинар "От СДУ до задачи Монжа-Канторовича и обратно: путь к ИИ?"

🗣Спикер: Евгений Бурнаев, Сколтех, Москва

🕰 Вторник 2 апреля, 18:00 MCK

🖊Евгений о вебинаре:
Описание: А.Н. Колмогоров - крупнейший математик XX века, основоположник современной теории вероятностей, также заложивший основы теории марковских случайных процессов с непрерывным временем. Эти результаты, оказавшие огромное влияние на развитие прикладных методов обработки сигналов, фильтрации, моделирования и обработки финансовых данных, в 21 веке снова оказались в центре внимания в связи с развитием искусственного интеллекта и его приложений.

Действительно, для решения таких важных прикладных задач, как повышение разрешения изображений, синтезирование речи по тексту, генерация изображений на основе текстовых описаний, и др. требуются эффективные методы генеративного моделирования, которые способны порождать объекты из распределения, задаваемого выборкой примеров. Недавние достижения в области генеративного моделирования как раз и базируются на диффузионных моделях и используют математическую основу, заложенную еще в прошлом веке А.Н. Колмогоровым и его последователями.

В докладе будет рассказано о современных подходах к генеративному моделированию на основе диффузионных процессов и на основе решения задачи Монжа-Канторовича. Будет показана связь решения энтропийно-регуляризованной задачи Монжа-Канторовича с задачей построения диффузионного процесса с определенными экстремальными свойствами. Работа соответствующих алгоритмов будем продемонстрирована на примере решения различных задач обработки изображений.

Сайт мероприятия

Регистрация на вебинар
👍10