Beyond Item Dissimilarities: Diversifying by Intent in Recommender Systems
Сегодня разбираем статью, в которой предлагается новый подход к диверсификации рекомендаций, основанный на понимании пользовательских интентов.
Авторы хотят решить проблему разнообразия контента, предлагаемого пользователям. Для этого они предлагают учитывать при формировании рекомендаций пользовательские интенты, а не ограничиваться только схожестью юзер-айтемов. Намерения пользователей могут меняться в зависимости от дня недели, времени суток и контекста — например, они могут проявлять интерес к спорту, учёбе или отдыху. Учитывая эти факторы, можно сделать выдачу более разнообразной и релевантной.
В работе предложен фреймворк, который накладывается на существующую рекомендательную систему. Авторы описывают его лишь концептуально, не уточняя, чем моделировали распределения.
Идея в том, чтобы перейти от p(item | user) к p(item | user, intent) = p(item | user) * p(intent | user, item) / p(intent | user). От неё берут матожидание по априорной p(intent | user), получают вероятность того, что айтем подходит юзеру с учётом всех возможных интентов.
Это значение возводится в степень γ (гиперпараметр) и умножается на скор ранжирующей мод ели. Таким образом учитывается как user-item-релевантность, так и intent-aware-релевантность, формируя итоговый скор рекомендации.
1) Выбираем айтем с наибольшим скором и ставим его на первую позицию. Дальше повторяем процесс.
k+1) Переходя от позиции “k” к “k+1”, считаем, что k-ый айтем не подошёл пользователю. С учётом этого обновляем распределение интентов по теореме Байеса, находя апостериорное распределение. После этого пересчитываем скоры, но теперь матожидаем не по априорному, а по апостериорному распределению.
Этот пересчёт снижает вероятность однотипных рекомендаций и добавляет разнообразие в выдачу.
@RecSysChannel
Разбор подготовил❣ Сергей Макеев
Сегодня разбираем статью, в которой предлагается новый подход к диверсификации рекомендаций, основанный на понимании пользовательских интентов.
Авторы хотят решить проблему разнообразия контента, предлагаемого пользователям. Для этого они предлагают учитывать при формировании рекомендаций пользовательские интенты, а не ограничиваться только схожестью юзер-айтемов. Намерения пользователей могут меняться в зависимости от дня недели, времени суток и контекста — например, они могут проявлять интерес к спорту, учёбе или отдыху. Учитывая эти факторы, можно сделать выдачу более разнообразной и релевантной.
В работе предложен фреймворк, который накладывается на существующую рекомендательную систему. Авторы описывают его лишь концептуально, не уточняя, чем моделировали распределения.
Идея в том, чтобы перейти от p(item | user) к p(item | user, intent) = p(item | user) * p(intent | user, item) / p(intent | user). От неё берут матожидание по априорной p(intent | user), получают вероятность того, что айтем подходит юзеру с учётом всех возможных интентов.
Это значение возводится в степень γ (гиперпараметр) и умножается на скор ранжирующей мод ели. Таким образом учитывается как user-item-релевантность, так и intent-aware-релевантность, формируя итоговый скор рекомендации.
1) Выбираем айтем с наибольшим скором и ставим его на первую позицию. Дальше повторяем процесс.
k+1) Переходя от позиции “k” к “k+1”, считаем, что k-ый айтем не подошёл пользователю. С учётом этого обновляем распределение интентов по теореме Байеса, находя апостериорное распределение. После этого пересчитываем скоры, но теперь матожидаем не по априорному, а по апостериорному распределению.
Этот пересчёт снижает вероятность однотипных рекомендаций и добавляет разнообразие в выдачу.
@RecSysChannel
Разбор подготовил
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥4❤3
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment
Сегодня разбираем хайповую статью от Kuaishou — второго по популярности сервиса коротких видео в Китае. Авторы утверждают, что создали одностадийную рекомендательную систему OneRec, где генерация кандидатов и их ранжирование объединены в одной модели.
Архитектура модели
— Используют архитектуру «энкодер-декодер»: энкодер обрабатывает историю действий (на вход принимает только позитивные поведения: лайки, подписки, шеры, просмотры), а декодер генерирует всю сессию целиком.
— Вместо предсказания следующего айтема строит всю траекторию пользователя.
— Использует технику Direct Preference Optimization (DPO), причём итеративно — модель оценивает реворд каждой сессии и постепенно его увеличивает.
Энкодер — это обычный трансформер с N слоями. Между сессиями используют специальный токен-сепаратор.
Декодер устроен сложнее: в нём есть каузальный self-attention внутри сессии и cross-attention на энкодер (стандартная схема для декодеров). FFN-слой заменили на смесь экспертов. Это важно, чтобы избежать «узкого горлышка» и дать модели запомнить больше деталей о хороших сессиях. Такой подход увеличивает число параметров, но не требует лишних вычислений: в каждом проходе активируются только 4 эксперта из 24. За счёт этого растёт ёмкость модели без большого увеличения FLOPs. Ещё в декодере есть токены начала и конца сессии, последний предсказывается моделью.
Подробнее об устройстве
Многостадийные системы всегда зависят от качества каждой стадии: если ретривал выбирает неудачных кандидатов, даже хорошее ранжирование не исправит ситуацию. Авторы предлагают заменить эту схему энкодером-декодером, который сразу генерирует сессии без деления на этапы.
Подход с прямой генерацией ID уже использовали ранее, например, в работе TIGER. Но там не удалось сделать его end-to-end: модель работала как ретривал, но не заменяла ранжирование — эту стадию пришлось оставить. Авторы Kuaishou утверждают, что решили эту проблему.
Для видео они используют собственный мультимодальный эмбеддинг QARM. Берётся мультимодальная LLM, которая обрабатывает текст, изображения и аудио, её элайнят на рекомендательный сигнал и в конце применяют квантизацию.
С квантизацией есть нюанс. Обычно, как в той же TIGER, применяют RQ-VAE для получения семантических ID и построения семантических токенов. Но авторы пишут, что этот метод работает плохо из-за эффекта «песочных часов»: большинство айтемов мапятся в одни и те же ID, а остальные остаются невостребованными. В результате код-бук используется неэффективно.
Авторы предлагают заменить RQ-VAE на residual K-Means. Сначала вектор кластеризуется на K групп, затем для каждого объекта вычисляют разницу с центроидом его кластера и повторяют кластеризацию для этих разностей. Этот процесс выполняется несколько раз, а в итоге получается код из нескольких ID. Чтобы коды использовались равномерно, делают балансировку — стараются распределять видео по кластерам примерно поровну.
Генерировать хотят не просто сессии, а сессии с высокой ценностью. По критериям Kuaishou, сессия — это последовательность из 5–10 видео. Она считается удачной, если пользователь посмотрел хотя бы 5 роликов, провёл за просмотром больше определённого времени или проявил активность: лайкнул, добавил в коллекцию, поделился. Эти правила позволяют отобрать качественные сессии и использовать их в обучении. В самих сессиях каждый айтем представлен набором семантических ID.
Что в итоге
Авторы пишут, что систему удалось не только разработать, но и внедрить в прод. Она заменила многостадийную архитектуру, упростив процесс, и при этом увеличила время просмотра на 1,6%.
Результаты могли бы быть впечатляющими, однако в статье есть несколько непонятных моментов. Например, неясно, есть ли в новой архитектуре учёт длинной истории. Кроме того, выглядит так, будто у модели нет реактивности к дизлайкам и негативному фидбеку.
@RecSysChannel
Разбор подготовил❣ Виктор Януш
Сегодня разбираем хайповую статью от Kuaishou — второго по популярности сервиса коротких видео в Китае. Авторы утверждают, что создали одностадийную рекомендательную систему OneRec, где генерация кандидатов и их ранжирование объединены в одной модели.
Архитектура модели
— Используют архитектуру «энкодер-декодер»: энкодер обрабатывает историю действий (на вход принимает только позитивные поведения: лайки, подписки, шеры, просмотры), а декодер генерирует всю сессию целиком.
— Вместо предсказания следующего айтема строит всю траекторию пользователя.
— Использует технику Direct Preference Optimization (DPO), причём итеративно — модель оценивает реворд каждой сессии и постепенно его увеличивает.
Энкодер — это обычный трансформер с N слоями. Между сессиями используют специальный токен-сепаратор.
Декодер устроен сложнее: в нём есть каузальный self-attention внутри сессии и cross-attention на энкодер (стандартная схема для декодеров). FFN-слой заменили на смесь экспертов. Это важно, чтобы избежать «узкого горлышка» и дать модели запомнить больше деталей о хороших сессиях. Такой подход увеличивает число параметров, но не требует лишних вычислений: в каждом проходе активируются только 4 эксперта из 24. За счёт этого растёт ёмкость модели без большого увеличения FLOPs. Ещё в декодере есть токены начала и конца сессии, последний предсказывается моделью.
Подробнее об устройстве
Многостадийные системы всегда зависят от качества каждой стадии: если ретривал выбирает неудачных кандидатов, даже хорошее ранжирование не исправит ситуацию. Авторы предлагают заменить эту схему энкодером-декодером, который сразу генерирует сессии без деления на этапы.
Подход с прямой генерацией ID уже использовали ранее, например, в работе TIGER. Но там не удалось сделать его end-to-end: модель работала как ретривал, но не заменяла ранжирование — эту стадию пришлось оставить. Авторы Kuaishou утверждают, что решили эту проблему.
Для видео они используют собственный мультимодальный эмбеддинг QARM. Берётся мультимодальная LLM, которая обрабатывает текст, изображения и аудио, её элайнят на рекомендательный сигнал и в конце применяют квантизацию.
С квантизацией есть нюанс. Обычно, как в той же TIGER, применяют RQ-VAE для получения семантических ID и построения семантических токенов. Но авторы пишут, что этот метод работает плохо из-за эффекта «песочных часов»: большинство айтемов мапятся в одни и те же ID, а остальные остаются невостребованными. В результате код-бук используется неэффективно.
Авторы предлагают заменить RQ-VAE на residual K-Means. Сначала вектор кластеризуется на K групп, затем для каждого объекта вычисляют разницу с центроидом его кластера и повторяют кластеризацию для этих разностей. Этот процесс выполняется несколько раз, а в итоге получается код из нескольких ID. Чтобы коды использовались равномерно, делают балансировку — стараются распределять видео по кластерам примерно поровну.
Генерировать хотят не просто сессии, а сессии с высокой ценностью. По критериям Kuaishou, сессия — это последовательность из 5–10 видео. Она считается удачной, если пользователь посмотрел хотя бы 5 роликов, провёл за просмотром больше определённого времени или проявил активность: лайкнул, добавил в коллекцию, поделился. Эти правила позволяют отобрать качественные сессии и использовать их в обучении. В самих сессиях каждый айтем представлен набором семантических ID.
Что в итоге
Авторы пишут, что систему удалось не только разработать, но и внедрить в прод. Она заменила многостадийную архитектуру, упростив процесс, и при этом увеличила время просмотра на 1,6%.
Результаты могли бы быть впечатляющими, однако в статье есть несколько непонятных моментов. Например, неясно, есть ли в новой архитектуре учёт длинной истории. Кроме того, выглядит так, будто у модели нет реактивности к дизлайкам и негативному фидбеку.
@RecSysChannel
Разбор подготовил
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤10👍7🤯1
Wukong: Towards a Scaling Law for Large-Scale Recommendation
Сегодня разбираем не новую, но важную статью на тему scaling law в RecSys. В домене NLP он сводится к идее: чем больше модель, тем выше её качество. Но в современных рекомендательных системах нет такой явной зависимости. Мотивация авторов в том, чтобы создать архитектуру, которая, прежде всего, хорошо масштабируется по параметрам.
Исследователи утверждают, что достигли своих целей:
1) создали архитектуру, которая позволяет улавливать сложные взаимодействия признаков высокого порядка;
2) добились плавного масштабирования качества в зависимости от размера датасета, объёма вычислений (GFLOP) и ограничений по параметрам.
В статье по большей части рассматривают подход sparse scaling, суть которого в том, чтобы добавить множество эмбеддингов и за счёт этого масштабироваться по числу параметров. Однако это не совсем то, к чему стремятся авторы, по двум причинам. Первая: если просто добавить много новых эмбеддингов, не будут улавливаться нетривиальные взаимодействия. Вторая: при таком подходе не используется потенциал современных GPU, а только задействуется дополнительная видеопамять.
Ключевая инновация статьи — использование серии последовательно расположенных факторизационных машин (Factorization Machines, FMB). Это как раз и позволяет учитывать нетривиальные взаимодействия высоких порядков.
Общую схему архитектуры можно описать так: сначала берутся Dense embeddings — это преобразование всех признаков в эмбеддинги. Затем следует блок Interaction Stack, состоящий из нескольких Wukong-слоёв, каждый из которых разделён на два простых блока: Factorization Machine Block и Linear Compress Block.
Interaction Modules Stack состоит из l одинаковых слоёв (interaction layers), причём каждый слой постепенно захватывает всё более высокие порядки взаимодействия признаков. Для слоя i cтека его результаты могут содержать взаимодействия признаков произвольного порядка от 1 до 2i.
Авторы указывают, что чем важнее фича, тем большая размерность эмбеддинга ей выделяется. Затем все эти эмбеддинги объединяют, конкатенируют и через MLP преобразуют в d-dimensional векторы.
На внутреннем датасете исследователей насчитывается около семисот фич, среди которых есть не только категориальные, но и Dense-фичи. Их тоже пропускают через MLP, чтобы привести к одинаковым представлениям. Получив эти эмбеддинги, авторы переходят к следующему слою.
Также авторы пишут, что используют собственную оптимизированную версию факторизационных машин. Отмечается, что в большинстве современных датасетов число фичей ощутимо больше размерности эмбеддингов. Поэтому они вводят определённые упрощения, которые нацелены на оптимизацию вычислительных затрат, а не на улучшение качества. Но в целом FMB можно считать околодефолтными.
Также в статье рассказывается, как именно можно масштабировать предложенную архитектуру. Во-первых, можно увеличить число слоёв в блоке Interaction Stack. Во-вторых, допускается повышение размерности эмбеддингов, которые генерируются каждой внутренней компонентой. Наконец, авторы отмечают, что можно настраивать гиперпараметры, чтобы сбалансировать производительность и качество модели.
В финале авторы показывают результаты на шести общедоступных датасетах: по метрике AUC модель почти везде превосходит другие решения. При этом по LogLoss на ряде датасетов (особенно там, где высокая вариативность) Wukong не всегда занимает первое место.
В целом, полученное решение действительно показывает поведение, близкое к scaling law: при увеличении числа параметров и размера датасета качество предсказаний закономерно возрастает.
@RecSysChannel
Разбор подготовил❣ Константин Ширшов
Сегодня разбираем не новую, но важную статью на тему scaling law в RecSys. В домене NLP он сводится к идее: чем больше модель, тем выше её качество. Но в современных рекомендательных системах нет такой явной зависимости. Мотивация авторов в том, чтобы создать архитектуру, которая, прежде всего, хорошо масштабируется по параметрам.
Исследователи утверждают, что достигли своих целей:
1) создали архитектуру, которая позволяет улавливать сложные взаимодействия признаков высокого порядка;
2) добились плавного масштабирования качества в зависимости от размера датасета, объёма вычислений (GFLOP) и ограничений по параметрам.
В статье по большей части рассматривают подход sparse scaling, суть которого в том, чтобы добавить множество эмбеддингов и за счёт этого масштабироваться по числу параметров. Однако это не совсем то, к чему стремятся авторы, по двум причинам. Первая: если просто добавить много новых эмбеддингов, не будут улавливаться нетривиальные взаимодействия. Вторая: при таком подходе не используется потенциал современных GPU, а только задействуется дополнительная видеопамять.
Ключевая инновация статьи — использование серии последовательно расположенных факторизационных машин (Factorization Machines, FMB). Это как раз и позволяет учитывать нетривиальные взаимодействия высоких порядков.
Общую схему архитектуры можно описать так: сначала берутся Dense embeddings — это преобразование всех признаков в эмбеддинги. Затем следует блок Interaction Stack, состоящий из нескольких Wukong-слоёв, каждый из которых разделён на два простых блока: Factorization Machine Block и Linear Compress Block.
Interaction Modules Stack состоит из l одинаковых слоёв (interaction layers), причём каждый слой постепенно захватывает всё более высокие порядки взаимодействия признаков. Для слоя i cтека его результаты могут содержать взаимодействия признаков произвольного порядка от 1 до 2i.
Авторы указывают, что чем важнее фича, тем большая размерность эмбеддинга ей выделяется. Затем все эти эмбеддинги объединяют, конкатенируют и через MLP преобразуют в d-dimensional векторы.
На внутреннем датасете исследователей насчитывается около семисот фич, среди которых есть не только категориальные, но и Dense-фичи. Их тоже пропускают через MLP, чтобы привести к одинаковым представлениям. Получив эти эмбеддинги, авторы переходят к следующему слою.
Также авторы пишут, что используют собственную оптимизированную версию факторизационных машин. Отмечается, что в большинстве современных датасетов число фичей ощутимо больше размерности эмбеддингов. Поэтому они вводят определённые упрощения, которые нацелены на оптимизацию вычислительных затрат, а не на улучшение качества. Но в целом FMB можно считать околодефолтными.
Также в статье рассказывается, как именно можно масштабировать предложенную архитектуру. Во-первых, можно увеличить число слоёв в блоке Interaction Stack. Во-вторых, допускается повышение размерности эмбеддингов, которые генерируются каждой внутренней компонентой. Наконец, авторы отмечают, что можно настраивать гиперпараметры, чтобы сбалансировать производительность и качество модели.
В финале авторы показывают результаты на шести общедоступных датасетах: по метрике AUC модель почти везде превосходит другие решения. При этом по LogLoss на ряде датасетов (особенно там, где высокая вариативность) Wukong не всегда занимает первое место.
В целом, полученное решение действительно показывает поведение, близкое к scaling law: при увеличении числа параметров и размера датасета качество предсказаний закономерно возрастает.
@RecSysChannel
Разбор подготовил
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥3
Что делают в мире: LLM & RecSys. Часть 1/2
Этой весной мы запланировали чаще делиться подборками последних статей в области Information Retrieval. Решили начать с темы влияния LLM на RecSys. В первой части — общий обзор тренда, а во второй — разбор статей по этой теме.
Постановка задач, решаемых LLM и рекомендательными моделями, очень похожа: есть исторический контекст в виде упорядоченной последовательности, по которой мы хотим подобрать наиболее подходящий следующий объект в этой последовательности — семантический токен или айтем-товар. Неудивительно, что если мы посмотрим на SOTA-подходы последних лет, то увидим концептуально схожие мотивы и методы: авторегрессии, господство трансформеров, GPT- и BERT-like архитектуры, RL-методы по типу DPO — всё это и показывает отличные результаты в задачах обработки естественного языка, и с успехом адаптируется в рекомендательных моделях. Передний край исследований «RecSys as is» как раз состоит в том, чтобы повторить успех LLM в скейлинге и качестве.
Однако сами LLM не особо хорошо справляются с рекомендациями «из коробки»: плохо учитывают исторический контекст, могут галлюцинировать. Но в силу обширного знания о мире и прокаченных способностей к рассуждениям внедрение LLM в RecSys-пайплайн кажется заманчивой перспективой. Несколько ярких направлений (но далеко не единственных), в рамках которых можно использовать сильные стороны языковых моделей:
— End-to-end LLM-based рекомендации. Концептуально всё просто — конструируем промпт, получаем рекомендацию на выходе. Самое наивное решение — запрос «Посоветуй фантастический фильм». Решение чуть более персонализированное — «Я только что посмотрел всю сагу „Звездные войны“, посоветуй мне фантастический фильм» (и прочие zero-shot- и few-shot-решения). Но если добавить контекста, внести большую историю взаимодействий, затюнить модель на нужный таргет, то уже можно получать хорошие результаты.
— LLM для извлечения знания. Большие языковые модели — носители гигантского объёма информации во всём многообразии тем и идей. Из LLM можно брать информативные латентные представления, специфически уточняя их для того или иного таргета.
— LLM для объяснения рекомендаций. RecSys-модели хранят в себе много полезного знания, но они, по большей части, — чёрные ящики. Хотелось бы иметь возможность влиять на причины и логику того, почему тот или иной товар подходит пользователю или нет, а LLM — как раз тот инструмент, который может значительно улучшить explainability сложных моделей.
В следующей части — разбираем последние статьи на тему LLM & RecSys.
@RecSysChannel
Обзор подготовил❣ Руслан Кулиев
Этой весной мы запланировали чаще делиться подборками последних статей в области Information Retrieval. Решили начать с темы влияния LLM на RecSys. В первой части — общий обзор тренда, а во второй — разбор статей по этой теме.
Постановка задач, решаемых LLM и рекомендательными моделями, очень похожа: есть исторический контекст в виде упорядоченной последовательности, по которой мы хотим подобрать наиболее подходящий следующий объект в этой последовательности — семантический токен или айтем-товар. Неудивительно, что если мы посмотрим на SOTA-подходы последних лет, то увидим концептуально схожие мотивы и методы: авторегрессии, господство трансформеров, GPT- и BERT-like архитектуры, RL-методы по типу DPO — всё это и показывает отличные результаты в задачах обработки естественного языка, и с успехом адаптируется в рекомендательных моделях. Передний край исследований «RecSys as is» как раз состоит в том, чтобы повторить успех LLM в скейлинге и качестве.
Однако сами LLM не особо хорошо справляются с рекомендациями «из коробки»: плохо учитывают исторический контекст, могут галлюцинировать. Но в силу обширного знания о мире и прокаченных способностей к рассуждениям внедрение LLM в RecSys-пайплайн кажется заманчивой перспективой. Несколько ярких направлений (но далеко не единственных), в рамках которых можно использовать сильные стороны языковых моделей:
— End-to-end LLM-based рекомендации. Концептуально всё просто — конструируем промпт, получаем рекомендацию на выходе. Самое наивное решение — запрос «Посоветуй фантастический фильм». Решение чуть более персонализированное — «Я только что посмотрел всю сагу „Звездные войны“, посоветуй мне фантастический фильм» (и прочие zero-shot- и few-shot-решения). Но если добавить контекста, внести большую историю взаимодействий, затюнить модель на нужный таргет, то уже можно получать хорошие результаты.
— LLM для извлечения знания. Большие языковые модели — носители гигантского объёма информации во всём многообразии тем и идей. Из LLM можно брать информативные латентные представления, специфически уточняя их для того или иного таргета.
— LLM для объяснения рекомендаций. RecSys-модели хранят в себе много полезного знания, но они, по большей части, — чёрные ящики. Хотелось бы иметь возможность влиять на причины и логику того, почему тот или иной товар подходит пользователю или нет, а LLM — как раз тот инструмент, который может значительно улучшить explainability сложных моделей.
В следующей части — разбираем последние статьи на тему LLM & RecSys.
@RecSysChannel
Обзор подготовил
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤3🔥3
InterFormer: Towards Effective Heterogeneous Interaction Learning for CTR Prediction
Сегодня разбираем статью InterFormer — новую архитектуру для CTR prediction, в которой особое внимание уделено взаимодействию между разными типами признаков.
Модель создавалась при участии соавторов Wukong, и является её идейным продолжением. В новой статье особое внимание уделяется работе с различными последовательностями, которые можно извлечь из пользовательских логов. Авторы пытаются исправить два недостатка существующих моделей:
1) последовательности уточняются контекстными признаками, но не наоборот;
2) слишком агрессивная агрегация последовательностей.
InterFormer пытается решить обе проблемы с помощью двух ветвей обработки — «глобальной» и «последовательной», — которые обмениваются информацией в каждом новом слое.
В первую ветку попадают всевозможные категориальные и dense-признаки. Эта ветка отвечает за построение взаимодействий признаков, что можно делать несколькими способами: используя факторизационные машины, DCNv2 или, например, DHEN.
Вторая ветка предназначена для работы с последовательностями. Сначала данные очищаются с помощью MaskNet’а, а затем подаются в классический attention-слой.
Ключевая особенность модели — механизм взаимодействия между этими ветками. Из первой ветки во вторую перед attention-слоем приходит обучаемая проекция на элементы последовательности. В свою очередь, из второй ветки в первую передаётся агрегация последовательности, в которую входят CLS-токен, PMA (Pooling by Multihead Attention), а также фиксированное число последних элементов последовательности. Важно, что взаимодействия между признаками в первой ветке считаются уже с учётом этой агрегации, а для сохранения размерностей используются обычные MLP. С помощью такой организации перекрёстного обмена авторы решают сразу обе указанные ими проблемы.
InterFormer тестируется на трёх публичных датасетах и одном крупном внутреннем. На всех задачах он показывает SOTA-результаты, обгоняя как non-sequential-, так и известные sequential-решения.
В отдельном эксперименте авторы показывают, что действительно важен взаимный обмен информацией между ветками. При его (частичном) отключении качество значительно проседает.
Также исследуется масштабируемость InterFormer’а по числу и размерам последовательностей и самой модели — авторы утверждают, что модель хорошо скейлится по всем направлениям.
Наконец, авторы проводят небольшое ablation study, по результатам которого делают вывод, что каждая составляющая предложенной в статье агрегации последовательностей очень важна.
@RecSysChannel
Обзор подготовил❣ Олег Сорокин
Сегодня разбираем статью InterFormer — новую архитектуру для CTR prediction, в которой особое внимание уделено взаимодействию между разными типами признаков.
Модель создавалась при участии соавторов Wukong, и является её идейным продолжением. В новой статье особое внимание уделяется работе с различными последовательностями, которые можно извлечь из пользовательских логов. Авторы пытаются исправить два недостатка существующих моделей:
1) последовательности уточняются контекстными признаками, но не наоборот;
2) слишком агрессивная агрегация последовательностей.
InterFormer пытается решить обе проблемы с помощью двух ветвей обработки — «глобальной» и «последовательной», — которые обмениваются информацией в каждом новом слое.
В первую ветку попадают всевозможные категориальные и dense-признаки. Эта ветка отвечает за построение взаимодействий признаков, что можно делать несколькими способами: используя факторизационные машины, DCNv2 или, например, DHEN.
Вторая ветка предназначена для работы с последовательностями. Сначала данные очищаются с помощью MaskNet’а, а затем подаются в классический attention-слой.
Ключевая особенность модели — механизм взаимодействия между этими ветками. Из первой ветки во вторую перед attention-слоем приходит обучаемая проекция на элементы последовательности. В свою очередь, из второй ветки в первую передаётся агрегация последовательности, в которую входят CLS-токен, PMA (Pooling by Multihead Attention), а также фиксированное число последних элементов последовательности. Важно, что взаимодействия между признаками в первой ветке считаются уже с учётом этой агрегации, а для сохранения размерностей используются обычные MLP. С помощью такой организации перекрёстного обмена авторы решают сразу обе указанные ими проблемы.
InterFormer тестируется на трёх публичных датасетах и одном крупном внутреннем. На всех задачах он показывает SOTA-результаты, обгоняя как non-sequential-, так и известные sequential-решения.
В отдельном эксперименте авторы показывают, что действительно важен взаимный обмен информацией между ветками. При его (частичном) отключении качество значительно проседает.
Также исследуется масштабируемость InterFormer’а по числу и размерам последовательностей и самой модели — авторы утверждают, что модель хорошо скейлится по всем направлениям.
Наконец, авторы проводят небольшое ablation study, по результатам которого делают вывод, что каждая составляющая предложенной в статье агрегации последовательностей очень важна.
@RecSysChannel
Обзор подготовил
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍3🔥2
Эти фото сделаны в городе Ессентуки Сингапуре, где завтра начнётся ICLR 2025 — одна из крупнейших конференций в области машинного обучения. ML-инженеры Яндекса уже отправились в центр событий, и скоро канал наполнится новостями с мероприятия!
❤22❤🔥7🔥6🤯1
Интересные статьи двух первых дней ICLR 2025
Конференция в разгаре — статей по рекомендательным системам становится всё больше! Делимся избранным и ждём комментариев: какие идеи показались интересными вам.
ContextGNN: Beyond Two-Tower Recommendation Systems
В статье описано, как объединить попарный скор и двухбашенный подход в одной модели, избежав недостатков каждого решения и не делая двухстадийное ранжирование. Для этого используют разные модели для объектов, с которыми пользователь взаимодействовал, и остальных, прогнозируя пожелания пользователя в данный момент.
Preference Diffusion for Recommendation
Авторы из TikTok-ток развивают идеи диффузионных моделей для рекомендаций. Базово решают задачу предсказания следующей покупки или взаимодействия пользователя, пытаясь диффузионками сгенерировать (!) эмбеддинг товара. Недостаток — решение обучается и применяется только на пользователях, сделавших хотя бы 10 покупок, и автор признала, что в проде такое не взлетит.
In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents
Статья о персонализации в контексте LLM. Первая идея: точность модели существенно растёт, если использовать весь предыдущий контекст пользователя (диалога). Вторая — в целом, пользовательские фичи можно собирать поумнее: сначала суммиризировать, потом дополнять суммаризацию релевантными топиками из базы, дальше использовать RL-подход для отчистки базы. Это, кстати, применимо не только к ассистенту, но и в целом к другим проектам персонализации или рекомендаций.
SLMRec: Distilling Large Language Models into Small for Sequential Recommendation
Авторы хотят прикрутить LLM к рекомендациям — посмотрели на существующие алгоритмы и задались разумным вопросом: «откуда зафриженные LLM могут узнать об айдшниках в промпте?» и «точно ли все параметры LLM так уж нужны?». В итоге взяли часть слоёв LLM (13% параметров осталось), предложили дистилляцию — то есть дообучают кусок LLM под задачу ранжирования и делают так, чтобы эмбеды совпадали у дистиллируемой части и учителя. Автор говорит, что решение применяется в 6–8 раз быстрее, чем LLM до выкидывания слоёв.
@RecSysChannel
Интересные постеры заметили❣ Василий Астахов, Александр Воронцов, Алёна Фомина и Маргарита Мишустина
#YaICLR
Конференция в разгаре — статей по рекомендательным системам становится всё больше! Делимся избранным и ждём комментариев: какие идеи показались интересными вам.
ContextGNN: Beyond Two-Tower Recommendation Systems
В статье описано, как объединить попарный скор и двухбашенный подход в одной модели, избежав недостатков каждого решения и не делая двухстадийное ранжирование. Для этого используют разные модели для объектов, с которыми пользователь взаимодействовал, и остальных, прогнозируя пожелания пользователя в данный момент.
Preference Diffusion for Recommendation
Авторы из TikTok-ток развивают идеи диффузионных моделей для рекомендаций. Базово решают задачу предсказания следующей покупки или взаимодействия пользователя, пытаясь диффузионками сгенерировать (!) эмбеддинг товара. Недостаток — решение обучается и применяется только на пользователях, сделавших хотя бы 10 покупок, и автор признала, что в проде такое не взлетит.
In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents
Статья о персонализации в контексте LLM. Первая идея: точность модели существенно растёт, если использовать весь предыдущий контекст пользователя (диалога). Вторая — в целом, пользовательские фичи можно собирать поумнее: сначала суммиризировать, потом дополнять суммаризацию релевантными топиками из базы, дальше использовать RL-подход для отчистки базы. Это, кстати, применимо не только к ассистенту, но и в целом к другим проектам персонализации или рекомендаций.
SLMRec: Distilling Large Language Models into Small for Sequential Recommendation
Авторы хотят прикрутить LLM к рекомендациям — посмотрели на существующие алгоритмы и задались разумным вопросом: «откуда зафриженные LLM могут узнать об айдшниках в промпте?» и «точно ли все параметры LLM так уж нужны?». В итоге взяли часть слоёв LLM (13% параметров осталось), предложили дистилляцию — то есть дообучают кусок LLM под задачу ранжирования и делают так, чтобы эмбеды совпадали у дистиллируемой части и учителя. Автор говорит, что решение применяется в 6–8 раз быстрее, чем LLM до выкидывания слоёв.
@RecSysChannel
Интересные постеры заметили
#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍8🔥1
Кадры из самой гущи событий. Можно оценить масштабы главного холла, где выступают с докладами, своими глазами увидеть очередь к хайповому стенду и убедиться: Сингапур хорош как при свете дня, так и под покровом ночи.
@RecSysChannel
#YaICLR
@RecSysChannel
#YaICLR
❤7👍2👀1
Интересные статьи третьего дня ICLR 2025
Продолжаем рассказывать о работах на ICLR 2025 по теме рекомендательных систем. Собрали несколько релевантных постеров и коротко пересказали идеи: от симуляции пользователей для обучения LLM до новых бенчмарков на сложные инструкции для ранжирования.
Language Representations Can be What Recommenders Need: Findings and Potentials
Авторы берут граф взаимодействий пользователей и айтемов, с помощью LLM получают вектора для айтемов и пользователей (усредняя эмбеддинги положительных взаимодействий с айтемами). Затем идут «вглубь» до какого-то момента по графу — и получают итоговые вектора.
Дальше нужно откуда-то семплировать негативы: в исследовании просто взяли случайные строки из датасета, с которыми пользователь не взаимодействовал (автор сказал, так поступили, потому что не хватило explicit-фидбэка).
Интересный момент про правый нижний угол постера: промпты для Movielens генерировали через ChatGPT, а потом вручную валидировали (поскольку ChatGPT при генерации мог использовать таргетную информацию).
При этом скоры получились подозрительно высокие — возможно, результат слегка завышен.
Ещё автор сказал, что некоторые компании уже видят профит от подхода, но деталей он не раскрыл.
Bridging Jensen Gap for Max-Min Group Fairness Optimization in Recommendation
Авторы делят датасет на группы (в их случае — жанры фильмов), считают внутри каждой группы лосс и на следующей итерации дают больший вес группе с худшим лоссом.
CoS: Enhancing Personalization and Mitigating Bias with Context Steering
Статья о том, как добавить контекст к выводу LLM без обучения. При этом можно управлять уровнем контекстности (параметром λ). Суть метода — измерять влияние контекста с точки зрения вероятности предсказания токена (с контекстом и без него).
PersonalLLM: Tailoring LLMs to Individual Preferences
Авторы симулировали пользователей, создавая их предпочтения путём усреднения различных reward-моделей, а затем обучили LLM на этих синтетических данных. Деталей обучения не приводят, но на их бенчмарке модель показывает хорошие результаты. Для новых пользователей ищут похожих на основе language space и строят ответы, опираясь на поведение тех, чьи данные были в обучении.
Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models
Исследователи жалуются, что современные модели ранжирования плохо понимают сложные инструкции вроде: «найди статью на турецком в 5 абзацев, написанную простым языком» — по этому поводу собрали бенчмарк.
Рассматривали следующие параметры: пользователь (Audience), поисковые запросы или темы (Keyword), формат отображения (Format), длина ответа (Length), язык (Language), источник информации (Source).
Качество работы моделей оценивали с помощью двух метрик:
- Strict Instruction Compliance Ratio (SICR): бинарная метрика, которая проверяет, что при явном указании условия (например, «документ только на казахском») скор растёт относительно безусловного режима, а при обратном условии («всё кроме казахского») — падает.
- Weighted Instruction Sensitivity Evaluation (WISE): версия метрики, учитывающая изменения позиций в ранжировании.
Лучше всех с задачей справился GPT-4o.
@RecSysChannel
Интересные работы заметили❣ Маргарита Мишустина, Эльдар Ганбаров, Алёна Фомина, Алексей Степанов
#YaICLR
Продолжаем рассказывать о работах на ICLR 2025 по теме рекомендательных систем. Собрали несколько релевантных постеров и коротко пересказали идеи: от симуляции пользователей для обучения LLM до новых бенчмарков на сложные инструкции для ранжирования.
Language Representations Can be What Recommenders Need: Findings and Potentials
Авторы берут граф взаимодействий пользователей и айтемов, с помощью LLM получают вектора для айтемов и пользователей (усредняя эмбеддинги положительных взаимодействий с айтемами). Затем идут «вглубь» до какого-то момента по графу — и получают итоговые вектора.
Дальше нужно откуда-то семплировать негативы: в исследовании просто взяли случайные строки из датасета, с которыми пользователь не взаимодействовал (автор сказал, так поступили, потому что не хватило explicit-фидбэка).
Интересный момент про правый нижний угол постера: промпты для Movielens генерировали через ChatGPT, а потом вручную валидировали (поскольку ChatGPT при генерации мог использовать таргетную информацию).
При этом скоры получились подозрительно высокие — возможно, результат слегка завышен.
Ещё автор сказал, что некоторые компании уже видят профит от подхода, но деталей он не раскрыл.
Bridging Jensen Gap for Max-Min Group Fairness Optimization in Recommendation
Авторы делят датасет на группы (в их случае — жанры фильмов), считают внутри каждой группы лосс и на следующей итерации дают больший вес группе с худшим лоссом.
CoS: Enhancing Personalization and Mitigating Bias with Context Steering
Статья о том, как добавить контекст к выводу LLM без обучения. При этом можно управлять уровнем контекстности (параметром λ). Суть метода — измерять влияние контекста с точки зрения вероятности предсказания токена (с контекстом и без него).
PersonalLLM: Tailoring LLMs to Individual Preferences
Авторы симулировали пользователей, создавая их предпочтения путём усреднения различных reward-моделей, а затем обучили LLM на этих синтетических данных. Деталей обучения не приводят, но на их бенчмарке модель показывает хорошие результаты. Для новых пользователей ищут похожих на основе language space и строят ответы, опираясь на поведение тех, чьи данные были в обучении.
Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models
Исследователи жалуются, что современные модели ранжирования плохо понимают сложные инструкции вроде: «найди статью на турецком в 5 абзацев, написанную простым языком» — по этому поводу собрали бенчмарк.
Рассматривали следующие параметры: пользователь (Audience), поисковые запросы или темы (Keyword), формат отображения (Format), длина ответа (Length), язык (Language), источник информации (Source).
Качество работы моделей оценивали с помощью двух метрик:
- Strict Instruction Compliance Ratio (SICR): бинарная метрика, которая проверяет, что при явном указании условия (например, «документ только на казахском») скор растёт относительно безусловного режима, а при обратном условии («всё кроме казахского») — падает.
- Weighted Instruction Sensitivity Evaluation (WISE): версия метрики, учитывающая изменения позиций в ранжировании.
Лучше всех с задачей справился GPT-4o.
@RecSysChannel
Интересные работы заметили
#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥2🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Завтра — последний день ICLR 2025 в Сингапуре
Наши ML-инженеры уже увидели большую часть докладов и постеров на тему рекомендательных систем — впереди новые подборки потенциально полезных работ. А пока напоминаем, что интересного мы успели опубликовать за это время:
- Подборка статей двух первых дней конференции
- Фоторепортаж для тех, кто хочет проникнуться вайбом ICLR
- Ещё немного фантастических видов Сингапура
- Интересные статьи третьего дня ICLR
Желаем участникам отличного окончания конференции, а всем остальным — полезного чтения!
Больше разборов, интересных постеров, фото и видео с ICLR вы найдёте в наших других каналах: @timeforcv, @MLunderhood, @stuffyNLP, @speechinfo.
@RecSysChannel
#YaICLR
Наши ML-инженеры уже увидели большую часть докладов и постеров на тему рекомендательных систем — впереди новые подборки потенциально полезных работ. А пока напоминаем, что интересного мы успели опубликовать за это время:
- Подборка статей двух первых дней конференции
- Фоторепортаж для тех, кто хочет проникнуться вайбом ICLR
- Ещё немного фантастических видов Сингапура
- Интересные статьи третьего дня ICLR
Желаем участникам отличного окончания конференции, а всем остальным — полезного чтения!
Больше разборов, интересных постеров, фото и видео с ICLR вы найдёте в наших других каналах: @timeforcv, @MLunderhood, @stuffyNLP, @speechinfo.
@RecSysChannel
#YaICLR
👍5❤1🔥1