Немного статы с SIGIR. Рекомендательные системы тут самая популярная тема (и в целом количество статей по РекСису кажется на SIGIR сравнимо с количеством статьей на РекСис).
Чтобы максимизировать шансы надо жить в Голлландии. А вот русскоязычное коммьюнити тут представлено сильно меньше чем на РекСисе.
Бонус -- фоточка с keynote Стивена Робертсона, создателя BM25.
Чтобы максимизировать шансы надо жить в Голлландии. А вот русскоязычное коммьюнити тут представлено сильно меньше чем на РекСисе.
Бонус -- фоточка с keynote Стивена Робертсона, создателя BM25.
❤4
Forwarded from Information Retriever
arXiv.org
Correcting the LogQ Correction: Revisiting Sampled Softmax for...
Two-tower neural networks are a popular architecture for the retrieval stage in recommender systems. These models are typically trained with a softmax loss over the item catalog. However, in...
Correcting the LogQ Correction: Revisiting Sampled Softmax for Large-Scale Retrieval.
А вот и наша статья, принятая на RecSys 2025, добралась до arxiv’а! Что мы сделали: улучшили logQ-коррекцию.
Почему это важно: logQ-коррекция активно используется в индустрии для обучения нейросетевых двухбашенных retrieval моделей. Я за свою жизнь в Яндексе неоднократно участвовал в больших и успешных внедрениях нейросетевых кандидатогенераторов, которые не случились бы без logQ-коррекции.
Улучшение связано с тем, как в формуле logQ-коррекции используется положительный айтем (далее именуемый “позитив”). Он появляется в двух местах — и в числителе, и в знаменателе софтмакса. К числителю вопросов нет. А вот в знаменателе есть странности. Например, в исходной статье от Google к позитиву в знаменателе применяется logQ-поправка; а в следующей статье от тех же авторов — уже нет. То есть для сэмплированных негативов в знаменателе logQ-поправка есть, для позитива — нет. А вывод такой формулы нигде не приводится / не обосновывается.
Более того, само использование позитива в знаменателе выглядит сомнительно. Оригинальный вывод формулы, который Bengio проделал в начале нулевых для доисторических языковых моделей, гласит: для оценки знаменателя софтмакса можно насэмплировать айтемы из произвольного распределения Q (обычного называемого proposal distribution) и добавить к ним ту самую “logQ-поправку”. Распределение Q — это как раз и есть то распределение, из которого мы сэмплируем негативы; которое чаще всего является in-batch распределением.
И когда мы рассматриваем конкретный обучающий пример, то есть конкретную пару (user, positive item), и для нее считаем сэмплированный softmax-лосс с logQ-коррекцией, мы не сэмплируем позитив из распределения Q — он приходит к нам детерминированно, с вероятностью 1. А в формуле он используется для Монте-Карло оценки в предположении, что мы сэмплируем его из Q.
Долгое время мы, как и все, просто плыли по течению и использовали logQ-коррекцию в том виде, в каком все ее применяют. Но потом я взялся сделать ту самую лекцию про нейросетевую генерацию кандидатов для ШАДа, в которой в том числе хотел осветить logQ-коррекцию — строго, с математическим выводом. Хотелось также обосновать формулы, использующие позитив в знаменателе, с logQ-поправкой и без.
Когда я в рамках математических выкладок отделил позитив от Монте-Карло сэмплирования, получилась совершенно другая формула! В которой позитива не было в знаменателе софтмакса вообще, но при этом появилось взвешивание сэмплов. Чем меньше модель ошибается на сэмпле (то есть предсказывает большую вероятность позитива), тем меньше вес этого сэмпла.
Мы поставили эксперименты — сначала на своих внутренних больших датасетах, а затем на небольших академических. И подтвердили, что наша формула хорошо работает, причем работает лучше стандартной! На полноценный long paper на RecSys времени не хватило (когда появилось время на написание статьи, до дедлайна было меньше двух недель), поэтому подались на short paper. Статья получила хорошие отзывы и была принята на RecSys, чему мы несказанно рады :)
Ещё хочется немного подсветить остальную ценность статьи. До этого я не видел в академической литературе замеры на публичных датасетах для logQ-коррекции. Мы эти замеры сделали и показали, что популярная в индустрии logQ-коррекция хорошо работает и в академическом сетапе. Кроме того, мы, возможно, первыми на этих датасетах показали пользу от mixed negative sampling (таких замеров я тоже раньше не встречал, но здесь уже меньше уверен).
И последнее — мы сделали две валидации. Было понимание, что без leave-one-out схемы, как бы я ее ни недолюбливал, есть большая вероятность не пройти ревью :) Но делать только leave-one-out валидацию тоже не хотелось. Поэтому сделали также temporal split валидацию. Получилось, что ранжирование моделей c точки зрения качества в этих двух сетапах заметно различается.
Остальные подробности — читайте в статье!
А вот и наша статья, принятая на RecSys 2025, добралась до arxiv’а! Что мы сделали: улучшили logQ-коррекцию.
Почему это важно: logQ-коррекция активно используется в индустрии для обучения нейросетевых двухбашенных retrieval моделей. Я за свою жизнь в Яндексе неоднократно участвовал в больших и успешных внедрениях нейросетевых кандидатогенераторов, которые не случились бы без logQ-коррекции.
Улучшение связано с тем, как в формуле logQ-коррекции используется положительный айтем (далее именуемый “позитив”). Он появляется в двух местах — и в числителе, и в знаменателе софтмакса. К числителю вопросов нет. А вот в знаменателе есть странности. Например, в исходной статье от Google к позитиву в знаменателе применяется logQ-поправка; а в следующей статье от тех же авторов — уже нет. То есть для сэмплированных негативов в знаменателе logQ-поправка есть, для позитива — нет. А вывод такой формулы нигде не приводится / не обосновывается.
Более того, само использование позитива в знаменателе выглядит сомнительно. Оригинальный вывод формулы, который Bengio проделал в начале нулевых для доисторических языковых моделей, гласит: для оценки знаменателя софтмакса можно насэмплировать айтемы из произвольного распределения Q (обычного называемого proposal distribution) и добавить к ним ту самую “logQ-поправку”. Распределение Q — это как раз и есть то распределение, из которого мы сэмплируем негативы; которое чаще всего является in-batch распределением.
И когда мы рассматриваем конкретный обучающий пример, то есть конкретную пару (user, positive item), и для нее считаем сэмплированный softmax-лосс с logQ-коррекцией, мы не сэмплируем позитив из распределения Q — он приходит к нам детерминированно, с вероятностью 1. А в формуле он используется для Монте-Карло оценки в предположении, что мы сэмплируем его из Q.
Долгое время мы, как и все, просто плыли по течению и использовали logQ-коррекцию в том виде, в каком все ее применяют. Но потом я взялся сделать ту самую лекцию про нейросетевую генерацию кандидатов для ШАДа, в которой в том числе хотел осветить logQ-коррекцию — строго, с математическим выводом. Хотелось также обосновать формулы, использующие позитив в знаменателе, с logQ-поправкой и без.
Когда я в рамках математических выкладок отделил позитив от Монте-Карло сэмплирования, получилась совершенно другая формула! В которой позитива не было в знаменателе софтмакса вообще, но при этом появилось взвешивание сэмплов. Чем меньше модель ошибается на сэмпле (то есть предсказывает большую вероятность позитива), тем меньше вес этого сэмпла.
Мы поставили эксперименты — сначала на своих внутренних больших датасетах, а затем на небольших академических. И подтвердили, что наша формула хорошо работает, причем работает лучше стандартной! На полноценный long paper на RecSys времени не хватило (когда появилось время на написание статьи, до дедлайна было меньше двух недель), поэтому подались на short paper. Статья получила хорошие отзывы и была принята на RecSys, чему мы несказанно рады :)
Ещё хочется немного подсветить остальную ценность статьи. До этого я не видел в академической литературе замеры на публичных датасетах для logQ-коррекции. Мы эти замеры сделали и показали, что популярная в индустрии logQ-коррекция хорошо работает и в академическом сетапе. Кроме того, мы, возможно, первыми на этих датасетах показали пользу от mixed negative sampling (таких замеров я тоже раньше не встречал, но здесь уже меньше уверен).
И последнее — мы сделали две валидации. Было понимание, что без leave-one-out схемы, как бы я ее ни недолюбливал, есть большая вероятность не пройти ревью :) Но делать только leave-one-out валидацию тоже не хотелось. Поэтому сделали также temporal split валидацию. Получилось, что ранжирование моделей c точки зрения качества в этих двух сетапах заметно различается.
Остальные подробности — читайте в статье!
❤4👍1
Log-Q коррекция.
Когда мы писали расширенную версию статьи про gBCE и gSASRec, дотошный ревьюер нас спросил про возможность Sampled Softmax c Log-Q коррекцией. В итоге статья вышла вот с таким комментом, где мы говорим что Log-Q коррекция скорее всего тоже будет работать и мы оставляем этот вопрос на будущее исследование.
Сегодня на arxiv появилась статья от ребят из Яндекса, где они в целом выполнили это исследование и подтвердили наши предположения: Log-Q коррекция в целом хорошо работает. Рад, что наши методы использовались в качестве бейзлайнов, и в целом показали хорошие результаты.
Поздравляю Кирилла и остальных со-авторов со статей на РекСисе. Надеюсь обсудить детали которые не влезли в статью в живую на рексисе (надеюсь таки туда добраться).
Когда мы писали расширенную версию статьи про gBCE и gSASRec, дотошный ревьюер нас спросил про возможность Sampled Softmax c Log-Q коррекцией. В итоге статья вышла вот с таким комментом, где мы говорим что Log-Q коррекция скорее всего тоже будет работать и мы оставляем этот вопрос на будущее исследование.
Сегодня на arxiv появилась статья от ребят из Яндекса, где они в целом выполнили это исследование и подтвердили наши предположения: Log-Q коррекция в целом хорошо работает. Рад, что наши методы использовались в качестве бейзлайнов, и в целом показали хорошие результаты.
Поздравляю Кирилла и остальных со-авторов со статей на РекСисе. Надеюсь обсудить детали которые не влезли в статью в живую на рексисе (надеюсь таки туда добраться).
🔥17❤5
https://arxiv.org/html/2505.10212v1 best short paper на SIGIR ушел статейку которая показывает что многие современные LLM-ки были обучены на наших рекомендательных датасетах, и по-сути уже запомнили существенную часть. Будте осторожны, когда видите заявления в про LLM которые получают SOTA на стандартных рекомендательных датасетах; вполне возможно это data leakage.
В со-авторах мои друзья из Бари, рад за них!
В со-авторах мои друзья из Бари, рад за них!
👍23✍4😢2
RecJPQPRune_14_07.pptx
2.6 MB
Моя презентация с SIGIR 2025 по теме быстрого инфренса моделей с Sub-IDs. Тут мы использовали наши Sub-ID из RecJPQ, но в принципе можно адаптировать и для других Sub-ID методов (думаю что c аналогом гугловых SemanticID тоже можно завести).
Основная идея метода что (1) Sub-ID сильно меньше чем айтемов в каталоге и (2) нам только интересны айтемы в которых Sub-ID с большим скором.
Это позволяет применить методы динамического прунинга и извлечь Top-K айтемов точно, не прибегая к аппроксимациям типа методов ближайших соседей.
Ссылка на статью (Теперь не препринт!): https://dl.acm.org/doi/10.1145/3726302.3729963
Основная идея метода что (1) Sub-ID сильно меньше чем айтемов в каталоге и (2) нам только интересны айтемы в которых Sub-ID с большим скором.
Это позволяет применить методы динамического прунинга и извлечь Top-K айтемов точно, не прибегая к аппроксимациям типа методов ближайших соседей.
Ссылка на статью (Теперь не препринт!): https://dl.acm.org/doi/10.1145/3726302.3729963
🔥2👍1🙏1
Несколько фоточек на память ;-)
Вообще SIGIR мне понравился. Для меня это вторая A* конференция, после прошлогоднего IJCAI. Могу сказать что на SIGIR есть сильное ощущение сообщества которого не было на IJCAI. В отличие от IJCAI, на SIGIR было очень много знакомых мне людей, и очень много интересных сессий. IJCAI хоть формально и "более престижная" конференция, по факту мне понравилась сильно меньше. Там буквально была парочка интересующих меня сессий, а в основном люди рассказывали и показывали презентации на какие-то рандомные темы, которые практически никак не связаны с моей работой.
Вообще SIGIR мне понравился. Для меня это вторая A* конференция, после прошлогоднего IJCAI. Могу сказать что на SIGIR есть сильное ощущение сообщества которого не было на IJCAI. В отличие от IJCAI, на SIGIR было очень много знакомых мне людей, и очень много интересных сессий. IJCAI хоть формально и "более престижная" конференция, по факту мне понравилась сильно меньше. Там буквально была парочка интересующих меня сессий, а в основном люди рассказывали и показывали презентации на какие-то рандомные темы, которые практически никак не связаны с моей работой.
🔥9❤1
Презентация, которая больше всего мне понравилась на #SIGIR2025 была на удивление "прокси-презентация". Прокси-презентация, это когда автор статьи не смог приехать по уважительным причинам (например, не смог получить визу). Обычно такие презентации очень скучны, так как презентер плохо разобрался в теме и не может ответить ни на какие вопросы, но не в этот раз.
Эта статья была в Reproducibility трэке, називается Reassessing the Effectiveness of Reinforcement Learning based Recommender Systems for Sequential Recommendation (🔗 https://dl.acm.org/doi/10.1145/3726302.3730322) за авторством Dilina Chandika Rajapakse и Dietmar Jannach, которую презентовал Maurizio Ferrari Dacrema. Маурицио и Дитмар известны многим по статье "Are we making much progress", которая по сути стартовала большую дискусси насчет воспроизводимости рекомендательных методов.
В этой новой статье авторы рассматривают RL-подход SQN (мы его обсуждали на одной из ридинг груп). На разборе мы обсудили что RL в SQN не настоящий, хотя в чате потом не все с этим были согласны. В статье авторы приходят в общем-то к тому же выводу -- SQN это не совсем RL. Более того, все улучшения которые приносит SQN происходят из-за того, что они использовали кривые бейзлайны. Авторы показывают что просто оригинальный GRU4Rec работает лучше чем неоригинальный, но улучшенный SQN-ом. Авторы не использовали "улучшенный" SASRec (то есть SASRec с softmax loss), но я уверен что он тоже работал бы не хуже чем SQN.
Эта статья была в Reproducibility трэке, називается Reassessing the Effectiveness of Reinforcement Learning based Recommender Systems for Sequential Recommendation (🔗 https://dl.acm.org/doi/10.1145/3726302.3730322) за авторством Dilina Chandika Rajapakse и Dietmar Jannach, которую презентовал Maurizio Ferrari Dacrema. Маурицио и Дитмар известны многим по статье "Are we making much progress", которая по сути стартовала большую дискусси насчет воспроизводимости рекомендательных методов.
В этой новой статье авторы рассматривают RL-подход SQN (мы его обсуждали на одной из ридинг груп). На разборе мы обсудили что RL в SQN не настоящий, хотя в чате потом не все с этим были согласны. В статье авторы приходят в общем-то к тому же выводу -- SQN это не совсем RL. Более того, все улучшения которые приносит SQN происходят из-за того, что они использовали кривые бейзлайны. Авторы показывают что просто оригинальный GRU4Rec работает лучше чем неоригинальный, но улучшенный SQN-ом. Авторы не использовали "улучшенный" SASRec (то есть SASRec с softmax loss), но я уверен что он тоже работал бы не хуже чем SQN.
ACM Conferences
Reassessing the Effectiveness of Reinforcement Learning based Recommender Systems for Sequential Recommendation | Proceedings of…
🔥2
https://recsys.acm.org/recsys25/accepted-contributions/#content-tab-1-0-tab программу список статей на РекСис опубликовали.
Много всего интересного, и многие статьи уже доступны на arxiv.
Много всего интересного, и многие статьи уже доступны на arxiv.
RecSys
RecSys 2025 - Accepted Contributions - RecSys
Accepted Contributions
🔥6
Вчера ACM RecSys опубликовали результаты треков Late-Breaking Results и Demo. С радостью сообщаю, что две статьи с моим соавторством прошли в Late-Breaking Results.
1. Balancing Accuracy and Novelty with Sub-Item Popularity
Авторы: Chiara Mallamaci, Aleksandr V. Petrov, Alberto Carlo Maria Mancino, Vito Walter Anelli, Tommaso Di Noia, Craig Macdonald
Это результат нашей коллаборации с Politecnico di Bari. Мы сосредоточились на музыкальных рекомендациях: если оптимизировать модель только по precision, она, как правило, советует треки, которые пользователь уже слушал чаще всего, — рекомендации получаются не слишком интересными. Мы применяем повторения на уровне sub-item ID (используем наш RecJPQ; тот же подход потенциально работает и с другими sub-item ID, например Google Semantic ID). Анализируя паттерны повторяемости на уровне sub-ID, можно выявлять артиста или жанр и рекомендовать их, но не тот же трек. В сочетании с BERT4Rec это позволяет надёжно балансировать точность и новизну.
2. eSASRec: Enhancing Transformer-based Recommendations in a Modular Fashion
Авторы: Daria Tikhonovich, Nikita Zelinskiy, Aleksandr V. Petrov, Mayya Spirina, Andrei Semenov, Andrey Savchenko, Sergei Kuliev
Работа выполнена с исследователями из МТС и Вышки; я присоединился уже после защиты PhD в качестве независимого исследователя. Мы анализируем ряд улучшений для трансформерных рекомендаций: архитектуры слоёв, функции потерь, негативное семплирование и т. д., и показываем, что комбинация LIGR-слоёв, SASRec Training Objective и Sampled Softmax оказывается парето-оптимальной по метрикам «точность/покрытие» на всех тестовых датасетах. Подробностями позже поделится первый автор, Даша Тихонович.
Приятно видеть, что оба направления, баланс точности с новизной и модульное улучшение трансформеров, получили признание на RecSys; Буду рад обсудить обе эти сатьи.
1. Balancing Accuracy and Novelty with Sub-Item Popularity
Авторы: Chiara Mallamaci, Aleksandr V. Petrov, Alberto Carlo Maria Mancino, Vito Walter Anelli, Tommaso Di Noia, Craig Macdonald
Это результат нашей коллаборации с Politecnico di Bari. Мы сосредоточились на музыкальных рекомендациях: если оптимизировать модель только по precision, она, как правило, советует треки, которые пользователь уже слушал чаще всего, — рекомендации получаются не слишком интересными. Мы применяем повторения на уровне sub-item ID (используем наш RecJPQ; тот же подход потенциально работает и с другими sub-item ID, например Google Semantic ID). Анализируя паттерны повторяемости на уровне sub-ID, можно выявлять артиста или жанр и рекомендовать их, но не тот же трек. В сочетании с BERT4Rec это позволяет надёжно балансировать точность и новизну.
2. eSASRec: Enhancing Transformer-based Recommendations in a Modular Fashion
Авторы: Daria Tikhonovich, Nikita Zelinskiy, Aleksandr V. Petrov, Mayya Spirina, Andrei Semenov, Andrey Savchenko, Sergei Kuliev
Работа выполнена с исследователями из МТС и Вышки; я присоединился уже после защиты PhD в качестве независимого исследователя. Мы анализируем ряд улучшений для трансформерных рекомендаций: архитектуры слоёв, функции потерь, негативное семплирование и т. д., и показываем, что комбинация LIGR-слоёв, SASRec Training Objective и Sampled Softmax оказывается парето-оптимальной по метрикам «точность/покрытие» на всех тестовых датасетах. Подробностями позже поделится первый автор, Даша Тихонович.
Приятно видеть, что оба направления, баланс точности с новизной и модульное улучшение трансформеров, получили признание на RecSys; Буду рад обсудить обе эти сатьи.
🎉20🔥8❤4👏1
У Кирилла в дискуссии academia vs industry запостили ссылку на блогпост Карпаты про PhD:
https://karpathy.github.io/2016/09/07/phd/
Тем кто сомневается, нужен ли PhD прям очень рекомендую почитать, я практически со всеми мыслями согласен.
Для меня главное, что мне нравилось во время PhD это:
1. Свобода выбора над чем работать
2. Путешествия, я никогда не ездил по миру столько, сколько во время PhD
3. Прямая связь своих результатов с собой, они не растворяются внутри огромной компании
4. Возможность сфокусироваться на больших задачах, без сильного давления получить результат прямо сейчас (хотя культура publish or perish конечно тоже создаёт стимулы на быстрые результаты)
Понятно что PhD не для всех. Например, это точно не про заработок денег в краткосрочной перспективе (хотя в долгосрочной возможно и окупается, но я не уверен).
На Кирилла тоже подпишитесь https://news.1rj.ru/str/inforetriever
https://karpathy.github.io/2016/09/07/phd/
Тем кто сомневается, нужен ли PhD прям очень рекомендую почитать, я практически со всеми мыслями согласен.
Для меня главное, что мне нравилось во время PhD это:
1. Свобода выбора над чем работать
2. Путешествия, я никогда не ездил по миру столько, сколько во время PhD
3. Прямая связь своих результатов с собой, они не растворяются внутри огромной компании
4. Возможность сфокусироваться на больших задачах, без сильного давления получить результат прямо сейчас (хотя культура publish or perish конечно тоже создаёт стимулы на быстрые результаты)
Понятно что PhD не для всех. Например, это точно не про заработок денег в краткосрочной перспективе (хотя в долгосрочной возможно и окупается, но я не уверен).
На Кирилла тоже подпишитесь https://news.1rj.ru/str/inforetriever
karpathy.github.io
A Survival Guide to a PhD
Musings of a Computer Scientist.
🔥16❤4👍2
А вот и обзор второй статьи на ACM RecSys с моим участием + ссылки на препринт от Даши Тихонович. Кстати, Даша завела свой канал по рекомендашкам, подпишитесь на нее!
💯4
Forwarded from Red RecSys
"eSASRec: Enhancing Transformer-based Recommendations in a Modular Fashion»
Нашу статью приняли на ACM RecSys 2025! (arxiv).
Совместная работа с Никитой Зелинским, Сашей Петровым, исследователями из МТС (и экс-МТС), а также с Андреем Савченко.
В работе мы представляем модульный взгляд на классические трансформерные бейзлайны в RecSys и ищем наиболее эффективную архитектуру (собранную по принципу лего), которая показывает хорошее качество в самых разных сетапах - от привычной LOO валидации на небольших академических датасетах до парето-оптимальности (в рамках NDCG / Beyond-Accuracy качества) на тайм сплите. Финальная связка - которую мы назвали eSASRec - получилась из «Shifted Sequence" задачи обучения (как в SASRec), LiGR архитектуры слоёв трансформера (как в продовой модели LinkedIn из «From Features to Transformers…») и Sampled Softmax лосса (тут без сюрпризов, хотя стоит сказать, что gBCE был очень близок по качеству, но не всегда быстро сходился).
На самом деле, в рамках этой достаточно долгой работы (первые экспы начались больше чем полгода назад) мы отвечали и на более широкий спектр вопросов. В академии есть свой заданный «порядок» для написания статей, и мы не могли добавить никаких выводов сверх основного фокуса работы. Так что вот основные официальные выводы статьи: есть обновленный SASRec, и он хорош во всех сетапах, в которых мы его тестили. Например, он даёт взрывные +23% от качества ActionPiece и TIGER в академических бенчмарках. А ещё в терминах парето-оптимальности он держит качество на уровне HSTU и FuXi, хотя в отличие от последних не использует таймстемпы ни в истории пользователей, ни при формировании рекомендаций. Ещё eSASRec максимально просто имплементировать и он не имеет проблем с масштабированием (тут спасибо LinkedIn за архитектуру). И мы открываем доступ к нашим имплементациям и коду бенчмарков.
А теперь - что в статью не вошло, и о чём можно было бы подискутировать).
Лично для меня помимо определения современного бейзлайна самым интересным был вопрос - можно ли верить SOTA клеймам на основе академических RecSys датасетов?
Я отвечу для начала очень простым примером из наших результатов: классическая LOO валидация на самых популярных датасетах Амазона показала, что давно известный вариант SASRec+SS без каких-либо обновлений уже давал те самые +23% к качеству ActionPiece и TIGER. Просто никто этот вариант на данных датасетах в качестве бейзлайна не заводил. А завели вариант BCE, 1 негатив, имплементация RecBole, 5 лет назад - и с тех пор только копипастили из статьи в статью. Значит ли это, что SASRec+SS такая уж «SOTA» рядом с TIGER?
По моим ощущениям (мы же дискутируем?), результаты на Amazon Beauty/Sports/Toys в целом не то чтобы отражали реальную полезность моделей - они явно отдают предпочтение более простым архитектурам. Например, оптимальные гипер-параметры там: 1 слой трансформера, 1 голова, количество факторов 64. А ещё HSTU и FuXi на этих датасетах тоже ощутимо «проигрывают» старенькому SASRec+SS. Хотя на Мувиленсе - уже ощутимо “выигрывают”.
Про тайм сплит и beyond-accuracy: мы в статье отмечаем эффективность моделей индикаторами Парето-оптимальности. Это позволяет хоть немного делать выводы о результатах архитектур между разными датасетами (пока нет общепринятого академического подхода для оценки степени трейд-оффа точности и “персонализации”). Наши выводы - что есть архитектуры, которые оставались Парето-оптимальными на всех тестовых датасетах (например, HSTU и eSASRec). Но даже между ними нельзя сказать заранее, какая модель окажется выше по NDCG, а какая - выше по Coverage, всё сильно зависит от данных. Не самый утешительный вывод в ML, где мы привыкли к "вот это State-of-the-Art - и ." Зато честный.
Спасибо всем, с кем мы вместе сделали эту работу ❤️
Нашу статью приняли на ACM RecSys 2025! (arxiv).
Совместная работа с Никитой Зелинским, Сашей Петровым, исследователями из МТС (и экс-МТС), а также с Андреем Савченко.
В работе мы представляем модульный взгляд на классические трансформерные бейзлайны в RecSys и ищем наиболее эффективную архитектуру (собранную по принципу лего), которая показывает хорошее качество в самых разных сетапах - от привычной LOO валидации на небольших академических датасетах до парето-оптимальности (в рамках NDCG / Beyond-Accuracy качества) на тайм сплите. Финальная связка - которую мы назвали eSASRec - получилась из «Shifted Sequence" задачи обучения (как в SASRec), LiGR архитектуры слоёв трансформера (как в продовой модели LinkedIn из «From Features to Transformers…») и Sampled Softmax лосса (тут без сюрпризов, хотя стоит сказать, что gBCE был очень близок по качеству, но не всегда быстро сходился).
На самом деле, в рамках этой достаточно долгой работы (первые экспы начались больше чем полгода назад) мы отвечали и на более широкий спектр вопросов. В академии есть свой заданный «порядок» для написания статей, и мы не могли добавить никаких выводов сверх основного фокуса работы. Так что вот основные официальные выводы статьи: есть обновленный SASRec, и он хорош во всех сетапах, в которых мы его тестили. Например, он даёт взрывные +23% от качества ActionPiece и TIGER в академических бенчмарках. А ещё в терминах парето-оптимальности он держит качество на уровне HSTU и FuXi, хотя в отличие от последних не использует таймстемпы ни в истории пользователей, ни при формировании рекомендаций. Ещё eSASRec максимально просто имплементировать и он не имеет проблем с масштабированием (тут спасибо LinkedIn за архитектуру). И мы открываем доступ к нашим имплементациям и коду бенчмарков.
А теперь - что в статью не вошло, и о чём можно было бы подискутировать).
Лично для меня помимо определения современного бейзлайна самым интересным был вопрос - можно ли верить SOTA клеймам на основе академических RecSys датасетов?
Я отвечу для начала очень простым примером из наших результатов: классическая LOO валидация на самых популярных датасетах Амазона показала, что давно известный вариант SASRec+SS без каких-либо обновлений уже давал те самые +23% к качеству ActionPiece и TIGER. Просто никто этот вариант на данных датасетах в качестве бейзлайна не заводил. А завели вариант BCE, 1 негатив, имплементация RecBole, 5 лет назад - и с тех пор только копипастили из статьи в статью. Значит ли это, что SASRec+SS такая уж «SOTA» рядом с TIGER?
По моим ощущениям (мы же дискутируем?), результаты на Amazon Beauty/Sports/Toys в целом не то чтобы отражали реальную полезность моделей - они явно отдают предпочтение более простым архитектурам. Например, оптимальные гипер-параметры там: 1 слой трансформера, 1 голова, количество факторов 64. А ещё HSTU и FuXi на этих датасетах тоже ощутимо «проигрывают» старенькому SASRec+SS. Хотя на Мувиленсе - уже ощутимо “выигрывают”.
Про тайм сплит и beyond-accuracy: мы в статье отмечаем эффективность моделей индикаторами Парето-оптимальности. Это позволяет хоть немного делать выводы о результатах архитектур между разными датасетами (пока нет общепринятого академического подхода для оценки степени трейд-оффа точности и “персонализации”). Наши выводы - что есть архитектуры, которые оставались Парето-оптимальными на всех тестовых датасетах (например, HSTU и eSASRec). Но даже между ними нельзя сказать заранее, какая модель окажется выше по NDCG, а какая - выше по Coverage, всё сильно зависит от данных. Не самый утешительный вывод в ML, где мы привыкли к "вот это State-of-the-Art - и ." Зато честный.
Спасибо всем, с кем мы вместе сделали эту работу ❤️
arXiv.org
eSASRec: Enhancing Transformer-based Recommendations in a Modular Fashion
Since their introduction, Transformer-based models, such as SASRec and BERT4Rec, have become common baselines for sequential recommendations, surpassing earlier neural and non-neural methods. A...
❤6👍3🔥2
🔥28