Log-Q коррекция.
Когда мы писали расширенную версию статьи про gBCE и gSASRec, дотошный ревьюер нас спросил про возможность Sampled Softmax c Log-Q коррекцией. В итоге статья вышла вот с таким комментом, где мы говорим что Log-Q коррекция скорее всего тоже будет работать и мы оставляем этот вопрос на будущее исследование.
Сегодня на arxiv появилась статья от ребят из Яндекса, где они в целом выполнили это исследование и подтвердили наши предположения: Log-Q коррекция в целом хорошо работает. Рад, что наши методы использовались в качестве бейзлайнов, и в целом показали хорошие результаты.
Поздравляю Кирилла и остальных со-авторов со статей на РекСисе. Надеюсь обсудить детали которые не влезли в статью в живую на рексисе (надеюсь таки туда добраться).
Когда мы писали расширенную версию статьи про gBCE и gSASRec, дотошный ревьюер нас спросил про возможность Sampled Softmax c Log-Q коррекцией. В итоге статья вышла вот с таким комментом, где мы говорим что Log-Q коррекция скорее всего тоже будет работать и мы оставляем этот вопрос на будущее исследование.
Сегодня на arxiv появилась статья от ребят из Яндекса, где они в целом выполнили это исследование и подтвердили наши предположения: Log-Q коррекция в целом хорошо работает. Рад, что наши методы использовались в качестве бейзлайнов, и в целом показали хорошие результаты.
Поздравляю Кирилла и остальных со-авторов со статей на РекСисе. Надеюсь обсудить детали которые не влезли в статью в живую на рексисе (надеюсь таки туда добраться).
🔥17❤5
https://arxiv.org/html/2505.10212v1 best short paper на SIGIR ушел статейку которая показывает что многие современные LLM-ки были обучены на наших рекомендательных датасетах, и по-сути уже запомнили существенную часть. Будте осторожны, когда видите заявления в про LLM которые получают SOTA на стандартных рекомендательных датасетах; вполне возможно это data leakage.
В со-авторах мои друзья из Бари, рад за них!
В со-авторах мои друзья из Бари, рад за них!
👍23✍4😢2
RecJPQPRune_14_07.pptx
2.6 MB
Моя презентация с SIGIR 2025 по теме быстрого инфренса моделей с Sub-IDs. Тут мы использовали наши Sub-ID из RecJPQ, но в принципе можно адаптировать и для других Sub-ID методов (думаю что c аналогом гугловых SemanticID тоже можно завести).
Основная идея метода что (1) Sub-ID сильно меньше чем айтемов в каталоге и (2) нам только интересны айтемы в которых Sub-ID с большим скором.
Это позволяет применить методы динамического прунинга и извлечь Top-K айтемов точно, не прибегая к аппроксимациям типа методов ближайших соседей.
Ссылка на статью (Теперь не препринт!): https://dl.acm.org/doi/10.1145/3726302.3729963
Основная идея метода что (1) Sub-ID сильно меньше чем айтемов в каталоге и (2) нам только интересны айтемы в которых Sub-ID с большим скором.
Это позволяет применить методы динамического прунинга и извлечь Top-K айтемов точно, не прибегая к аппроксимациям типа методов ближайших соседей.
Ссылка на статью (Теперь не препринт!): https://dl.acm.org/doi/10.1145/3726302.3729963
🔥2👍1🙏1
Несколько фоточек на память ;-)
Вообще SIGIR мне понравился. Для меня это вторая A* конференция, после прошлогоднего IJCAI. Могу сказать что на SIGIR есть сильное ощущение сообщества которого не было на IJCAI. В отличие от IJCAI, на SIGIR было очень много знакомых мне людей, и очень много интересных сессий. IJCAI хоть формально и "более престижная" конференция, по факту мне понравилась сильно меньше. Там буквально была парочка интересующих меня сессий, а в основном люди рассказывали и показывали презентации на какие-то рандомные темы, которые практически никак не связаны с моей работой.
Вообще SIGIR мне понравился. Для меня это вторая A* конференция, после прошлогоднего IJCAI. Могу сказать что на SIGIR есть сильное ощущение сообщества которого не было на IJCAI. В отличие от IJCAI, на SIGIR было очень много знакомых мне людей, и очень много интересных сессий. IJCAI хоть формально и "более престижная" конференция, по факту мне понравилась сильно меньше. Там буквально была парочка интересующих меня сессий, а в основном люди рассказывали и показывали презентации на какие-то рандомные темы, которые практически никак не связаны с моей работой.
🔥9❤1
Презентация, которая больше всего мне понравилась на #SIGIR2025 была на удивление "прокси-презентация". Прокси-презентация, это когда автор статьи не смог приехать по уважительным причинам (например, не смог получить визу). Обычно такие презентации очень скучны, так как презентер плохо разобрался в теме и не может ответить ни на какие вопросы, но не в этот раз.
Эта статья была в Reproducibility трэке, називается Reassessing the Effectiveness of Reinforcement Learning based Recommender Systems for Sequential Recommendation (🔗 https://dl.acm.org/doi/10.1145/3726302.3730322) за авторством Dilina Chandika Rajapakse и Dietmar Jannach, которую презентовал Maurizio Ferrari Dacrema. Маурицио и Дитмар известны многим по статье "Are we making much progress", которая по сути стартовала большую дискусси насчет воспроизводимости рекомендательных методов.
В этой новой статье авторы рассматривают RL-подход SQN (мы его обсуждали на одной из ридинг груп). На разборе мы обсудили что RL в SQN не настоящий, хотя в чате потом не все с этим были согласны. В статье авторы приходят в общем-то к тому же выводу -- SQN это не совсем RL. Более того, все улучшения которые приносит SQN происходят из-за того, что они использовали кривые бейзлайны. Авторы показывают что просто оригинальный GRU4Rec работает лучше чем неоригинальный, но улучшенный SQN-ом. Авторы не использовали "улучшенный" SASRec (то есть SASRec с softmax loss), но я уверен что он тоже работал бы не хуже чем SQN.
Эта статья была в Reproducibility трэке, називается Reassessing the Effectiveness of Reinforcement Learning based Recommender Systems for Sequential Recommendation (🔗 https://dl.acm.org/doi/10.1145/3726302.3730322) за авторством Dilina Chandika Rajapakse и Dietmar Jannach, которую презентовал Maurizio Ferrari Dacrema. Маурицио и Дитмар известны многим по статье "Are we making much progress", которая по сути стартовала большую дискусси насчет воспроизводимости рекомендательных методов.
В этой новой статье авторы рассматривают RL-подход SQN (мы его обсуждали на одной из ридинг груп). На разборе мы обсудили что RL в SQN не настоящий, хотя в чате потом не все с этим были согласны. В статье авторы приходят в общем-то к тому же выводу -- SQN это не совсем RL. Более того, все улучшения которые приносит SQN происходят из-за того, что они использовали кривые бейзлайны. Авторы показывают что просто оригинальный GRU4Rec работает лучше чем неоригинальный, но улучшенный SQN-ом. Авторы не использовали "улучшенный" SASRec (то есть SASRec с softmax loss), но я уверен что он тоже работал бы не хуже чем SQN.
ACM Conferences
Reassessing the Effectiveness of Reinforcement Learning based Recommender Systems for Sequential Recommendation | Proceedings of…
🔥2
https://recsys.acm.org/recsys25/accepted-contributions/#content-tab-1-0-tab программу список статей на РекСис опубликовали.
Много всего интересного, и многие статьи уже доступны на arxiv.
Много всего интересного, и многие статьи уже доступны на arxiv.
RecSys
RecSys 2025 - Accepted Contributions - RecSys
Accepted Contributions
🔥6
Вчера ACM RecSys опубликовали результаты треков Late-Breaking Results и Demo. С радостью сообщаю, что две статьи с моим соавторством прошли в Late-Breaking Results.
1. Balancing Accuracy and Novelty with Sub-Item Popularity
Авторы: Chiara Mallamaci, Aleksandr V. Petrov, Alberto Carlo Maria Mancino, Vito Walter Anelli, Tommaso Di Noia, Craig Macdonald
Это результат нашей коллаборации с Politecnico di Bari. Мы сосредоточились на музыкальных рекомендациях: если оптимизировать модель только по precision, она, как правило, советует треки, которые пользователь уже слушал чаще всего, — рекомендации получаются не слишком интересными. Мы применяем повторения на уровне sub-item ID (используем наш RecJPQ; тот же подход потенциально работает и с другими sub-item ID, например Google Semantic ID). Анализируя паттерны повторяемости на уровне sub-ID, можно выявлять артиста или жанр и рекомендовать их, но не тот же трек. В сочетании с BERT4Rec это позволяет надёжно балансировать точность и новизну.
2. eSASRec: Enhancing Transformer-based Recommendations in a Modular Fashion
Авторы: Daria Tikhonovich, Nikita Zelinskiy, Aleksandr V. Petrov, Mayya Spirina, Andrei Semenov, Andrey Savchenko, Sergei Kuliev
Работа выполнена с исследователями из МТС и Вышки; я присоединился уже после защиты PhD в качестве независимого исследователя. Мы анализируем ряд улучшений для трансформерных рекомендаций: архитектуры слоёв, функции потерь, негативное семплирование и т. д., и показываем, что комбинация LIGR-слоёв, SASRec Training Objective и Sampled Softmax оказывается парето-оптимальной по метрикам «точность/покрытие» на всех тестовых датасетах. Подробностями позже поделится первый автор, Даша Тихонович.
Приятно видеть, что оба направления, баланс точности с новизной и модульное улучшение трансформеров, получили признание на RecSys; Буду рад обсудить обе эти сатьи.
1. Balancing Accuracy and Novelty with Sub-Item Popularity
Авторы: Chiara Mallamaci, Aleksandr V. Petrov, Alberto Carlo Maria Mancino, Vito Walter Anelli, Tommaso Di Noia, Craig Macdonald
Это результат нашей коллаборации с Politecnico di Bari. Мы сосредоточились на музыкальных рекомендациях: если оптимизировать модель только по precision, она, как правило, советует треки, которые пользователь уже слушал чаще всего, — рекомендации получаются не слишком интересными. Мы применяем повторения на уровне sub-item ID (используем наш RecJPQ; тот же подход потенциально работает и с другими sub-item ID, например Google Semantic ID). Анализируя паттерны повторяемости на уровне sub-ID, можно выявлять артиста или жанр и рекомендовать их, но не тот же трек. В сочетании с BERT4Rec это позволяет надёжно балансировать точность и новизну.
2. eSASRec: Enhancing Transformer-based Recommendations in a Modular Fashion
Авторы: Daria Tikhonovich, Nikita Zelinskiy, Aleksandr V. Petrov, Mayya Spirina, Andrei Semenov, Andrey Savchenko, Sergei Kuliev
Работа выполнена с исследователями из МТС и Вышки; я присоединился уже после защиты PhD в качестве независимого исследователя. Мы анализируем ряд улучшений для трансформерных рекомендаций: архитектуры слоёв, функции потерь, негативное семплирование и т. д., и показываем, что комбинация LIGR-слоёв, SASRec Training Objective и Sampled Softmax оказывается парето-оптимальной по метрикам «точность/покрытие» на всех тестовых датасетах. Подробностями позже поделится первый автор, Даша Тихонович.
Приятно видеть, что оба направления, баланс точности с новизной и модульное улучшение трансформеров, получили признание на RecSys; Буду рад обсудить обе эти сатьи.
🎉20🔥8❤4👏1
У Кирилла в дискуссии academia vs industry запостили ссылку на блогпост Карпаты про PhD:
https://karpathy.github.io/2016/09/07/phd/
Тем кто сомневается, нужен ли PhD прям очень рекомендую почитать, я практически со всеми мыслями согласен.
Для меня главное, что мне нравилось во время PhD это:
1. Свобода выбора над чем работать
2. Путешествия, я никогда не ездил по миру столько, сколько во время PhD
3. Прямая связь своих результатов с собой, они не растворяются внутри огромной компании
4. Возможность сфокусироваться на больших задачах, без сильного давления получить результат прямо сейчас (хотя культура publish or perish конечно тоже создаёт стимулы на быстрые результаты)
Понятно что PhD не для всех. Например, это точно не про заработок денег в краткосрочной перспективе (хотя в долгосрочной возможно и окупается, но я не уверен).
На Кирилла тоже подпишитесь https://news.1rj.ru/str/inforetriever
https://karpathy.github.io/2016/09/07/phd/
Тем кто сомневается, нужен ли PhD прям очень рекомендую почитать, я практически со всеми мыслями согласен.
Для меня главное, что мне нравилось во время PhD это:
1. Свобода выбора над чем работать
2. Путешествия, я никогда не ездил по миру столько, сколько во время PhD
3. Прямая связь своих результатов с собой, они не растворяются внутри огромной компании
4. Возможность сфокусироваться на больших задачах, без сильного давления получить результат прямо сейчас (хотя культура publish or perish конечно тоже создаёт стимулы на быстрые результаты)
Понятно что PhD не для всех. Например, это точно не про заработок денег в краткосрочной перспективе (хотя в долгосрочной возможно и окупается, но я не уверен).
На Кирилла тоже подпишитесь https://news.1rj.ru/str/inforetriever
karpathy.github.io
A Survival Guide to a PhD
Musings of a Computer Scientist.
🔥16❤4👍2
А вот и обзор второй статьи на ACM RecSys с моим участием + ссылки на препринт от Даши Тихонович. Кстати, Даша завела свой канал по рекомендашкам, подпишитесь на нее!
💯4
Forwarded from Red RecSys
"eSASRec: Enhancing Transformer-based Recommendations in a Modular Fashion»
Нашу статью приняли на ACM RecSys 2025! (arxiv).
Совместная работа с Никитой Зелинским, Сашей Петровым, исследователями из МТС (и экс-МТС), а также с Андреем Савченко.
В работе мы представляем модульный взгляд на классические трансформерные бейзлайны в RecSys и ищем наиболее эффективную архитектуру (собранную по принципу лего), которая показывает хорошее качество в самых разных сетапах - от привычной LOO валидации на небольших академических датасетах до парето-оптимальности (в рамках NDCG / Beyond-Accuracy качества) на тайм сплите. Финальная связка - которую мы назвали eSASRec - получилась из «Shifted Sequence" задачи обучения (как в SASRec), LiGR архитектуры слоёв трансформера (как в продовой модели LinkedIn из «From Features to Transformers…») и Sampled Softmax лосса (тут без сюрпризов, хотя стоит сказать, что gBCE был очень близок по качеству, но не всегда быстро сходился).
На самом деле, в рамках этой достаточно долгой работы (первые экспы начались больше чем полгода назад) мы отвечали и на более широкий спектр вопросов. В академии есть свой заданный «порядок» для написания статей, и мы не могли добавить никаких выводов сверх основного фокуса работы. Так что вот основные официальные выводы статьи: есть обновленный SASRec, и он хорош во всех сетапах, в которых мы его тестили. Например, он даёт взрывные +23% от качества ActionPiece и TIGER в академических бенчмарках. А ещё в терминах парето-оптимальности он держит качество на уровне HSTU и FuXi, хотя в отличие от последних не использует таймстемпы ни в истории пользователей, ни при формировании рекомендаций. Ещё eSASRec максимально просто имплементировать и он не имеет проблем с масштабированием (тут спасибо LinkedIn за архитектуру). И мы открываем доступ к нашим имплементациям и коду бенчмарков.
А теперь - что в статью не вошло, и о чём можно было бы подискутировать).
Лично для меня помимо определения современного бейзлайна самым интересным был вопрос - можно ли верить SOTA клеймам на основе академических RecSys датасетов?
Я отвечу для начала очень простым примером из наших результатов: классическая LOO валидация на самых популярных датасетах Амазона показала, что давно известный вариант SASRec+SS без каких-либо обновлений уже давал те самые +23% к качеству ActionPiece и TIGER. Просто никто этот вариант на данных датасетах в качестве бейзлайна не заводил. А завели вариант BCE, 1 негатив, имплементация RecBole, 5 лет назад - и с тех пор только копипастили из статьи в статью. Значит ли это, что SASRec+SS такая уж «SOTA» рядом с TIGER?
По моим ощущениям (мы же дискутируем?), результаты на Amazon Beauty/Sports/Toys в целом не то чтобы отражали реальную полезность моделей - они явно отдают предпочтение более простым архитектурам. Например, оптимальные гипер-параметры там: 1 слой трансформера, 1 голова, количество факторов 64. А ещё HSTU и FuXi на этих датасетах тоже ощутимо «проигрывают» старенькому SASRec+SS. Хотя на Мувиленсе - уже ощутимо “выигрывают”.
Про тайм сплит и beyond-accuracy: мы в статье отмечаем эффективность моделей индикаторами Парето-оптимальности. Это позволяет хоть немного делать выводы о результатах архитектур между разными датасетами (пока нет общепринятого академического подхода для оценки степени трейд-оффа точности и “персонализации”). Наши выводы - что есть архитектуры, которые оставались Парето-оптимальными на всех тестовых датасетах (например, HSTU и eSASRec). Но даже между ними нельзя сказать заранее, какая модель окажется выше по NDCG, а какая - выше по Coverage, всё сильно зависит от данных. Не самый утешительный вывод в ML, где мы привыкли к "вот это State-of-the-Art - и ." Зато честный.
Спасибо всем, с кем мы вместе сделали эту работу ❤️
Нашу статью приняли на ACM RecSys 2025! (arxiv).
Совместная работа с Никитой Зелинским, Сашей Петровым, исследователями из МТС (и экс-МТС), а также с Андреем Савченко.
В работе мы представляем модульный взгляд на классические трансформерные бейзлайны в RecSys и ищем наиболее эффективную архитектуру (собранную по принципу лего), которая показывает хорошее качество в самых разных сетапах - от привычной LOO валидации на небольших академических датасетах до парето-оптимальности (в рамках NDCG / Beyond-Accuracy качества) на тайм сплите. Финальная связка - которую мы назвали eSASRec - получилась из «Shifted Sequence" задачи обучения (как в SASRec), LiGR архитектуры слоёв трансформера (как в продовой модели LinkedIn из «From Features to Transformers…») и Sampled Softmax лосса (тут без сюрпризов, хотя стоит сказать, что gBCE был очень близок по качеству, но не всегда быстро сходился).
На самом деле, в рамках этой достаточно долгой работы (первые экспы начались больше чем полгода назад) мы отвечали и на более широкий спектр вопросов. В академии есть свой заданный «порядок» для написания статей, и мы не могли добавить никаких выводов сверх основного фокуса работы. Так что вот основные официальные выводы статьи: есть обновленный SASRec, и он хорош во всех сетапах, в которых мы его тестили. Например, он даёт взрывные +23% от качества ActionPiece и TIGER в академических бенчмарках. А ещё в терминах парето-оптимальности он держит качество на уровне HSTU и FuXi, хотя в отличие от последних не использует таймстемпы ни в истории пользователей, ни при формировании рекомендаций. Ещё eSASRec максимально просто имплементировать и он не имеет проблем с масштабированием (тут спасибо LinkedIn за архитектуру). И мы открываем доступ к нашим имплементациям и коду бенчмарков.
А теперь - что в статью не вошло, и о чём можно было бы подискутировать).
Лично для меня помимо определения современного бейзлайна самым интересным был вопрос - можно ли верить SOTA клеймам на основе академических RecSys датасетов?
Я отвечу для начала очень простым примером из наших результатов: классическая LOO валидация на самых популярных датасетах Амазона показала, что давно известный вариант SASRec+SS без каких-либо обновлений уже давал те самые +23% к качеству ActionPiece и TIGER. Просто никто этот вариант на данных датасетах в качестве бейзлайна не заводил. А завели вариант BCE, 1 негатив, имплементация RecBole, 5 лет назад - и с тех пор только копипастили из статьи в статью. Значит ли это, что SASRec+SS такая уж «SOTA» рядом с TIGER?
По моим ощущениям (мы же дискутируем?), результаты на Amazon Beauty/Sports/Toys в целом не то чтобы отражали реальную полезность моделей - они явно отдают предпочтение более простым архитектурам. Например, оптимальные гипер-параметры там: 1 слой трансформера, 1 голова, количество факторов 64. А ещё HSTU и FuXi на этих датасетах тоже ощутимо «проигрывают» старенькому SASRec+SS. Хотя на Мувиленсе - уже ощутимо “выигрывают”.
Про тайм сплит и beyond-accuracy: мы в статье отмечаем эффективность моделей индикаторами Парето-оптимальности. Это позволяет хоть немного делать выводы о результатах архитектур между разными датасетами (пока нет общепринятого академического подхода для оценки степени трейд-оффа точности и “персонализации”). Наши выводы - что есть архитектуры, которые оставались Парето-оптимальными на всех тестовых датасетах (например, HSTU и eSASRec). Но даже между ними нельзя сказать заранее, какая модель окажется выше по NDCG, а какая - выше по Coverage, всё сильно зависит от данных. Не самый утешительный вывод в ML, где мы привыкли к "вот это State-of-the-Art - и ." Зато честный.
Спасибо всем, с кем мы вместе сделали эту работу ❤️
arXiv.org
eSASRec: Enhancing Transformer-based Recommendations in a Modular Fashion
Since their introduction, Transformer-based models, such as SASRec and BERT4Rec, have become common baselines for sequential recommendations, surpassing earlier neural and non-neural methods. A...
❤6👍3🔥2
🔥28