Рекомендации, Поиск и Путешествия – Telegram
Рекомендации, Поиск и Путешествия
1.13K subscribers
84 photos
4 videos
1 file
49 links
Download Telegram
Немного статы с SIGIR. Рекомендательные системы тут самая популярная тема (и в целом количество статей по РекСису кажется на SIGIR сравнимо с количеством статьей на РекСис).

Чтобы максимизировать шансы надо жить в Голлландии. А вот русскоязычное коммьюнити тут представлено сильно меньше чем на РекСисе.

Бонус -- фоточка с keynote Стивена Робертсона, создателя BM25.
4
Forwarded from Information Retriever
Correcting the LogQ Correction: Revisiting Sampled Softmax for Large-Scale Retrieval.

А вот и наша статья, принятая на RecSys 2025, добралась до arxiv’а! Что мы сделали: улучшили logQ-коррекцию.

Почему это важно: logQ-коррекция активно используется в индустрии для обучения нейросетевых двухбашенных retrieval моделей. Я за свою жизнь в Яндексе неоднократно участвовал в больших и успешных внедрениях нейросетевых кандидатогенераторов, которые не случились бы без logQ-коррекции.

Улучшение связано с тем, как в формуле logQ-коррекции используется положительный айтем (далее именуемый “позитив”). Он появляется в двух местах — и в числителе, и в знаменателе софтмакса. К числителю вопросов нет. А вот в знаменателе есть странности. Например, в исходной статье от Google к позитиву в знаменателе применяется logQ-поправка; а в следующей статье от тех же авторов — уже нет. То есть для сэмплированных негативов в знаменателе logQ-поправка есть, для позитива — нет. А вывод такой формулы нигде не приводится / не обосновывается.

Более того, само использование позитива в знаменателе выглядит сомнительно. Оригинальный вывод формулы, который Bengio проделал в начале нулевых для доисторических языковых моделей, гласит: для оценки знаменателя софтмакса можно насэмплировать айтемы из произвольного распределения Q (обычного называемого proposal distribution) и добавить к ним ту самую “logQ-поправку”. Распределение Q — это как раз и есть то распределение, из которого мы сэмплируем негативы; которое чаще всего является in-batch распределением.

И когда мы рассматриваем конкретный обучающий пример, то есть конкретную пару (user, positive item), и для нее считаем сэмплированный softmax-лосс с logQ-коррекцией, мы не сэмплируем позитив из распределения Q — он приходит к нам детерминированно, с вероятностью 1. А в формуле он используется для Монте-Карло оценки в предположении, что мы сэмплируем его из Q.

Долгое время мы, как и все, просто плыли по течению и использовали logQ-коррекцию в том виде, в каком все ее применяют. Но потом я взялся сделать ту самую лекцию про нейросетевую генерацию кандидатов для ШАДа, в которой в том числе хотел осветить logQ-коррекцию — строго, с математическим выводом. Хотелось также обосновать формулы, использующие позитив в знаменателе, с logQ-поправкой и без.

Когда я в рамках математических выкладок отделил позитив от Монте-Карло сэмплирования, получилась совершенно другая формула! В которой позитива не было в знаменателе софтмакса вообще, но при этом появилось взвешивание сэмплов. Чем меньше модель ошибается на сэмпле (то есть предсказывает большую вероятность позитива), тем меньше вес этого сэмпла.

Мы поставили эксперименты — сначала на своих внутренних больших датасетах, а затем на небольших академических. И подтвердили, что наша формула хорошо работает, причем работает лучше стандартной! На полноценный long paper на RecSys времени не хватило (когда появилось время на написание статьи, до дедлайна было меньше двух недель), поэтому подались на short paper. Статья получила хорошие отзывы и была принята на RecSys, чему мы несказанно рады :)

Ещё хочется немного подсветить остальную ценность статьи. До этого я не видел в академической литературе замеры на публичных датасетах для logQ-коррекции. Мы эти замеры сделали и показали, что популярная в индустрии logQ-коррекция хорошо работает и в академическом сетапе. Кроме того, мы, возможно, первыми на этих датасетах показали пользу от mixed negative sampling (таких замеров я тоже раньше не встречал, но здесь уже меньше уверен).

И последнее — мы сделали две валидации. Было понимание, что без leave-one-out схемы, как бы я ее ни недолюбливал, есть большая вероятность не пройти ревью :) Но делать только leave-one-out валидацию тоже не хотелось. Поэтому сделали также temporal split валидацию. Получилось, что ранжирование моделей c точки зрения качества в этих двух сетапах заметно различается.

Остальные подробности — читайте в статье!
4👍1
Log-Q коррекция.

Когда мы писали расширенную версию статьи про gBCE и gSASRec, дотошный ревьюер нас спросил про возможность Sampled Softmax c Log-Q коррекцией. В итоге статья вышла вот с таким комментом, где мы говорим что Log-Q коррекция скорее всего тоже будет работать и мы оставляем этот вопрос на будущее исследование.

Сегодня на arxiv появилась статья от ребят из Яндекса, где они в целом выполнили это исследование и подтвердили наши предположения: Log-Q коррекция в целом хорошо работает. Рад, что наши методы использовались в качестве бейзлайнов, и в целом показали хорошие результаты.

Поздравляю Кирилла и остальных со-авторов со статей на РекСисе. Надеюсь обсудить детали которые не влезли в статью в живую на рексисе (надеюсь таки туда добраться).
🔥175
https://arxiv.org/html/2505.10212v1 best short paper на SIGIR ушел статейку которая показывает что многие современные LLM-ки были обучены на наших рекомендательных датасетах, и по-сути уже запомнили существенную часть. Будте осторожны, когда видите заявления в про LLM которые получают SOTA на стандартных рекомендательных датасетах; вполне возможно это data leakage.

В со-авторах мои друзья из Бари, рад за них!
👍234😢2
RecJPQPRune_14_07.pptx
2.6 MB
Моя презентация с SIGIR 2025 по теме быстрого инфренса моделей с Sub-IDs. Тут мы использовали наши Sub-ID из RecJPQ, но в принципе можно адаптировать и для других Sub-ID методов (думаю что c аналогом гугловых SemanticID тоже можно завести).

Основная идея метода что (1) Sub-ID сильно меньше чем айтемов в каталоге и (2) нам только интересны айтемы в которых Sub-ID с большим скором.

Это позволяет применить методы динамического прунинга и извлечь Top-K айтемов точно, не прибегая к аппроксимациям типа методов ближайших соседей.

Ссылка на статью (Теперь не препринт!): https://dl.acm.org/doi/10.1145/3726302.3729963
🔥2👍1🙏1
Несколько фоточек на память ;-)


Вообще SIGIR мне понравился. Для меня это вторая A* конференция, после прошлогоднего IJCAI. Могу сказать что на SIGIR есть сильное ощущение сообщества которого не было на IJCAI. В отличие от IJCAI, на SIGIR было очень много знакомых мне людей, и очень много интересных сессий. IJCAI хоть формально и "более престижная" конференция, по факту мне понравилась сильно меньше. Там буквально была парочка интересующих меня сессий, а в основном люди рассказывали и показывали презентации на какие-то рандомные темы, которые практически никак не связаны с моей работой.
🔥91
Презентация, которая больше всего мне понравилась на #SIGIR2025 была на удивление "прокси-презентация". Прокси-презентация, это когда автор статьи не смог приехать по уважительным причинам (например, не смог получить визу). Обычно такие презентации очень скучны, так как презентер плохо разобрался в теме и не может ответить ни на какие вопросы, но не в этот раз.

Эта статья была в Reproducibility трэке, називается Reassessing the Effectiveness of Reinforcement Learning based Recommender Systems for Sequential Recommendation (🔗 https://dl.acm.org/doi/10.1145/3726302.3730322) за авторством Dilina Chandika Rajapakse и Dietmar Jannach, которую презентовал Maurizio Ferrari Dacrema. Маурицио и Дитмар известны многим по статье "Are we making much progress", которая по сути стартовала большую дискусси насчет воспроизводимости рекомендательных методов.

В этой новой статье авторы рассматривают RL-подход SQN (мы его обсуждали на одной из ридинг груп). На разборе мы обсудили что RL в SQN не настоящий, хотя в чате потом не все с этим были согласны. В статье авторы приходят в общем-то к тому же выводу -- SQN это не совсем RL. Более того, все улучшения которые приносит SQN происходят из-за того, что они использовали кривые бейзлайны. Авторы показывают что просто оригинальный GRU4Rec работает лучше чем неоригинальный, но улучшенный SQN-ом. Авторы не использовали "улучшенный" SASRec (то есть SASRec с softmax loss), но я уверен что он тоже работал бы не хуже чем SQN.
🔥2
https://recsys.acm.org/recsys25/accepted-contributions/#content-tab-1-0-tab программу список статей на РекСис опубликовали.
Много всего интересного, и многие статьи уже доступны на arxiv.
🔥6
Вчера ACM RecSys опубликовали результаты треков Late-Breaking Results и Demo. С радостью сообщаю, что две статьи с моим соавторством прошли в Late-Breaking Results.

1. Balancing Accuracy and Novelty with Sub-Item Popularity
Авторы: Chiara Mallamaci, Aleksandr V. Petrov, Alberto Carlo Maria Mancino, Vito Walter Anelli, Tommaso Di Noia, Craig Macdonald
Это результат нашей коллаборации с Politecnico di Bari. Мы сосредоточились на музыкальных рекомендациях: если оптимизировать модель только по precision, она, как правило, советует треки, которые пользователь уже слушал чаще всего, — рекомендации получаются не слишком интересными. Мы применяем повторения на уровне sub-item ID (используем наш RecJPQ; тот же подход потенциально работает и с другими sub-item ID, например Google Semantic ID). Анализируя паттерны повторяемости на уровне sub-ID, можно выявлять артиста или жанр и рекомендовать их, но не тот же трек. В сочетании с BERT4Rec это позволяет надёжно балансировать точность и новизну.

2. eSASRec: Enhancing Transformer-based Recommendations in a Modular Fashion
Авторы: Daria Tikhonovich, Nikita Zelinskiy, Aleksandr V. Petrov, Mayya Spirina, Andrei Semenov, Andrey Savchenko, Sergei Kuliev
Работа выполнена с исследователями из МТС и Вышки; я присоединился уже после защиты PhD в качестве независимого исследователя. Мы анализируем ряд улучшений для трансформерных рекомендаций: архитектуры слоёв, функции потерь, негативное семплирование и т. д., и показываем, что комбинация LIGR-слоёв, SASRec Training Objective и Sampled Softmax оказывается парето-оптимальной по метрикам «точность/покрытие» на всех тестовых датасетах. Подробностями позже поделится первый автор, Даша Тихонович.

Приятно видеть, что оба направления, баланс точности с новизной и модульное улучшение трансформеров, получили признание на RecSys; Буду рад обсудить обе эти сатьи.
🎉20🔥84👏1
Выложили на ArXiv статью нашу статью про sub-id popularity:

https://arxiv.org/pdf/2508.05198
🔥18
У Кирилла в дискуссии academia vs industry запостили ссылку на блогпост Карпаты про PhD:

https://karpathy.github.io/2016/09/07/phd/

Тем кто сомневается, нужен ли PhD прям очень рекомендую почитать, я практически со всеми мыслями согласен.

Для меня главное, что мне нравилось во время PhD это:
1. Свобода выбора над чем работать
2. Путешествия, я никогда не ездил по миру столько, сколько во время PhD
3. Прямая связь своих результатов с собой, они не растворяются внутри огромной компании
4. Возможность сфокусироваться на больших задачах, без сильного давления получить результат прямо сейчас (хотя культура publish or perish конечно тоже создаёт стимулы на быстрые результаты)

Понятно что PhD не для всех. Например, это точно не про заработок денег в краткосрочной перспективе (хотя в долгосрочной возможно и окупается, но я не уверен).


На Кирилла тоже подпишитесь https://news.1rj.ru/str/inforetriever
🔥164👍2
А вот и обзор второй статьи на ACM RecSys с моим участием + ссылки на препринт от Даши Тихонович. Кстати, Даша завела свой канал по рекомендашкам, подпишитесь на нее!
💯4