Information Retriever – Telegram
Information Retriever
3.44K subscribers
254 photos
1 video
8 files
127 links
Download Telegram
SIGIR 2024.

Бегло глянул опубликованный пару дней назад SIGIR 2024 Proceedings. Смотрел только пейперы от индустрии (не от университетов). Не густо:

1. Новая статья про скейлинг в рекомендашках от Mercado Libre Inc.: Scaling Sequential Recommendation Models with Transformers. Эксперименты ставят на амазоновских датасетах, и опять leave-one-out схема эвала. На картине изображена моя реакция :)

2. Была некая панельная дискуссия от eBay и Spotify про то, достаточно ли нам эмбеддингов в рекомендашках и поиске: Are Embeddings Enough? SIRIP Panel on the Future of Embeddings in Industry IR Systems. Вопрос хороший, интересно к чему пришли =)

3. Snapchat еще на SIGIR 2023 рассказали как используют графовые нейросетки для отбора кандидатов (Embedding Based Retrieval in Friend Recommendation), а здесь решили рассказать как простым советским query expansion смогли улучшить эту же технологию. На первый взгляд кажется, что переизобрели item-based коллаборативную фильтрацию. Статья Improving Embedding-Based Retrieval in Friend Recommendation with ANN Query Expansion.

4. JD.com подали сразу три шортпейпера: раз, два, три. Открыл одну из статей, увидел в абстракте "We introduce a Views User Interest Extractor Layer, Views Feature Generator Layer, Global Label Space Multi-Task Layer", закрыл.

5. Что-то от Google Research и YouTube про a/b тесты (избавление от них?) для улучшения онбординга в YouTube Music: Minimizing Live Experiments in Recommender Systems: User Simulation to Evaluate Preference Elicitation Policies. Судя по всему, учат симуляции пользователя.

6. Data Sciences, Target Corporation (крупный американский еком) применяют процесс Хоукса для предсказания повторных покупок в статье SLH-BIA: Short-Long Hawkes Process for Buy It Again Recommendations at Scale. Если мне не изменяет память, ребята из Т-банка в своей работе Time-Aware Item Weighting for the Next Basket Recommendations тоже процесс Хоукса применяли, но только для предсказания следующей корзины целиком.

7. В Visa Research экспериментируют с графовым трансформером: Masked Graph Transformer for Large-Scale Recommendation, когда мы целиком весь граф запихиваем в аттеншн. Делают этот самый аттеншн линейным; но это все заводится только на маленьких публичных датасетах, не web-scale :(

8. В Amazon рассказали как адаптировали генеративный трансформер для исправления ошибок в поиске к data drift: Striking the Right Chord: A Comprehensive Approach to Amazon Music Search Spell Correction. Используют RL?

9. Ребята из СПБГУ, ПОМИ РАН и Сберовской AI лабы в пейпере Neural Click Models for Recommender Systems адаптируют кликовые модели к рекомендациям.

Если вам понравились какие-то статьи из SIGIR 2024 Proceedings, про которые я не написал, — дайте знать про них в комментариях!

UPD:

10. What Matters in a Measure? A Perspective from Large-Scale Search Evaluation от Microsoft и Amazon - рассуждают про метрики для поиска.

11. От Kuaishou: пользователи устают от похожего контента (тык) и про моделирование переходов между поиском и рекомендациями (тык).

12. Интеграция рекламы в рекомендательную ленту от Meituan в статье Deep Automated Mechanism Design for Integrating Ad Auctionand Allocation in Feed.
🔥26👍102
Forwarded from ду́но
Мы ищем стажеров!

👩‍🌾 shorties — это персональная программа, в которой мы выращиваем таланты до полноценных Research Engineer’ов или Research Scientist’ов в зависимости от ваших интересов.

🔭 Intern Research Scientist

Вы будете заниматься написанием статей на top-tier ИИ конференции (NeurIPS, ICLR, ICML) и участием в научном дискурсе: проведение экспериментов, проверка и генерация исследовательских идей, которые направлены на развитие научного знания.


🧪 Intern Research Engineer

Вы будете заниматься созданием новых frontier-технологий и применением Reinforcement Learning в реальных задачах.


Тестовые задания и подробные описания позиций можно найти по ссылкам выше, дедлайн подачи заявки — 15 августа.

- - —
@dunnolab
20👎2
#arxiv_weekly (15.07.24 — 19.07.24)

Захожу сегодня на arxiv recent ir, вижу "DCNv3: Towards Next Generation Deep Cross Network for Click-Through Rate Prediction". Думаю "Ну, новая эпоха нейросетевого ранжирования началась...". Открываю, а там какой-то китайский Anhui University и ни слова про оригинальных авторов DCN, DCN-V2 из Google Deepmind =)

1. Вышел 66-страничный обзор рексистем от канадского Vector Institute: A Comprehensive Review of Recommender Systems: Transitioning from Theory to Practice. Foundational модели, нейросети, графы, РЛ, LLM, мультимодальность, etc

2. Очередная обзорная работа про LLM, в этот раз от Noah's Ark Lab, Huawei: All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era. Утверждают, что развитие рекомендательных LLM происходило по двум разным развилкам, но всё в итоге сошлось в одну область (см. картинку).

3. Статья про преранжирование (стадия между генерацией кандидатов и ранжированием) от Credit Karma. Многовекторные представления пользователей и айтемов, сэмплирование негативов со всех стадий рексистемы, дистилляция и хитрые ранжирующие лоссы в статье RankTower: A Synergistic Framework for Enhancing Two-Tower Pre-Ranking Model.

4. Deep Bag-of-Words Model: An Efficient and Interpretable Relevance Architecture for Chinese E-Commerce от Alibaba Group: обучаемый мешок слов. Вместо "плотного" векторного представления для айтемов/запросов, выучивают широкий эмбеддинг (размера словаря), координаты в котором транслируются на веса слов.
👍13🔥112
Turbo ML Conf.

В этот раз обсудили трансформерную персонализацию на более фундаментальном уровне. Поговорили про формирование истории, кодирование событий, а также обсудили как в модели обрабатывается кандидат, для которого считаем скор; и на какую задачу нужно учить модель.

Что обсуждали в кулуарах:
* инфраструктуру (в частности YTsaurus и насколько он хорош)
* зачем нужны аналитики в рексистемах
* как дипмайнд теперь назовет новую версию DCN'а, учитывая что DCN-v3 уже занят
* сколько в Wildberries рекомендательных команд и как они уживаются
* у кого в Т-банке больше гпушек: у ресерча или рнд
* у рексистем есть потолок качества или "насколько мы вообще можем повлиять на траекторию пользователя рекомендациями?"
* тикток, ютуб, kuaishou; онлайн-дообучение; почему ютуб рекомендует видео десятилетней давности
* Яндекс Ритм
* аплифт моделирование
* предстоящий рексис и как на него попасть
* нужна ли галочка для отключения персонализации

Презентацию прикладываю в первом комментарии к посту, запись выступления будет через пару недель. Узнаем, уложился ли я в 20 минут.

Как всегда, спасибо всем, кто подходил и говорил, что читает канал. Это очень приятно :) В этот раз спросили "где пост про РЛ", который я обещал наверно где-то полгода назад... Уверенно ответил "в бэклоге".
🔥61👍71
Forwarded from Wazowski Recommends
Не так давно я узнал, что в нашей индустрии появился новый тренд. Причем там, где, казалось бы, и так всё неплохо работает и улучшить не так-то просто.

Как мы уже не раз обсуждали, для генерации кандидатов лучше всего работают двух-башенные сети и ANN-индексы для быстрого поиска, например HNSW.

Так вот, сначала Meta, а потом LinkedIn (и по слухам — ТикТок тоже) показали, что в современном мире это можно делать лучше.

Двух-башенные сети на первой стадии всё ещё остаются. Но вот складывать в ANN-индекс не нужно. А нужно… Просто использовать GPU!

При небольшой размерности эмбеддингов, да ещё и в квантизованном виде, на одной карточке A100 можно хранить порядка 100 миллионов документов (а этого хватит, конечно же, всем... ну почти) и успевать с ними со всеми посчитать скалярное произведение за несколько десятков миллисекунд. А для хорошего throughput запросные эмбеддинги стоит собирать в батчи (матрицы), чтобы всё это можно было сделать одним матричным перемножением.

Какие у этого преимущества?

1) Полнота поиска выше. Как бы мы ни любили ANN, их полнота на практике выше 95%, но всё-таки не 100%. А тут мы считаем произведение со всеми объектами в базе.

2) Если обычно мы отбираем одну или несколько тысяч кандидатов из ANN, то здесь можно выдавать сразу 100'000. ANN с таким количеством работают уже не очень хорошо. Только вот что делать дальше с этими 100000? Мета предлагает на следующей стадии ранжировать их моделью потяжелее, mixture-of-logits, MoL (всё ещё двух-башенная, но в конце не произведение, а более сложная сеть), тоже на GPU. И уже результат этого выдавать в тяжелое ранжирование, как и раньше.

3) А ещё такой подход позволяет намного быстрее и чаще обновлять эмбеддинги документов. Их же просто нужно обновить в памяти GPU. В ANN-индексе же это сложнее, поэтому обычно так часто не обновляют.

Выглядит перспективно.
👍29🔥43🏆1
#arxiv_weekly (05.08.24 — 09.08.24)

Сводка новостей с arxiv recent ir.

1. Товарный поиск: Амазон исследует пользу от query understanding модуля в ранжировании (статья Exploring Query Understanding for Amazon Product Search), а в JD.com улучшают качество классификации интентов на тяжелом хвосте запросов с помощью графовых нейросетек A Semi-supervised Multi-channel Graph Convolutional Network for Query Classification in E-commerce.

2. LLM: в Гугле продолжают покорять рекомендашки языковыми моделями в статьях Leveraging LLM Reasoning Enhances Personalized Recommender Systems от команды Ed Chi (на амазоновских beauty и movies/tv), и PERSOMA: PERsonalized SOft ProMpt Adapter Architecture for Personalized Language Prompting от других товарищей из Google Research (на movielens). У Linkedin вышла статья про LLM и графы, Understanding and Modeling Job Marketplace with Pretrained Language Models.

3. Uncertainty modeling: любопытная статья от Shopee Discovery Ads про моделирование uncertainty для генерации кандидатов. При моделировании тяжелого хвоста айтемов имеем большую неопределенность, влияющую на построение индекса и поиск по нему. Утверждается, что при построении индекса хотим свести неопределенность к минимуму (для высокой релевантности), а при поиске в индексе хотим побольше неопределенности (для новизны). В том числе предлагают как эту uncertainty моделировать в нейросетях. Статья Deep Uncertainty-Based Explore for Index Construction and Retrieval in Recommendation System.

Еще одна статья на тему uncertainty от Alibaba Group: Modeling User Intent Beyond Trigger: Incorporating Uncertainty for Trigger-Induced Recommendation. Чуть статы: при клике на товар-клавиатуру, 46.9% в последствии купят какую-нибудь клавиатуру, 30.8% купят что-нибудь популярное, и 22.3% купят что-то комплементарное (e,g. мышку). В самой статье опять предлагают какие-то "модули": "we design an Explicit Intent Exploit Module (EIEM), Latent Intent Explore Module (LIEM), Intent Uncertainty Measurement Module (IUMM)", вчитываться я не стал :)

4. В тему последнего поста от Миши про генерацию кандидатов на GPU, в Xiaohongshu Inc опубликовали статью с говорящим названием A Real-Time Adaptive Multi-Stream GPU System for Online Approximate Nearest Neighborhood Search.

5. Misc: Huawei / Tencent выпустили обзор Embedding Compression in Recommender Systems: A Survey, а в Yahoo продолжают тюнить факторизационные машины Low Rank Field-Weighted Factorization Machines for Low Latency Item Recommendation.
👍18🔥41
Related Pins at Pinterest: The Evolution of a Real-World Recommender System.

В далеком 2013-м году два инженера из Пинтереста за три недели склепали первую версию рексистемы для рекомендаций похожих пинов: взяли Pin-Board граф, посчитали мапредьюсом совстречаемости пинов, положили результаты в kv-хранилище. Через два года под развитие этого модуля выделили отдельную команду, и к моменту, когда в 2017-м году была опубликована обсуждаемая статья, уже 40% всех показанных и сохраненных пинов атрибуцировалось рекомендациям похожих пинов.

Что было сделано:

1. Перешли на случайные блуждания (Pixie) вместо мапредьюсного подсчета совстречаемостей. Вдохновлялись наработкой Твиттера аж 2013-го года, WTF: The Who to Follow Service at Twitter. Как минимум забустили качество для более редких, "тяжелохвостовых" пинов, у которых не набиралось достаточное количество соседей в своих бордах.

2. Добавили ранжирование:
* вырастили клики и сохранения пинов на 30% с помощью линейной модели над девятью фичами, использующей только характеристики query/candidate пинов (эмбеды текстов, картинки, категории, etc)
* добавили персонализацию: историю пользователя, соцдем, etc
* перешли на градиентный бустинг: это позволило упростить препроцессинг фичей (нормализацию, бакетизацию, etc), а также дало возможность добавлять query-level фичи
* пересели на pointwise (!) лосс вместо pairwise
* spoiler: позже они перейдут на ранжирующую нейросеть, о чем я рассказывал в посте про эволюцию ранжирования в Pinterest

3. Увеличили полноту/разнообразие кандидатогенерации, добавив больше источников кандидатов:
* Pin2Vec: word2vec над сессиями пользователей, эмбеды пинов из которого используются в ANNS
* поисковые кандидаты: ходят с текстовыми аннотациями query-пина в свой текстовый поиск, и с картинкой в визуальный; помогло с холодным стартом
* "срезовые" кандидатогенераторы: выделили отдельные кандидатогенераторы для более специфичных срезов пинов (e.g. свежие, региональные пины)

4. Про проблемы:
* фидбек луп: не получалось побить продовую ранжирующую модель, обучаясь на её же фидбеке; выделили для обучения 1% трафика, в котором отобранные кандидаты ранжировались случайно. Получили более хорошие модели, чем на исходном большом трафике
* меморизующие счетчики: была еще такая штука как MemBoost, которая изначально использовалась как прибавка к скору Pin-Board совстречаемости; по сути, это взвешенная сумма счетчиков вида "сколько раз при показе данного кандидата по этому запросу пользователи его сохраняли/кликали/etc". После введения ранжирующей модели стали использовать их в качестве фичей. Заметили, что из-за них сложно проводить АБ — эффекты от оцениваемых изменений прорастают через них в другие сплиты, и обратный эксп тоже нормально не поставишь; но ничего с этим не сделали
* столкнулись с тем, что любое изменение в рексистеме инвалидирует оптимальность всех ее компонентов, и всякие захардкоженные гиперпараметры/константы нужно переподбирать; полечили это автоматизацией — при каждом изменении стараются как можно больше всего автоматически перетюнить

5. Еще чуть про инфру:
* было сложно итерироваться, когда весь стек, включая ранжирование, был оффлайновый; каждое изменение ранжирования/кандгена требовало полный переобход всей базы; покрытие запросов тоже было не очень; в итоге перевели ранжирование и большую часть кандидатогенераторов в онлайн
* передавать по сети туда-сюда сырые данные пинов, чтобы посчитать фичи — затратно, система будет упираться в сеть; поэтому делают шардирование исходной базы кандидатов; на каждом шарде хранятся все сырые данные про пины и сразу считаются все нужные скоры / фичи

Это была краткая историческая сводка из 2017-го года. Что произошло за следующие семь лет? To be continued :)
🔥482👍2
Если увидите такую комбинацию наклеек на PML Conf — подходите пообщаться :)
🔥38
Practical ML Conf 2024.

Ну что, как всегда — очерки из кулуаров после конференции :)

Про компании:
* яндексоиды из ex-Дзена обустраивают под себя VK: ввели яндексовые перформанс ревью
* в Wildberries подводят итоги первого полугодия после массивного рексис найма
* в Авито активно улучшают рекомендации, судя по кол-ву участников конференции и по кол-ву вопросов про трансформеры и u2i двухбашенные модельки
* в Сбере тоже активно работают над трансформерами, в частности над использованием контентных представлений для айтемов
* еще про Wb: после выхода на работу доступы получать как минимум неделю, а еще на старте могут дать задачку про категоризацию товаров :)
* в Детском Мире нет ресурсов :(
* Яндекс Маркет активно занимается нейросетями: внедрили несколько трансформеров, и нейросетевое ранжирование пробуют (обошлось не без вашего покорного слуги)
* в Яндекс Музыке лучшие музыкальные рекомендации (уже пятый трансформер внедряем)

Остальное:
* найм стажеров — лучшее изобретение человечества
* трансформеры не могут освоить язык дельфинов, нужна смена парадигмы
* как минимум несколько человек подходило поговорить про то, что двухбашенные трансформерные u2i модели выдают не очень разнообразные рекомендации
* люди периодически заговорщически полушепотом спрашивали "а что-нибудь с РЛ'ем делаете?"
* кажется, впервые лицом к лицу столкнулся в России с человеком, у которого тоже есть oura ring
* активно тизерил, что буду делать доклад про наши успехи в масштабировании рексистем в ближайший год

Успел во время нетворкинга осипнуть и через полчаса отсипнуть, не думал, что такое возможно =)
👍6719🔥3
Давно не писал про рабочие проекты, и вообще давно не писал. Новости в числах:

1. Мы обучили рекомендательный трансформер с миллиардом параметров в энкодере (с улучшением качества). Раньше у нас стандартные конфигурации энкодеров, которые мы повсеместно внедряли, были 3 и 18 млн параметров, и даже это по меркам рексис статей было очень много.

2. Обучили рекомендательный трансформер с длиной истории 8192 (тоже с улучшением качества). Раньше для нас стандартные длины истории в моделях были скорее 256, 512, 1536 - выше и обучить было сложно, и профита особо не видели.

3. Учимся на сотнях миллиардов событий (опять-таки с улучшением качества). Раньше обучались скорее на сотнях миллионов - десятках миллиардов.

4. Ухожу в отпуск на два месяца. На то есть причины, к сожалению. Как говорится, незаменимых людей на работе не бывает. А вот здоровье у вас одно :)

5. Уже четыре года работаю в Яндексе.

А еще еду на следующей неделе на Рексис. Для меня это, конечно, маленький праздник - постараюсь и с вами им поделиться в виде постов :)

Первые три пункта про масштабирование для меня тоже большая радость. Ждите доклад на конференции в ближайшие полгода! И статью тоже попробуем написать, возможно практика написания постов в канале поможет :)
🔥81👍1614🤯2
Завтра начинается RecSys 2024!

Будет репортаж с места событий :) Планирую посетить воркшоп VideoRecSys + LargeRecSys 2024, на котором в этом году будет выступать Саша Петров (чатик @ods_recommender_systems), а также будут доклады от Google, Meta, Pinterest, TikTok, Netflix. Будет выступать Ed Chi, герой поста про путь длиной в тысячу ли до Distinguished Scientist в Google :)

Перед конференцией бегло посмотрел proceedings, чтобы хоть чуть-чуть подготовиться.

Bridging Search and Recommendation in Generative Retrieval: Does One Task Help the Other? от Spotify
Учат обучаемые эмбеды айтемов одновременно на две задачи: предсказание следующего айтема и поиск. Утверждают, что это помогает меньше оверфититься на популярности, регуляризует эмбеддинги. Одно но: эвалы без тайм сплита, откладывают несколько последних взаимодействий пользователя в тест и валидацию =)

Co-optimize Content Generation and Consumption in a Large Scale Video Recommendation System от Google
Хотят оптимизировать не только потребление, но и генерацию контента (UGC платформа, как никак). Для этого добавляют в ранжирование новые таргеты, которые при этом очень спарсовые. Из прикольных фишек — моделируют зависимости между разными сигналами с помощью хитрой смеси экспертов, где часть экспертов работает только на второй таске.

Self-Auxiliary Distillation for Sample Efficient Learning in Google-Scale Recommenders от Google
Утверждают, что полезно учить отдельную голову модели на смесь ground truth меток и предсказаний учителя. А целевую голову, которую потом используем, учить только на ground truth.

EmbSum: Leveraging the Summarization Capabilities of Large Language Models for Content-Based Recommendations от Meta
Ощущение такое, как будто статью от Alibaba / Tencent / Huawei прочитал. Какая-то неестественная конструкция с языковыми моделями и другими трансформерами.

Enhancing Performance and Scalability of Large-Scale Recommendation Systems with Jagged Flash Attention от Meta
Пиарят Jagged Tensor из Torchrec: запилили для них кучу математических операций, включая flash attention; утверждают что сильно ускорились и снизили потребление видеопамяти.

Analyzing User Preferences and Quality Improvement on Bing’s WebPage Recommendation Experience with Large Language от Microsoft
Рассказывают про свой модуль для webpage-to-webpage рекомендаций, а также рассказывают как улучшали датасет для обучения с помощью ЛЛМок.

Improving Data Efficiency for Recommenders and LLMs от Google
Здесь интересен посыл: в Google Deepmind верят, что нужно уметь сжимать данные в небольшие качественные датасеты. Пробуют использовать для этого LLM'ку (чтобы она оценила насколько сэмпл хорош). В рамках статьи прогнали 220 предобучений и 1100 дообучений.

Toward 100TB Recommendation Models with Embedding Offloading от Meta
Эмбеды хранят в оперативке и кэшируют "горячие" в видеопамяти. Завтра пойду спрашивать "а зачем так много, есть ли профит от 100 тб эмбеддингов?", потому что в статье про профит ничего не пишут :)

A Hybrid Multi-Agent Conversational Recommender System with LLM and Search Engine in E-commerce от JD.com
Заходят как-то в бар Manager, User/Item Analyst, Reflector, Searcher, and Task Interpreter. А потом начинают подбирать пользователям товары...

Embedding Optimization for Training Large-scale Deep Learning Recommendation Systems with EMBark от NVIDIA
Очень подробная детальная статья про эмбеддинги в рекомендашках с точки зрения инфры.

Encouraging Exploration in Spotify Search through Query Recommendations от Spotify
Если раньше поиск был больше про сценарии, когда у пользователя есть точное намерение, то сейчас уже начинают задумываться об улучшении качества на срезе более расплывчатых запросов.

Bootstrapping Conditional Retrieval for User-to-Item Recommendations от Pinterest
Рассказывают как "обуславливали" двухбашенные модели для генерации кандидатов, чтобы не нужно было уже после стадии кандгена еще дополнительно фильтровать айтемы по нужному условию.
🔥337👍2
Завтра начинается RecSys 2024! Part 2.

Short-form Video Needs Long-term Interests: An Industrial Solution for Serving Large User Sequence Models от
Google
Очень похоже на статью от Меты, про которую я рассказывал в одном из ранних постов. Асинхронно считают эмбед пользователя.

Bridging the Gap: Unpacking the Hidden Challenges in Knowledge Distillation for Online Ranking Systems от Google
Еще одна статья про дистилляцию от Гугла. Из интересного: в модели предсказывают не только CTR, но и E(LTV); еще раз говорят про отдельную голову для дистилляции; утверждают что учителя лучше делать не слишком большим, а, например, в два раза больше ученика; иначе возникает слишком большой knowledge gap, из-за которого ученику сложно учиться.

Embedding Based Retrieval for Long Tail Search Queries in Ecommerce от BestBuy
Еще одна статья в копилку довольно простых, но приятных статей с описанием поискового стэка. Берты, биэнкодеры, query-to-query лосс, etc.

Sliding Window Training - Utilizing Historical Recommender Systems Data for Foundation Models от Netflix
Говорят, что плохо брать для пользователя только N последних взаимодействий для обучения, что стоит нарезать из него кучу чанков, учиться на всей истории. Но при этом чанки одного пользователя как будто распихивают по разным эпохам обучения.

Taming the One-Epoch Phenomenon in Online Recommendation System by Two-stage Contrastive ID Pre-training от Pinterest
При переходе к обучаемым айдишникам на задачах типа CTR часто появляется переобучение после первой же эпохи обучения; предлагают бороться с этим супер простой процедурой предобучения для айдишников.

Joint Modeling of Search and Recommendations Via an Unified Contextual Recommender (UniCoRn) от Netflix
Сделали для поиска, item2item и user2item рекомендаций одну модель.

Learned Ranking Function: From Short-term Behavior Predictions to Long-term User Satisfaction от Google
Для тех, кто соскучился по формулам и математике, глядя на прошлые статьи.

Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations от Google
Про нее уже писал, например, вот здесь.

Двойной пост получился, ну да ладно :)
🔥42👍1
RecSys, день первый. LargeRecSys x VideoRecSys.

В Google очень сильно верят в Generative Retrieval как универсальную парадигму для обучения рекомендательных систем (статьи Better Generalization with Semantic IDs: A Case Study in Ranking for Recommendations и Recommender Systems with Generative Retrieval). Превращаем айтемы в набор семантических айдишников с помощью RQVAE, затем с помощью трансформера учимся их генерировать. Ed Chi обмолвился, что у них это уже в проде работает; что такая штука очень хорошо дообучается даже на небольшом кол-ве примеров (тысячах). На мои вопросы "а что там с distribution shift'ом? как эту штуку инкрементально учить? как же popularity bias?" Эд сказал что никаких проблем нет, что трансформер это — просто transducer. Думайте сами =)

Был рассказ про webpage-to-webpage рекомендации (explore further) в Bing (статья Analyzing User Preferences and Quality Improvement on Bing’s WebPage Recommendation Experience with Large Language). Никаких ноу хау не заметил, звучало довольно стандартно для индустрии. Пять кандгенов (графовый, коллаборативная фильтрация, двухбашенная модель, etc), ранжирующий градиентный бустинг, нейросетевой кросс-энкодер как фича; используют для двухбашенности InfoNCE с ин-батч негативами и какими-то хард негативами; logQ-коррекции нет. Качество в оффлайне оценивают помощью LLM.

От Нетфликса было довольно поверхностное выступление без технических деталей; докладчик предложил 13 пунктов-поучений, которые я записывать не стал. На фоне прошлых докладов, в которых были пересказы уже прочитанных ранее статей, выглядело в целом посвежее. Когда будет запись — стоит посмотреть :)

Пинтерест выступил с рассказом про Pinnerformer, TransAct и свою новую статью про id-based pre-training. Пиннерформер, конечно, уже выглядит совсем маленьким — 256 событий и очень мелкий трансформер. Еще интересно насколько уменьшилась польза от PinSage эмбеддингов после добавления обучаемых эмбеддингов по айдишникам — спрошу на постер сессии.

Было выступление про HSTU (статья Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations). Я про эту статью рассказывал в посте про масштабирование. Из новой информации — явно сказали, что пытаются энкодер замасштабировать, пробуют FSDP. Сейчас энкодер у них довольно небольшой, 24 слоя размерности 1280. У нас больше :)

Дальше снова выступление от Google: Derek Cheng рассказал, что они уже внедрили DCN-V3 (надеюсь, не этот) и ведут активную разработку DCN-V4. И что активно используют unified embeddings). На мой вопрос "пробовали ли заскейлить unified эмбеддинги до размеров как у Меты?" сказал, что у них такие размеры и есть. Немного подозрительно, в статьях как будто не так.

Дальше было выступление про инфру для обучения / инференса моделей от Меты. Из интересного — есть трейдофф между размером и свежестью модели, пытаются его убрать; сделать сразу и большую, и свежую модель. Придумали некие дельта апдейты — целиком подгружают обновление dense части (энкодера) и частично обновляют sparse часть (эмбеды).

Ну и, наконец, великолепное выступление Ed Chi. Основной тезис — в будущем рекомендательные системы и языковые модели надо смерджить в одну сущность. В какой-то момент выступления достал пять каких-то стикеров с Gemini, сказал, что будет за правильные ответы на вопросы давать по стикеру. Я ответил дважды: в первый раз вручил мне стикер, во второй раз не стал, сказал, что лицо запомнил =) На фотографии можно лицезреть как я после выступления вопросы задаю :)
49🔥22👍9