Information Retriever – Telegram
Information Retriever
3.44K subscribers
254 photos
1 video
8 files
127 links
Download Telegram
Computer Architecture and Memory Systems.

Прямо сейчас проходит пятидневная летняя школа EFCL Summer School в ETH Zurich, в которой один из треков — про память и компьютеры, в том числе в контексте машинного обучения.

Ведет его научная группа Onur Mutlu, у которой есть очень крутые курсы: вводный Digitial Design and Computer Architecture и продвинутый Computer Architecture. Всё выкладывается на ютуб, включая вышеназванный трек из EFCL. Можно даже на трансляцию подключиться и что-нибудь поспрашивать.

Был довольно забавный keynote от Yale Patt (который, собственно, самого Onur Mutlu и учил когда-то), в котором в том числе промелькнул тезис, что учиться надо в стиле “bottom-up”, изучая системы с самых основ; e.g. сначала изучать как устроен компьютер, и уже потом идти учиться программировать. Был пример с гугловским TPU, где один из авторов когда-то слушал курсы про железо, и поэтому заюзал систолические массивы. Еще Yale жалуется, что сейчас машин лернеры чаще всего ничего про этот самый “bottom” не знают :)

Были и тезисы про ресерч: например, что во многих областях ресерч — это про более глубокое понимание того, что уже есть (или того, что было раньше); а у нас, в более инженерных “науках”, ценится исключительно выдумывание чего-то нового. И что пока это не изменится, будем страдать (см. проблемы в академии, со статьями и конференциями). Что инновации всегда следуют за более глубоким пониманием, и в текущих реалиях многие ресерчеры пытаются этот этап перешагнуть, делая статьи-пустышки.

Когда-то давно, в порывах восполнить пробелы в образовании после ВМК, я искал на просторах интернета хорошие лекции про комп. архитектуру; канал Onur Mutlu — лучшее, что нашел. Лекции всяких MIT выглядят гораздо хуже. Справедливости ради, целиком контент я до сих пор не посмотрел (материала там много), но периодически возвращаюсь и что-то досматриваю :)
🔥32👍51
#arxiv_weekly (03.06.24 — 07.06.24)

Решил тряхнуть стариной и сделать дайджест за неделю :) Пока что по личным причинам все еще не смогу заниматься этим регулярно, но, надеюсь, в какой-то момент получится вернуть эту практику на постоянной основе.

Item-Language Model for Conversational Recommendation
от Google Research. Тюнить LLM целиком под рекомендательную задачу страшно, так как теряются ее изначальные способности и появляются privacy concerns, а без тюнинга возникает modality gap (качество плохое). Пробуют это побороть, обучив Q-Former энкодер для айтемов, который используется вместе с зафриженной LLM.

Auto-Encoding or Auto-Regression? A Reality Check on Causality of Self-Attention-Based Sequential Recommenders от University of California (в авторах Julian McAuley). Исследуют, что лучше для sequential рекомендаций: auto-encoding (e.g. BERT4Rec) или auto-regression (e.g. SASRec). Используют leave-one-out схему эвала :(

System-2 Recommenders. Disentangling Utility and Engagement in Recommendation Systems via Temporal от FAIR (Meta). Декомпозируют эффект от рекомендаций на краткосрочный (влияние на текущую сессию) и долгосрочный (на будущие сессии). Моделируют ретеншн с помощью процесса Хоукса. Выглядит очень любопытно!

Large Language Models as Recommender Systems: A Study of Popularity Bias от Amazon Music и AWS. Подвержены ли LLM рекомендательному popularity bias'у? Придумывают свою метрику, чтобы это оценить. Делают по ней вывод, что LLM'ки от этого страдают меньше коллаборативных алгоритмов (но и качество у них так себе, судя по статье).

A Bi-metric Framework for Fast Similarity Search от MIT. Пусть у нас есть очень хорошая метрика близости для ANN, но ее тяжело считать. И есть какая-то прокси метрика, которая хуже по качеству, но проще считается. Предлагают алгоритм, который использует сильные стороны обоих метрик.

И чуть более коротко:

On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots от Microsoft (в авторах есть Tobias Schnabel). Утверждают, что LLM плохо рекомендует на "unspecified" запросах (начинает что-то выдумывать), и из-за особенностей разметки плохо умеет доуточнять интенты в рамках многошагового диалога. Пытаются это побороть.

Появился обзор A Survey of Generative Information Retrieval от National Taiwan University.

Новая модификация Decision Transformer'а от Data 61, см. Maximum-Entropy Regularized Decision Transformer with Reward Relabelling for Dynamic Recommendation.

Две статьи от Walmart: Session Context Embedding for Intent Understanding in Product Search, в которой авторы исследуют насколько полезен контекст (история пользователя) для задачи определения интента пользователя по поисковому запросу в екоме; и Large Language Models for Relevance Judgment in Product Search про то, как лучше затюнить LLM под задачу релевантности в еком поиске.

И есть некая статья от Alibaba под названием Robust Interaction-based Relevance Modeling for Online E-Commerce and LLM-based Retrieval, в которой они тоже что-то делают с релевантностью.
🔥381👍1
Scaling Law for Recommender Systems.

Я на Датафесте рассказывал про масштабирование рексистем: хотим как в NLP/CV, чтобы можно было увеличивать модельки и получать серьезные приросты по качеству рекомендаций. Пока таких эффектов не наблюдается, особенно с т.з. dense части моделей (энкодеров). Давайте посмотрим на статьи:

Scaling Law for Recommendation Models: Towards General-purpose User Representations (NAVER, 2021).
Активность пользователя в разных сервисах — это разные модальности, e.g. поиск vs еком. Учат модель на contrastive learning, затем переиспользуют векторы модальностей в downstream тасках. Демонстрируют скейлинг по размеру обучающего датасета и по длине посл-ти событий. Нет таймсплита для оценки качества (делят на train/test по юзерам).

Understanding Scaling Laws for Recommendation Models (Meta, 2022).
Показывают, что типичная для меты нейросетевая архитектура DLRM не скейлится с точки зрения размера энкодера, но скейлится по кол-ву данных для обучения. Прозвучало роковое "parameter scaling is out of steam for the model architecture under study, and until a higher-performing model architecture emerges, data scaling is the path forward", другими словами "надо искать новую архитектуру, чтобы заскейлиться".

Pivotal Role of Language Modeling in Recommender Systems: Enriching Task-specific and Task-agnostic Representation Learning (NAVER, 2022).
Одна из первых работ про LM-ки в рекомендациях: представляют историю пользователя в виде сплошного текста, e.g."tomcruise movies → missionimpossible → mi7 release date → [EOS]", учат языковую модель, тюнят ее под рекомендательный сценарий с двухбашенной моделью. Утверждают, что есть скейлинг по размеру энкодера, но опять-таки нет таймсплита (leave-one-out strategy, когда замеряем кач-во на последнем взаимодействии пользователя).

Scaling Generative Pre-training for User Ad Activity Sequences (Amazon Ads, 2023).
Учат next event prediction, формируют отдельные лоссы по предсказанию всех признаков события. Утверждают, что скейлинг для претрейн лосса по размеру энкодера есть, и что прирост на downstream тасках тоже имеется. Таймсплита нет.

Breaking the Curse of Quality Saturation with User-Centric Ranking (Meta AI, 2023).
Утверждают, что для ранжирующих моделей даже по обучающим данным нет скейлинга. Предлагают user-centric подход: представлять айтемы через обучаемые эмбеддинги пользователей. Показывают, что такой подход скейлится хотя бы по данным.

Scaling Law of Large Sequential Recommendation Models (Gaoling School of Artificial Intelligence, 2023).
Для канала эта статья была историческим моментом, когда я разразился постом на тему неправильных эвалов в рекомендашках :) Учат next item prediction, приходят к выводу что в рексисе скейлинг по энкодеру даже лучше, чем в NLP. Но опять нет тайм-сплита и leave-one-out схема.

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations (Meta AI, 2024)
Показывают, что софтмакс в трансформере вредит, а затем и остальную часть энкодера очень сильно меняют. Переходят к генеративной постановке и для ранжирования, и для ретривала. Тема скейлинга все еще на раскрыта; только промелькнул абзац "We observe this phenomenon across three orders of magnitude, up till the largest models we were able to test (8,192 sequence length, 1,024 embedding dimension, 24 layers of HSTU)".

Wukong: Towards a Scaling Law for Large-Scale Recommendation (Meta AI, 2024).
Вышла примерно в одно время с прошлой статьей, но при этом предлагает концептуально другой подход с очень кастомным способом стакинга факторизационных машин. Утверждают, что scaling law для энкодера выполняется.

Еще есть серия статей про sparse часть моделей, т.е. матрицы эмбеддингов, которые у Меты/Гугла достигают триллионных размеров (например, см 1, 2, 3).
14🔥7👍6
#arxiv_weekly (10.06.24 — 14.06.24)

В этот раз чуть более кратко чем обычно, но, надеюсь, все равно полезно. Итак, новинки за неделю:

1. Async Learned User Embeddings for Ads Delivery Optimization
от Meta Platforms: продолжают продвигать асинхронные эмбеддинги пользователей; получают эмбеддинги с помощью трансформера над гетерогенной историей пользователя. Используют для кандидатогенерации, через u2u вытаскивают кликнутую рекламу других пользователей. Как учат трансформер — не рассказывают.

2. Measuring Fairness in Large-Scale Recommendation Systems with Missing Labels от TikTok Inc: исследуют fairness метрики (utility-based, creator-side/item-side group fairness) с использованием случайного трафика.

3. Survey for Landing Generative AI in Social and E-commerce Recsys – the Industry Perspectives: обзор с говорящим за себя названием от разношерстного коллектива авторов из Linkedin, Amazon, Tiktok, Microsoft.

4. Сразу три новых статьи от Kuaishou: про Generative Flow Networks для моделирования ретеншна [1], про калиброванное ранжирование [2] и про оптимизацию времени посылки нотификаций [3].

5. Counteracting Duration Bias in Video Recommendation via Counterfactual Watch Time от Huawei: продолжают борьбу с duration bias.

6. ElasticRec: A Microservice-based Model Serving Architecture Enabling Elastic Resource Scaling for Recommendation Models от KAIST: предлагают свою микросервисную архитектуру для инференса рекомендаций. Dense (MLP) и sparse (эмбеды) части рексистемы в разных шардах, sparse шарды делятся на горячие и холодные, etc.

7. Negative Feedback for Music Personalization от SiriusXM Radio: "The training architecture is a hybrid of SASRec and BERT4Rec" — мораль думайте сами :)

8. Matryoshka Representation Learning for Recommendation от Hong Kong Baptist University: применили матрешку к рекомендациям.

Anna Karenina Strikes Again: Pre-Trained LLM Embeddings May Favor High-Performing Learners — победитель номинации "тайтл недели" :)
24👀4🔥3
Turbo ML Conf.

Буду выступать 20-го июля на конференции Turbo ML Conf с третьим, юбилейным докладом про трансформерную персонализацию.

В этот раз попробую сделать более фундаментальный рассказ: обсудим на что учить нейросеть, как формировать историю, как кодировать события. Опыт четырехлетней практики в Яндексе.

Приходите понетворкаться пообщаться :)
🔥34🐳4👍2
SIGIR 2024.

Бегло глянул опубликованный пару дней назад SIGIR 2024 Proceedings. Смотрел только пейперы от индустрии (не от университетов). Не густо:

1. Новая статья про скейлинг в рекомендашках от Mercado Libre Inc.: Scaling Sequential Recommendation Models with Transformers. Эксперименты ставят на амазоновских датасетах, и опять leave-one-out схема эвала. На картине изображена моя реакция :)

2. Была некая панельная дискуссия от eBay и Spotify про то, достаточно ли нам эмбеддингов в рекомендашках и поиске: Are Embeddings Enough? SIRIP Panel on the Future of Embeddings in Industry IR Systems. Вопрос хороший, интересно к чему пришли =)

3. Snapchat еще на SIGIR 2023 рассказали как используют графовые нейросетки для отбора кандидатов (Embedding Based Retrieval in Friend Recommendation), а здесь решили рассказать как простым советским query expansion смогли улучшить эту же технологию. На первый взгляд кажется, что переизобрели item-based коллаборативную фильтрацию. Статья Improving Embedding-Based Retrieval in Friend Recommendation with ANN Query Expansion.

4. JD.com подали сразу три шортпейпера: раз, два, три. Открыл одну из статей, увидел в абстракте "We introduce a Views User Interest Extractor Layer, Views Feature Generator Layer, Global Label Space Multi-Task Layer", закрыл.

5. Что-то от Google Research и YouTube про a/b тесты (избавление от них?) для улучшения онбординга в YouTube Music: Minimizing Live Experiments in Recommender Systems: User Simulation to Evaluate Preference Elicitation Policies. Судя по всему, учат симуляции пользователя.

6. Data Sciences, Target Corporation (крупный американский еком) применяют процесс Хоукса для предсказания повторных покупок в статье SLH-BIA: Short-Long Hawkes Process for Buy It Again Recommendations at Scale. Если мне не изменяет память, ребята из Т-банка в своей работе Time-Aware Item Weighting for the Next Basket Recommendations тоже процесс Хоукса применяли, но только для предсказания следующей корзины целиком.

7. В Visa Research экспериментируют с графовым трансформером: Masked Graph Transformer for Large-Scale Recommendation, когда мы целиком весь граф запихиваем в аттеншн. Делают этот самый аттеншн линейным; но это все заводится только на маленьких публичных датасетах, не web-scale :(

8. В Amazon рассказали как адаптировали генеративный трансформер для исправления ошибок в поиске к data drift: Striking the Right Chord: A Comprehensive Approach to Amazon Music Search Spell Correction. Используют RL?

9. Ребята из СПБГУ, ПОМИ РАН и Сберовской AI лабы в пейпере Neural Click Models for Recommender Systems адаптируют кликовые модели к рекомендациям.

Если вам понравились какие-то статьи из SIGIR 2024 Proceedings, про которые я не написал, — дайте знать про них в комментариях!

UPD:

10. What Matters in a Measure? A Perspective from Large-Scale Search Evaluation от Microsoft и Amazon - рассуждают про метрики для поиска.

11. От Kuaishou: пользователи устают от похожего контента (тык) и про моделирование переходов между поиском и рекомендациями (тык).

12. Интеграция рекламы в рекомендательную ленту от Meituan в статье Deep Automated Mechanism Design for Integrating Ad Auctionand Allocation in Feed.
🔥26👍102
Forwarded from ду́но
Мы ищем стажеров!

👩‍🌾 shorties — это персональная программа, в которой мы выращиваем таланты до полноценных Research Engineer’ов или Research Scientist’ов в зависимости от ваших интересов.

🔭 Intern Research Scientist

Вы будете заниматься написанием статей на top-tier ИИ конференции (NeurIPS, ICLR, ICML) и участием в научном дискурсе: проведение экспериментов, проверка и генерация исследовательских идей, которые направлены на развитие научного знания.


🧪 Intern Research Engineer

Вы будете заниматься созданием новых frontier-технологий и применением Reinforcement Learning в реальных задачах.


Тестовые задания и подробные описания позиций можно найти по ссылкам выше, дедлайн подачи заявки — 15 августа.

- - —
@dunnolab
20👎2
#arxiv_weekly (15.07.24 — 19.07.24)

Захожу сегодня на arxiv recent ir, вижу "DCNv3: Towards Next Generation Deep Cross Network for Click-Through Rate Prediction". Думаю "Ну, новая эпоха нейросетевого ранжирования началась...". Открываю, а там какой-то китайский Anhui University и ни слова про оригинальных авторов DCN, DCN-V2 из Google Deepmind =)

1. Вышел 66-страничный обзор рексистем от канадского Vector Institute: A Comprehensive Review of Recommender Systems: Transitioning from Theory to Practice. Foundational модели, нейросети, графы, РЛ, LLM, мультимодальность, etc

2. Очередная обзорная работа про LLM, в этот раз от Noah's Ark Lab, Huawei: All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era. Утверждают, что развитие рекомендательных LLM происходило по двум разным развилкам, но всё в итоге сошлось в одну область (см. картинку).

3. Статья про преранжирование (стадия между генерацией кандидатов и ранжированием) от Credit Karma. Многовекторные представления пользователей и айтемов, сэмплирование негативов со всех стадий рексистемы, дистилляция и хитрые ранжирующие лоссы в статье RankTower: A Synergistic Framework for Enhancing Two-Tower Pre-Ranking Model.

4. Deep Bag-of-Words Model: An Efficient and Interpretable Relevance Architecture for Chinese E-Commerce от Alibaba Group: обучаемый мешок слов. Вместо "плотного" векторного представления для айтемов/запросов, выучивают широкий эмбеддинг (размера словаря), координаты в котором транслируются на веса слов.
👍13🔥112
Turbo ML Conf.

В этот раз обсудили трансформерную персонализацию на более фундаментальном уровне. Поговорили про формирование истории, кодирование событий, а также обсудили как в модели обрабатывается кандидат, для которого считаем скор; и на какую задачу нужно учить модель.

Что обсуждали в кулуарах:
* инфраструктуру (в частности YTsaurus и насколько он хорош)
* зачем нужны аналитики в рексистемах
* как дипмайнд теперь назовет новую версию DCN'а, учитывая что DCN-v3 уже занят
* сколько в Wildberries рекомендательных команд и как они уживаются
* у кого в Т-банке больше гпушек: у ресерча или рнд
* у рексистем есть потолок качества или "насколько мы вообще можем повлиять на траекторию пользователя рекомендациями?"
* тикток, ютуб, kuaishou; онлайн-дообучение; почему ютуб рекомендует видео десятилетней давности
* Яндекс Ритм
* аплифт моделирование
* предстоящий рексис и как на него попасть
* нужна ли галочка для отключения персонализации

Презентацию прикладываю в первом комментарии к посту, запись выступления будет через пару недель. Узнаем, уложился ли я в 20 минут.

Как всегда, спасибо всем, кто подходил и говорил, что читает канал. Это очень приятно :) В этот раз спросили "где пост про РЛ", который я обещал наверно где-то полгода назад... Уверенно ответил "в бэклоге".
🔥61👍71
Forwarded from Wazowski Recommends
Не так давно я узнал, что в нашей индустрии появился новый тренд. Причем там, где, казалось бы, и так всё неплохо работает и улучшить не так-то просто.

Как мы уже не раз обсуждали, для генерации кандидатов лучше всего работают двух-башенные сети и ANN-индексы для быстрого поиска, например HNSW.

Так вот, сначала Meta, а потом LinkedIn (и по слухам — ТикТок тоже) показали, что в современном мире это можно делать лучше.

Двух-башенные сети на первой стадии всё ещё остаются. Но вот складывать в ANN-индекс не нужно. А нужно… Просто использовать GPU!

При небольшой размерности эмбеддингов, да ещё и в квантизованном виде, на одной карточке A100 можно хранить порядка 100 миллионов документов (а этого хватит, конечно же, всем... ну почти) и успевать с ними со всеми посчитать скалярное произведение за несколько десятков миллисекунд. А для хорошего throughput запросные эмбеддинги стоит собирать в батчи (матрицы), чтобы всё это можно было сделать одним матричным перемножением.

Какие у этого преимущества?

1) Полнота поиска выше. Как бы мы ни любили ANN, их полнота на практике выше 95%, но всё-таки не 100%. А тут мы считаем произведение со всеми объектами в базе.

2) Если обычно мы отбираем одну или несколько тысяч кандидатов из ANN, то здесь можно выдавать сразу 100'000. ANN с таким количеством работают уже не очень хорошо. Только вот что делать дальше с этими 100000? Мета предлагает на следующей стадии ранжировать их моделью потяжелее, mixture-of-logits, MoL (всё ещё двух-башенная, но в конце не произведение, а более сложная сеть), тоже на GPU. И уже результат этого выдавать в тяжелое ранжирование, как и раньше.

3) А ещё такой подход позволяет намного быстрее и чаще обновлять эмбеддинги документов. Их же просто нужно обновить в памяти GPU. В ANN-индексе же это сложнее, поэтому обычно так часто не обновляют.

Выглядит перспективно.
👍29🔥43🏆1
#arxiv_weekly (05.08.24 — 09.08.24)

Сводка новостей с arxiv recent ir.

1. Товарный поиск: Амазон исследует пользу от query understanding модуля в ранжировании (статья Exploring Query Understanding for Amazon Product Search), а в JD.com улучшают качество классификации интентов на тяжелом хвосте запросов с помощью графовых нейросетек A Semi-supervised Multi-channel Graph Convolutional Network for Query Classification in E-commerce.

2. LLM: в Гугле продолжают покорять рекомендашки языковыми моделями в статьях Leveraging LLM Reasoning Enhances Personalized Recommender Systems от команды Ed Chi (на амазоновских beauty и movies/tv), и PERSOMA: PERsonalized SOft ProMpt Adapter Architecture for Personalized Language Prompting от других товарищей из Google Research (на movielens). У Linkedin вышла статья про LLM и графы, Understanding and Modeling Job Marketplace with Pretrained Language Models.

3. Uncertainty modeling: любопытная статья от Shopee Discovery Ads про моделирование uncertainty для генерации кандидатов. При моделировании тяжелого хвоста айтемов имеем большую неопределенность, влияющую на построение индекса и поиск по нему. Утверждается, что при построении индекса хотим свести неопределенность к минимуму (для высокой релевантности), а при поиске в индексе хотим побольше неопределенности (для новизны). В том числе предлагают как эту uncertainty моделировать в нейросетях. Статья Deep Uncertainty-Based Explore for Index Construction and Retrieval in Recommendation System.

Еще одна статья на тему uncertainty от Alibaba Group: Modeling User Intent Beyond Trigger: Incorporating Uncertainty for Trigger-Induced Recommendation. Чуть статы: при клике на товар-клавиатуру, 46.9% в последствии купят какую-нибудь клавиатуру, 30.8% купят что-нибудь популярное, и 22.3% купят что-то комплементарное (e,g. мышку). В самой статье опять предлагают какие-то "модули": "we design an Explicit Intent Exploit Module (EIEM), Latent Intent Explore Module (LIEM), Intent Uncertainty Measurement Module (IUMM)", вчитываться я не стал :)

4. В тему последнего поста от Миши про генерацию кандидатов на GPU, в Xiaohongshu Inc опубликовали статью с говорящим названием A Real-Time Adaptive Multi-Stream GPU System for Online Approximate Nearest Neighborhood Search.

5. Misc: Huawei / Tencent выпустили обзор Embedding Compression in Recommender Systems: A Survey, а в Yahoo продолжают тюнить факторизационные машины Low Rank Field-Weighted Factorization Machines for Low Latency Item Recommendation.
👍18🔥41
Related Pins at Pinterest: The Evolution of a Real-World Recommender System.

В далеком 2013-м году два инженера из Пинтереста за три недели склепали первую версию рексистемы для рекомендаций похожих пинов: взяли Pin-Board граф, посчитали мапредьюсом совстречаемости пинов, положили результаты в kv-хранилище. Через два года под развитие этого модуля выделили отдельную команду, и к моменту, когда в 2017-м году была опубликована обсуждаемая статья, уже 40% всех показанных и сохраненных пинов атрибуцировалось рекомендациям похожих пинов.

Что было сделано:

1. Перешли на случайные блуждания (Pixie) вместо мапредьюсного подсчета совстречаемостей. Вдохновлялись наработкой Твиттера аж 2013-го года, WTF: The Who to Follow Service at Twitter. Как минимум забустили качество для более редких, "тяжелохвостовых" пинов, у которых не набиралось достаточное количество соседей в своих бордах.

2. Добавили ранжирование:
* вырастили клики и сохранения пинов на 30% с помощью линейной модели над девятью фичами, использующей только характеристики query/candidate пинов (эмбеды текстов, картинки, категории, etc)
* добавили персонализацию: историю пользователя, соцдем, etc
* перешли на градиентный бустинг: это позволило упростить препроцессинг фичей (нормализацию, бакетизацию, etc), а также дало возможность добавлять query-level фичи
* пересели на pointwise (!) лосс вместо pairwise
* spoiler: позже они перейдут на ранжирующую нейросеть, о чем я рассказывал в посте про эволюцию ранжирования в Pinterest

3. Увеличили полноту/разнообразие кандидатогенерации, добавив больше источников кандидатов:
* Pin2Vec: word2vec над сессиями пользователей, эмбеды пинов из которого используются в ANNS
* поисковые кандидаты: ходят с текстовыми аннотациями query-пина в свой текстовый поиск, и с картинкой в визуальный; помогло с холодным стартом
* "срезовые" кандидатогенераторы: выделили отдельные кандидатогенераторы для более специфичных срезов пинов (e.g. свежие, региональные пины)

4. Про проблемы:
* фидбек луп: не получалось побить продовую ранжирующую модель, обучаясь на её же фидбеке; выделили для обучения 1% трафика, в котором отобранные кандидаты ранжировались случайно. Получили более хорошие модели, чем на исходном большом трафике
* меморизующие счетчики: была еще такая штука как MemBoost, которая изначально использовалась как прибавка к скору Pin-Board совстречаемости; по сути, это взвешенная сумма счетчиков вида "сколько раз при показе данного кандидата по этому запросу пользователи его сохраняли/кликали/etc". После введения ранжирующей модели стали использовать их в качестве фичей. Заметили, что из-за них сложно проводить АБ — эффекты от оцениваемых изменений прорастают через них в другие сплиты, и обратный эксп тоже нормально не поставишь; но ничего с этим не сделали
* столкнулись с тем, что любое изменение в рексистеме инвалидирует оптимальность всех ее компонентов, и всякие захардкоженные гиперпараметры/константы нужно переподбирать; полечили это автоматизацией — при каждом изменении стараются как можно больше всего автоматически перетюнить

5. Еще чуть про инфру:
* было сложно итерироваться, когда весь стек, включая ранжирование, был оффлайновый; каждое изменение ранжирования/кандгена требовало полный переобход всей базы; покрытие запросов тоже было не очень; в итоге перевели ранжирование и большую часть кандидатогенераторов в онлайн
* передавать по сети туда-сюда сырые данные пинов, чтобы посчитать фичи — затратно, система будет упираться в сеть; поэтому делают шардирование исходной базы кандидатов; на каждом шарде хранятся все сырые данные про пины и сразу считаются все нужные скоры / фичи

Это была краткая историческая сводка из 2017-го года. Что произошло за следующие семь лет? To be continued :)
🔥482👍2
Если увидите такую комбинацию наклеек на PML Conf — подходите пообщаться :)
🔥38
Practical ML Conf 2024.

Ну что, как всегда — очерки из кулуаров после конференции :)

Про компании:
* яндексоиды из ex-Дзена обустраивают под себя VK: ввели яндексовые перформанс ревью
* в Wildberries подводят итоги первого полугодия после массивного рексис найма
* в Авито активно улучшают рекомендации, судя по кол-ву участников конференции и по кол-ву вопросов про трансформеры и u2i двухбашенные модельки
* в Сбере тоже активно работают над трансформерами, в частности над использованием контентных представлений для айтемов
* еще про Wb: после выхода на работу доступы получать как минимум неделю, а еще на старте могут дать задачку про категоризацию товаров :)
* в Детском Мире нет ресурсов :(
* Яндекс Маркет активно занимается нейросетями: внедрили несколько трансформеров, и нейросетевое ранжирование пробуют (обошлось не без вашего покорного слуги)
* в Яндекс Музыке лучшие музыкальные рекомендации (уже пятый трансформер внедряем)

Остальное:
* найм стажеров — лучшее изобретение человечества
* трансформеры не могут освоить язык дельфинов, нужна смена парадигмы
* как минимум несколько человек подходило поговорить про то, что двухбашенные трансформерные u2i модели выдают не очень разнообразные рекомендации
* люди периодически заговорщически полушепотом спрашивали "а что-нибудь с РЛ'ем делаете?"
* кажется, впервые лицом к лицу столкнулся в России с человеком, у которого тоже есть oura ring
* активно тизерил, что буду делать доклад про наши успехи в масштабировании рексистем в ближайший год

Успел во время нетворкинга осипнуть и через полчаса отсипнуть, не думал, что такое возможно =)
👍6719🔥3