Forwarded from p13n
Чтобы улучшить рекомендации аудиокниг, Spotify использует новую комбинацию гетерогенных графовых нейронных сетей (HGNN) и двухбашенной модели (2Т).
Графовая нейронная сеть. HGNN работает на основе устоявшейся парадигмы передачи сообщений: начальные представления для каждого узла "передаются" через агрегатные функции соседним узлам, а затем градиентное обучение обновляет каждое представление в соответствии с "сообщениями", переданными его соседями. Это повторяется в течение нескольких эпох для получения окончательных представлений аудиокниг/подкастов, как показано на рис. 2A.
Двухбашенная модель. Представления HGNN затем поступают в модель 2T, которая учитывает дополнительные сигналы пользователей, такие как демографические данные. Этот компонент также учитывает музыкальные предпочтения пользователей. В целом 2T-модель связывает векторы пользователя и аудиокниги, поэтому их можно сравнивать в одном и том же математическом пространстве. Мы также используем слабые сигналы, такие как предварительный просмотр или следование за аудиокнигой.
Сочетание HGNN с легкой 2T-моделью также обеспечивает масштабируемость, поскольку это означает, что можно реализовать пользовательскую сторону моделирования вне HGNN. Поэтому HGNN обучается на графе совместного прослушивания (рис. 1B), а не на графе пользовательских потоков (рис. 1A), содержащем огромное количество индивидуальных взаимодействий пользователя с контентом.
После успешного тестирования новой модели на офлайн-данных был проведен A/B-тест с участием миллионов пользователей. В результате онлайн-тестирования количество слушаний аудиокниг увеличилась на 23%. Примечательно, что был 46-процентный всплеск числа людей, начинающих прослушивание новых аудиокниг.
https://research.atspotify.com/2024/05/personalizing-audiobooks-and-podcasts-with-graph-based-models/
Графовая нейронная сеть. HGNN работает на основе устоявшейся парадигмы передачи сообщений: начальные представления для каждого узла "передаются" через агрегатные функции соседним узлам, а затем градиентное обучение обновляет каждое представление в соответствии с "сообщениями", переданными его соседями. Это повторяется в течение нескольких эпох для получения окончательных представлений аудиокниг/подкастов, как показано на рис. 2A.
Двухбашенная модель. Представления HGNN затем поступают в модель 2T, которая учитывает дополнительные сигналы пользователей, такие как демографические данные. Этот компонент также учитывает музыкальные предпочтения пользователей. В целом 2T-модель связывает векторы пользователя и аудиокниги, поэтому их можно сравнивать в одном и том же математическом пространстве. Мы также используем слабые сигналы, такие как предварительный просмотр или следование за аудиокнигой.
Сочетание HGNN с легкой 2T-моделью также обеспечивает масштабируемость, поскольку это означает, что можно реализовать пользовательскую сторону моделирования вне HGNN. Поэтому HGNN обучается на графе совместного прослушивания (рис. 1B), а не на графе пользовательских потоков (рис. 1A), содержащем огромное количество индивидуальных взаимодействий пользователя с контентом.
После успешного тестирования новой модели на офлайн-данных был проведен A/B-тест с участием миллионов пользователей. В результате онлайн-тестирования количество слушаний аудиокниг увеличилась на 23%. Примечательно, что был 46-процентный всплеск числа людей, начинающих прослушивание новых аудиокниг.
https://research.atspotify.com/2024/05/personalizing-audiobooks-and-podcasts-with-graph-based-models/
Процесс экспериментов и способ принятия решений в Спотике
https://engineering.atspotify.com/2024/03/risk-aware-product-decisions-in-a-b-tests-with-multiple-metrics/
https://engineering.atspotify.com/2024/03/risk-aware-product-decisions-in-a-b-tests-with-multiple-metrics/
Spotify Engineering
Risk-Aware Product Decisions in A/B Tests with Multiple Metrics
Risk-Aware Product Decisions in A/B Tests with Multiple Metrics - Spotify Engineering
https://engineering.atspotify.com/2024/05/fixed-power-designs-its-not-if-you-peek-its-what-you-peek-at/
Некий новый способ дизайна экспериментов
Некий новый способ дизайна экспериментов
Spotify Engineering
Fixed-Power Designs: It’s Not IF You Peek, It’s WHAT You Peek at
Fixed-Power Designs: It’s Not IF You Peek, It’s WHAT You Peek at - Spotify Engineering
Google Illuminate
Экспериментальный сервис Google превращает научные публикации во что-то вроде подкастов, где эта тема раскрывается в дискуссии.
Экспериментальный сервис Google превращает научные публикации во что-то вроде подкастов, где эта тема раскрывается в дискуссии.
TL;DR – Spotify повышает CTR по рекомендованным блокам, когда объясняет при помощи LLM почему он показывается
https://research.atspotify.com/2024/12/contextualized-recommendations-through-personalized-narratives-using-llms/
https://research.atspotify.com/2024/12/contextualized-recommendations-through-personalized-narratives-using-llms/
Что такое "хорошо используемый ИИ"? Зависит от задачи.
Концепт от одного информационного архитектора https://jarango.com/2024/10/01/exploring-the-ai-solution-space/
Концепт от одного информационного архитектора https://jarango.com/2024/10/01/exploring-the-ai-solution-space/
Еще один материал про купед. На этот раз от мордокниги и с примером кода
https://medium.com/@AnalyticsAtMeta/how-meta-scaled-regression-adjustment-to-improve-power-across-hundreds-of-thousands-of-experiments-624e08aaf560
https://medium.com/@AnalyticsAtMeta/how-meta-scaled-regression-adjustment-to-improve-power-across-hundreds-of-thousands-of-experiments-624e08aaf560
Medium
How Meta scaled regression adjustment to improve power across hundreds of thousands of experiments…
Author: John Meakin, Saurabh Sangwan
Training Data Attribution (TDA) - метод, который помогает понять какие примеры из обучающий выборки сильнее влияют на знание модели
https://medium.com/people-ai-research/scaling-training-data-attribution-f7d1eddd85da
https://medium.com/people-ai-research/scaling-training-data-attribution-f7d1eddd85da
Medium
Scaling Training Data Attribution
The science of how training data influences LLM behavior
Интересный подход: логировать полезность фичей в моделях в общем хранилище, чтобы потом ускорять подбор для новых моделей