ML for Value / Ваня Максимов – Telegram
ML for Value / Ваня Максимов
5.59K subscribers
191 photos
1 video
1 file
119 links
Путь от ML-модели до Value для компании | RecSys, Search, LLM, Pricing и CLTV

Ваня Максимов, @Ivan_maksimov
Head of AI | Recsys, search, llm @Y.Market, ex-WB, ex-Delivery Club

Консультирую компании, Веду курсы
Публикую релевантную рекламу
Download Telegram
➡️ Навигация по каналу

На связи Ваня Максимов @Ivan_maksimov - ML team lead в Яндекс.Лавке, 7+ лет в DS

Забустить канал, чтобы я публиковал больше сторис, можно по ссылке 😄

Пишу алгоритмы, чтобы ваш любимый миндальный круассан всегда был в наличии и по хорошей цене 😇
Если чуть серьезнее, то делаю автозаказ товаров и ценообразование в Лавке

А еще увлекаюсь Recsys и А/В. Построил с нуля перс рекомендации и АВ платформу в Delivery Club

На канале пишу о том, как преодолеть путь от ML модели до реального Value для бизнеса. И какие грабли я собрал на этом пути


👍 Самые залайканные / обсуждаемые посты

- Серия про оптимизацию цен на товары
- Что тебя ждет при переходе team lead —> head of ML
- 13 способов ускорить АВ тест или “не CUPED-ом единым”
- Лучше модель с ROC AUC 50% или 85%? Все не так очевидно
- Серия постов о метриках регрессии: от RMSE до WAPE и SMAPE
- Отсортируй товары “по популярности” - делов на 30 минут! Стой, а почему 3 спринта?
- Какая трансформация фичи влияет на перформанс CatBoost? Спойлер: log(x) - влияет!


Популярные хэштеги
#ab, #metrics, #recsys, #timeseries, #pricing


💡Написать мне: @Ivan_maksimov
Например, вы можете обсудить свой DS-кейс, позвать рассказать что-то интересное на конференции или в вашей компании, записаться на консультацию по data science
👍39🔥24🤯43🗿3
Топ-5 граблей Юнит Экономики
…и при чем тут воронка конверсий

Юзер за время пользования приложением должен приносить больше денег (LTV - LifeTime Value), чем потратили на его привлечение (CAC - Customer Acquisition Cost)
UE = LTV - CAC > 0

Если так, то мы часть избыточно заработанных денег (UE > 0) тратим на привлечение новых пользователей —> Они тоже приносят UE > 0 —> повторяем этот цикл и получаем стабильный рост компании


Ну а дальше начинаем детализировать нашу формулу
UE = ARPU * LifeTime - CAC

➡️ UE = (ARPPU * Conversion) * Lifetime - CAC

ARPU - Average Revenue Per User за какой-то период. Обычно 1 или 3 мес
ARPPU - Average Revenue Per _Paying_ User за какой-то период. Обычно 1 или 3 мес
Conversion - конверсия из захода в приложение в первую покупку
LifeTime - среднее время жизни пользователя в мес
CAC - Customer Acquisition Cost

Вокруг улучшения этих 4 составляющих крутится вся продуктовая работа и куча мифов. Развеять которые поможет иногда не такая уж простая аналитика (интегралы для кривой ретеншена, ML-модели LTV и оттока и тп)

Ну хоть с первой составляющей, Conversion, уже все понятно по прошлому посту …или нет?🙃
👍33🔥8🗿2💘1
Иконостас и доставка еды

Пару лет назад мы тестили фичу с маленьким виджетом топ-3 популярных фастфудов (он же иконостас). Занимает в ~9 раз меньше длины экрана 😱

Идея была в том, что эти топ-3 фастфуда и так у всех в топе ленты рекомендаций - давайте сделаем так, чтобы они все ещё были в топе, но занимали меньше места. Тогда юзеры чаще видят новые для них рестораны - рост discovery сценария

(!) А ещё она блочила развитие перс рекомендаций, т к юзеры просто не долистывали до них


➡️ UE = ARPPU * Conversion * Lifetime - CAC

Базово хотели не уронить конверсию в покупку (составляющая ARPPU), и освободилось место на главной странице под перс рекомендации

Но в последний момент добавили барьерную метрику: не уронить конверсию новичка (Conversion)


Дизайн сделали, разработали фичу, запустили А/В и..

Конверсия в покупку не меняется, а конверсия новичка драматически падает. Без барьерной метрики на конверсию новичка мы бы выкатили фичу

Оказалось, забыли добавить на иконку ресторана плашку с конкретной скидкой новичку (-20%, бесплатная доставка), которая была в основой ленте 😣

➡️ Не забывайте, что конверсии бывают как минимум 2ух типов:

Посессионная конверсия в заказ (float, часть ARPPU) = кол-во заказов / кол-во сессий

Конверсия новичка (0/1) = был ли заказ в течений N недель после первого App-start пользователя

И меняться они могут в разные стороны
🔥55👍203🙏3😁1
Курсы по АВ

Я думал в этом году перезапустить свой курс по АВ в формате симулятора. Уже даже сделал 1/5 уроков

Но тут обнаружил, что сразу 2 очень мощных ребят запустили свои курсы-симуляторы по А/В

- Симулятор АВ от Karpov.courses. Есть пакет для продуктов (в Google sheet) и аналитиков (python)
- Симулятор АВ от ProductDo, заточенный именно под продактов

Не реклама: за каналами слежу уже давно, некоторые курсы от ребят сам проходил 👍

Кажется, не имеет смысла жестко конкурировать именно в А/В - я подумаю про другие ниши

Кстати, на какую тему вы бы хотели увидеть курс-симулятор от меня? Напишите в комментарии ⬇️
👍16🔥5
Затравочка про цены

Большиство людей в комментариях писали, что хотят курс про оптимизацию цен и промо. Что ж, давайте начнем с небольших куллстори, а дальше как пойдет 😉

Еще лет 6 назад я пробовал оптимизировать цены в одной сети магазинов. Юный и доверчивый, я конечно же прикрутил сюда нейронки, чтобы найти связь спроса и цен… и это был фейл 😅

- Рост цен на некоторые товары х3 (может, это и неплохо иногда, но пугает людей)
- Околонулевые цены на некоторые позиции
- По “важным” позициям цены дороже, чем у конкурентов
- и много других интересностей

Я выучил этот урок и еще через несколько граблей начал делать совсем другие решения. Нет, про нейронки забывать не надо - да и как, если ChatGPT и StableDiffusion гремят уже который месяц? Но в моих кейсах почти всегда хорошо заходил бленд классических методов (if-else / эвристики / простые линейные регрессии) и мощные алгоритмы поверх них

Как пример, вместо прайсинга каждого товара или персональных цен очень хорошо работает гео-прайсинг.

Цена = базовая цена * гео-коэффициент

В качестве базовой цены обычно берут тащательно отобранную эвристику: условно среднюю цену конкурента, цена закупки + х%, текущую цену или что-то еще. Главное, чтобы ее уже можно было и без коэффициентов запкускать в продакшен - и получать приемлемые результаты

А вот гео-коэффициент можно оценивать уже довольно сложными методами с ML, нейронками, бандитами и всем, что мы любим.
Так, например, работает самый известный прайсинг - сурдж в такси и доставке еды. И надо сказать, весьма успешно

➡️ Современный прайсинг = блендинг классики и крутых ML-методов

Перед тем, как заводить нейронку, хорошо подумай про базовые цены - это 70% успеха ⚡️
🔥27👍8
Гуси и цены на такси
Wild goose chase paradox

Продолжаем тему коэффициентов к базовой цене. Вы не задумывались, почему в дождь цены на такси просто космические?

Всему виной surge pricing, который предсказывает тот самый коэффициент к базовой цене. Обычно, в surge pricing таргетируют целевой уровень сервиса. Скажем, время подачи машины не более 5 минут в среднем

Что происходит в дождь? ☔️

Время подачи машины ~ желающие уехать / (кол-во машин * среднее время в пути)

А в дождь просходит настоящая катастрофа

1. Число желающих уехать резко растёт

2. Сильно снижается эффективность 1 машины = время в пути растет

Это происходит из-за пробок и снижения плотности свободных такси на км^2

Иногда это приводит к тому, что время ожидания такси критически растет - люди начинают отменять поездки

И вот таксист долго едет к первому клиенту - заказ отменен. Ему назначают второй далёкий заказ (далёкий, тк он условно единственный свободный таксист на все Химки), он опять долго едет - заказ отменен. И так по кругу

В итоге, таксист ездит к клиентам, но не успевает - заказы отменяются. Это похоже на погоню за "дикими гусями" (wild goose chase). Они улетают до того, как их схватят 🦆

Открыла парадокс компания Uber, почитать подробнее можно тут

Единственное решение - очень сильно поднять цену поездки, чтобы спрос на них опять же очень сильно упал. Так что такси не наживается на клиентах в дождь, а скорее пытается поймать гусей сохранить приемлемый сервис
👍39🔥19💩3🤔1
Х^2 или log(Х) для CatBoost?

Многие говорят, что нет смысла трансформировать отдельно взятую фичу Х для градиентного бустинга (того же CatBoost). Но, как всегда, не все так просто:) Какие трансформации фичи Х теоретически влияют на перформанс CatBoost?
Anonymous Poll
47%
log(x)
42%
(x - mean(x))^2
47%
round(x, some_step)
💩8👍7🔥4👎3🤔1
Ответ про фичи для CatBoost

Опрос про трансформацию фичей для CatBoost собрал максимум комментариев за историю канала (сейчас их 35!)
И еще мне немало накидали на вентилятор в реакциях)) Так что тема выглядит актуальной - разбираемся в ней 💪


(x - mean(x))^2
Влияет на перформанс CatBoost

Был отличный пример в комментариях для x = (-4;4), mean(x) = 0, —> (x - mean(x))^2 = (4; 4)
раньше -4 и 4 можно было разделить CatBoost-ом, а после трансформации - нельзя

Зачем тогда так делать?
- Иногда полезно считать “нестандартность” наблюдения. Например, нам может быть важно, отличается ли условно время в пути от среднего
- Еще это супер фича для эмбеддингов - можно считать, насколько эмбеддинг пользователя отличается от среднего эмбеддинга (почти как cos-инусная близость)


round(x, some step)
Влияет на перформанс CatBoost

При округлении вы снижаете число возможных разбиений датасета деревом
- Очень полезная история для робастности прогноза на высоко-дисперсных фичах (средний чек, кол-во кликов и тп)
- Для борьбы с переобучением на выбросах
- Для экономии памяти и ускорения вычислений. Вообще бывает полезно округлять float64 фичи до int8 / int16. С помощью этого и еще пары трюков (я как-нибудь напишу об этом пост) я умдрялся переводить расчеты со Spark на python с ускорением в 10 раз 🚀
Кек, но правда - вам не всегда нужен spark:)


log(x)
Вообще-то говоря, может влиять!

На собеседовании от вас скорее всего ждут ответа “Нет, не влияет. Дерево перебирает все возможные пороги разбиения. И нет разницы, выбрать порог x > A или log(x) > log(A)”

Но в реальности может влиять из-за 2ух факторов:
1/ Дерево перебирает не все пороги разбиения 🙃
За кол-во порогов отвечает параметр max_bin, который по дефолту в катбусте на CPU = 254. И кстати, он прилично аффектит на скорость обучения вашей модели

2/ Пороги разбиения (квантизация фичей) выбираются по дефолту не по квантилям распределения (робастно к монотонным трансформациям вроде логарифма), а иначе. В catboost по дефолту - GreedyLogSum. Поэтому логарифмирование Х при некоторых способах разбиения может влиять на выбор порогов —> влияет на перформанс
👍37🔥24🌭3🤔21
Серый АВ - что делать дальше?

Недавно АВ важной для меня фичи покрасился в серый = нет стат значимых улучшений и ухудшений. Эмоционально я прям расстроился. Если у вас тоже такое бывает, то помните о 4 важных вещах:

1. Проверьте ваш MDE и процедуру тестирования
Убедитесь, что нет багов, и вы можете детектить достаточно маленькие эффекты (MDE - minimum detectable effect). Часто разумный эффект на крупной метрике задетектить статистически невозможно - переходите к прокси. Например, от общей конверсии к конверсии определенного шага воронки

2. Около 70% АВ тестов серые, и это нормально
В тестах мы проверяем гипотезы. И какими бы гениальными вы ни были, 2 из 3 ваших невероятных идей ничего не принесут в бизнес-метриках - это неприятно, но факт. Поэтому лучше учиться быстро проверять много гипотез, а не делать ставку на одну крупную

3. Серый АВ дает знание о том, чего делать дальше НЕ нужно
Знать, что точно не работает - прекрасно. Поэтому обычно из пула гипотез (про персональные рекомендации, способы оплаты и тп) тестируют самую сильную. И если она не работает - возможно, вам нужно копать в другую сторону

4. А что еще хорошего приносит ваша фича?
Может быть, технической стабильности - теперь не нужно дежурить по ночам? Или лучше RPS? Или прозрачность для бизнеса? В денежных метриках это не измерить, но такие вещи тоже очень важны


В общем, если ваш АВ вдруг стал серым, вспомните про эти 4 пункта,
выдохните, и продолжайте тестировать новые гипотезы 😉
👍307🌚3🤔1
Bias-variance tradeoff: Спрашивают на каждом собесе, применяют в реальности единицы

Без технических подробностей и некоторых допущений, ошибка модели раскладывается так:

Ошибка = Bias^2 + Variance + sigma^2

Bias - как точно мы попадаем в среднем в истину

Variance - Как сильно колеблется наша предсказания функция относительно истинной

Sigma^2 - Неснижаемая дисперсия данных

И мы можем за счёт регуляризации снижать Variance за счёт роста Bias, и наоборот. Прекрасная теоретическая выкладка, но что с этим в реальности-то делать? 🤔

Давайте сначала посмотрим на простом примере, какая тут ситуация с Bias и Variance


UPD: Ценителям очень точных определений лучше посмотреть на них по ссылке в посте:) Текстом я писал определения с некоторыми допущениями для более широкой аудитории
👍61🔥1
Я недавно стрелял из лука, поэтому вопрос (а после будут выводы) по этой мишени
👍3👎1
Bias-variance tradeoff p.2

Bias, по моему опыту, важен в двух кейсах: Causal inference и Предсказание условного мат ожидания конкретного распределения

Часто мы предсказываем, например, кол-во продаж. В теории, оно имеет распределение Пуассона. И имея несмещенное предсказание среднего (Bias ~ 0), можно легко получать все квантили распределения по формуле

В простейшем случае Causal inference через линейную регрессию важно иметь Bias ~ 0, чтобы были несмещенные коэффициенты. Кстати, поэтому в случае causal inference не стоит использовать регуляризацию в линейной регрессии (она смещает коэффициенты к 0)
👍13👏21
А/В тесты - это линейная регрессия

Кажется, я тоже немало продвигал такую идею. И вот, Филипп (мы вместе учились, но он был на +1 курс) сделал очень годные лекции с доказательствами, что обычный T-test, CUPED, CUPAC и многое другое - частные случаи линейной регрессии 😱

Мой рекомендасьон к прочтению)
👍93🤡1
Forwarded from Записки Ппилифа (Ppilif [GMT+4])
Линейная регрессия — это всё про АБ-тесты. Правда мало кто об этом рассказывает. Я уже как-то раз писал об этом. Теперь я пошёл дальше и собрал свою лекцию про то, как можно смотреть на оффлайн-АБ тестирование через тестирование гипотез для регрессии.

Там про то, что DnD, CUPED, CUPAC и многие другие современные техники АБ-тестирования это просто ребрендинг регрессии. В целом, стратификацию можно отнести сюда же.

- оригинальная статья про CUPED от 2013 года
- более формально про то, что CUPED это линрег с ограничениями на ковариационную матрицу можно посмотреть тут
👍8
По мотивам вот этого поста
TL;DR для контекста:

Вы с командой смотрите на первые цифры эксперимента новой сложной темы (например, впервые работали с ML моделью). Запуск прошёл тяжело, было много нового для вас и команды, прошли немало сложностей.

Один из ваших разработчиков говорит:
"Ну и каких ещё результатов вы ожидали, если так на коленке всё делать?"


Автор предлагает очень разумное решение: объяснить разработчику, что задача и была попробовать затащить новую штуку, чтобы получить больше знаний. Совершенно нормально, что вы сделали это быстро и не получили супер крутого результата. Вы получили знания, которые помогут понять, как дорабатывать решение дальше.

Круто, но мы с вами на канале ml4value интересуемся не софт скиллами в первую очередь!
👍3
В чем value неудачного ML-эксперимента?


1. Возможно ваша оффлайн ML-метрика/таргет не коррелирует с бизнесовой метрикой

Нужно найти новую оффлайн метрику/таргет

Из классики: учили модель рекомендаций на предсказание кликов - получили кликбейт в топе. Меняете на клики + добавление в корзину, например


2. Эффект от простого MVP не превышает стат погрешности (ниже MDE)

Тут стоит подумать, превысит ли ее эффект от SOTA. Обычно простейшие решения дают 80% эффекта


3. Вы круто решаете ML-задачу, но не боль конечного пользователя

Из не-млного, но бесящего постоянно 😇: Фильтр по рейтингу на любых картах

Пользователь хочет найти "хороший, проверенный ресторан". Ставит фильтр "рейтинг > 4.5". Получает кучу ресторанов с рейтингом 5.0 и 1 отзывом (вероятно, фродовый от самого владельца). Ну вот зачем так делать?

Если цель сделать фильтр "хорошие места", то хорошо бы фильтровать по рейтинг > Х и кол-во отзывов > Y

Если вы дочитали до сюда и хотите чего-то ML-ного, то для задачи удержания клиентов лучше предсказывать не по вероятности оттока > Х, а добавить ещё условие и остаточный пусть 3-месячный LTV после удержания > Y
👍31🔥85🥱2
Я очень скурпулезно отношусь к тому, что пишу на канале, поэтому реклама тут бывает очень редко

Сам проходил первый запуск HardML, когда мы уже построили свою платформу АВ и рекомендаций в Delivery Club - и все равно модули по АВ и ранжированию были довольно полезными. Поэтому смело рекомендую)

Ну а 5 июня стартует новый поток HardML, скидка для подписчиков 5% по промокоду ML4VALUE27 ⬇️
9👎7👍3🤡2