AB тесты и все вот про это вот все – Telegram
AB тесты и все вот про это вот все
1.88K subscribers
23 photos
1 video
4 files
249 links
Полезная информация об A/B тестировании. По любым вопросам можно писать - @ealexandr
Download Telegram
​​Tripadvisor и модификация CUPED


Мы уже писали выше, что многие компании всячески пытаются найти новые способы увеличения чувствительности метрик за счет оптимизации дисперсии.

Это нужно для увеличения скорости принятия решений по результатам a/b тестов.
В статье Tripadvisor подробно рассказывает про то, какие методы они используют у себя. Отдельно хочется обратить внимание на то, какую модификацию CUPED они предлагают.
Вместо ковариации используется коэффициент детерминации.

Их цитата про модификацию
"A nice benefit of using CUPED is that the resulting R-squared from the centered regression can be interpreted as the percentage variance reduction achieved compared to the normal method (Deng et. al, 2013). In other words, the more accurately we are able to predict the outcome metric using pre-experiment data, the greater the variance reduction. It is also a convenient way to calculate the variance on the estimator."

Это действительно будет работать, если вы хорошо подобрали переменные (потрали значительное время на исследование). В противном случае, результат не оправдает ожиданий.

https://www.tripadvisor.com/engineering/reducing-a-b-test-measurement-variance-by-30/

Про базовую реализацию CUPED можно прочитать в нашей статье
Коррекция дисперсии при bootstrap

При работе с bootstrap часто возникает необходимость работать с bias/varience reduction.

Почему это важно?

Большинство аналитиков используют непараметрическую модификацию bootstrap'а, т.е. не берут в рассчет статистику популяции. Непараметрика может давать достаточно большой bias, а коррекция bias приводить к увеличению дисперсии. Проблемы известны, но вот решения очевидны не всегда.
Прекрасный материал на данную тему от Japan Institute of Statistical Mathematics
https://www.ism.ac.jp/editsec/aism/pdf/062_1_0209.pdf

EXPF 15 апреля в 20-00 проводит бесплатную онлайн лекцию про Bootstrap
Если вы используете bootstrap/планируете использовать/не знаете что можно использовать и хотите узнать больше про особенности, ограничения и возможности – лекция будет вам очень полезна
Про что поговорим на лекции
- Какие есть ограничения использования bootstrap
- Чем параметрический bootstrap отличается от непараметрического
- Почему boot распределение нельзя «скармливать» статистическому критерию
- Как сделать так, чтобы bootstrap был не таким прожорливым
https://price-discovery.timepad.ru/event/1293731/
Team-draft interleaving

Концепция Team-draft interleaving тестов звучит достаточно просто.

Представьте, что вы хотите проверить новый алгоритм ранжирования товаров в каталоге интернет-магазина.
Вместо того, что сравнивать два разных алгоримта на разныых ветках эксперимента - вы покажите пользователю сразу два алгоритма одновременно. Например, каждый второй товар - один алгоритм,каждый третий товар - другой алгоритм. Такой подход к эксперименту позволит невелировать ряд продуктовых факторов, которые будут влияться на его исход.

К этой методологии часто прибегую поисковые системы, чтобы лучше и быстрее оценивать качества новых поисковых алгоритмов.
На что важно обратить внимание
1) Ваши выбрки не независимы - пользователь находится сразу в двух ветках эксперимента. В этом случае дисперсия случайной величины будет считаться не как на независимых выборках и это будет сказываться на методах оценки эксперимента
2) Важно учитывать расположение выдаваемого алгоритмом результата - приоритет выдачи может сильно сказываться на исходах эксперимента

Чтобы лучше разобраться в этой методологии мы предлагаем почитать/посмотреть несколько материалов

1) Как к TDI подходит Netflix - статья без технических и математических нюансов
https://netflixtechblog.com/interleaving-in-online-experiments-at-netflix-a04ee392ec55

2) Paper с описанием статистической части метода от MS, Yahoo и Cornell University
https://www.cs.cornell.edu/people/tj/publications/chapelle_etal_12a.pdf

3) Очень доступный доклад от Романа Поборчего на AIC Analytics Day
https://www.youtube.com/watch?v=voY7waRb_D0
Оценка качества систем сплитования

Если составить рейтинг того, про что забывают при проверке гипотез или разработке новых метрик - то A/A тесты войдут в топ 3.
A/A тесты требуются не только для проверки качества систем сплитования, но и для выбора метрик.
Не каждая метрика подходит для экспериментов в силу своих описательных особенностей.

Очень доступная статья про то, как проверить качество своей системы a/b тестов - https://habr.com/ru/company/hh/blog/321386/
Forwarded from Datalytics
A/B тестирование — это неотъемлемая часть работы над продуктом. С его помощью можно проверить гипотезу о том, поменяется ли выбранная продуктовая метрика, если изменить что-то в продукте, — например, увеличится ли количество пользователей, если изменить дизайн страницы регистрации. Для этого сравниваются результаты в тестовой и контрольной группах пользователей: первой выборке показывают новое решение, а у контрольной группы продукт остаётся неизменным.

При этом важно проверить, будет ли изменение статистически значимым: подтвердить, что наблюдаемая разница у тестовой и контрольных групп действительно связана с нововведениями в продукте, а не является случайностью. Для этого можно применять традиционный (частотный) или байесовский подход к A/B тестированию. У обоих методов есть свои сторонники и противники, но байесовский подход позволяет проще визуализировать данные и интерпретировать результат эксперимента. Академия Яндекса перевела статью из блога Towards Data Science о том, как провести байесовское A/B тестирование и разобраться в его работе.

https://academy.yandex.ru/posts/prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Эксперимент

Завтра в 14:00 по Московскому времени мы предлагаем всем вместе посмотреть лекцию Анатолия Карпова, с которой он выступал на Матемаркетинге-2019.

Анатолий рассказывает какие подводные камни ожидают аналитиков при проведении экспериментов и как научиться их избегать. Вы глубже поймете статистику и разберетесь в том, каких ошибок можно избежать при проведении A/B тестов.

Добавьте напоминание себе в календарь

По окончании трансляции в закрытом чате появится ссылка на Zoom-конференцию, где в течение 20 минут Анатолий ответит на заданные вопросы. В чате, во время лекции можно будет задать вопросы спикеру, а также сразу получить презентацию и расшифровку доклада.

Ссылка на telegram-чат (будет удален по окончании лекции)

@internetanalytics
Ratio-метрика

Что такое ratio-метрика? Это такой показатель, где мы хотели бы взять отношение одной числовой переменной к другой. Знакомые всем метрики: клики на пользователя, просмотры страниц на сессию, сессии на пользователя – все это метрики отношений. Они не просты на первый взгляд. Может показаться, что их позволительно считать так же, как и Бернулли 0;1, но, конечно же, это не так. Мы теряем информацию об исходных данных, вгоняя итоговое ratio в стат. критерий (10000/100 = 100 для нас не совсем то же самое, что и 100/1 = 100). Чтобы учесть наследование информации об исходных данных, рекомендуется применять следующие методы анализа:

- Дельта метод (Delta method) для расчета дисперсии

- Линеаризация от Яндекса позволяет сохранить поюзерную направленность у метрики для дальнейшей работы по оптимизации ее дисперсии (при помощи CUPED, например)

- Bootstrap. Много упоминаний про него по ссылкам выше.

Код на Python и R для самостоятельной работы можно найти по ссылкам:
https://notebooks.azure.com/alexdzero/projects/dmforce
https://core.ac.uk/download/pdf/144820658.pdf
https://migariane.github.io/DeltaMethodEpiTutorial.nb.html#the_bootstrap
Интенсив ExperimentFest по математической статистике и a/b тестам теперь полностью онлайн и в новом формате

1. Интенсив включает в себя 4 практических лекции 2 дня в неделю

2. Самостоятельная работа – после каждой лекции даются задачи для работы в интерактивном калькуляторе ExperimentFest. На этих калькуляторах можно проработать весь материал самостоятельно и закрепить то, что разбирается на лекциях. ДЗ сдается в личном кабинете студента, где можно получить обратную связь от преподавателей курса

Подробнее на сайте – https://www.experiment-fest.ru/ab_course
Промокод на скидку 5000 – expf

Во всем вопросам можно написать на почту – info@experiment-fest.ru
Forwarded from A/B testing
A/B-тестирование – это метод исследования, в ходе которого тестируется несколько вариантов элементов воронки продаж с целью выявления наиболее эффективного. Но как научиться правильно проводить A/B-тесты?

3 июня в 19:00 (мск) мы проводим бесплатный вебинар «Разбираемся с нуля в A/B-тестах».

👨‍🏫 Кто выступит?

Валерий Белокуров, Product Analyst в Яндекс

👩‍🏫 О чём пойдет речь?

— Обсудим, что такое группа эксперимента, как делить пользователей на группы, зачем нужна контрольная группа.
— «На пальцах» разберем понятие статистической значимости: p-value и с чем его едят.
— Узнаем, почему подглядывать не только неприлично (в жизни), но еще и вредно (в A/B-тестировании).

🔥 Два самых активных участника вебинара получат сертификат на бесплатное обучение в ProductStar.

Участие бесплатное, но регистрация обязательна.

Зарегистрироваться на вебинар 👉 @ProductStarAnalyticsBot
Forwarded from Big Data Science
🗣Как выбрать правильный статистический тест из множества доступных и запустить его на своих собственных данных: очень подробная статья на английском языке с пруфами и математикой от разработчиков рекомендательных систем VK - https://medium.com/@vktech/practitioners-guide-to-statistical-tests-ed2d580ef04f
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Толковых материалов про A/B-тестирование в паблике мало. Это связано с тем, что, во-первых, это довольно специфичная область знаний, а во-вторых, предполагает не только само собой разумеющееся знание матстата, но и понимание частного пользовательского поведения и собственной бизнес-модели и бизнес-процессов в целом. В связи с этим, сложно объяснять общее на частном и, в тоже время , частные результаты не могут быть применимы везде и всегда.

Для того чтобы думать как продуктовый аналитик, который занимается проведением сплит-тестов можно ознакомиться со следующими материалами:

Сборник "детских" ошибок:
https://netpeak.net/ru/blog/35-oshibok-pri-a-v-testirovanii/

Сборник советов как правильно проводить A/B тесты:
https://hookedondata.org/guidelines-for-ab-testing/

A/B-тестирование: смотреть на конверсию или смотреть на продажи? Павел Левчук
https://ecommerce-in-ukraine.blogspot.com/2018/02/ab-vs.html

Первые практические шаги.
A/B тест с помощью Google Optimize.
https://netpeak.net/ru/blog/kak-nastroit-a-b-test-s-pomoshch-yu-google-optimize-poshagovyi-manual/

Как оценивать A/B тесты. Анатолий Вуец, Letyshops: https://www.youtube.com/watch?v=2CN8IHy1OwU

Кейсы удачных (и не очень) экспериментов «Яндекс.Навигатора» (https://habr.com/ru/company/mobio/blog/455062/)

Видеозаписи с Experiment Fest/Яндекс.Практикум:
https://www.youtube.com/watch?v=KvIJ8FCJzr4&list=PL6Wui14DvQPz-s7nng8Sedzj1Q5xLOs69&index=1

Список курсов постараюсь собрать на днях.... Пока что выделил те материалы, которые могут помочь понять как думать. Техника проведения эксперимента в принципе не так сложна. Гораздо сложнее сгенерить пул толковых гипотез, которые стоит проверять.

@internetanalytics
Продолжая тему A/A-тестов
Материал от команды EXPlatform про то, как ребята проверяют качество системы сплитования. В нем рассматриваются очень показательные кейсы с RATIO. Например, если неправильно посчитать метрику, это тоже может сказываться на результатах A/A-теста.

https://onedrive.live.com/view.aspx?resid=8612090E610871E4!288827&ithint=file%2cdocx&authkey=!AE3UclwDsmPl80Y
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
This media is not supported in your browser
VIEW IN TELEGRAM
И в продолжение темы, сегодня 3 июня в 19:00 (мск) в рамках шестимесячного онлайн-курса «Профессия: Аналитик» ребята из ProductStar проводят бесплатный вебинар «Разбираемся с нуля в A/B-тестах».

Валера Белокуров, ex-Product Analyst Joom расскажет о том, как начать делать сплит-тесты.

— Что такое группа эксперимента, как делить пользователей на группы, зачем нужна контрольная группа.
— «На пальцах» разберем понятие статистической значимости: p-value и как его понимать.
— Узнаем, почему вредно проверять результаты до окончания A/B-теста.

Как обычно, два самых активных участника вебинара получают сертификат на бесплатное обучение в ProductStar.

Участие бесплатное, но регистрация обязательна 👉 @ProductStarAnalyticsBot

#реклама
Продолжая тему A/A-тестов
Материал от команды EXPlatform про то, как ребята проверяют качество системы сплитования. В нем рассматриваются очень показательные кейсы с RATIO. Например, если неправильно посчитать метрику, это тоже может сказываться на результатах A/A-теста.

https://onedrive.live.com/view.aspx?resid=8612090E610871E4!288827&ithint=file%2cdocx&authkey=!AE3UclwDsmPl80Y