AB тесты и все вот про это вот все – Telegram
AB тесты и все вот про это вот все
1.88K subscribers
23 photos
1 video
4 files
249 links
Полезная информация об A/B тестировании. По любым вопросам можно писать - @ealexandr
Download Telegram
Коррекция дисперсии при bootstrap

При работе с bootstrap часто возникает необходимость работать с bias/varience reduction.

Почему это важно?

Большинство аналитиков используют непараметрическую модификацию bootstrap'а, т.е. не берут в рассчет статистику популяции. Непараметрика может давать достаточно большой bias, а коррекция bias приводить к увеличению дисперсии. Проблемы известны, но вот решения очевидны не всегда.
Прекрасный материал на данную тему от Japan Institute of Statistical Mathematics
https://www.ism.ac.jp/editsec/aism/pdf/062_1_0209.pdf

EXPF 15 апреля в 20-00 проводит бесплатную онлайн лекцию про Bootstrap
Если вы используете bootstrap/планируете использовать/не знаете что можно использовать и хотите узнать больше про особенности, ограничения и возможности – лекция будет вам очень полезна
Про что поговорим на лекции
- Какие есть ограничения использования bootstrap
- Чем параметрический bootstrap отличается от непараметрического
- Почему boot распределение нельзя «скармливать» статистическому критерию
- Как сделать так, чтобы bootstrap был не таким прожорливым
https://price-discovery.timepad.ru/event/1293731/
Team-draft interleaving

Концепция Team-draft interleaving тестов звучит достаточно просто.

Представьте, что вы хотите проверить новый алгоритм ранжирования товаров в каталоге интернет-магазина.
Вместо того, что сравнивать два разных алгоримта на разныых ветках эксперимента - вы покажите пользователю сразу два алгоритма одновременно. Например, каждый второй товар - один алгоритм,каждый третий товар - другой алгоритм. Такой подход к эксперименту позволит невелировать ряд продуктовых факторов, которые будут влияться на его исход.

К этой методологии часто прибегую поисковые системы, чтобы лучше и быстрее оценивать качества новых поисковых алгоритмов.
На что важно обратить внимание
1) Ваши выбрки не независимы - пользователь находится сразу в двух ветках эксперимента. В этом случае дисперсия случайной величины будет считаться не как на независимых выборках и это будет сказываться на методах оценки эксперимента
2) Важно учитывать расположение выдаваемого алгоритмом результата - приоритет выдачи может сильно сказываться на исходах эксперимента

Чтобы лучше разобраться в этой методологии мы предлагаем почитать/посмотреть несколько материалов

1) Как к TDI подходит Netflix - статья без технических и математических нюансов
https://netflixtechblog.com/interleaving-in-online-experiments-at-netflix-a04ee392ec55

2) Paper с описанием статистической части метода от MS, Yahoo и Cornell University
https://www.cs.cornell.edu/people/tj/publications/chapelle_etal_12a.pdf

3) Очень доступный доклад от Романа Поборчего на AIC Analytics Day
https://www.youtube.com/watch?v=voY7waRb_D0
Оценка качества систем сплитования

Если составить рейтинг того, про что забывают при проверке гипотез или разработке новых метрик - то A/A тесты войдут в топ 3.
A/A тесты требуются не только для проверки качества систем сплитования, но и для выбора метрик.
Не каждая метрика подходит для экспериментов в силу своих описательных особенностей.

Очень доступная статья про то, как проверить качество своей системы a/b тестов - https://habr.com/ru/company/hh/blog/321386/
Forwarded from Datalytics
A/B тестирование — это неотъемлемая часть работы над продуктом. С его помощью можно проверить гипотезу о том, поменяется ли выбранная продуктовая метрика, если изменить что-то в продукте, — например, увеличится ли количество пользователей, если изменить дизайн страницы регистрации. Для этого сравниваются результаты в тестовой и контрольной группах пользователей: первой выборке показывают новое решение, а у контрольной группы продукт остаётся неизменным.

При этом важно проверить, будет ли изменение статистически значимым: подтвердить, что наблюдаемая разница у тестовой и контрольных групп действительно связана с нововведениями в продукте, а не является случайностью. Для этого можно применять традиционный (частотный) или байесовский подход к A/B тестированию. У обоих методов есть свои сторонники и противники, но байесовский подход позволяет проще визуализировать данные и интерпретировать результат эксперимента. Академия Яндекса перевела статью из блога Towards Data Science о том, как провести байесовское A/B тестирование и разобраться в его работе.

https://academy.yandex.ru/posts/prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Эксперимент

Завтра в 14:00 по Московскому времени мы предлагаем всем вместе посмотреть лекцию Анатолия Карпова, с которой он выступал на Матемаркетинге-2019.

Анатолий рассказывает какие подводные камни ожидают аналитиков при проведении экспериментов и как научиться их избегать. Вы глубже поймете статистику и разберетесь в том, каких ошибок можно избежать при проведении A/B тестов.

Добавьте напоминание себе в календарь

По окончании трансляции в закрытом чате появится ссылка на Zoom-конференцию, где в течение 20 минут Анатолий ответит на заданные вопросы. В чате, во время лекции можно будет задать вопросы спикеру, а также сразу получить презентацию и расшифровку доклада.

Ссылка на telegram-чат (будет удален по окончании лекции)

@internetanalytics
Ratio-метрика

Что такое ratio-метрика? Это такой показатель, где мы хотели бы взять отношение одной числовой переменной к другой. Знакомые всем метрики: клики на пользователя, просмотры страниц на сессию, сессии на пользователя – все это метрики отношений. Они не просты на первый взгляд. Может показаться, что их позволительно считать так же, как и Бернулли 0;1, но, конечно же, это не так. Мы теряем информацию об исходных данных, вгоняя итоговое ratio в стат. критерий (10000/100 = 100 для нас не совсем то же самое, что и 100/1 = 100). Чтобы учесть наследование информации об исходных данных, рекомендуется применять следующие методы анализа:

- Дельта метод (Delta method) для расчета дисперсии

- Линеаризация от Яндекса позволяет сохранить поюзерную направленность у метрики для дальнейшей работы по оптимизации ее дисперсии (при помощи CUPED, например)

- Bootstrap. Много упоминаний про него по ссылкам выше.

Код на Python и R для самостоятельной работы можно найти по ссылкам:
https://notebooks.azure.com/alexdzero/projects/dmforce
https://core.ac.uk/download/pdf/144820658.pdf
https://migariane.github.io/DeltaMethodEpiTutorial.nb.html#the_bootstrap
Интенсив ExperimentFest по математической статистике и a/b тестам теперь полностью онлайн и в новом формате

1. Интенсив включает в себя 4 практических лекции 2 дня в неделю

2. Самостоятельная работа – после каждой лекции даются задачи для работы в интерактивном калькуляторе ExperimentFest. На этих калькуляторах можно проработать весь материал самостоятельно и закрепить то, что разбирается на лекциях. ДЗ сдается в личном кабинете студента, где можно получить обратную связь от преподавателей курса

Подробнее на сайте – https://www.experiment-fest.ru/ab_course
Промокод на скидку 5000 – expf

Во всем вопросам можно написать на почту – info@experiment-fest.ru
Forwarded from A/B testing
A/B-тестирование – это метод исследования, в ходе которого тестируется несколько вариантов элементов воронки продаж с целью выявления наиболее эффективного. Но как научиться правильно проводить A/B-тесты?

3 июня в 19:00 (мск) мы проводим бесплатный вебинар «Разбираемся с нуля в A/B-тестах».

👨‍🏫 Кто выступит?

Валерий Белокуров, Product Analyst в Яндекс

👩‍🏫 О чём пойдет речь?

— Обсудим, что такое группа эксперимента, как делить пользователей на группы, зачем нужна контрольная группа.
— «На пальцах» разберем понятие статистической значимости: p-value и с чем его едят.
— Узнаем, почему подглядывать не только неприлично (в жизни), но еще и вредно (в A/B-тестировании).

🔥 Два самых активных участника вебинара получат сертификат на бесплатное обучение в ProductStar.

Участие бесплатное, но регистрация обязательна.

Зарегистрироваться на вебинар 👉 @ProductStarAnalyticsBot
Forwarded from Big Data Science
🗣Как выбрать правильный статистический тест из множества доступных и запустить его на своих собственных данных: очень подробная статья на английском языке с пруфами и математикой от разработчиков рекомендательных систем VK - https://medium.com/@vktech/practitioners-guide-to-statistical-tests-ed2d580ef04f
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Толковых материалов про A/B-тестирование в паблике мало. Это связано с тем, что, во-первых, это довольно специфичная область знаний, а во-вторых, предполагает не только само собой разумеющееся знание матстата, но и понимание частного пользовательского поведения и собственной бизнес-модели и бизнес-процессов в целом. В связи с этим, сложно объяснять общее на частном и, в тоже время , частные результаты не могут быть применимы везде и всегда.

Для того чтобы думать как продуктовый аналитик, который занимается проведением сплит-тестов можно ознакомиться со следующими материалами:

Сборник "детских" ошибок:
https://netpeak.net/ru/blog/35-oshibok-pri-a-v-testirovanii/

Сборник советов как правильно проводить A/B тесты:
https://hookedondata.org/guidelines-for-ab-testing/

A/B-тестирование: смотреть на конверсию или смотреть на продажи? Павел Левчук
https://ecommerce-in-ukraine.blogspot.com/2018/02/ab-vs.html

Первые практические шаги.
A/B тест с помощью Google Optimize.
https://netpeak.net/ru/blog/kak-nastroit-a-b-test-s-pomoshch-yu-google-optimize-poshagovyi-manual/

Как оценивать A/B тесты. Анатолий Вуец, Letyshops: https://www.youtube.com/watch?v=2CN8IHy1OwU

Кейсы удачных (и не очень) экспериментов «Яндекс.Навигатора» (https://habr.com/ru/company/mobio/blog/455062/)

Видеозаписи с Experiment Fest/Яндекс.Практикум:
https://www.youtube.com/watch?v=KvIJ8FCJzr4&list=PL6Wui14DvQPz-s7nng8Sedzj1Q5xLOs69&index=1

Список курсов постараюсь собрать на днях.... Пока что выделил те материалы, которые могут помочь понять как думать. Техника проведения эксперимента в принципе не так сложна. Гораздо сложнее сгенерить пул толковых гипотез, которые стоит проверять.

@internetanalytics
Продолжая тему A/A-тестов
Материал от команды EXPlatform про то, как ребята проверяют качество системы сплитования. В нем рассматриваются очень показательные кейсы с RATIO. Например, если неправильно посчитать метрику, это тоже может сказываться на результатах A/A-теста.

https://onedrive.live.com/view.aspx?resid=8612090E610871E4!288827&ithint=file%2cdocx&authkey=!AE3UclwDsmPl80Y
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
This media is not supported in your browser
VIEW IN TELEGRAM
И в продолжение темы, сегодня 3 июня в 19:00 (мск) в рамках шестимесячного онлайн-курса «Профессия: Аналитик» ребята из ProductStar проводят бесплатный вебинар «Разбираемся с нуля в A/B-тестах».

Валера Белокуров, ex-Product Analyst Joom расскажет о том, как начать делать сплит-тесты.

— Что такое группа эксперимента, как делить пользователей на группы, зачем нужна контрольная группа.
— «На пальцах» разберем понятие статистической значимости: p-value и как его понимать.
— Узнаем, почему вредно проверять результаты до окончания A/B-теста.

Как обычно, два самых активных участника вебинара получают сертификат на бесплатное обучение в ProductStar.

Участие бесплатное, но регистрация обязательна 👉 @ProductStarAnalyticsBot

#реклама
Продолжая тему A/A-тестов
Материал от команды EXPlatform про то, как ребята проверяют качество системы сплитования. В нем рассматриваются очень показательные кейсы с RATIO. Например, если неправильно посчитать метрику, это тоже может сказываться на результатах A/A-теста.

https://onedrive.live.com/view.aspx?resid=8612090E610871E4!288827&ithint=file%2cdocx&authkey=!AE3UclwDsmPl80Y
Еще раз про ratio.

Коллеги из VK делятся своим опытом работы с ratio метриками. В статье ребята сравнивают разные способы работы с ratio и оценивают чувствительность этих методов при помощи моделирования a/a тестов.
https://medium.com/@vktech/practitioners-guide-to-statistical-tests-ed2d580ef04f

Рассматриваются следующие инструменты, про многие из них мы уже писали раньше:
1) Дельта-метод для оценки дисперсии ratio
2) CUPED для ratio – про возможности CUPED для ratio метрик говорят редко, но в исходной статье есть целый раздел для приманения. Для оценки дисперсии коллеги из MS рекомендуют использовать дельта-метод.
3) Линеаризация от Яндекс
4) Bootstrap для ratio
5) Intra-user correlation – в научной среде для таких кейсов часто используют block bootstrap, но коллеги из ebay предлагают простое и доступное решение