AB тесты и все вот про это вот все – Telegram
AB тесты и все вот про это вот все
1.88K subscribers
23 photos
1 video
4 files
249 links
Полезная информация об A/B тестировании. По любым вопросам можно писать - @ealexandr
Download Telegram
Свежая статься Искандера Мирмахмадова про работу с социальными эффектами при работе с АБ тестами, https://bit.ly/3tYNWlr
Есть часто встречающаяся проблема при проведении АБ тестов - неравномерное деление трафика, например, 80%/20% или 90%/10%. Конечно, этого лучше избегать, но не всегда это возможно. Спланировать продолжительность теста в таком случае - тоже проблема. Распространенный калькуляторы предполагают, что трафик будет делиться поровну.
Статьи про особенности АБ тестов с неравным делением трафика и ссылка на калькулятор:
- https://bit.ly/3aQLRkY
- https://bit.ly/2S9G6HN
- https://www.statsig.com/calculator
Как считать A/B, когда у вас зеттабайты данных? Что?!

В новой статье Microsoft подробно описывают трюки, которые позволят считать эксперименты на зеттабайтах данных (1зб = 1000 тб). На случай, если у вас вдруг где-то завалялось несколько винчестеров, статья будет полезна в решении задачи (ну мало ли)

Читать статью
Switchback-эксперименты в Ситимобил. Часть 1

Наши друзья из команды динамического ценообразования Ситимобил написали подробную статью про работу Switchback’а в их компании, тем самым начав серию статей посвященных этому особому способу сплитования.

Switchback – метод сплитования групп, где единицей рандомизации является не пользователь, а бакет по признакам гео и времени. Благодаря чему удается нивелировать социальный эффект и тем самым исключить влияние тестовой группы на контрольную.

EXPF также принимали участие в проекте по разработке свитчбэка в Ситимобиле. В команде Ситимобила работают сильные специалисты и поэтому не было ни минуты сомнения, что свитчбэк «взлетит».

Читать статью на Хабре
Forwarded from karpov.courses
Мы не смогли победить интернет в студии, но даже технические неполадки – не помеха на пути к знаниям!

Во-первых, вебинар базируется на статье «Dealing With Ratio Metrics in A/B Testing at the Presence of Intra-User Correlation and Segments».

Во-вторых, применение анонсированного метода, а также многих других, к задаче анализа тестов над метриками-отношениями можно подсмотреть в материале коллег из ВКонтакте.
Forwarded from karpov.courses
В материале выше разобрано бакетное преобразование метрики – этот метод очень часто применяется в промышленном A/B-тестировании. В материале коллег из ВКонтакте разбираются выборки длины 5000, попробуйте увеличить размер выборки, например, до 10000, а затем поварьируйте количество бакетов (скажем, от 10 до 100 с шагом в 10), чтобы проследить, как с изменением количества бакетов меняются (и меняются ли) чувствительность теста и контроль \alpha за false positive rate. Кроме того, над результатами бакетного преобразования можно запустить тест Манна-Уитни. Проверьте, как будут меняться чувствительность и контроль в зависимости от количества бакетов для теста Манна-Уитни. Также стоит поварьировать скошенность распределений просмотров и истинных CTR. Посмотрите, используя полученные данные, в каких пределах работает бакетное преобразование.

Если вы смогли самостоятельно провернуть все действия выше – поздравляем, вы освоили новый метод! Если нет – вебинар состоится 17 июня в 19:00.

Еще раз приносим свои извинения, и спасибо, что вы нас поддерживаете!
Forwarded from Product Analytics
​​Хороший пример оптимизации отклика на рекламные активности через анализ результатов A/B-тестирования от Starbucks.
Описание решения с примерами кода на Python.

via @ProductAnalytics
Написал небольшой калькулятор для рассчета продолжительности теста. Он повторяет калькулятор Эвана Миллера и пока работает только для равного деления трафика и одного тестового варианта.
Но немного экономит времени
https://github.com/a-efimov/Pre-Calculate-AB-test
Как измерить влияние социального эффекта в A/B-тесте?

В нашем блоге вышла новая статья! Мы уже неоднократно рассказывали про социальные эффекты на митапах и конференциях, а также публиковали статьи про Switchback-эксперименты вместе с нашими друзьями из Ситимобил.

Борьба с социальными эффектами в экспериментах обладает своими особенностями. Во-первых, в каждом эксперименте должно соблюдаться предположение о том, что изменения в тесте воздействуют только на тестовую группу, а на контроль нет (SUTVA). Во-вторых, чтобы эта борьба не была напрасной, необходимо каким-то образом замерять влияние соц. эффекта. Это не так очевидно, как может показаться на первый взгляд.

Ксения Мензорова (DS Маркетплейса Ситимобил) сделала разбор статьи от LinkedIn, где приводится методика по определению влияния соц. эффекта в экспериментах

Читать на медиуме
Почти все калькуляторы для АБ тестов - черные ящики: в них засовываешь параметры, получаешь некий результат. И не видно, что и как рассчитывается. Многие знают про калькулятор размера выборки АБ теста от Эвана Миллера. Код, по которому работает этот калькулятор: https://gist.github.com/mottalrd/7ddfd45d14bc7433dec2
Немного о делении трафика для АБ теста. То, что чем ближе деление трафика к равномерному, тем лучше, всем известно. Мне захотелось посмотреть на это визуально.
Построил два графика. Первый показывает зависимость продолжительности теста от равномерности деления трафика, другой - зависимость мощности от деления трафика.

Для построения первого графика взяты показатели:
- текущая CR 30%
- необходимый uplift конверсии 7%
- pvalue 0.05
- несколько вариантов деления трафика 0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95, где 0.5 это 50%/50%, 0.95 - 95%/5%
И получилось, что после деления трафика больше 0.8 кривая уже очень сильно ползет вверх.

Для построения второго графика взяты показатели:
- текущая CR 6%
- получившийся uplift конверсии 5%
- pvalue 0.05
- количество пользователей в тесте 300 000
- такие же варианты деления трафика 0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95, где 0.5 это 50%/50%, 0.95 - 95%/5%
Здесь видим подобную картину, что при делении трафика больше 0.8 кривая уже очень сильно ползет вниз и пересекает нужный показатель мощности 0.8. Т.е., получая одни и те же результаты эксперимента, мы все меньше можем им верить, несмотря на то, что pvalue 0.05 и все вроде бы хорошо.

Понятно, что в каждом тесте будут свои цифры и кривые, но графики будут похожи. Вполне себе аргумент поторговаться перед запуском теста за приближение деления трафика к равномерному.
Графики, без опечаток
Как устроена экспериментальная платформа у Linkedin?

Оказывается, в тех-блоге Linkedin подробно описано как устроена инфраструктура их АБшницы изнутри. Я думаю какую-то аннотацию писать бессмысленно, просто прочтите заголовки вот этих 3 статей:

- A/B testing at LinkedIn: Assigning variants at scale
- Our evolution towards T-REX: The prehistory of experimentation infrastructure at LinkedIn
- Making the LinkedIn experimentation engine 20x faster
Проведение A/B для оптимизации SEO

Как задизайнить a/b для оптимизации ранжирования в поисковой выдаче (гугла, яндекса, другого поисковика)?

Это довольно таки распространенный вопрос и решение лежит в плоскости создания синтетических контролей. Вариантов здесь целое множество: хочешь бери байевские временные ряды (prophet или causal impact), хочешь что-то более традиционное (arima или, в частности, sarimax), а можно еще Diff-in-Diff.

Синтетические контроли редко используются на практике в силу проблем, связанных с обучением модели и последующей интепретацией. Тем не менее про подход Diff-in-Diff, часто используемый в социологических иссследованиях, вполне развернуто написали Airbnb:

Читать статью на medium
Как-то посмотрел отчет коллег по результатам AB теста. И в нем целевой показатель - конверсия из сессии, в которой был показан вариант эксперимента (тестовый или контрольный) в сессию с заказом. В чем проблема? А в том, что в данном случае измерять в сессиях неправильно. И вот почему.
Одно из важнейших условий проведения AB теста - независимость наблюдений. И у нас, например, перекраска кнопки "В корзину" из красного в синий, это изменение показывается постоянно.
Если пользователь утром зашел на сайт и увидел новую кнопку, мы засчитали сессию с показом. Когда он снова вечером снова зайдет на сайт и снова увидит новую кнопку, снова будет засчитана сессия с показом, итого уже две. В таком случае у нас получились два измерения, и они одно из них зависимо от другого - так как второй сессии могло не быть без первой. То же самое может быть с заказами - может быть много сессий в заказом у одного пользователя.
Таким образом, у нас нарушается обязательное требование о независимости измерений. В данном случае мы должны были считать конверсию из пользователя, увидевшего кнопку, в пользователя, совершившего заказ.
Когда останавливать A/B-тест? Часть 1: MDE

«Сколько ждать?» – самый частый вопрос, который приходится слышать до и во время проведения эксперимента.

Мы написали новую статью (правильнее было бы назвать это руководством) про то, как стоит подходить к решению этой задачи. А именно от чего в первую очередь зависит прогнозируемое время и как это считать + с кодом на питоне.

В первой части рассматривается концепция Fixed time Horizon, которая основана на расчете MDE. Следующая часть выйдет через несколько недель. А может и раньше, следите за обновлениями в этом канале

Читать статью на медиуме