Эксперименты бывают долгими по-разным причинам:
1. Хотим увидеть очень маленькое изменение => надо много трафика.
Это решается или подбором (1) более чувствительной метрики, или (2) исправлением самой гипотезы.
Разработка более чувствительных метрик – это долгий аналитический процесс.
Если компания/продукт уже достаточно зрелая и вышла на стадию оптимизации, то имеет смысл потратить на это время и тем самым ускорить эксперименты. Яндекс и Booking много пишут про создание синтетических метрик, которые часто являются каким-либо математическим преобразованием над исходной метрикой.
Если мы говорим про запуск нового продукта/стартапа, то надо отправлять гипотезу на доработку (делать ux-ресерчи и тестировать мокапы) или вообще отказываться от ее проверки. АБ-тест тут не подходит – это очень дорогой способ проверки гипотезы, т.к. требует наличия разработанного продукта.
2. Эффект изменения сильно отложен => долго ждать обратной связи от рынка
В SaaS одна из главных метрик – это продление подписки. Если мы говорим про готовые подписки, то и ждать результатов гипотезы нужно год.
В таком сценарии надо искать прокси-метрики, которые могут "предсказывать" отложенные метрики.
Например, наша целевая метрика – % продлений через год. Подписка продляется через Apple Store автоматически через год. Это правило платформы, которое на которое не можем повлиять.
Но у этой метрики есть зеркальная метрика – отмены подписок. Отменять подписку пользователь может самостоятельно в любое время по собственному желанию. И мы, как продукт, можем на это желание влиять. Поэтому такая "обратная" метрика будет хорошим индикатором для основной метрики.
Другой пример – возвращение пользователей в продукт через месяц (monthly retention). Неохота ждать месяц для проверки влияния на эту метрику. Тут хорошее поле для исследований данных. Очень часто количество сессий / время в приложении / retention на первый день хорошо "предсказывают" retention через месяц. Поэтому можно брать эти прокси-метрики.
3. Делаем слишком много мелких изменений в продукте и хотим оценить их суммарный эффект
В таком случае принято резервировать долгосрочную контрольную группу и через один-два квартала сравнивать с ней с новый продукт. Тут не вижу способов как ускорить. Просто нужно принимать это как есть и коммуницировать стейкхолдерам.
(с) Антон Марцен
1. Хотим увидеть очень маленькое изменение => надо много трафика.
Это решается или подбором (1) более чувствительной метрики, или (2) исправлением самой гипотезы.
Разработка более чувствительных метрик – это долгий аналитический процесс.
Если компания/продукт уже достаточно зрелая и вышла на стадию оптимизации, то имеет смысл потратить на это время и тем самым ускорить эксперименты. Яндекс и Booking много пишут про создание синтетических метрик, которые часто являются каким-либо математическим преобразованием над исходной метрикой.
Если мы говорим про запуск нового продукта/стартапа, то надо отправлять гипотезу на доработку (делать ux-ресерчи и тестировать мокапы) или вообще отказываться от ее проверки. АБ-тест тут не подходит – это очень дорогой способ проверки гипотезы, т.к. требует наличия разработанного продукта.
2. Эффект изменения сильно отложен => долго ждать обратной связи от рынка
В SaaS одна из главных метрик – это продление подписки. Если мы говорим про готовые подписки, то и ждать результатов гипотезы нужно год.
В таком сценарии надо искать прокси-метрики, которые могут "предсказывать" отложенные метрики.
Например, наша целевая метрика – % продлений через год. Подписка продляется через Apple Store автоматически через год. Это правило платформы, которое на которое не можем повлиять.
Но у этой метрики есть зеркальная метрика – отмены подписок. Отменять подписку пользователь может самостоятельно в любое время по собственному желанию. И мы, как продукт, можем на это желание влиять. Поэтому такая "обратная" метрика будет хорошим индикатором для основной метрики.
Другой пример – возвращение пользователей в продукт через месяц (monthly retention). Неохота ждать месяц для проверки влияния на эту метрику. Тут хорошее поле для исследований данных. Очень часто количество сессий / время в приложении / retention на первый день хорошо "предсказывают" retention через месяц. Поэтому можно брать эти прокси-метрики.
3. Делаем слишком много мелких изменений в продукте и хотим оценить их суммарный эффект
В таком случае принято резервировать долгосрочную контрольную группу и через один-два квартала сравнивать с ней с новый продукт. Тут не вижу способов как ускорить. Просто нужно принимать это как есть и коммуницировать стейкхолдерам.
(с) Антон Марцен
Рекомендации по проведению A/B-тестов от Lime Engineering:
https://medium.com/lime-eng/experimentation-analysis-at-lime-bee846d62dd
via @ABtesting
https://medium.com/lime-eng/experimentation-analysis-at-lime-bee846d62dd
via @ABtesting
Medium
Experimentation Analysis at Lime
Inaccurate experimentation analysis leads to suboptimal business decisions. As Lime grows, the importance of standardized experiment…
Отличный Гайд по байесовской статистике и немного о байесовском A/B-тестировании и проверке гипотез.
via @ABtesting
via @ABtesting
Появился второй модуль бесплатного курса по A/B-тестированию от Devtodev. Первый модуль был о работе с гипотезами и подготовке к тестированию, а второй - о статистике тестов.
via @ABtesting
via @ABtesting
A/B-тесты - не единственный инструмент для понимания причинно-следственной связи: квазиэксперименты и контрфакты - альтернативные инструменты для причинного вывода:
https://medium.com/data-shopify/how-to-use-quasi-experiments-and-counterfactuals-to-build-great-products-487193794da
via @ABtesting
https://medium.com/data-shopify/how-to-use-quasi-experiments-and-counterfactuals-to-build-great-products-487193794da
via @ABtesting
Medium
How to Use Quasi-experiments and Counterfactuals to Build Great Products
A/B tests aren’t the only tool to understand causality: quasi-experiments and counterfactuals are powerful tools for causal inference.
Руководство по А/В-тестированию от VK tech:
https://medium.com/@vktech/practitioners-guide-to-statistical-tests-ed2d580ef04f
via @ABtesting
https://medium.com/@vktech/practitioners-guide-to-statistical-tests-ed2d580ef04f
via @ABtesting
Как платформы для экспериментов, такие как Optimizely, игнорируют один из самых фундаментальных принципов AB-тестирования:
https://towardsdatascience.com/unlocking-peeking-in-ab-tests-7847b9c2f6bb
via @ABtesting
https://towardsdatascience.com/unlocking-peeking-in-ab-tests-7847b9c2f6bb
via @ABtesting
PlanOut.js - библиотека, разработанная Facebook для A/B-тестирования. Помогает проводить тесты более качественно:
https://nimeetshah.medium.com/how-to-implement-an-a-b-testing-framework-in-reactjs-with-planout-f36c3fa29940
via @ABtesting
https://nimeetshah.medium.com/how-to-implement-an-a-b-testing-framework-in-reactjs-with-planout-f36c3fa29940
via @ABtesting
Как в Flo повысили долю успешных A/B тестов на 30% через внедрение нового процесса работы с гипотезами:
https://gopractice.ru/how_to_increase_the_number_of_successful_experiments/
via @ABtesting
https://gopractice.ru/how_to_increase_the_number_of_successful_experiments/
via @ABtesting
4 ошибки A/B-тестирования и как их исправлять:
https://towardsdatascience.com/a-b-testing-top-4-mistakes-with-business-cases-fixes-85e76767dfde
via @ABtesting
https://towardsdatascience.com/a-b-testing-top-4-mistakes-with-business-cases-fixes-85e76767dfde
via @ABtesting
Forwarded from BigQuery Insights
В сети появился отличный пример рассчета уровня значимости результатов A/B-тестирования в BigQuery с применением user-defined functions.
@BigQuery
@BigQuery
Что такое коэффициент несоответствия выборки (Sample Ratio Mismatch) и как с ним работать:
https://link.medium.com/ZJeoj3OlJbb
via @ABtesting
https://link.medium.com/ZJeoj3OlJbb
via @ABtesting
О формулировании гипотез, подходах и критериях корректности, и проверке гипотез разных уровней:
https://soundcloud.com/productsense/make-sense-120
via @ABtesting
https://soundcloud.com/productsense/make-sense-120
via @ABtesting
SoundCloud
Hear the world’s sounds
Explore the largest community of artists, bands, podcasters and creators of music & audio
Эдуард Григорян: Metric optimization for Quality Control of A/B testing:
https://www.youtube.com/watch?v=4qvpZEKkARI
via @ABtesting
https://www.youtube.com/watch?v=4qvpZEKkARI
via @ABtesting
YouTube
Эдуард Григорян: Metric optimization for Quality Control of A/B testing
Data Fest Online 2020
A/B Testing Track https://ods.ai/tracks/ab-testing-df2020
Посмотреть эфир и список треков и организаторов: https://datafest.ru/2020/
Зарегистрироваться на фест и получить доступ к трекам: https://ods.ai/events/datafest2020
Вступить…
A/B Testing Track https://ods.ai/tracks/ab-testing-df2020
Посмотреть эфир и список треков и организаторов: https://datafest.ru/2020/
Зарегистрироваться на фест и получить доступ к трекам: https://ods.ai/events/datafest2020
Вступить…
Основы математики АБ-тестирования:
https://towardsdatascience.com/a-gentle-introduction-to-the-mathematics-behind-a-b-testing-3afe354bdce3
via @ABtesting
https://towardsdatascience.com/a-gentle-introduction-to-the-mathematics-behind-a-b-testing-3afe354bdce3
via @ABtesting
О досрочном прекращении экспериментов
Система раннего предупреждения без которой можно потерять много времени и данных, не говоря уже о потенциальных потерях в доходах и нежелательных последствиях для пользовательского опыта.
via @ABtesting
Система раннего предупреждения без которой можно потерять много времени и данных, не говоря уже о потенциальных потерях в доходах и нежелательных последствиях для пользовательского опыта.
via @ABtesting
Forwarded from Product Analytics
Хороший справочник по A/B-тестированию и выбору критериев с примерами кода на Python.
via @ProductAnalytics
via @ProductAnalytics
Как проводить умные A/B-тесты в мобильных приложениях с помощью многоруких бандитов?
На платформе Appbooster появился сервис усовершенствованного A/B-тестирования мобильных приложений. В его основе алгоритм, который позволяет проводить эксперименты и тестировать гипотезы с меньшими издержками, чем при классическом A/B-тестировании.
О том, как работает сервис, как проверяли его состоятельность и кому он будет полезен — кейс на vc.ru от Appbooster.
На платформе Appbooster появился сервис усовершенствованного A/B-тестирования мобильных приложений. В его основе алгоритм, который позволяет проводить эксперименты и тестировать гипотезы с меньшими издержками, чем при классическом A/B-тестировании.
О том, как работает сервис, как проверяли его состоятельность и кому он будет полезен — кейс на vc.ru от Appbooster.
vc.ru
Кейс: как мы потеряли $7500 на A/B-тестах мобильного приложения, но научились их проводить
Про важность A/B-тестирования написаны сотни статей, книг, примерно столько же записано вебинаров. Кратный рост продуктов без проведения экспериментов сейчас уже практически невозможен. Но всё равно по разным причинам не все их проводят. Самый распространённый…
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Материалы по экспериментам от Романа Поборчего.
Начнем с простого - A/B-тесты для "нематематиков" о методах грамотного оценивания результатов a/b-тестирования. Особое внимание уделяется вопросу о том, на какую целевую метрику ориентироваться при проведении маркетинговых экспериментов.
Продолжим вопросами дизайна эксперимента. Уже пора задуматься о том, на каких допущениях основан эксперимент: по-настоящему случайное распределение пользователей, независимость измеряемых событий и т.д.
Бывали ситуации, когда вы или вам говорили, что данных недостаточно для решения? Часто это действительно так, но нередко всё дело в поломках системы экспериментов и учёта пользовательской статистики. Рассмотрим типичные поломки, которые встречаются, и у вас появится возможность, вернувшись на рабочее место найти свои.
И на последок - грабли А/В-тестирования. Все изменения в сервисе проходят через эксперимент на пользователях. Выкатываем только то, что показывает значимое улучшение целевой метрики. Да, у нас есть целевая метрика. Да, мы всё знаем про статистическую значимость. Но почему целевая метрика нашего сервиса сегодня находится точно на том же уровне, что и год назад? Разбираемся
= = =
Но мы пошли дальше, нашли "белые пятна" в доступных материалах (не именно этих, а вообще) и закроем их на нашей конференции по продуктовой аналитике 8-9 апреля.
Уже знакомый вам Роман Поборчий расскажет о том, каковы этапы эволюции in-house системы экспериментов в любой компании. Это важно понимать хотя бы потому, что на маленьком и большом трафике абсолютно разные подходы к проведению экспериментов + к этому, Искандер Мирмахмадов, EXPF расскажет как проверять качество систем сплитования трафика на платформах экспериментов с теорией, кейсам и демонстрацией кода на Python. И у вас все сложится в единую систему.
Кроме этого, Андрей Кузнецов, Lead Core Analytics ВКонтакте, готовит лекцию о том, почему регрессионные модели в а/б-тестах — это супер полезно. Он математик и ему есть что сказать. И как вишенка на торте - Кирилл Шмидт, lead product analyst, Wrike. Поговорим с ним о том, что делать, когда а/б-тест невозможен: выборки слишком малы, нет ресурсов, когда вообще не запускать эксперимент.
Ждем вас на нашей конференции уже через 3 недели: https://aha.matemarketing.ru/
@internetanalytics
Начнем с простого - A/B-тесты для "нематематиков" о методах грамотного оценивания результатов a/b-тестирования. Особое внимание уделяется вопросу о том, на какую целевую метрику ориентироваться при проведении маркетинговых экспериментов.
Продолжим вопросами дизайна эксперимента. Уже пора задуматься о том, на каких допущениях основан эксперимент: по-настоящему случайное распределение пользователей, независимость измеряемых событий и т.д.
Бывали ситуации, когда вы или вам говорили, что данных недостаточно для решения? Часто это действительно так, но нередко всё дело в поломках системы экспериментов и учёта пользовательской статистики. Рассмотрим типичные поломки, которые встречаются, и у вас появится возможность, вернувшись на рабочее место найти свои.
И на последок - грабли А/В-тестирования. Все изменения в сервисе проходят через эксперимент на пользователях. Выкатываем только то, что показывает значимое улучшение целевой метрики. Да, у нас есть целевая метрика. Да, мы всё знаем про статистическую значимость. Но почему целевая метрика нашего сервиса сегодня находится точно на том же уровне, что и год назад? Разбираемся
= = =
Но мы пошли дальше, нашли "белые пятна" в доступных материалах (не именно этих, а вообще) и закроем их на нашей конференции по продуктовой аналитике 8-9 апреля.
Уже знакомый вам Роман Поборчий расскажет о том, каковы этапы эволюции in-house системы экспериментов в любой компании. Это важно понимать хотя бы потому, что на маленьком и большом трафике абсолютно разные подходы к проведению экспериментов + к этому, Искандер Мирмахмадов, EXPF расскажет как проверять качество систем сплитования трафика на платформах экспериментов с теорией, кейсам и демонстрацией кода на Python. И у вас все сложится в единую систему.
Кроме этого, Андрей Кузнецов, Lead Core Analytics ВКонтакте, готовит лекцию о том, почему регрессионные модели в а/б-тестах — это супер полезно. Он математик и ему есть что сказать. И как вишенка на торте - Кирилл Шмидт, lead product analyst, Wrike. Поговорим с ним о том, что делать, когда а/б-тест невозможен: выборки слишком малы, нет ресурсов, когда вообще не запускать эксперимент.
Ждем вас на нашей конференции уже через 3 недели: https://aha.matemarketing.ru/
@internetanalytics