A/B testing – Telegram
A/B testing
5.99K subscribers
3 photos
205 links
Кращі матеріали по A/B-тестуванню

Автор: @osiyuk
Download Telegram
The Pitfalls of Running A/B Tests from Ariel Verber

Many people who create digital products have probably heard of the term ‘Designing with Data’. It’s a very obvious practice, that suggests that making intuition-based decisions is not enough, and better decisions are usually supported by quantitative or qualitative evidence.

This leads many teams to run A/B Tests. In short, A/B tests are a way to offer slightly different versions of your product to users of the same initial group, and measure the difference in their behavior. They’re probably one of the best ways to bring actionable data.

The reason A/B tests are so effective, is because they basically mean asking your users absolute questions with 100% truth in the results. For example, by running a simple A/B test you can ask ‘How many extra sales will I make if I offer free shipping worldwide?’. To get an answer for this question, all you need to do is to offer free shipping to 50% of your users, and measure the sales in that group compared to the rest. Then, using simple calculations, you can measure the profitability of adding ‘free shipping’ and decide if it’s worth it or not.

I’ve always been a big advocate of A/B tests, but time led me to learn that they’re highly addictive and sometimes not very justified.

There may be pitfalls that will lead you into making a bad choice. Here are a few examples:
1. Some of the impact may be unforeseen at first
2. Query mistakes are a thing
3. The sample size has to be big enough
4. Numbers don’t have human empathy
5. A/B tests may slow you down

Whole article: https://medium.com/joytunes/the-pitfalls-of-running-a-b-tests-4da7141960d7
Полина Опарина из DocDoc про A/B тестирование в мобильных приложениях на Product Camp Minsk 2018

Ниже приведён текст самой презентации, опубликованный докладчиком на странице в Facebook.

- - -

Этот доклад будет вам интересен, если

- У вас есть мобильное приложение.
- Вы не делаете A/B тесты, но хотели бы начать.
- Вы выбираете решение для A/B тестирования в приложении.
- Вы уже используете какой-то инструмент, но он вас не устраивает.

Этой зимой у нас появилась задача внедрить инструмент для A/B тестирования в приложении DocDoc.

Первым делом мы проанализировали готовые решения и обнаружили ряд проблем.
Об этом есть отдельный слайд в презентации. Но самым критичным для нас была невозможность выгрузить сырые данные и гибко управлять сплитами.
Инструменты развиваются. И, возможно, сейчас уже нет такой проблемы в Firebase и ему подобных, но на тот момент ни одно готовое решение нас не устроило.

Зато мы поняли, что сделать инструмент для A/B тестирования самим это не rocket science.

Нужно всего лишь сделать:
- Механизм сплитования
- Апишку
- Админку для настройки фич
- Немного магии на стороне мобильной разработки
- Отчётность

Наши сплиты построены на основе случайной части GA Client ID.
Это случайное число от 0 до 255.
В админке для каждой фича задаются правила сплитов. Например, (0; 127) - фича выключена, (128; 255) - фича включена.

Split ID и правила определяют набор фичей, доступных клиенту.

Этот набор закодирован в Feature_status. Вместо конфига мы используем двоичное число. Каждой фича соответствует свой разряд, который может принимать значения 0 (фича выключена) или 1 (фича включена).

Feature_status пробрасывается в GA в Custom dimension. Число пользовательских параметров в GA ограничено (не больше 20). Но мы не упираемся в этой ограничений, тк занимаем всего один кастомный параметр.

Подробнее о техническом решении расскал великолепный Aleksander Krasnov на AppsConf 🖤

Каждый тест проходит такой цикл:
- Заводим новое правило в админке
- Реализуем логику в коде
- Релизим приложение
- Запускаем тест
- Ждём
- Анализируем результаты
- Принимаем решение, какой вариант остаётся
- Включаем в админке победителя на 100%
- Вычищаем из кода проигравший вариант

По сути мы получили инструмент для A/B тестирования + remote config.

Это позволяет нам проверять гипотезы, отслеживать фактическое влияние запущенных фич на метрики, делать постепенную выкатку функционала.

Для любителей цифр:
- На разработку решения мы потратили суммарно около 280 человеко-часов.
- Примерно на 30% увеличивается стоимость разработки и тестирования, если фича делается через A/B.
- Максимальный ROI дают тесты заголовков, конверсионных подписей, текстов пушей.

Презентация: https://goo.gl/qMi7nZ
Виталий Котов из Badoo про покрытие A/B-тестов UI-тестами

Мы создали интерфейс для удобного контроля над покрытием A/B-тестов; в результате теперь у нас есть вся информация о работе UI-тестов с A/B-тестами;

Мы выработали для себя способ написания временных UI-тестов с простым и эффективным флоу их дальнейшего удаления или перевода в ряды постоянных;

Мы научились легко и безболезненно тестировать релизы A/B-тестов, не мешая другим запущенным UI-тестам, и без излишних коммитов в Git.

Всё это позволило адаптировать автоматизацию тестирования под постоянно меняющиеся фичи, легко контролировать и увеличивать уровень покрытия и не зарастать легаси-кодом.

Ссылка: https://habr.com/company/badoo/blog/434448/
Как запускать эксперименты в Google.Analytics

🤓 По просьбе подписчика публикую ссылку на справку, в которой подробно описывается как запустить свой первый AБТ в GA.

Ссылка: https://support.google.com/analytics/answer/1745152?hl=ru
Шпаргалка по тому, какой статистический критерий(/тест) использовать в разных случаях.

via @ABtesting
О статистических критериях:

https://www.youtube.com/watch?v=ZaZYy0YUdY8 – как выбирать, какой стат. тест использовать при анализе различий между статистическими совокупностями

https://www.youtube.com/watch?v=YsalXF5POtY – так что же выбирать, Z-тест или T-тест

https://www.youtube.com/watch?v=pTmLQvMM-1M – T-тест (Стьюдента)

https://www.youtube.com/watch?v=BWJRsY-G8u0 – Z-тест 1-sample, https://www.youtube.com/watch?v=s-r0p2-Mpr4 - 2-sample (для сравнения по сплитам второй)

https://www.youtube.com/watch?v=BT1FKd1Qzjw – U-тест (Манна-Уитни)

https://www.youtube.com/watch?v=WXPBoFDqNVk – хи-квадрат-тест (Пирсона)

https://www.youtube.com/watch?v=9STZ7MxkNVg - bootstrap test

https://www.youtube.com/watch?v=cltWQsmBg0k – K-S-тест (Колмогорова-Смирнова) на то, что распределение в выборке НЕ является нормальным

https://www.youtube.com/watch?v=dRAqSsgkCUc – тест Шапиро-Уилка на то, что распределение в выборке НЕ является нормальным (ну такое, обрывается на R shapiro.test(x) )

https://www.youtube.com/watch?v=EG8AF2B_dps - ещё несколько соображений о том, как понять, что распределение нормальное

https://www.youtube.com/watch?v=MstzroncW28 – доверительный интервал для полученных значений

https://www.youtube.com/watch?v=eGWnP_8QER8 – почему если выбрать тест неправильно, может быть статистически значимо, но ни разу не достоверно
Forwarded from Product Analytics
Системный подход к АВ-тестированию в Uber https://eng.uber.com/xp
Forwarded from WebAnalytics (Осиюк Дмитрий)
​​Хорошая статья про то, как устроена аналитическая инфраструктура для A/B тестов в Авито. Ребята собирают сотни метрик и умеют детализировать их до бизнес-разрезов: вертикали, регионы, авторизованные пользователи и т. д. Они делают это автоматизированно с помощью единой платформы для экспериментов. В статье достаточно подробно описано, как платформа устроена с описанием некоторых интересных технических деталей и инсайтов, которые будут полезны всем, кто собираются построить свобственное решение для A/B тестов.

via @WebAnalyst
Бесплатный митап про то, как готовить, запускать и анализировать эксперименты (A/B тесты) на ценах и заниматься ценообразованием в компании.
Москва. 17 августа с 10:00 до 16:00.
http://price-discovery.tilda.ws/
Forwarded from Product Analytics
​​Лучшие доклады по аналитике на DevGAMM-2019

Способы добычи инсайтов и генерации гипотез. Что лучше, качественные исследования или количественные? Кто скажет больше, данные о пользователях или сами пользователи?

О разработке и улучшению системы персонализации офферов, начиная от внедрения максимально простой системы и заканчивая развитием ML-моделей.

Как нужно оценивать и прогнозировать качество трафика. Чем лучше компания справляется с этой задачей, тем быстрее она сможет отключить неэффективные кампании и перенаправить средства в более прибыльные источники.

Самая большая проблема A/B-тестов – это качественный анализ результатов. Об основных ошибках аналитиков с точки зрения математики и сходимости тестов и bootstrap, p-value, его ресэмплинге и проблеме ранговых критериев.

Кто виноват: продукт или закупка, если падает ROI и когда сравнение с органическим трафиком не устраивает?

via @ProductAnalytics