AB тесты и все вот про это вот все – Telegram
AB тесты и все вот про это вот все
1.88K subscribers
23 photos
1 video
4 files
249 links
Полезная информация об A/B тестировании. По любым вопросам можно писать - @ealexandr
Download Telegram
Forwarded from Время Валеры
Мой близкий друг Саша Сахнов - человек который на мой взгляд лучше всех разбирается в а/б тестах

Еще в далеком 2018 году мы с ним и рядом других людей начали писать на Хабр про А/Б.
Сейчас он запустил цикл статей про А/Б, где каждая статья будет сложнее предыдущей - первая довольно базовая статья про Бутстрап (Обратите внимание на центральный доверительный интервал)

Еще интересен небольшой разбор стратификации для повышения чувствительности тестов
Еще можно посмотреть это видео
1
Forwarded from karpov.courses
•‎ Статья «Что такое А/В-тестирование»

Разбираемся, зачем бизнесу нужны А/В-тесты и рассматриваем их работу на реальных примерах.

•‎ Интервью Анатолия Карпова с Никитой Маршалкиным

Как проводятся А/В-тесты ВКонтакте? В чём состоят особенности проведения тестов в социальных сетях? Работает ли тестирование на больших данных? На эти вопросы отвечает Никита Маршалкин в интервью. В описании к видео вы найдёте список материалов, которые помогут освоить тему А/В-тестов.

Вебинар Анатолия Карпова «Как и зачем оценивать размер выборки для А/В-теста?»

Чтобы грамотно провести А/В-тестирование, необходим чёткий план. В него входит в том числе определение размера выборки. Подробнее о том, как это сделать, рассказываем в записи вебинара.

•‎ Статья «Бутстреп и А/Б тестирование»

Преподаватель курса Hard ML Александр Сахнов рассказывает, как использовать бутстреп для решения разных задач, когда его применение необходимо и в чём его недостатки.
Всем привет! Не так давно для экономии времени при поиске работы сделал простого бота, который собирает вакансии для аналитиков из известных мне каналов и чатов с вакансиями. После немного доработал. Сейчас он собирает и пересылает эти посты с вакансиями в отдельный канал-агрегатор.

Пока формат именно такой - пересылаемые сообщения. В дальнейшем подумаю, какой формат агрегации вакансий будет оптимальным. Хорошо бы также использовать другие источники вакансий, это, наверное, впереди.
В данный момент это все находится в стадии тестирования, поэтому не все пока идеально, например, иногда пересылаются и рекламные сообщения в каналах.

Критике и предложениям по улучшению работы буду очень благодарен.

Собственно, канал https://news.1rj.ru/str/analyst_job_aggregator
Forwarded from Alexey Nikushin
Если бы каждый 50ый из этого чата написал в фейсбуке/телеге/на стене - Матемаркетинг заебись! Придите на матемаркетинг - было бы вообще огонь
Через неделю, 25 октября 12.00 до 13.00 пройдет митап на тему А/B-тестирования в Сбере. Ссылка на регистрацию: https://meetup.sberbank.ru/w/w/2e1b29f8-8266-4c12-af0c-9243c098b511

Только для сотрудников 😳
Статья с описанием использования библиотеки для оценки A/B теста с помощью байесовского метода: https://towardsdatascience.com/python-package-for-bayesian-a-b-testing-86ea3ff5c963
На прошлой неделе на Матемаркетинге Яндекс представил свой инструмент для проведения A/B тестов. Он называется Вариокуб - varioqub.ru.

Что же про него известно на данный момент. Пока мало:
1. По демо-видео на лендинге можно сделать вывод, что вся настройка будет происходить в Яндекс Метрике, и, в целом, он на нее завязан.
2. Работает для сайтов, наверное, только пока.
3. Механика работы похожа на Google Optimize:
- установка кода на сайт
- настройка эксперимента, аудитории и вариантов - редирект на измененную копию страницы, настройка по API и флагу или с помощью редактирования страницы с помощью визуального редактора
- запуск эксперимента и по окончании результаты в Яндекс Метрике. Наверное, сырые данные также будут доступны с помощью logs api, как данные эксперимента в Google Optimise доступны в BigQuery.
4. Пока воспользоваться им можно, оставив заявку на varioqub.ru.

EXPF сделали сравнение Вариокуб со своим инструментом для проведения экспериментов (Sigma) - expf.ru/sigma-vs-varioqub.
По сравниваемому функционалу Вариокуб, видимо, проигрывает.
Тут можно обсуждать корректность сравнения, ведь, по тому, что известно сейчас, Вариокуб скорее альтернатива Google Optimize, в котором запустить эксперимент можно в течение 10 минут, и, чтобы это сделать, может не понадобиться познаний в коде и аналитике.

Как подмечает EXPF в своем сравнении, Varioqub ориентирован на самостоятельных аналитиков и маркетологов, которым дана возможность редактировать JS и считать эффективность A/B из Яндекс.Метрики
Привет, дорогие мои подписчики!
В продолжение нашего аналитического просвещения, сегодня долгожданная подборка материалов по А/В-тестированию, тщательно отобранная вашей покорной слугой #позапросамстраждущих.

Итак, начнем с курсов:

https://www.udacity.com/course/ab-testing--ud979 - этот прекрасный курс для экспериментов

https://www.udacity.com/course/ab-testing--ud257 - вот такой курс от Google ( а тут синопсис по курсу раз , а тут я писала про синопсис два )

https://www.udacity.com/course/intro-to-inferential-statistics--ud201 - а этот курс по статистике с нужными вкраплениями для экспериментальных знаний 🫠

https://www.devtodev.com/education/online-course/ab-tests-from-a-to-b-part1 - специализированный курс по А/В-тестам в геймдеве

здесь оригинальные ссылки на курсы, а тут - https://ux-journal.ru/tag/cl-testing-and-optimization - перевод на русский первой части этого краш-курса

https://www.kameleoon.com/en/training/ab-testing-experimentation - достаточно вводный курс ака цикл статей по А/В-тестированию


Немного статей-гайдов:

https://medium.com/1point96/the-experimentation-process-has-been-overly-simplified-a5845aabc8ac - вводная статья о том, как вообще выглядит процесс запуска эксперимента

https://cxl.com/blog/better-way-prioritize-ab-tests/ - хорошая статья о приоритизации А/В- тестов

https://alex.gladkikh.org/dataanalytics/abtest/job/2022/06/30/analyze-AB-test.html - очень-очень классный материал по аналитике А/В-тестов

https://medium.com/mlearning-ai/a-b-testing-result-analysis-using-python-beginners-guide-7a6562933f7 - гайд по аналитике А/В-теста для новичков (кстати, внутри крутая майнд-карта!)

https://towardsdatascience.com/how-to-select-the-right-statistical-tests-for-different-a-b-metrics-c8a1865851e - симпатичная вспомогательная статья о выборе статистических критериев

https://towardsdatascience.com/the-math-behind-a-b-testing-with-example-code-part-1-of-2-7be752e1d06f - математика, стоящая за А/В - тестированием

https://towardsdatascience.com/how-to-reduce-a-b-testing-duration-using-surrogate-metrics-3631c6295039 - на десерт, материал для отличников про то, как ускорить А/В-тестирование с помощью прокси-метрик
Forwarded from Analyst job aggregator
Всем привет!

Теперь в канал https://news.1rj.ru/str/analyst_job_aggregator постятся вакансии для аналитиков (не бизнес и не системных) из Head Hunter. Дважды в день - в 13.00 и в 19.00.

Они сгруппированы по направлениям - веб, продуктовые, маркетинговые, данных. Формат:
- название вакансии
- город
- компания
- ЗП
- ссылка на вакансию

Новизна ваканcий - одна неделя, т.е., если вакансия с определенным id вакансии была импортирована с HH, в течение еще 6 дней она не будет повторно импортироваться с HH и присылаться в канал.

И еще - через некоторое прекратят пересылаться вакансии системных и бизнес аналитиков из телеграм-каналов.

Если появятся какие-то вопросы, возражения, пожелания, буду рад.
За последнее время несколько раз столкнулся с неверным представлением о том, какова механика назначения группы пользователю при проведении A/B теста.
Допустим, мы настроили, что трафик должен делиться в соотношении 50%/50%. И у нас A/B тест проводится на сайте.
Может показаться, что группы будут назначаться по очереди — первому группа A, следующему B, потом снова A и т.д. Но нет, все совсем не так.
Трафик сегментируется совершенно иным образом — по характеристикам пользователя. Какие же есть характеристики:
- Регион — страна, область, город, штат и т.д.
- Часовой пояс
- Пол
- Возраст
- Браузер
- Операционная система
- Источник трафика
- Тип устройства — мобильный телефон, ПК, планшет
- Залогиненные и не залогиненные пользователи
- Зарегистрированные и не зарегистрированные пользователи
- Новизна посетителей - новые или вернувшиеся
- Количество покупок
- Суммы покупок
- Частота покупок
И другие…

Все это, конечно, при условии, что эти параметры наш инструмент деления трафика способен определять.

Получится множество сегментов. И внутри каждого из этих сегментов трафик будет делиться в необходимом соотношении, например, в нашем случае, 50%/50%.
Holdout / Holdback experiments

Вы наверняка слышали про практику удерживания «глобального контроля» для сравнения с пользователями, которые участвуют в экспериментах.

Глобальный контроль (его еще называют «вечным») – группа пользователей, занимающая небольшую долю траффика (обычно от 1% до 8%), с котором сравнивается остальная часть экспериментальных пользователей.

Это позволяет затем сравнивать метрики между пользователями, которые получают эксп. опыт, и теми пользователями, которые удерживаются (holding out) от каких-либо изменений. В результате мы можем определить кумулятивное долгосрочное влияние изменений.

В биг техе распространена практика использование holdout’ов поквартально. Держим holdout квартал -> смотрим совокупный импакт от нашей работы и далее распространяем результаты на квартальные OKR/KPI

Почитать как это делают:
- Understanding the collective impact of experiments
- Universal Holdout Groups at Disney Streaming
- Spotify’s New Experimentation Platform (Part 2)
Уже в эту субботу, 17 декабря, состоится Data Ёлка от ODS. В программе в том числе обширный митап по A/B тестам с большими гостями
Ссылка на страницу мероприятия
Интересно, насколько до сих пор Google Analytics остается верным своим сессиям. Да, скоро GA4 будет доминировать, но на дворе почти 2023 год, и мы продолжаем в отчетах GA UA смотреть в Ecommerce конверсии в сессию с заказом.
В Google Optimize видим ту же картину. Если в качестве целевой конверсии укажем транзакцию экоммерса, он нам в отчетах будет показывать все ту же конверсию в сессию с заказом. Самый лучшие вариант - если у нас есть BigQuery и сырые данные, на них можно все пересчитать по пользователям. Ведь у нас сессий с заказом может быть много, а сессии - совсем не независимые измерения. Конечно, в этом случае нам нужно считать пользователей (но не сессии) и в сегментах теста, и достигших целевой конверсии (в нашем случае, совершивших заказ).
Ну вот, на корпорацию добра набросил. Бывает...
А зачем нам нужен чек-лист для проведения эксперимента?

Сейчас пытаюсь посчитать результаты одного эксперимента. Все никак не сходится:
- деление трафика 95/5
- целевая метрика не была выбрана до запуска
- продолжительность не определена заранее
- критерии вердикта, соответственно, также не определены
- и др.

Кажется, собрал минус флеш-рояль. После наших дорогих праздников будем встречаться, разговаривать о том, что такое не может повториться и до запуска продакт-менеджеры обязательно должны обсуждать это все с аналитиком.

И снова вспомнил про чек-лист (про него, видимо, также поговорим), повторно сюда прикладываю - ссылка
👍6
Возвращаемся из спячки.
Ухудшающий A/B тест - очень интересный инструмент проверки гипотез. Такие эксперименты, кажется, проводятся очень редко и материалов по ним маловато. Обычно в статьях про A/B тесты мы находим лишь упоминание о том, что это такое.
Беглым поиском нашел только одну более-менее подробную статью с разбором ухудшающих A/B тестов - https://gopractice.ru/data/ab-test/.
Наверное, они и правда недооценены и есть смысл работать с ними чаще.
👍1
На днях пересмотрел вебинары по бутстрапу (не могу скрывать симпатию к методу):
- от Искандера Мирмахмадова из EXPF - https://www.youtube.com/watch?v=8CMV5cK83ns
- от Анатолия Карпова - https://www.youtube.com/watch?v=-zps6hm0nX8

На два момента хочу обратить отдельное внимание:
1. Размер подвыборки делать таким же, как размер группы. Даже если у нас неравное деление пользователей, хоть и 90/10. Об этом на вопрос отвечал Анатолий после вебинара и пишется в статье https://ocw.mit.edu/courses/18-05-introduction-to-probability-and-statistics-spring-2014/resources/mit18_05s14_reading24/
2. Не нужно рассчитывать p-value по распределениям, получившимся в результате работы бутстрапа, так как измерения в них не независимы - забираются из одной и той же выборки и содержат повторы. Об этом говорил Искандер.
👍5