Моя коллега - Фаина Винокурова, рассказала про то как устроена платформа АБ тестирования сайта alfabank.ru
👍7
А вы хотели бы работать продуктовым аналитиком в Альфа-Банке? Ставь плюсик в комменты и если у нас будут открытые вакансии, то я вам их пришлю))
🔥15👍8😁5🤔1💩1
Монтекарлить - изучать поведение статистик при помощи генерации большого числа выборок и расчета нужных показателей по ним
😁11
AB марафон - первый поток done ✅
Провел первый поток марафона по АБ тестам. Идея марафона была в том чтобы за неделю человек, который никогда не делал АБ тесты смог бы пройти путь: поиск точки роста → формирование гипотез → дизайн АБ → валидация и анализ результата АБ теста.
При этом я не хотел чтобы этот тренинг превратился в курс по статистике, хотелось именно дать практику и погружение на простом примере. Т.к. я считаю, что на старте важно быстро получить общую картину, а потом уходить в детали.
Поэтому мы взяли конкретный продуктовый кейс по поиску точек роста в интернет магазине с последующим проведением АБ теста.
Слушатели считали экономику магазина, проводили сегментацию, рассчитывали воронки, интерпретировали ux метрики, анализировали дизайн основных страниц нашего учебного магазина, формировали гипотезы, дизайнили АБ тест, боролись с ошибками в данных и SRM, а после считали результат АБ теста и принимали решение стоит ли катить новый вариант.
Некоторые уроки получились достаточно объемные, я думал, что они будут меньше, поэтому многие не успели сделать все задания и я продлил срок приема заданий, чтобы участники могли доделать и получить обратную связь.
Также вскрылись моменты где стоит переработать логику подачи материала и некоторые моменты раскрыть более детально, поэтому с каждым потоком марафон будет апгрейдиться и становиться интереснее.
Мне понравился такой формат работы, было ощущение что пишу сценарий к фильму. Хочу еще раз сказать спасибо всем участникам первого потока.🫶
Провел первый поток марафона по АБ тестам. Идея марафона была в том чтобы за неделю человек, который никогда не делал АБ тесты смог бы пройти путь: поиск точки роста → формирование гипотез → дизайн АБ → валидация и анализ результата АБ теста.
При этом я не хотел чтобы этот тренинг превратился в курс по статистике, хотелось именно дать практику и погружение на простом примере. Т.к. я считаю, что на старте важно быстро получить общую картину, а потом уходить в детали.
Поэтому мы взяли конкретный продуктовый кейс по поиску точек роста в интернет магазине с последующим проведением АБ теста.
Слушатели считали экономику магазина, проводили сегментацию, рассчитывали воронки, интерпретировали ux метрики, анализировали дизайн основных страниц нашего учебного магазина, формировали гипотезы, дизайнили АБ тест, боролись с ошибками в данных и SRM, а после считали результат АБ теста и принимали решение стоит ли катить новый вариант.
Некоторые уроки получились достаточно объемные, я думал, что они будут меньше, поэтому многие не успели сделать все задания и я продлил срок приема заданий, чтобы участники могли доделать и получить обратную связь.
Также вскрылись моменты где стоит переработать логику подачи материала и некоторые моменты раскрыть более детально, поэтому с каждым потоком марафон будет апгрейдиться и становиться интереснее.
Мне понравился такой формат работы, было ощущение что пишу сценарий к фильму. Хочу еще раз сказать спасибо всем участникам первого потока.🫶
👍36🔥10👌1
3 признака, что у вас нет никакого data driven, а есть лишь фикция 😵💫
1. Отсутствие процесса контроля качества данных.
В компании много систем, они все имеют какую-то свою логику учета, между ними настроены потоки данных, куча скриптов, таблиц, дашбордов. Все это обязательно разойдется, не будет биться между собой, часть данных вообще потеряется.
Если у вас нет автоматизированной системы, которая контролирует полноту данных и сравнивает данные в разных системах, то скорее всего у вас уже есть серьезные расхождения и нет единой точки правды, тогда о каком data driven может идти речь?
2. Отсутствие методологии работы с данными и анализа
Начнем с того, что далеко не все знают, что такое пресловутый EDA, а просто верят данным, которые им поставляют системы, у которых нет контроля качества данных.
Другой вопрос это когда в компании есть какой-то регулярный аналитический процесс типа анализ трафика, анализ АБ тестов, анализ управленческой отчетности, но почему нигде нет описанной методологии как это должно делаться и каждый сотрудник может это делать своим уникальным образом.
По итогу одни и те же метрики в разных типовых анализах могут выглядеть по разному и не сходиться друг с другом.
3. Корпоративная культура
Питер Друкер сказал "корпоративная культура ест стратегию на завтрак", тоже самое можно сказать про data driven. "Корпоративная культура ест data driven на завтрак".
Если в компании декларируют, что у них data driven, а потом по результатам АБ теста "самый большой босс" может отправить результат красного АБ тест в продакшн, только потому что он его считает лучше, то этот культурный код будет считываться всеми в компании и data-driven будет только имитацией, а не культурным кодом компании.
1. Отсутствие процесса контроля качества данных.
В компании много систем, они все имеют какую-то свою логику учета, между ними настроены потоки данных, куча скриптов, таблиц, дашбордов. Все это обязательно разойдется, не будет биться между собой, часть данных вообще потеряется.
Если у вас нет автоматизированной системы, которая контролирует полноту данных и сравнивает данные в разных системах, то скорее всего у вас уже есть серьезные расхождения и нет единой точки правды, тогда о каком data driven может идти речь?
2. Отсутствие методологии работы с данными и анализа
Начнем с того, что далеко не все знают, что такое пресловутый EDA, а просто верят данным, которые им поставляют системы, у которых нет контроля качества данных.
Другой вопрос это когда в компании есть какой-то регулярный аналитический процесс типа анализ трафика, анализ АБ тестов, анализ управленческой отчетности, но почему нигде нет описанной методологии как это должно делаться и каждый сотрудник может это делать своим уникальным образом.
По итогу одни и те же метрики в разных типовых анализах могут выглядеть по разному и не сходиться друг с другом.
3. Корпоративная культура
Питер Друкер сказал "корпоративная культура ест стратегию на завтрак", тоже самое можно сказать про data driven. "Корпоративная культура ест data driven на завтрак".
Если в компании декларируют, что у них data driven, а потом по результатам АБ теста "самый большой босс" может отправить результат красного АБ тест в продакшн, только потому что он его считает лучше, то этот культурный код будет считываться всеми в компании и data-driven будет только имитацией, а не культурным кодом компании.
👍26💯9❤🔥7
Как часто вы используете ratio метрики в АБ тестах?
Anonymous Poll
12%
0%
5%
До 10% АБ
3%
До 20% АБ
5%
До 30% АБ
0%
До 40% АБ
5%
До 50% АБ
2%
До 70% АБ
4%
До 90% АБ
8%
100% АБ
56%
Смотреть результат
Комрады! Вопрос от подписчика. Как бы вы тут поступили и чтобы учли?✏️
мы решили внедрить ML по отбору аудитории для коммуникации
До этого отбором аудитории занимался заводящий кампаний менеджер (кампейнер)
Цель кампаний одна: чем выше конверсия в таргет, тем лучше
Цель исследования: доказать, что модель отбирает аудиторию лучше, что выражается в более высокой конверсии
Обеспечиваем сходство в том плане что одновременно, одинаковый продукт в одинаковых каналах, расположенных в одном и том же месте на экране.
Запускаем в параллель на срок, необходимый для рассчитанного mde, считаем в конверсии, видим прокрас.
Как я уже сказал ранее, очев, что выборки будут разные.
Получается, это как бы не АБ, но в то же время это вполне законное сравнение двух групп с помощью статистических методов, применяемых в АБ.
Верно?)
Есть ли у нас какие-то ограничения на сравнение стат методами из-за озвученной ранее не гомогенности?
Зимний туристический сезон объявляю открытым🔥
Вы как провели выходные?
Вы как провели выходные?
👍26🔥12❤5
👨🏻💻 Ошибки при оценке SRM
Я уже написал несколько постов про SRM, поэтому подробно рассказывать про это не буду. Сегодня поговорим про 2 ошибки при проверке выборок на дисбаланс.
Когда мы задали конфиг деления наблюдений в АБ тесте 50/50, то ожидаем, что получим близкое деление к запланированному. Проверить корректность деления можно при помощи стат. критерия хи2.
С одной стороны все просто, с другой как всегда есть нюансы. Сегодня поговорим про 2 ошибки, которые можно допустить при оценке SRM.
🛑 Выбор единицы анализа, вместо единицы рандомизации для оценки SRM
Зачастую сплитование происходит по пользователям, а для анализа результатов АБ теста иногда используют метрики посчитанные по сессиям.
Некоторые не задумываясь о различии пользователей и сессий, могут взять сессии для оценки SRM, но это не верно, т.к. сплитование происходило по пользователям, а сессия это некоторая производная от пользователя.
Различия в тестируемых вариантах может влиять на число сессий, которое сгенерирует пользователь в каждом из вариантов экспа, а значит такая сущность как сессия не подойдет для оценки SRM. Есть пример в этом посте
🛑 Оценка SRM по пользователям по дням
Берем каждый день всех пользователей попавших в эксперимент и оцениваем SRM. Тут хотя мы и берем в качестве анализа пользователя, но один и тот же пользователь мог возвращаться в разные дни, а возвращаемость это опять таки производная от пользователя.
На нее может воздействовать само экспериментальное изменение, т.е. даже при корректном сплите вы можете получить разную возвращаемость в группах.
Вы будете видеть дисбаланс при таком методе подсчета. Кроме этого важно помнить, что хи2 как и любой стат критерий имеет ошибку первого рода и чем больше сравнений вы сделаете тем больше вероятность допустить ошибку первого рода и найти дисбаланс там где его нет.
✅ Как проверять SRM?
1. Для оценки SRM нам важно брать в качестве наблюдений именно единицу рандомизации, т.е. если ваша сплит система делит по пользователям, то нам нужны id пользователей.
2. Учитывать каждое наблюдение (пользователя) нужно только 1 раз в выборке, независимо от того сколько раз он вернулся в продукт.
3. Производить подсчет SRM для АБ теста тоже желательно только 1 раз, чтобы держать ошибку первого рода в рамках альфы, либо применить какую-то поправку для корректировки альфы.
Я уже написал несколько постов про SRM, поэтому подробно рассказывать про это не буду. Сегодня поговорим про 2 ошибки при проверке выборок на дисбаланс.
Когда мы задали конфиг деления наблюдений в АБ тесте 50/50, то ожидаем, что получим близкое деление к запланированному. Проверить корректность деления можно при помощи стат. критерия хи2.
С одной стороны все просто, с другой как всегда есть нюансы. Сегодня поговорим про 2 ошибки, которые можно допустить при оценке SRM.
🛑 Выбор единицы анализа, вместо единицы рандомизации для оценки SRM
Зачастую сплитование происходит по пользователям, а для анализа результатов АБ теста иногда используют метрики посчитанные по сессиям.
Некоторые не задумываясь о различии пользователей и сессий, могут взять сессии для оценки SRM, но это не верно, т.к. сплитование происходило по пользователям, а сессия это некоторая производная от пользователя.
Различия в тестируемых вариантах может влиять на число сессий, которое сгенерирует пользователь в каждом из вариантов экспа, а значит такая сущность как сессия не подойдет для оценки SRM. Есть пример в этом посте
🛑 Оценка SRM по пользователям по дням
Берем каждый день всех пользователей попавших в эксперимент и оцениваем SRM. Тут хотя мы и берем в качестве анализа пользователя, но один и тот же пользователь мог возвращаться в разные дни, а возвращаемость это опять таки производная от пользователя.
На нее может воздействовать само экспериментальное изменение, т.е. даже при корректном сплите вы можете получить разную возвращаемость в группах.
Вы будете видеть дисбаланс при таком методе подсчета. Кроме этого важно помнить, что хи2 как и любой стат критерий имеет ошибку первого рода и чем больше сравнений вы сделаете тем больше вероятность допустить ошибку первого рода и найти дисбаланс там где его нет.
1. Для оценки SRM нам важно брать в качестве наблюдений именно единицу рандомизации, т.е. если ваша сплит система делит по пользователям, то нам нужны id пользователей.
2. Учитывать каждое наблюдение (пользователя) нужно только 1 раз в выборке, независимо от того сколько раз он вернулся в продукт.
3. Производить подсчет SRM для АБ теста тоже желательно только 1 раз, чтобы держать ошибку первого рода в рамках альфы, либо применить какую-то поправку для корректировки альфы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥3
Машина со сгоревшим сцеплением
Вы когда-нибудь ехали на машине со сгоревшим сцеплением? Вот вы едете по дороге, хотите ускориться, втыкаете передачу повыше, жмете газ в пол, мотор рычит, а машина еле-еле ускоряется.
Вот у меня последнее время какое-то такое ощущение. Что-то делаю, пытаюсь газовать по разным фронтам, вроде правильные действия делаю, а ускорения нет, как буд то что-то сломано. Кажется, что можно быстрее, выше, сильнее, есть потенциал, есть силы, но оно не работает😑 Бывало такое?
Вы когда-нибудь ехали на машине со сгоревшим сцеплением? Вот вы едете по дороге, хотите ускориться, втыкаете передачу повыше, жмете газ в пол, мотор рычит, а машина еле-еле ускоряется.
Вот у меня последнее время какое-то такое ощущение. Что-то делаю, пытаюсь газовать по разным фронтам, вроде правильные действия делаю, а ускорения нет, как буд то что-то сломано. Кажется, что можно быстрее, выше, сильнее, есть потенциал, есть силы, но оно не работает
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Можно ли получить отрицательный эффект после раскатки, если мы получили стат. значимый рост метрики в АБ?
Anonymous Poll
98%
да
2%
нет