На хабре вышла большая статья с подробным разбором нескольких стат. критериев:
- z-статистика
- t-статистика
- критерий хи-квадрат
- f-статистика
Она будет особенно полезна тем, кто использует эти критерии, не вникая с их суть.
- z-статистика
- t-статистика
- критерий хи-квадрат
- f-статистика
Она будет особенно полезна тем, кто использует эти критерии, не вникая с их суть.
Хабр
Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез
Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой...
🔥16👍3
Несколько дней назад коллега из Сбермаркета написал статью по работе с Ratio-метриками в AB-тестах. В ней предлагается использовать линеаризацию.
Почему это интересно. Потому что у наших любимых бутстрапа и дельта-метода тоже есть как сильные, так и слабые стороны. Плюс дополнительный метод точно будет полезен.
И еще прикладываю несколько материалов на тему дельта-метода и ratio-метрик:
- раз
- два
- три
- четыре
- пять
Почему это интересно. Потому что у наших любимых бутстрапа и дельта-метода тоже есть как сильные, так и слабые стороны. Плюс дополнительный метод точно будет полезен.
И еще прикладываю несколько материалов на тему дельта-метода и ratio-метрик:
- раз
- два
- три
- четыре
- пять
Хабр
Линеаризация: зачем и как укрощать ratio-метрики в A/B-тестах
Привет, Хабр! В прошлой статье я указал, что в A/B-тестах используются три основных типа метрик, а именно пользовательские конверсии , средние метрики пользователей и ratio-метрики . К последним...
🔥13👍3
Если вдруг кто-то пропустил митап от EXPF, запись здесь.
Темы:
- Как из подручных средств организовать процесс А/В тестирования
- Критерии валидности АБ-тестов
- Поиск Эффективных Прокси-Метрик
- Сбор качественных данных для проведения А/Б тестов
Темы:
- Как из подручных средств организовать процесс А/В тестирования
- Критерии валидности АБ-тестов
- Поиск Эффективных Прокси-Метрик
- Сбор качественных данных для проведения А/Б тестов
YouTube
Митап EXPF x DataGo!
Программа
18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, OKKO
18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет
19:00 – 19:30 Поиск Эффективных…
18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, OKKO
18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет
19:00 – 19:30 Поиск Эффективных…
🔥10❤2
Тут очень интересный доклад легендарного в некоторых кругах Анатолия Карпова про оценку продолжительности АБ-теста. Это одна из самых интересных и проблемных вопросов при проведении экспериментов. Внутри подглядывание, т-тесты, mde, fixed horizon.
Отдельно рекомендую к просмотру раздел со штрафами за подглядывание - менеджерам может понравиться...
Статья EXPF, о которой говорит Анатолий, здесь.
Отдельно рекомендую к просмотру раздел со штрафами за подглядывание - менеджерам может понравиться...
Статья EXPF, о которой говорит Анатолий, здесь.
YouTube
Анатолий Карпов, «Методы оценки размера выборки в А/Б-тестах. От размера эффекта до симуляций»
Анатолий Карповm, СЕО Karpov.Courses
Kolesa Conf 2022, 8 октября
Описание доклада:
Уметь отвечать на вопрос «Как долго должен идти А/Б-тест?» — важнейший навык аналитика. Если вы запускаете А/Б-тест на глазок, будьте готовы, что вас ждёт множество проблем:…
Kolesa Conf 2022, 8 октября
Описание доклада:
Уметь отвечать на вопрос «Как долго должен идти А/Б-тест?» — важнейший навык аналитика. Если вы запускаете А/Б-тест на глазок, будьте готовы, что вас ждёт множество проблем:…
Интересный разговор Александра Игнатенко (телеграм-канал Модель атрибуции) и Виталия Черемисинова (EXPF) про:
- альтернативы закрывшемуся Google Optimize
- особенности интерфейса GA4
- внедрение Сигмы от EXPF
- метрики экспериментов
- распространенные ошибки в командах, работающих с АБ-тестами
- нужно ли очень глубоко закапываться в исследования данных при АБ-тестах
- прочие важные вопросы про АБ-тесты и эксперименты от зрителей стрима
Незаслуженно мало просмотров у ролика как-то.
- альтернативы закрывшемуся Google Optimize
- особенности интерфейса GA4
- внедрение Сигмы от EXPF
- метрики экспериментов
- распространенные ошибки в командах, работающих с АБ-тестами
- нужно ли очень глубоко закапываться в исследования данных при АБ-тестах
- прочие важные вопросы про АБ-тесты и эксперименты от зрителей стрима
Незаслуженно мало просмотров у ролика как-то.
YouTube
Есть ли жизнь после Оптимайза?
Запись стрима о том, как, где и каким способом проводить AB-тесты после заката Google Optimize. И не только об этом.
Участники:
Александр Игнатенко, эксперт по маркетинг-аналитике, автор телеграм-канала «Модель атрибуции» - https://bit.ly/3uMhmZo
Виталий…
Участники:
Александр Игнатенко, эксперт по маркетинг-аналитике, автор телеграм-канала «Модель атрибуции» - https://bit.ly/3uMhmZo
Виталий…
👍5
Сбермаркет в новой статье рассказывает, как в своей платформе (да, я снова про платформу) АБ-тестов проверяет АБ-тесты на валидность.
Хабр
Как оценить валидность A/B-тестов. SRM и другие критерии
Привет! Меня зовут Полина, я руковожу A/B‑платформой в СберМаркете. В этой статье я расскажу о нескольких нюансах экспериментирования, которые возникают на разных этапах: от дизайна и сплитования до...
❤2
Тем, кто начинает заниматься АБ-тестами, часто кажется, что самое главное - делить на группы, считать pvalue, выбирать стат. Критерий. Но это не так.
На AHA сейчас идёт мастер-класс, на котором наши коллега из Самокат Тех разбирает дизайн АБ-теста со своего конкурса.
Для тех, кто не очень понимает, с чего начинается эксперимент, рекомендую.
На AHA сейчас идёт мастер-класс, на котором наши коллега из Самокат Тех разбирает дизайн АБ-теста со своего конкурса.
Для тех, кто не очень понимает, с чего начинается эксперимент, рекомендую.
👍7
Посматриваю на досуге AHA, ММ. И тут прекрасные доклады - casual impact, сетевые эффекты, использование ml, повышение чувствительности и прочие. Наивному зрителю может показаться, что все вокруг проводят АБ-тесты и прямо мастера.
К сожалению, опыт и общение с коллегами из других компаний рисуют альтернативную действительность - зачастую отсутствует культура проведения АБ-тестов, просто непонимание, как это работает. Из-за этого результаты получаются не такие, как ожидалось. А на словах зато прекрасно звучит "мы проводим эксперименты".
Простые примеры:
- мы раскатили эксперимент на 100%, после посмотрим когортно
- вчера запустили, давай завтра посмотрим промежуточные результаты, сверху просят
- планируем сделать 12/20/30/100500 тестовых вариантов
- запустим, а потом посмотрим, какие метрики нам выбрать
- не знаю, на сколько планируем увеличить метрики - посчитаем и решим, достаточно ли
- а зачем присваивать пользователям эксперимента метки, оно само не прорастет?
- почему не выросла конверсия? она же выросла на 0,003%
- да, мы не получим стат. значимых результатов, но давай проведем - начальство просит
- да, не получили, раскатываем на всех пользователей - начальство решило
Оттого страннее о таком слышать, что сейчас куча доступных, при этом бесплатных материалов, в которых детально разжевывается, как делать надо, а как не надо.
Гугл сломался, чатгпт, видимо, тоже? Впрочем, вопрос скорее риторический.
А то, что за пределами одних и тех же топ- мега- элитных- технологических компаний, представителей которых мы слышим на конференциях раз за разом, уровень культуры проведения АБ-тестов невысокий - очень печально.
Добавляю картинку, сгенерированную по тексту "неудачный аб-тест".
Всем хорошего понедельника.
К сожалению, опыт и общение с коллегами из других компаний рисуют альтернативную действительность - зачастую отсутствует культура проведения АБ-тестов, просто непонимание, как это работает. Из-за этого результаты получаются не такие, как ожидалось. А на словах зато прекрасно звучит "мы проводим эксперименты".
Простые примеры:
- мы раскатили эксперимент на 100%, после посмотрим когортно
- вчера запустили, давай завтра посмотрим промежуточные результаты, сверху просят
- планируем сделать 12/20/30/100500 тестовых вариантов
- запустим, а потом посмотрим, какие метрики нам выбрать
- не знаю, на сколько планируем увеличить метрики - посчитаем и решим, достаточно ли
- а зачем присваивать пользователям эксперимента метки, оно само не прорастет?
- почему не выросла конверсия? она же выросла на 0,003%
- да, мы не получим стат. значимых результатов, но давай проведем - начальство просит
- да, не получили, раскатываем на всех пользователей - начальство решило
Оттого страннее о таком слышать, что сейчас куча доступных, при этом бесплатных материалов, в которых детально разжевывается, как делать надо, а как не надо.
Гугл сломался, чатгпт, видимо, тоже? Впрочем, вопрос скорее риторический.
А то, что за пределами одних и тех же топ- мега- элитных- технологических компаний, представителей которых мы слышим на конференциях раз за разом, уровень культуры проведения АБ-тестов невысокий - очень печально.
Добавляю картинку, сгенерированную по тексту "неудачный аб-тест".
Всем хорошего понедельника.
👍15
Можно не беспокоиться, я не впал в летаргический сон. Жив, относительно здоров.
Тут появилась новая статья по бутстрапу. Смотрим теорию, кодим на питоне, ищем (и, к сожалению, находим) слабые места.
Также прикладываю список материалов по бутстрапу, что у меня есть:
- Статья Бутстрап, или прикладная статистика почти без формул
- Лекция EXPF
- Статья Использование бутстрапа
- Бутстреп и А/Б тестирование
- Большой подробный гайд про то как работает бутстрап
- Пуассоновский бутстрап
- Статья Бутстреп и А/Б тестирование
- Вебинар Анатолия Карпова Bootstrap VS t - test
Мой код на гитхаб для расчета бустрапа и децильного бутстрапа
Бутстрап, как метод анализа АБ-тестов, по моему скромному мнению, прекрасен, имеет минимум ограничений. При этом не то, чтобы часто слышу, что "мы его используем часто, почти постоянно". А жаль.
Тут появилась новая статья по бутстрапу. Смотрим теорию, кодим на питоне, ищем (и, к сожалению, находим) слабые места.
Также прикладываю список материалов по бутстрапу, что у меня есть:
- Статья Бутстрап, или прикладная статистика почти без формул
- Лекция EXPF
- Статья Использование бутстрапа
- Бутстреп и А/Б тестирование
- Большой подробный гайд про то как работает бутстрап
- Пуассоновский бутстрап
- Статья Бутстреп и А/Б тестирование
- Вебинар Анатолия Карпова Bootstrap VS t - test
Мой код на гитхаб для расчета бустрапа и децильного бутстрапа
Бутстрап, как метод анализа АБ-тестов, по моему скромному мнению, прекрасен, имеет минимум ограничений. При этом не то, чтобы часто слышу, что "мы его используем часто, почти постоянно". А жаль.
Хабр
Бутстрап и доверительные интервалы: от теории к практике на Python
Введение Применение Ограничения Схема бутстрапа Эфронов доверительный интервал Доверительный интервал Холла t-процентильный доверительный интервал Реализация на Python Проблемы Примечания Введение...
👍7🔥3❤1
Как перестать тестировать гипотезы, взятые с потолка? Делать это быстрее.
Не благодарите.
Не благодарите.
👍7💩4😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Приготовьтесь, нас снова посчитают.
New HR проводит очередное исследование рынка аналитиков. Предыдущее выходило в 2023 году, результаты можно найти здесь. Также у них куча других исследований на айтишные темы.
Что будет в исследовании:
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удаленка/офис), какие планы на трудоустройство.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
В течение октября можно пройти опрос, результаты текущего исследования выйдут в начале 2025 года.
Если хочешь знать, что происходит на рынке дата-, bi-, веб-, маркетинговых, продуктовых аналитиков и хочешь, чтобы эти данные были репрезентативными, просто пройди этот опрос. Без тебя никак.
Ссылочка на опросник тут
New HR проводит очередное исследование рынка аналитиков. Предыдущее выходило в 2023 году, результаты можно найти здесь. Также у них куча других исследований на айтишные темы.
Что будет в исследовании:
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удаленка/офис), какие планы на трудоустройство.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
В течение октября можно пройти опрос, результаты текущего исследования выйдут в начале 2025 года.
Если хочешь знать, что происходит на рынке дата-, bi-, веб-, маркетинговых, продуктовых аналитиков и хочешь, чтобы эти данные были репрезентативными, просто пройди этот опрос. Без тебя никак.
Ссылочка на опросник тут
👍3
Яндекс сообщает, что АБ-тесты в Яндекс Директе теперь доступны. Теперь все настройки и отчеты находятся непосредственно в Директе. Говорят, теперь станет удобнее.
Справка.
Справка.
yandex.ru
A/B-эксперименты |
Шаг 1. Сформулируйте гипотезу.
👍2
Классическая проблема - провели кучу АБ-тестов, многие со стат. значимым успехом, а после раскатки на 100% эффект уже и не сильно заметет. Статья о причинах и возможных решениях.
Medium
Why the uplift in A/B tests often differs from real-world results
Explore why the uplift seen in A/B tests often differs from real-world outcomes, and get insights on how to manage expectations…
Возвращаюсь, посмотрев очередной митап про АБ-тесты. Все не могу понять, что появилось раньше - АБ-тесты или платформы для их проведения.
Рекомендую к просмотру - очень интересно.
Рекомендую к просмотру - очень интересно.
YouTube
A/B Platform Meetup | SberMarket Tech
Митап про А/В-платформы, тесты и процессы, с этим связанные.
Вас ждут доклады спикеров из EXPF, СберМаркета и Авито.
4:57 «Система автоматического расчёта А/В тестов в СберМаркете»
Рамиль Чермантеев — руководитель команды аналитиков-инженеров платформы…
Вас ждут доклады спикеров из EXPF, СберМаркета и Авито.
4:57 «Система автоматического расчёта А/В тестов в СберМаркете»
Рамиль Чермантеев — руководитель команды аналитиков-инженеров платформы…
🔥4
Интересную тему затрагивает автор статьи - мониторить распределение пользователей между вариантами АБ-теста.
Проблема не так тривиальна, как может показаться. Если деление отличается от запланированного, да еще и неравномерно по дням или сегментам, это может привести к плачевным результатам.
У меня было такое, что у старух пользователей деление было такое, как настроено, а у новых оно мало того, что отличалось, так еще и имело изменяющийся тренд по дням. Из-за этого из анализа новых пользователей приходилось убирать. А смотреть за этим начал, обнаружив "странные" результаты.
Если подняться на уровень выше, контроль системы сплитования - одна из важнейших атрибутов успешного АБ-тестирования.
Проблема не так тривиальна, как может показаться. Если деление отличается от запланированного, да еще и неравномерно по дням или сегментам, это может привести к плачевным результатам.
У меня было такое, что у старух пользователей деление было такое, как настроено, а у новых оно мало того, что отличалось, так еще и имело изменяющийся тренд по дням. Из-за этого из анализа новых пользователей приходилось убирать. А смотреть за этим начал, обнаружив "странные" результаты.
Если подняться на уровень выше, контроль системы сплитования - одна из важнейших атрибутов успешного АБ-тестирования.
Хабр
Как Sample Ratio Mismatch спасает A/B тесты от ложных выводов
Если вы когда-либо работали с A/B тестированием, то знаете, что этот процесс не всегда идет гладко. Казалось бы, что тут может быть сложного? Разделили аудиторию, дали половине синюю кнопку, половине...
👍6
Некоторое время назад участвовал в одном мероприятии и мне задали вопрос про необходимость собственной платформы для проведения АБ-тестов. Сначала я удивился, ведь собственные платформы создают немногие компании, и только в том случае, если это действительно необходимо. Это достаточно трудны, болезненный и долгий путь.
Причина, по моему мнению, как раз в "лидерах рынка". Это крупные it-компании, которые много рассказывают о том, как проводят АБ-тесты, как они пришли к созданию платформ, какие проблемы встретили по пути. Они находятся на острие технологий и дают всем нам кучу информации о том, как все это правильно делать. И, когда слушаешь-смотришь все это, иногда может показаться, что "все давно проводят 100500 экспериментов в наносекунду, у всех есть свои платформы".
В действительности это, конечно, не так - АБ-тесты проводят далеко не все, кому это нужно, многие это делают с помощью достаточно простых инструментов, а собственные полноценно функционирующие платформы используются очень немногими компаниями.
А тем, кто только заходит на территорию экспериментов, совершенно не нужно бросаться писать свою платформу. Очень даже сгодятся все те же известные инструменты - Optimizely, VWO, Firebase Гугла, Sigma от EXPF, Varioqub Яндекса и другие. Жаль, что закончился Google Optimize - прекрасная была штуковина.
Можно также воспользоваться и своими разработчиками, чтобы написать т.н. "сплитовалку" - инструмент деления пользователей. Это, возможно, главное, что требуется - правильно поделить. А посчитать и интерпретировать результаты - значительно проще.
Причина, по моему мнению, как раз в "лидерах рынка". Это крупные it-компании, которые много рассказывают о том, как проводят АБ-тесты, как они пришли к созданию платформ, какие проблемы встретили по пути. Они находятся на острие технологий и дают всем нам кучу информации о том, как все это правильно делать. И, когда слушаешь-смотришь все это, иногда может показаться, что "все давно проводят 100500 экспериментов в наносекунду, у всех есть свои платформы".
В действительности это, конечно, не так - АБ-тесты проводят далеко не все, кому это нужно, многие это делают с помощью достаточно простых инструментов, а собственные полноценно функционирующие платформы используются очень немногими компаниями.
А тем, кто только заходит на территорию экспериментов, совершенно не нужно бросаться писать свою платформу. Очень даже сгодятся все те же известные инструменты - Optimizely, VWO, Firebase Гугла, Sigma от EXPF, Varioqub Яндекса и другие. Жаль, что закончился Google Optimize - прекрасная была штуковина.
Можно также воспользоваться и своими разработчиками, чтобы написать т.н. "сплитовалку" - инструмент деления пользователей. Это, возможно, главное, что требуется - правильно поделить. А посчитать и интерпретировать результаты - значительно проще.
👍9
Мы же все еще считаем себя сильными и уверенными в себе, поэтому катим фичи без АБ-теста. Еще один материал в копилку на тему "как посчитать эффект без АБ".
Хабр
Causal Inference методы на практике
Обычно, когда возникает необходимость оценить эффект от продуктовой фичи, аналитики проверяют гипотезы через A/B эксперименты. Но иногда запустить эксперимент нет возможности, а оценить эффект все еще...
👍7
А тут немного скептики по отношению к экспериментам.
Мое любимое: экспертиза + интуиция - смешать, но не взбалтывать.
Истина же, скорее всего, кроется в разумном и рациональном применении любого инструмента, будь то, АБ-тест, айфон, нож или молоток.
Мое любимое: экспертиза + интуиция - смешать, но не взбалтывать.
Истина же, скорее всего, кроется в разумном и рациональном применении любого инструмента, будь то, АБ-тест, айфон, нож или молоток.
Medium
The A/B Testing Delusion: Why Major Tech Companies Are Moving Away from Over-Testing
“A/B Testing is moving the responsibility to the user,” Brian Chesky of Airbnb recently declared. This wasn’t just another tech leader…
👍7
Нам же всем хочется, чтобы АБ-тесты проходили быстрее без роста вероятности ошибок первого и второго рода. В этом может помочь последовательное тестирование. Оговорюсь сразу, что светила отрасли говорят, что "лучше по классике".
Основная идея последовательного тестирования — возможность более ранней остановки АБ-теста с помощью регулярного расчета метрики, а не в конце, когда набрали необходимое количество пользователей. Используют, как правило для частотных метрик.
Похоже на подглядывание (которое мы очень не любим), но немного иначе: при тех же порогах pvalue и мощности (обычно 0.05 и 0.8) по особой формуле рассчитываем, набрали мы или нет, определенное количество конверсий в тестовом и контрольном вариантах. Таким образом, последовательное тестирование решает проблему подглядывания.
Самый простой метод описан у Эвана Миллера, у него же есть и калькулятор. Мне не очень нравится отсылка к «случайной прогулке», ну ладно, сейчас не так важно.
Также о сущности методов можно почитать здесь, здесь и здесь. А тут автор делает небольшое сравнение разных подходов к последовательному тестированию.
Разные компании используют разные методики последовательного тестирования, основных несколько: mSPRT, GST, GAVI, CAA, Naive.
➡️ Spotify и Uber использует метод групповых последовательных тестов (GST).
➡️ В Statig - частотное последовательное тестирование, статья-основа здесь.
➡️ Netflix - mSPRT, раз и два.
Основная идея последовательного тестирования — возможность более ранней остановки АБ-теста с помощью регулярного расчета метрики, а не в конце, когда набрали необходимое количество пользователей. Используют, как правило для частотных метрик.
Похоже на подглядывание (которое мы очень не любим), но немного иначе: при тех же порогах pvalue и мощности (обычно 0.05 и 0.8) по особой формуле рассчитываем, набрали мы или нет, определенное количество конверсий в тестовом и контрольном вариантах. Таким образом, последовательное тестирование решает проблему подглядывания.
Самый простой метод описан у Эвана Миллера, у него же есть и калькулятор. Мне не очень нравится отсылка к «случайной прогулке», ну ладно, сейчас не так важно.
Также о сущности методов можно почитать здесь, здесь и здесь. А тут автор делает небольшое сравнение разных подходов к последовательному тестированию.
Разные компании используют разные методики последовательного тестирования, основных несколько: mSPRT, GST, GAVI, CAA, Naive.
➡️ Spotify и Uber использует метод групповых последовательных тестов (GST).
➡️ В Statig - частотное последовательное тестирование, статья-основа здесь.
➡️ Netflix - mSPRT, раз и два.
www.evanmiller.org
Simple Sequential A/B Testing – Evan Miller
👍11
Продолжаем про экзотические методы тестирования гипотез. Классическая история - выкатили фичу без АБ, и нужно посчитать эффекты. Возможно, сразу вспомним про Causal Impact. Который поможет посчитать эффекты, но с некоторыми значительными допущениями, одно из них - предположение, что, кроме нашей новой фичи, больше ничто не оказывало значительное влияние.
Такое самое узкое место. Есть и другие. Это не блокирует использование метода, просто нужно держать в голове и плюсы, и минусы.
В статье описываются и другие методы поиска причинно-следственных связей в отсутствии АБ-теста.
А здесь видео с подробным разбором работы Causal Impact. Наглядную картинку использую отсюда. Если не ошибаюсь, на AHA в прошлом году Дмитрий выступал с докладом на эту тему.
Такое самое узкое место. Есть и другие. Это не блокирует использование метода, просто нужно держать в голове и плюсы, и минусы.
В статье описываются и другие методы поиска причинно-следственных связей в отсутствии АБ-теста.
А здесь видео с подробным разбором работы Causal Impact. Наглядную картинку использую отсюда. Если не ошибаюсь, на AHA в прошлом году Дмитрий выступал с докладом на эту тему.
🔥4👍1