Мы же все еще считаем себя сильными и уверенными в себе, поэтому катим фичи без АБ-теста. Еще один материал в копилку на тему "как посчитать эффект без АБ".
Хабр
Causal Inference методы на практике
Обычно, когда возникает необходимость оценить эффект от продуктовой фичи, аналитики проверяют гипотезы через A/B эксперименты. Но иногда запустить эксперимент нет возможности, а оценить эффект все еще...
👍7
А тут немного скептики по отношению к экспериментам.
Мое любимое: экспертиза + интуиция - смешать, но не взбалтывать.
Истина же, скорее всего, кроется в разумном и рациональном применении любого инструмента, будь то, АБ-тест, айфон, нож или молоток.
Мое любимое: экспертиза + интуиция - смешать, но не взбалтывать.
Истина же, скорее всего, кроется в разумном и рациональном применении любого инструмента, будь то, АБ-тест, айфон, нож или молоток.
Medium
The A/B Testing Delusion: Why Major Tech Companies Are Moving Away from Over-Testing
“A/B Testing is moving the responsibility to the user,” Brian Chesky of Airbnb recently declared. This wasn’t just another tech leader…
👍7
Нам же всем хочется, чтобы АБ-тесты проходили быстрее без роста вероятности ошибок первого и второго рода. В этом может помочь последовательное тестирование. Оговорюсь сразу, что светила отрасли говорят, что "лучше по классике".
Основная идея последовательного тестирования — возможность более ранней остановки АБ-теста с помощью регулярного расчета метрики, а не в конце, когда набрали необходимое количество пользователей. Используют, как правило для частотных метрик.
Похоже на подглядывание (которое мы очень не любим), но немного иначе: при тех же порогах pvalue и мощности (обычно 0.05 и 0.8) по особой формуле рассчитываем, набрали мы или нет, определенное количество конверсий в тестовом и контрольном вариантах. Таким образом, последовательное тестирование решает проблему подглядывания.
Самый простой метод описан у Эвана Миллера, у него же есть и калькулятор. Мне не очень нравится отсылка к «случайной прогулке», ну ладно, сейчас не так важно.
Также о сущности методов можно почитать здесь, здесь и здесь. А тут автор делает небольшое сравнение разных подходов к последовательному тестированию.
Разные компании используют разные методики последовательного тестирования, основных несколько: mSPRT, GST, GAVI, CAA, Naive.
➡️ Spotify и Uber использует метод групповых последовательных тестов (GST).
➡️ В Statig - частотное последовательное тестирование, статья-основа здесь.
➡️ Netflix - mSPRT, раз и два.
Основная идея последовательного тестирования — возможность более ранней остановки АБ-теста с помощью регулярного расчета метрики, а не в конце, когда набрали необходимое количество пользователей. Используют, как правило для частотных метрик.
Похоже на подглядывание (которое мы очень не любим), но немного иначе: при тех же порогах pvalue и мощности (обычно 0.05 и 0.8) по особой формуле рассчитываем, набрали мы или нет, определенное количество конверсий в тестовом и контрольном вариантах. Таким образом, последовательное тестирование решает проблему подглядывания.
Самый простой метод описан у Эвана Миллера, у него же есть и калькулятор. Мне не очень нравится отсылка к «случайной прогулке», ну ладно, сейчас не так важно.
Также о сущности методов можно почитать здесь, здесь и здесь. А тут автор делает небольшое сравнение разных подходов к последовательному тестированию.
Разные компании используют разные методики последовательного тестирования, основных несколько: mSPRT, GST, GAVI, CAA, Naive.
➡️ Spotify и Uber использует метод групповых последовательных тестов (GST).
➡️ В Statig - частотное последовательное тестирование, статья-основа здесь.
➡️ Netflix - mSPRT, раз и два.
www.evanmiller.org
Simple Sequential A/B Testing – Evan Miller
👍11
Продолжаем про экзотические методы тестирования гипотез. Классическая история - выкатили фичу без АБ, и нужно посчитать эффекты. Возможно, сразу вспомним про Causal Impact. Который поможет посчитать эффекты, но с некоторыми значительными допущениями, одно из них - предположение, что, кроме нашей новой фичи, больше ничто не оказывало значительное влияние.
Такое самое узкое место. Есть и другие. Это не блокирует использование метода, просто нужно держать в голове и плюсы, и минусы.
В статье описываются и другие методы поиска причинно-следственных связей в отсутствии АБ-теста.
А здесь видео с подробным разбором работы Causal Impact. Наглядную картинку использую отсюда. Если не ошибаюсь, на AHA в прошлом году Дмитрий выступал с докладом на эту тему.
Такое самое узкое место. Есть и другие. Это не блокирует использование метода, просто нужно держать в голове и плюсы, и минусы.
В статье описываются и другие методы поиска причинно-следственных связей в отсутствии АБ-теста.
А здесь видео с подробным разбором работы Causal Impact. Наглядную картинку использую отсюда. Если не ошибаюсь, на AHA в прошлом году Дмитрий выступал с докладом на эту тему.
🔥4👍1
Мы сильно любим бутстрап. Есть нюанс его применения в ratio-метриках, такой вариант называется "парным бутстрапом".
Суть состоит в том, что, когда мы формируем подвыборку, берем "пару" чисел сразу - и X и Y.
Например, у нас CTR - 10 показов (X) и 2 клика (Y) у одного измерения. В этом случае берем и 10, и 2.
Собственно, все. Не супер что-то новое, просто этот важный нюанс не нужно забывать. А, как мы знаем, иногда решают именно мелочи.
Суть состоит в том, что, когда мы формируем подвыборку, берем "пару" чисел сразу - и X и Y.
Например, у нас CTR - 10 показов (X) и 2 клика (Y) у одного измерения. В этом случае берем и 10, и 2.
Собственно, все. Не супер что-то новое, просто этот важный нюанс не нужно забывать. А, как мы знаем, иногда решают именно мелочи.
👍8
И запись митапа HH. Куча полезной прикладной информации
YouTube
Это не A/B-митап от hh.ru, а находка какая-то!
На митапе ты узнаешь, как Process mining может улучшить принятие решений в A/B-тестах, анализируя поведение пользователей и выявляя закономерности. Посмотришь на опыт построения надежного пайплайна для расчета ETL в A/B-тестах, что поможет избежать ошибок…
❤4
Немного про результаты нашего АБ-теста. Бывает такое, что получили какой-то результат. Например, наши метрики прокрасились, p-value < 0.05, все гладко, открываем шампанское, выписываем себе премию.
Часто у нас много дел, АБ-тесты и прочие важные вещи идут потоком и мы не погружаемся, за счет чего получили те или иные результаты. Так ведь, наверное, ни к чему - все же удачно. Да и дел много других.
А, тоже может быть, наш результат был получен за счет небольшой группы пользователей, небольшой группы товаров, одного большого региона - в общем одного сравнительно небольшого сегмента.
Если бы у нас было время поисследовать, разложить воронку на составляющие, изучить пути пользователей, срезы пользователей, мы могли выяснить, что наша новая фича повлияла сильно не на всех. Если бы мы это знали, решение по результатам могло быть совсем другим. Но, ведь нам некогда, нужно скорее решить, катить или нет, нужно отчитаться наверх, что все получилось.
А потом, когда мы смотрим на историю успешных АБ-тестов, они должны были увеличить наши ключевые метрики на 100500 - 100600%, а выходит с гулькин нос, или вообще не растет.
В общем, все идеально, но есть нюанс. Возможно, стоит бежать чуть медленнее, чтобы успевать понимать, почему наши АБ-тесты успешны или неуспешны. Удачи...
Часто у нас много дел, АБ-тесты и прочие важные вещи идут потоком и мы не погружаемся, за счет чего получили те или иные результаты. Так ведь, наверное, ни к чему - все же удачно. Да и дел много других.
А, тоже может быть, наш результат был получен за счет небольшой группы пользователей, небольшой группы товаров, одного большого региона - в общем одного сравнительно небольшого сегмента.
Если бы у нас было время поисследовать, разложить воронку на составляющие, изучить пути пользователей, срезы пользователей, мы могли выяснить, что наша новая фича повлияла сильно не на всех. Если бы мы это знали, решение по результатам могло быть совсем другим. Но, ведь нам некогда, нужно скорее решить, катить или нет, нужно отчитаться наверх, что все получилось.
А потом, когда мы смотрим на историю успешных АБ-тестов, они должны были увеличить наши ключевые метрики на 100500 - 100600%, а выходит с гулькин нос, или вообще не растет.
В общем, все идеально, но есть нюанс. Возможно, стоит бежать чуть медленнее, чтобы успевать понимать, почему наши АБ-тесты успешны или неуспешны. Удачи...
❤13
Просматривая на выходных старые закладки, нашел две статьи в Медиуме от 2014 годя о том, как Airbnb проводит АБ-тесты. Раз и два.
Там плюс-минус то, что мы знаем и делаем. Важно, что этим статьям 11 лет, а методология в компании была разработана еще раньше.
При этом, все еще частенько приходится менеджерам объяснять, доказывать необходимость проведения АБ-тестов, чтобы проверить эту всю экспертность, чуйки, опыт и прочее.
Там плюс-минус то, что мы знаем и делаем. Важно, что этим статьям 11 лет, а методология в компании была разработана еще раньше.
При этом, все еще частенько приходится менеджерам объяснять, доказывать необходимость проведения АБ-тестов, чтобы проверить эту всю экспертность, чуйки, опыт и прочее.
Medium
Experiments at Airbnb
Airbnb is an online two-sided marketplace that matches people who rent out their homes (‘hosts’) with people who are looking for a place to stay (‘guests’). We use controlled experiments to learn and…
👍4
Байесовское АБ-тестирование часто встречаю в статьях, но, насколько понимаю, его используют немногие. Тем, кто хочет быстро оценить как это работает и помоделировать, поможет эта статья - тут общее описание, калькуляция, код.
Хабр
Байесовская оценка А/Б-тестов
Описана механика А/Б-тестов. Рассмотрены примеры байесовского моделирования. Байесовская оценка применена к сравнению конверсий, средних с помощью центральной предельной теоремы, выручки на...
👍6
О бедном т-тесте замолвите слово. Подробный разбор метода, в том числе "легендарное" требование нормальности распределения для использования т-теста.
YouTube
Мифы и заблуждения про t-тест (t-критерий Стюдента, t-критерий Уэлча)
Многие уверены, что знают, как проводить t-тест, но на деле допускают однотипные ошибки. Преподаватель karpov.cоurses Александр Сахнов на примерах разбирает типичные заблуждения о t-тесте и показывает, как правильно работать с самым популярным статистическим…
👍7
Снова возвращаюсь к тому, что 10% успешных АБ-тестов считается нормой. Уже говорил, что в таком случае эксперименты становятся вместо инструмента тестирований гипотез инструментом оценки качества гипотез. Иногда некоторые компании рассказываю, что у них показатель успешных достигает 20-25%. Снимаю шляпу в таких случаях.
Качество гипотез страдает часто из-за отсутствия системности в работе с гипотезами, да и продуктами в целом. К сожалению, приходилось такое наблюдать. При этом, даже прохождение нашей гипотезы через простой чек-лист поможет откинуть большое количество мусора и сэкономить кучу времени и денег. Такие тоже встречал.
Итак, простой чек-лист. Гипотеза должна быть:
✅ Тестируема. У нас есть возможности протестировать данную гипотезу.
✅ Решает конкретную проблему. Гипотеза помогает решить заранее определенную и конкретную проблему.
✅ Есть набор изменений. Мы определили, какие изменения нужно внести, чтобы протестировать данную гипотезу.
✅ Есть обоснование. Мы можем обосновать, за счет чего и почему решение может решить проблему. Хорошая гипотеза сможет пройти допрос с пристрастием и ответить на вопросы типа «а с чего ты взял, что это поможет», «за счет чего метрика увеличится настолько». Необходимо, чтобы обоснование было подкреплено фактами, числами, а не фантазиями и чуйками, типа «я уверен в этом, зуб даю». Не нужно никому давать свой зуб, лучше показать чиселки.
✅ Измерима, выбраны метрики. Мы понимаем, как измерить эффект, выбрали метрики, изменение которых поможет нам понять, решается проблема или нет.
✅ Определены ожидаемые величины изменения метрик. Нежелательно запускать эксперимент, не предполагая, на какую величину может увеличиться метрика.
✅ Эта гипотеза — часть цепочки среди других гипотез. Гипотеза не должна существовать в вакууме отдельно от других гипотез. У нас есть понимание, что будет происходить в зависимости от результатов конкретного теста. Исследование текущей гипотезы должно вести к следующей и т.д. (в этом месте гуглим про цикл HADI)
✅ Есть полные текущие данные (количественные и качественные). Мы можем собрать текущие данные (просмотры, события и проч.) по метрикам, которые будем наблюдать при проведении АБ теста.
✅ Ведет к дополнительному знанию. В результате теста мы получим какую-то новую информацию.
Качество гипотез страдает часто из-за отсутствия системности в работе с гипотезами, да и продуктами в целом. К сожалению, приходилось такое наблюдать. При этом, даже прохождение нашей гипотезы через простой чек-лист поможет откинуть большое количество мусора и сэкономить кучу времени и денег. Такие тоже встречал.
Итак, простой чек-лист. Гипотеза должна быть:
✅ Тестируема. У нас есть возможности протестировать данную гипотезу.
✅ Решает конкретную проблему. Гипотеза помогает решить заранее определенную и конкретную проблему.
✅ Есть набор изменений. Мы определили, какие изменения нужно внести, чтобы протестировать данную гипотезу.
✅ Есть обоснование. Мы можем обосновать, за счет чего и почему решение может решить проблему. Хорошая гипотеза сможет пройти допрос с пристрастием и ответить на вопросы типа «а с чего ты взял, что это поможет», «за счет чего метрика увеличится настолько». Необходимо, чтобы обоснование было подкреплено фактами, числами, а не фантазиями и чуйками, типа «я уверен в этом, зуб даю». Не нужно никому давать свой зуб, лучше показать чиселки.
✅ Измерима, выбраны метрики. Мы понимаем, как измерить эффект, выбрали метрики, изменение которых поможет нам понять, решается проблема или нет.
✅ Определены ожидаемые величины изменения метрик. Нежелательно запускать эксперимент, не предполагая, на какую величину может увеличиться метрика.
✅ Эта гипотеза — часть цепочки среди других гипотез. Гипотеза не должна существовать в вакууме отдельно от других гипотез. У нас есть понимание, что будет происходить в зависимости от результатов конкретного теста. Исследование текущей гипотезы должно вести к следующей и т.д. (в этом месте гуглим про цикл HADI)
✅ Есть полные текущие данные (количественные и качественные). Мы можем собрать текущие данные (просмотры, события и проч.) по метрикам, которые будем наблюдать при проведении АБ теста.
✅ Ведет к дополнительному знанию. В результате теста мы получим какую-то новую информацию.
🔥16
Новости интересные подъехали. Авито прибирает к рукам платформу Сигма от EXPF. Не готов сейчас обсуждать, к лучшему или к худшему это. Понаблюдаем.
https://www.avito.ru/company/press/expfsigma
https://www.avito.ru/company/press/expfsigma
🤯11👍5
Однажды в одном продукте разработали одно фичу. Что за компания, продукт и фича, не важно. Важно другое.
Фича была крупная, она могла достаточно серьезно повлиять на прибыль. Но сверху поступило указание не проводить АБ-тест, так как там были очень уверены в успехе, а АБ-тесты, как известно, для слабых и неуверенных в себе. А мы в команде, рангом пониже, не такие, и отрезали для контроля 10% на всякий случай.
По ходу снимали промежуточные результаты, где-то есть профит, где-то нет.
Проходит время, сверху приходит запрос сделать выводы об эффективности. Тут как раз и пригодился наш 10-процентный контроль. И, кстати, наверху уже и забыли про нежелание делать АБ и никак не отреагировали на наши выкладки типа "тест-контроль-аплифт".
Фича была достаточно сложная и по-разному влияла на разные сегменты пользователей.
В результате оказалось, что в одном сегменте у нас стат. значимо есть аплифт (и конверсии и хулиарды денег), в другом было близко к стат. значимости, но нет, а в остальных, самых крупных сегментах было очень далеко от 0,05.
Таким образом, благодаря тому, что мы все же сделали контроль:
1. Смогли показать успешность гипотезы и показать прирост конверсии и чистой прибыли компании.
2. Увидели, что наши нововведения по-разному в одних сегментах работают хорошо, а в других не работают вовсе.
3. Получили идеи, что теперь с этим делать дальше.
4. Получили еще одно подтверждение, что все эти чуйки и интуиции без нормального обоснования фактами могут идти лесом.
Фича была крупная, она могла достаточно серьезно повлиять на прибыль. Но сверху поступило указание не проводить АБ-тест, так как там были очень уверены в успехе, а АБ-тесты, как известно, для слабых и неуверенных в себе. А мы в команде, рангом пониже, не такие, и отрезали для контроля 10% на всякий случай.
По ходу снимали промежуточные результаты, где-то есть профит, где-то нет.
Проходит время, сверху приходит запрос сделать выводы об эффективности. Тут как раз и пригодился наш 10-процентный контроль. И, кстати, наверху уже и забыли про нежелание делать АБ и никак не отреагировали на наши выкладки типа "тест-контроль-аплифт".
Фича была достаточно сложная и по-разному влияла на разные сегменты пользователей.
В результате оказалось, что в одном сегменте у нас стат. значимо есть аплифт (и конверсии и хулиарды денег), в другом было близко к стат. значимости, но нет, а в остальных, самых крупных сегментах было очень далеко от 0,05.
Таким образом, благодаря тому, что мы все же сделали контроль:
1. Смогли показать успешность гипотезы и показать прирост конверсии и чистой прибыли компании.
2. Увидели, что наши нововведения по-разному в одних сегментах работают хорошо, а в других не работают вовсе.
3. Получили идеи, что теперь с этим делать дальше.
4. Получили еще одно подтверждение, что все эти чуйки и интуиции без нормального обоснования фактами могут идти лесом.
🔥12👍4❤1
Forwarded from Аналитика. Это просто
Всем привет! совсем недавно поменял работу, и о своих наблюдениях здесь пописываю потихоньку. На себе прочувствовал, что рыночек аналитиков сильно изменился за последние год-два.
Более полно оценить, что происходит, в очередной раз поможет NEWHR. Прошу помочь в этом важном деле.
NEWHR запустили очередное исследование рынка аналитиков (первое исследование было запущено в 2018 году, последнее — в 2024 (https://newhr.org/data/research-analysts-2024)).
Цель: выяснить, как меняется профессия, чего хочет бизнес от аналитиков, чего хотят сами аналитики, сколько зарабатывают и какими технологиями пользуются.
Рынок каких аналитиков исследуют:
➤ Дата-аналитиков
➤ Продуктовых аналитиков
➤ BI-аналитиков
➤ Маркетинговых аналитиков
➤ Веб-аналитиков
➤ Системных и бизнес аналитиков
➤ Руководителей аналитики
Что именно исследуют?
👉 Сколько зарабатывают аналитики, как эти цифры менялись за последний год и с чем были связаны изменения
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например
👉 Где работают аналитики, как работают (удалёнка/офис), какие планы на трудоустройтво
👉 Как меняется зона ответственности аналитиков и чем они хотят заниматься
👉 Как аналитики ищут работу и выбирают работодателя
Как принять участие в исследовании?
⏩ Заполнить опросник (https://survey.alchemer.com/s3/8488868/analytics-NEWHR-2025)(займет около 20 минут)
🚀 На данный момент опрос прошли уже 900+ специалистов. Цель — собрать 1500 респондентов.
Когда будут результаты?
— Итоговый результат исследования будет опубликован в начале 2026 года.
— Со всеми участниками исследования команда NEWHR будет делиться промежуточными результатами, а также пригласят на закрытый стрим, где поделятся всеми инсайтами и ответят на вопросы.
👉🏼 Пройти опрос (https://survey.alchemer.com/s3/8488868/analytics-NEWHR-2025)
P. S. Опрос можно и нужно шерить с коллегами-аналитиками. Чем больше данных, тем точнее и интереснее результаты!
Более полно оценить, что происходит, в очередной раз поможет NEWHR. Прошу помочь в этом важном деле.
NEWHR запустили очередное исследование рынка аналитиков (первое исследование было запущено в 2018 году, последнее — в 2024 (https://newhr.org/data/research-analysts-2024)).
Цель: выяснить, как меняется профессия, чего хочет бизнес от аналитиков, чего хотят сами аналитики, сколько зарабатывают и какими технологиями пользуются.
Рынок каких аналитиков исследуют:
➤ Дата-аналитиков
➤ Продуктовых аналитиков
➤ BI-аналитиков
➤ Маркетинговых аналитиков
➤ Веб-аналитиков
➤ Системных и бизнес аналитиков
➤ Руководителей аналитики
Что именно исследуют?
👉 Сколько зарабатывают аналитики, как эти цифры менялись за последний год и с чем были связаны изменения
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например
👉 Где работают аналитики, как работают (удалёнка/офис), какие планы на трудоустройтво
👉 Как меняется зона ответственности аналитиков и чем они хотят заниматься
👉 Как аналитики ищут работу и выбирают работодателя
Как принять участие в исследовании?
⏩ Заполнить опросник (https://survey.alchemer.com/s3/8488868/analytics-NEWHR-2025)(займет около 20 минут)
🚀 На данный момент опрос прошли уже 900+ специалистов. Цель — собрать 1500 респондентов.
Когда будут результаты?
— Итоговый результат исследования будет опубликован в начале 2026 года.
— Со всеми участниками исследования команда NEWHR будет делиться промежуточными результатами, а также пригласят на закрытый стрим, где поделятся всеми инсайтами и ответят на вопросы.
👉🏼 Пройти опрос (https://survey.alchemer.com/s3/8488868/analytics-NEWHR-2025)
P. S. Опрос можно и нужно шерить с коллегами-аналитиками. Чем больше данных, тем точнее и интереснее результаты!
newhr.org
Исследование рынка аналитиков в 2024 году
Динамика зарплат, рейтинг работодателей, популярные рынки и скорость поиска работы
👍1
Хочешь превратить встречу в холивар? Предложи обсудить использование mde в аб-тестах.
Не нужно благодарностей
Не нужно благодарностей
😱5🔥3
Нашел тут небольшой курс по Байесовским АБ-тестам на степике. На досуге посмотрю, что там есть, после расскажу
Stepik: online education
Байесовские А/Б-тесты
Показана реализация А/Б-тестов. Рассмотрено использование байесовского моделирования для сравнения конверсий и средних. Дополнительно обсуждаются множественные сравнения и транзакционная выручка на пользователя.
🔥16
Пересматривал ролик про АБ-платформы, обратил пристальное внимание на часть, где Виталий Черемисинов рассказывает про чувствительность метрик, как ее моделировать и правильно использовать в работе. Ссылка в отметкой времени.
Почему это важно?
Как в рассказе Виталия, мы можем раз за разом брать какую-то метрику и раз за разом разочаровываться, когда наша фича снова не дала результат.
Если заняться исследованием чувствительности метрик, мы можем выяснить, что эти и те метрики у нас малочувствительны и на них не нужно акцентироваться в экспериментах. И наоборот, появится пул метрик, с которыми мы с большей степени можем добиться желаемого.
Таким образом сможем сэкономить время, силы, деньги, репутацию.
Почему это важно?
Как в рассказе Виталия, мы можем раз за разом брать какую-то метрику и раз за разом разочаровываться, когда наша фича снова не дала результат.
Если заняться исследованием чувствительности метрик, мы можем выяснить, что эти и те метрики у нас малочувствительны и на них не нужно акцентироваться в экспериментах. И наоборот, появится пул метрик, с которыми мы с большей степени можем добиться желаемого.
Таким образом сможем сэкономить время, силы, деньги, репутацию.
YouTube
online meetup EXPF x СберМаркет
online meetup EXPF x СберМаркет
18:00–18:30, Платформа А/Б тестирований: создание универсальной системы для проведения экспериментов на онлайн платформах
Станислав Романихин, head of DS sever x
18:30–19:00, Метрики для метрик
Виталий Черемисинов, co…
18:00–18:30, Платформа А/Б тестирований: создание универсальной системы для проведения экспериментов на онлайн платформах
Станислав Романихин, head of DS sever x
18:30–19:00, Метрики для метрик
Виталий Черемисинов, co…