При проведении AB тестов мы беспокоимся про пересечения нескольких экспериментов, опасаясь из взаимного воздействия друг на друга. Иногда встречается и такое, что продуктовые команды не проводят более одного эксперимента одновременно.
В статье автор настаивает на том, что проводить много пересекающихся экспериментов не только не страшно, но и правильно.
В статье автор настаивает на том, что проводить много пересекающихся экспериментов не только не страшно, но и правильно.
Medium
Embrace Overlapping A/B Tests and Avoid the Dangers of Isolating Experiments
At Statsig, I’ve had the pleasure of meeting many experimentalists from different backgrounds and experiences. How to handle simultaneous…
Forwarded from Яндекс про аналитику
Запускаем A/B-тест в Метрике: чек-лист с инструкцией и примером
В Метрике появился новый инструмент для проведения экспериментов на базе технологии Varioqub. С его помощью можно сравнивать несколько вариантов посадочной страницы или отдельных элементов сайта и принимать решения на основе данных.
Мы сделали для вас полезный чек-лист с инструкцией и примером, как настроить первый A/B-тест и ничего не упустить. Забирайте, чтобы повторить в своём проекте.
👉 Скачать чек-лист
В Метрике появился новый инструмент для проведения экспериментов на базе технологии Varioqub. С его помощью можно сравнивать несколько вариантов посадочной страницы или отдельных элементов сайта и принимать решения на основе данных.
Мы сделали для вас полезный чек-лист с инструкцией и примером, как настроить первый A/B-тест и ничего не упустить. Забирайте, чтобы повторить в своём проекте.
👉 Скачать чек-лист
👍3
Всем привет! Тут коллега из Ламоды написал статью, в которой борется с достаточно привычным нам сравнением результатов эксперимента и MDE (Minimal Detectable Effect) и предлагает... А что предлагает, читаем
Хабр
Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE
Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda Tech. Не так давно я столкнулся с необычным взглядом на то, как следует интерпретировать результаты A/B-эксперимента. Он...
❤3
На тему MDE и продолжительности эксперимента в свое время подробно писал Искандер из EXPF - часть 1, часть 2
Medium
Когда останавливать A/B-тест? Часть 1: MDE
Как оценить время на проведение эксперимента? Что необходимо учесть, чтобы точнее проанализировать его результаты? Теория и python
❤3
Forwarded from Яндекс про аналитику
Буду объяснять немного упрощённо, чтобы пост не получился слишком сложным 🤓
Предположим, ваш A/B-тест идёт уже две недели и настало время проанализировать результаты.
Перейдите на страницу с результатами эксперимента, чтобы сравнить ваш эксперимент с контрольным вариантом и понять, есть ли статистически значимое изменение метрик.
Есть «прокрас»
Если ячейка выбранной метрики имеет красную или зелёную заливку, значит, эксперимент «прокрасился» и в A/B-тесте зафиксировано статистически значимое изменение.
🟢 Зелёный — основная метрика статистически значимо увеличилась.
🔴 Красный — основная метрика статистически значимо уменьшилась.
Чем темнее оттенок заливки, тем достовернее результат.
Нет «прокраса»
Если ячейка метрики серого цвета, значит, в A/B-тесте статистически значимого различия не обнаружено. Дальнейшее решение о ходе эксперимента поможет принять показатель MDE (Minimal Detectable Effect), который доступен в расширенной версии Varioqub.
MDE позволяет зафиксировать минимальный истинный эффект, ради которого, возможно, имеет смысл внести изменения.
Например, на 30-й день эксперимента MDE находится на уровне 1% и статистически значимого изменения нет. Если вы продолжите эксперимент и метрика прокрасится, то только для достижения эффекта, равного или меньшего 1%.
Проводите больше экспериментов и принимайте решения, основанные на данных!
Please open Telegram to view this post
VIEW IN TELEGRAM
Две статьи Сбера про оффлайн АБ тесты. Акцент сделан на подборе клиентов для групп и оценке их схожести. Статья 1, Статья 2
Хабр
Экспериментальные сложности в бизнесе: проверяем гипотезу без разбиения клиентов на группы
Привет, Хабр! Сегодня поговорим о проверке гипотез и сложностях, которые могут возникнуть в процессе работы. В Сбере постоянно проводятся эксперименты по улучшению пользовательского опыта и ключевых...
👍8
Новая статья с Gopractice про дизайн AB-тестов. Пошагово разобрана последовательность работы - https://gopractice.ru/data/design-ab-test/
GoPractice
ᐈ Дизайн A/B-тестов. Инструкция и шаблон
Как определить размер выборки, калькулятор выборки А/Б-тестов, шаблон эксперимента и примеры.
🔥6❤1
Forwarded from Матемаркетинг: новости конференций (Alexey Nikushin)
Вы же знаете про "папки", да? Новый виток промоутирования каналов в телеграм, когда делятся сразу пачкой каналов.
Хочу поделиться сокровенным. У меня есть подборка каналов, которые я читаю чтобы понимать как формировать актуальную повестку конференций. Эти каналы очень нишевые, достаточно сложные по контенту, там редко пишут, а порой не пишут вообще. Там есть каналы моих украинских друзей, которые раньше были на русском языке, а сейчас нет. Авторы этих каналов - хеды аналитики, сильные, но непопулярные продакты и просто увлеченные данными люди. Там несколько крутых каналов в которых менее 200 человек)
Я действительно отслеживаю эти каналы, чтобы оставаться в курсе того, что происходит в мире аналитики в широком смысле этого слова.
Отдельно скажу, что я не включил в этом список @internetanalytics, потому что здесь я все меньше пишу про аналитику как таковую. Но я добавил в подборку наш чат с вакансиями для аналитиков @analysts_hunter и канал с анонсами конференций @MateMarketing_official.
Что делать с папкой? При переходе по ссылке вы подпишитесь одновременно на 30+ каналов и у вас появится новая папка наверху, после этого вы, ознакомившись с контентом, благополучно можете покинуть часть каналов, чтобы не засорять себе инфополе.
Вот подборка https://news.1rj.ru/str/addlist/idNbBqp9eAphNjUy
Это не рекламный пост. Это просто шорт лист.
Обращусь к админам пабликов. Если вы заметите рост аудитории, буду рад обратной связи и посту с вашей стороны о нашей весенней конференции по продуктовой аналитике aha.matemarketing.ru.... И самое важное. Спасибо вам за классный контент
Хочу поделиться сокровенным. У меня есть подборка каналов, которые я читаю чтобы понимать как формировать актуальную повестку конференций. Эти каналы очень нишевые, достаточно сложные по контенту, там редко пишут, а порой не пишут вообще. Там есть каналы моих украинских друзей, которые раньше были на русском языке, а сейчас нет. Авторы этих каналов - хеды аналитики, сильные, но непопулярные продакты и просто увлеченные данными люди. Там несколько крутых каналов в которых менее 200 человек)
Я действительно отслеживаю эти каналы, чтобы оставаться в курсе того, что происходит в мире аналитики в широком смысле этого слова.
Отдельно скажу, что я не включил в этом список @internetanalytics, потому что здесь я все меньше пишу про аналитику как таковую. Но я добавил в подборку наш чат с вакансиями для аналитиков @analysts_hunter и канал с анонсами конференций @MateMarketing_official.
Что делать с папкой? При переходе по ссылке вы подпишитесь одновременно на 30+ каналов и у вас появится новая папка наверху, после этого вы, ознакомившись с контентом, благополучно можете покинуть часть каналов, чтобы не засорять себе инфополе.
Вот подборка https://news.1rj.ru/str/addlist/idNbBqp9eAphNjUy
Это не рекламный пост. Это просто шорт лист.
Обращусь к админам пабликов. Если вы заметите рост аудитории, буду рад обратной связи и посту с вашей стороны о нашей весенней конференции по продуктовой аналитике aha.matemarketing.ru.... И самое важное. Спасибо вам за классный контент
👍3
Вышло продолжение ответов на вопросы по A/B-тестам от Валерия Бабушкина.
- Часть 1
- Часть 2
И список материалов, о которых говорил Валерий.
- Часть 1
- Часть 2
И список материалов, о которых говорил Валерий.
YouTube
10 вопросов про A/B-тесты | Часть 1 | Валерий Бабушкин | karpov.courses
Симулятор A/B-тестов: http://bit.ly/3nCdbvB
Сколько A/B-тестов за свою карьеру провёл Валерий Бабушкин? Что обязательно должно быть в каждом A/B-тесте? Можно ли практиковаться в проведении экспериментов дома, а не на работе?
Мы задали эти (и не только)…
Сколько A/B-тестов за свою карьеру провёл Валерий Бабушкин? Что обязательно должно быть в каждом A/B-тесте? Можно ли практиковаться в проведении экспериментов дома, а не на работе?
Мы задали эти (и не только)…
🔥4👍2
Forwarded from ML for Value / Ваня Максимов
А/В тесты - это линейная регрессия
Кажется, я тоже немало продвигал такую идею. И вот, Филипп (мы вместе учились, но он был на +1 курс) сделал очень годные лекции с доказательствами, что обычный T-test, CUPED, CUPAC и многое другое - частные случаи линейной регрессии 😱
Мой рекомендасьон к прочтению)
Кажется, я тоже немало продвигал такую идею. И вот, Филипп (мы вместе учились, но он был на +1 курс) сделал очень годные лекции с доказательствами, что обычный T-test, CUPED, CUPAC и многое другое - частные случаи линейной регрессии 😱
Мой рекомендасьон к прочтению)
YouTube
Иван Максимов | 13 способов ускорить А/В тест, или "Не CUPED-ом единым"
ML in Marketing hub: https://ods.ai/hubs/ml-in-marketing
Телеграм-канал https://news.1rj.ru/str/mlinmarketing
Спикер: Иван Максимов, Data Science Team Lead at Delivery Club
Многие аналитики для ускорения А/В тестов в первую очередь используют достаточно сложные статистические…
Телеграм-канал https://news.1rj.ru/str/mlinmarketing
Спикер: Иван Максимов, Data Science Team Lead at Delivery Club
Многие аналитики для ускорения А/В тестов в первую очередь используют достаточно сложные статистические…
🔥7
AB тесты и все вот про это вот все
Новая статья с Gopractice про дизайн AB-тестов. Пошагово разобрана последовательность работы - https://gopractice.ru/data/design-ab-test/
Еще пара статей про дизайн AB тестов:
- https://habr.com/ru/companies/otus/articles/734768/ - пошаговая инструкция от OTUS
- https://towardsdatascience.com/design-of-experiment-basics-if-you-build-them-they-will-come-cc6a227a0543 - статья Анатолия Зайцева, сооснователя Retentioneering
- https://habr.com/ru/companies/otus/articles/734768/ - пошаговая инструкция от OTUS
- https://towardsdatascience.com/design-of-experiment-basics-if-you-build-them-they-will-come-cc6a227a0543 - статья Анатолия Зайцева, сооснователя Retentioneering
Хабр
Дизайн А/В-теста: пошаговая инструкция с теоретическими основами
Автор статьи: Кристина Курдюмова Кристина Курдюмова - ментор продактов, product manager Avito, стрим активация новых пользователей Что такое АВ тест АВ-тест (или A/B-тест) - это метод...
👍3
На AHA приятно наблюдать, что уже на втором докладе по A/B тестам зал переполнен, десятки человек стоят на лестницах, сидят на пуфиках, на полу. И народ ещё подходит.
🔥13
Был доклад про Вариокуб в главном зале, инструмент для проведения A/B - тестов от Яндекса. Данил Валгушев рассказал про устройство под капотом, тезисно:
- Построен на критерии Манна-Уитни, рассказал, почему выбрали именно его.
- Пользователи делятся не только на группы, но и на более мелкие бакеты, сразу же, но не в момент анализа. Это позволяет делать расчеты быстрее, бакеты нивелируют выбросы и равные значения при ранжировании. Также бакетирование дает возможность сравнивать и средние значения с помощью критерия Манна-Уитни.
- Количество бакетов: от 20 до 100. Необходимые метрики рассчитываются в бакетах, а потом уже бакеты ранжируются и т.д.
Что еще интересно, запускается бета-тест Вариокуба для АппМетрики. Отправить заявку можно на лендинге.
- Построен на критерии Манна-Уитни, рассказал, почему выбрали именно его.
- Пользователи делятся не только на группы, но и на более мелкие бакеты, сразу же, но не в момент анализа. Это позволяет делать расчеты быстрее, бакеты нивелируют выбросы и равные значения при ранжировании. Также бакетирование дает возможность сравнивать и средние значения с помощью критерия Манна-Уитни.
- Количество бакетов: от 20 до 100. Необходимые метрики рассчитываются в бакетах, а потом уже бакеты ранжируются и т.д.
Что еще интересно, запускается бета-тест Вариокуба для АппМетрики. Отправить заявку можно на лендинге.
👍2❤1
Недавно сильно озадачился проведением AB-тестов, где исследуемая метрика - CTR (количество кликов/на количество показов). Тут проблема в том, что показы клики не являются независимыми наблюдениями, так как один и тот же пользователь может несколько раз увидеть наш рекламный баннер и несколько раз кликнуть.
В это ситуации можно применять t-test с расчетом дисперсии дельта-методом.
Материалы:
- Статья раз
- Статья два
- Статья три
В это ситуации можно применять t-test с расчетом дисперсии дельта-методом.
Материалы:
- Статья раз
- Статья два
- Статья три
Linkedin
Дельта-метод от А до Я
Недавно меня спросили (держитесь, языковые пуристы) “шарю ли я за дельта-метод”. Нет, это не кринжовая подводка из серии “по просьбам подписчиков публикую рекламный пост”, у меня есть нотариально заверенные скриншоты! Так вот, с невозмутимым лицом переживая…
🔥5
Начал пересматривать доклады по АБ тестам с Aha 23.
Немного про доклад Как в Ozon построили процесс-комбайн АВ-тестирования... Вячеслава Коськина.
В целом, построение некой методологии, системы принятия решений делать / не делать АБ тест, библиотеки кода - это как бы само собой разумеющееся.
А что показалось наиболее интересным - специально выделенные валидаторы, которые одобряют запуск эксперимента и контролируют корректность результатов. И впечатлили цифры - до запуска валидаторы "заворачивают" до 20% экспериментов, и в 10% находят ошибки в расчетах итогов. Эффективность налицо.
Мысленно так прикидываешь результаты своей работы...😰
Немного про доклад Как в Ozon построили процесс-комбайн АВ-тестирования... Вячеслава Коськина.
В целом, построение некой методологии, системы принятия решений делать / не делать АБ тест, библиотеки кода - это как бы само собой разумеющееся.
А что показалось наиболее интересным - специально выделенные валидаторы, которые одобряют запуск эксперимента и контролируют корректность результатов. И впечатлили цифры - до запуска валидаторы "заворачивают" до 20% экспериментов, и в 10% находят ошибки в расчетах итогов. Эффективность налицо.
Мысленно так прикидываешь результаты своей работы...😰
👍1
Продолжаем следить на нашим отечественным Оптимайзом. Собственно, Вариокуб растит функционал платформы и, наверное, перерастет продукт корпорации добра.
Что появилось нового. Теперь можно запускать эксперименты для рекламных блоков РСЯ на сайтах.
Текст новости здесь.
Что появилось нового. Теперь можно запускать эксперименты для рекламных блоков РСЯ на сайтах.
Текст новости здесь.
Яндекс Реклама — продвижение бизнеса и реклама в интернете
Экспериментируйте с рекламными блоками на сайте и повышайте доход от монетизации — с Varioqub
<p>Теперь партнёры РСЯ могут тестировать разные форматы или размеры блоков на своих площадках с помощью технологии Varioqub и выбирать самые эффективные.</p>
Forwarded from Start Career in DS
🎣 Что такое z-score и p-value?
Об этом на примере рыбалки (😁) классно рассказывается вот в этой статье, время прочтения ~20 минут
Главный герой, Антон, решил затестить две удочки; на обе он поймал по 300 экземпляров рыб. Кроме того, для каждой рыбы Антон записывал её вес. Теперь он хочет определить, какая из этих удочек эффективнее…
В статье автор:
– Немного рассказывает о нормальном распределении
– Буквально на рыбах , используя SciPy, показывает, как выглядит центральная предельная теорема в действии
– Рассказывает про z-score и p-value и высчитывает их для приведённого выше примера
– Это всё подкрепляется графиками, построенными с помощью seaborn и кодом к ним. Причем код имхо будет понятен даже новичкам)
Ставим огонечек 🔥 на этот пост (давайте наберём 70?) и отправляемся читать статью🙂
Об этом на примере рыбалки (😁) классно рассказывается вот в этой статье, время прочтения ~20 минут
Главный герой, Антон, решил затестить две удочки; на обе он поймал по 300 экземпляров рыб. Кроме того, для каждой рыбы Антон записывал её вес. Теперь он хочет определить, какая из этих удочек эффективнее…
В статье автор:
– Немного рассказывает о нормальном распределении
– Буквально на рыбах , используя SciPy, показывает, как выглядит центральная предельная теорема в действии
– Рассказывает про z-score и p-value и высчитывает их для приведённого выше примера
– Это всё подкрепляется графиками, построенными с помощью seaborn и кодом к ним. Причем код имхо будет понятен даже новичкам)
Ставим огонечек 🔥 на этот пост (давайте наберём 70?) и отправляемся читать статью🙂
Хабр
[Часть 1] Математика в АБ-тестах. Что такое z-score и p-value?
Приветствую тебя, дорогой друг! Эта публикация была создана для тебя, если ты хотел бы разобраться с этими непонятными словами из заголовка раз и навсегда. Как с идейной, так и с математической...
🔥28👍1
Spotify представляет свою систему для проведения АБ-тестов. Это будет коммерческая платформа, которой смогут пользоваться сторонние компании - Confidence.
Текст новости здесь. А сам сервис находится здесь.
Текст новости здесь. А сам сервис находится здесь.
Spotify Engineering
Coming Soon: Confidence — An Experimentation Platform from Spotify
Coming Soon: Confidence — An Experimentation Platform from Spotify - Spotify Engineering
Как известно, Google Optimize в ближайшем будущем покинет нас. И достаточно остро сейчас стоит проблема, чем же его заменить.
Наш коллега Александр Игнатенко собрал свой рейтинг аналогичных сервисов, которые могут подойти на эту роль. По особенностям написано не очень много, но есть ссылки на сервисы и каждый сможет по ним перейти, чтобы уже детально ознакомиться с ними.
Собственно, статья
Наш коллега Александр Игнатенко собрал свой рейтинг аналогичных сервисов, которые могут подойти на эту роль. По особенностям написано не очень много, но есть ссылки на сервисы и каждый сможет по ним перейти, чтобы уже детально ознакомиться с ними.
Собственно, статья
vc.ru
Как я выбирал сервис A/B-тестирования — Маркетинг на vc.ru
Александр Игнатенко Маркетинг 17.08.2023
Сегодня, кого не спросишь, все продукты дата-драйвен, проводят 100500 экспериментов в наносекунду. Все красиво звучит на конференциях и пресс-релизах.
Да вот иногда встречается такое, что АБ-тест является не инструментом, который поможет определит истинность наших гипотез (фантазий). А становится просто дополнительным формальным этапом для раскатки новой фичи. Все же проводят эксперименты, вот и мы проводим. Тут имею ввиду скорее не какие-то глобальные изменения в продукте, а про фичи, влияющие на какой-нибудь небольшой функционал.
И, если по недоразумению, наш заветный p-value > 0.05, после некоторых обсуждений фича все равно будет раскатана на всех пользователей, так как "ну мы же уже все сделали, зачем откатываться, и, вообще, я уверен(а), что будет хорошо". А, если решение принимается вопреки результатам и рекомендациям аналитики, зачем мы тратим силы на ненужный по итогу эксперимент?
Потому что ритуал такой!
Что ж я туплю...
Карго-культ?
Да вот иногда встречается такое, что АБ-тест является не инструментом, который поможет определит истинность наших гипотез (фантазий). А становится просто дополнительным формальным этапом для раскатки новой фичи. Все же проводят эксперименты, вот и мы проводим. Тут имею ввиду скорее не какие-то глобальные изменения в продукте, а про фичи, влияющие на какой-нибудь небольшой функционал.
И, если по недоразумению, наш заветный p-value > 0.05, после некоторых обсуждений фича все равно будет раскатана на всех пользователей, так как "ну мы же уже все сделали, зачем откатываться, и, вообще, я уверен(а), что будет хорошо". А, если решение принимается вопреки результатам и рекомендациям аналитики, зачем мы тратим силы на ненужный по итогу эксперимент?
Потому что ритуал такой!
Что ж я туплю...
Карго-культ?
👍3