На днях пересмотрел вебинары по бутстрапу (не могу скрывать симпатию к методу):
- от Искандера Мирмахмадова из EXPF - https://www.youtube.com/watch?v=8CMV5cK83ns
- от Анатолия Карпова - https://www.youtube.com/watch?v=-zps6hm0nX8
На два момента хочу обратить отдельное внимание:
1. Размер подвыборки делать таким же, как размер группы. Даже если у нас неравное деление пользователей, хоть и 90/10. Об этом на вопрос отвечал Анатолий после вебинара и пишется в статье https://ocw.mit.edu/courses/18-05-introduction-to-probability-and-statistics-spring-2014/resources/mit18_05s14_reading24/
2. Не нужно рассчитывать p-value по распределениям, получившимся в результате работы бутстрапа, так как измерения в них не независимы - забираются из одной и той же выборки и содержат повторы. Об этом говорил Искандер.
- от Искандера Мирмахмадова из EXPF - https://www.youtube.com/watch?v=8CMV5cK83ns
- от Анатолия Карпова - https://www.youtube.com/watch?v=-zps6hm0nX8
На два момента хочу обратить отдельное внимание:
1. Размер подвыборки делать таким же, как размер группы. Даже если у нас неравное деление пользователей, хоть и 90/10. Об этом на вопрос отвечал Анатолий после вебинара и пишется в статье https://ocw.mit.edu/courses/18-05-introduction-to-probability-and-statistics-spring-2014/resources/mit18_05s14_reading24/
2. Не нужно рассчитывать p-value по распределениям, получившимся в результате работы бутстрапа, так как измерения в них не независимы - забираются из одной и той же выборки и содержат повторы. Об этом говорил Искандер.
YouTube
Bootstrap: виды, особенности, ограничения и способы применения (EXPF)
На лекции обсудим
- Какие есть ограничения использования bootstrap
- Чем параметрический bootstrap отличается от непараметрического
- Почему boot распределение нельзя «скармливать» статистическому критерию
- Как сделать так, чтобы bootstrap был не таким…
- Какие есть ограничения использования bootstrap
- Чем параметрический bootstrap отличается от непараметрического
- Почему boot распределение нельзя «скармливать» статистическому критерию
- Как сделать так, чтобы bootstrap был не таким…
👍5
Forwarded from Ozon Tech
Ловите приглашение на
📌Ozon Tech Community A/B-testing Meetup 📌
25 января, 17:30
Офис Ozon, Москва Сити
offline | online
Кто о чём:
👨💻 Игорь Моисеев, аналитик-исследователь.
Об ошибках анализа и невалидных выводах по экспериментам.
👨💻 Антон Ермилов, руководитель группы разработки «Стенды метрик».
О создании централизованной системы аналитики, ошибках и проблемах в ней.
👨💻 Евгений Пак, руководитель отдела «Инструменты А/В-тестирования и стенды метрик».
О факапах при создании А/В-платформы.
👨💻 Александр Толмачев, руководитель службы аналитики Ozon Fintech.
О процессах А/В-тестирования в больших компаниях и связанных с ними проблемах.
👨💻 Вячеслав Коськин, старший менеджер по продукту в отделе «Инструменты А/В-тестирования и стенды метрик».
О сложностях, которые возникают у менеджеров в процессе тестирования.
Чтобы пообщаться лично, выпить кофе со спикерами и попасть на afterparty, нужно зарегистрироваться.
Чтобы получить ссылку на трансляцию — та же схема. Ссылок хватит на всех 🙂
#ozontech_meetup
📌Ozon Tech Community A/B-testing Meetup 📌
25 января, 17:30
Офис Ozon, Москва Сити
offline | online
Кто о чём:
👨💻 Игорь Моисеев, аналитик-исследователь.
Об ошибках анализа и невалидных выводах по экспериментам.
👨💻 Антон Ермилов, руководитель группы разработки «Стенды метрик».
О создании централизованной системы аналитики, ошибках и проблемах в ней.
👨💻 Евгений Пак, руководитель отдела «Инструменты А/В-тестирования и стенды метрик».
О факапах при создании А/В-платформы.
👨💻 Александр Толмачев, руководитель службы аналитики Ozon Fintech.
О процессах А/В-тестирования в больших компаниях и связанных с ними проблемах.
👨💻 Вячеслав Коськин, старший менеджер по продукту в отделе «Инструменты А/В-тестирования и стенды метрик».
О сложностях, которые возникают у менеджеров в процессе тестирования.
Чтобы пообщаться лично, выпить кофе со спикерами и попасть на afterparty, нужно зарегистрироваться.
Чтобы получить ссылку на трансляцию — та же схема. Ссылок хватит на всех 🙂
#ozontech_meetup
👍2
Дополнил список курсов по A/B тестам.
Продолжаю вот этот список из канала Продакт аналитикс https://news.1rj.ru/str/productanalyticsfordummies/202
Продолжаю вот этот список из канала Продакт аналитикс https://news.1rj.ru/str/productanalyticsfordummies/202
Medium
Курсы по AB тестам
Научиться проводить AB тесты можно по обучающим роликам, по статьям, по учебникам. И, конечно, есть достаточное разнообразие курсов, на…
Forwarded from Аналитика. Это просто
Как-то неожиданно Google закрывает Google Optimize, в том числе 360. Пока пишут, что уже с 30 сентября. Допускаю, что несколько позже. Ссылка на новость.
Не перестаем радоваться, что у Метрики будет Вариокуб, аналогичный сервис. И все же как-то грустно - Google Optimize отлично подходит для небольших A/B -тестов.
Не перестаем радоваться, что у Метрики будет Вариокуб, аналогичный сервис. И все же как-то грустно - Google Optimize отлично подходит для небольших A/B -тестов.
Google
Google Optimize Sunset - Optimize Resource Hub
Google Optimize and Optimize 360 will no longer be available after September 30, 2023. Your experiments and personalizations can continue to run until that date. Any experiments and personalizations s
🔥1
В свежей статье Ozon разбирает несколько распространенных ошибок при проведении экспериментов и как их можно избежать.
https://habr.com/ru/company/ozontech/blog/712306/
https://habr.com/ru/company/ozontech/blog/712306/
Хабр
Шесть причин, почему ваши A/B-тесты не работают
Всем привет! В прошлой статье, посвящённой A/B-тестированию , мы коснулись технических деталей устройства нашей A/B-платформы, которая обеспечивает нам супербыстрое распределение пользователей...
👍1🔥1
А вот и запись вчерашнего митапа Озона по A/B-тестам - https://www.youtube.com/watch?v=ly-pqx1P34k. Внутри много интересного.
Какая-то странная "озонная" тенденция здесь, так уж получилось.
Какая-то странная "озонная" тенденция здесь, так уж получилось.
YouTube
Ozon Tech Community A/B-testing Meetup
Так часто бывает, что А/В-тесты обходятся дорого и ощущаются больно.
Команда А/В-тестирования Ozon поделится шишками, которые набили, пока настраивали собственные процессы.
Этот опыт поможет избежать проблем и ошибок на старте создания системы А/В-тестирования…
Команда А/В-тестирования Ozon поделится шишками, которые набили, пока настраивали собственные процессы.
Этот опыт поможет избежать проблем и ошибок на старте создания системы А/В-тестирования…
👍9
В блоге Ламоды вышла статья про расчет размера выборки для бутстрапа, с примерами кода. Не встречал, чтобы кто-то делал такие расчеты ранее.
Заходим, читаем, начинаем использовать бутстрап. Ссылка
Заходим, читаем, начинаем использовать бутстрап. Ссылка
Хабр
Как определить размер выборки для бутстрэпа старым дедовским способом
Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda. Как и во многих других продуктовых компаниях, решения о том, раскатывать ли новую фичу, принимаются в Lamoda на основе...
🔥15❤1
Обнаружил на днях, что у меня скопилось несколько неплохих гайдов по проведению A/B тестов. Они отлично подходят для первичного погружения:
- https://towardsdatascience.com/how-to-a-b-test-without-spending-a-dime-60c4112f8f4e
- https://habr.com/ru/company/boodet_online/blog/498688/
- https://medium.com/mlearning-ai/a-b-testing-result-analysis-using-python-beginners-guide-7a6562933f7
- https://www.carrotquest.io/blog/ab-tests-guide-2/
- https://tilda.education/articles-yourfirstabtest
- https://goldinlocks.github.io/Introduction-to-A-B-testing-in-python/
- https://towardsdatascience.com/how-to-a-b-test-without-spending-a-dime-60c4112f8f4e
- https://habr.com/ru/company/boodet_online/blog/498688/
- https://medium.com/mlearning-ai/a-b-testing-result-analysis-using-python-beginners-guide-7a6562933f7
- https://www.carrotquest.io/blog/ab-tests-guide-2/
- https://tilda.education/articles-yourfirstabtest
- https://goldinlocks.github.io/Introduction-to-A-B-testing-in-python/
Medium
How to A/B test without spending a dime
Get statistically significant results without paying for a testing platform
👍6❤1
Собираю в github свои скрипты, которые писал для работы с A/B тестами.
А именно:
- расчет продолжительности эксперимента
- расчет p-value Хи-квадрат
- расчет p-value Т-тест
- расчет p-value Манна-Уитни
- бутстрап, по-умолчанию сравниваем средние
Все находится здесь.
Через некоторое время собираюсь сделать и децильный бутстрап.
Буду благодарен обратной связи, если где-то ошибся или что-то непонятно / неочевидно.
А именно:
- расчет продолжительности эксперимента
- расчет p-value Хи-квадрат
- расчет p-value Т-тест
- расчет p-value Манна-Уитни
- бутстрап, по-умолчанию сравниваем средние
Все находится здесь.
Через некоторое время собираюсь сделать и децильный бутстрап.
Буду благодарен обратной связи, если где-то ошибся или что-то непонятно / неочевидно.
GitHub
GitHub - a-efimov/Calc-AB-Test: Собираю в одном месте функции, используемые мной для анализа A/B тестов
Собираю в одном месте функции, используемые мной для анализа A/B тестов - a-efimov/Calc-AB-Test
🔥28
Всем привет!
Снова в будни после выходного - считаю, несправедливо, что на женский день меньше выходных, чем на мужской.
Как и обещал, загрузил на гитхаб yupiter notebook с расчетом децильного бутстрапа.
Все измерения в выборках делятся на децили и бутстрап делаем на каждом дециле по отдельности. Это позволяет понять, в каких децилях мы получили (или не получили) стат. значимые отличия.
Например, на датафрейме, который лежит там же, мы видим, что в первых трех децилях победил 1 вариант, в остальных - 2. Это и обеспечило суммарную победу варианта 2.
Снова в будни после выходного - считаю, несправедливо, что на женский день меньше выходных, чем на мужской.
Как и обещал, загрузил на гитхаб yupiter notebook с расчетом децильного бутстрапа.
Все измерения в выборках делятся на децили и бутстрап делаем на каждом дециле по отдельности. Это позволяет понять, в каких децилях мы получили (или не получили) стат. значимые отличия.
Например, на датафрейме, который лежит там же, мы видим, что в первых трех децилях победил 1 вариант, в остальных - 2. Это и обеспечило суммарную победу варианта 2.
👍8❤1🔥1
Понимание, что такое A/B тесты и как их правильно проводить, одно из главных требований к продуктовому менеджеру, продуктовому аналитику, аналитику данных.
В свое время для подготовки к собеседованиям собрал список того, что должен знать. Также дополнял этот список. Получившийся список закрывает большинство вопросов, которые могут задать нам на собеседовании. И полноценный ответ на них значительно повысит шансы на успешное трудоустройство. 🫵
Собственно, список.
В свое время для подготовки к собеседованиям собрал список того, что должен знать. Также дополнял этот список. Получившийся список закрывает большинство вопросов, которые могут задать нам на собеседовании. И полноценный ответ на них значительно повысит шансы на успешное трудоустройство. 🫵
Собственно, список.
Medium
Вопросы на собеседовании по A/B тестам для аналитика
Список вопросов, чаще всего задаваемых по A/B-тестам на собеседованиях на позицию аналитика данных, продуктового аналитика, менеджера…
👍12🔥2
При проведении AB тестов мы беспокоимся про пересечения нескольких экспериментов, опасаясь из взаимного воздействия друг на друга. Иногда встречается и такое, что продуктовые команды не проводят более одного эксперимента одновременно.
В статье автор настаивает на том, что проводить много пересекающихся экспериментов не только не страшно, но и правильно.
В статье автор настаивает на том, что проводить много пересекающихся экспериментов не только не страшно, но и правильно.
Medium
Embrace Overlapping A/B Tests and Avoid the Dangers of Isolating Experiments
At Statsig, I’ve had the pleasure of meeting many experimentalists from different backgrounds and experiences. How to handle simultaneous…
Forwarded from Яндекс про аналитику
Запускаем A/B-тест в Метрике: чек-лист с инструкцией и примером
В Метрике появился новый инструмент для проведения экспериментов на базе технологии Varioqub. С его помощью можно сравнивать несколько вариантов посадочной страницы или отдельных элементов сайта и принимать решения на основе данных.
Мы сделали для вас полезный чек-лист с инструкцией и примером, как настроить первый A/B-тест и ничего не упустить. Забирайте, чтобы повторить в своём проекте.
👉 Скачать чек-лист
В Метрике появился новый инструмент для проведения экспериментов на базе технологии Varioqub. С его помощью можно сравнивать несколько вариантов посадочной страницы или отдельных элементов сайта и принимать решения на основе данных.
Мы сделали для вас полезный чек-лист с инструкцией и примером, как настроить первый A/B-тест и ничего не упустить. Забирайте, чтобы повторить в своём проекте.
👉 Скачать чек-лист
👍3
Всем привет! Тут коллега из Ламоды написал статью, в которой борется с достаточно привычным нам сравнением результатов эксперимента и MDE (Minimal Detectable Effect) и предлагает... А что предлагает, читаем
Хабр
Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE
Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda Tech. Не так давно я столкнулся с необычным взглядом на то, как следует интерпретировать результаты A/B-эксперимента. Он...
❤3
На тему MDE и продолжительности эксперимента в свое время подробно писал Искандер из EXPF - часть 1, часть 2
Medium
Когда останавливать A/B-тест? Часть 1: MDE
Как оценить время на проведение эксперимента? Что необходимо учесть, чтобы точнее проанализировать его результаты? Теория и python
❤3
Forwarded from Яндекс про аналитику
Буду объяснять немного упрощённо, чтобы пост не получился слишком сложным 🤓
Предположим, ваш A/B-тест идёт уже две недели и настало время проанализировать результаты.
Перейдите на страницу с результатами эксперимента, чтобы сравнить ваш эксперимент с контрольным вариантом и понять, есть ли статистически значимое изменение метрик.
Есть «прокрас»
Если ячейка выбранной метрики имеет красную или зелёную заливку, значит, эксперимент «прокрасился» и в A/B-тесте зафиксировано статистически значимое изменение.
🟢 Зелёный — основная метрика статистически значимо увеличилась.
🔴 Красный — основная метрика статистически значимо уменьшилась.
Чем темнее оттенок заливки, тем достовернее результат.
Нет «прокраса»
Если ячейка метрики серого цвета, значит, в A/B-тесте статистически значимого различия не обнаружено. Дальнейшее решение о ходе эксперимента поможет принять показатель MDE (Minimal Detectable Effect), который доступен в расширенной версии Varioqub.
MDE позволяет зафиксировать минимальный истинный эффект, ради которого, возможно, имеет смысл внести изменения.
Например, на 30-й день эксперимента MDE находится на уровне 1% и статистически значимого изменения нет. Если вы продолжите эксперимент и метрика прокрасится, то только для достижения эффекта, равного или меньшего 1%.
Проводите больше экспериментов и принимайте решения, основанные на данных!
Please open Telegram to view this post
VIEW IN TELEGRAM
Две статьи Сбера про оффлайн АБ тесты. Акцент сделан на подборе клиентов для групп и оценке их схожести. Статья 1, Статья 2
Хабр
Экспериментальные сложности в бизнесе: проверяем гипотезу без разбиения клиентов на группы
Привет, Хабр! Сегодня поговорим о проверке гипотез и сложностях, которые могут возникнуть в процессе работы. В Сбере постоянно проводятся эксперименты по улучшению пользовательского опыта и ключевых...
👍8
Новая статья с Gopractice про дизайн AB-тестов. Пошагово разобрана последовательность работы - https://gopractice.ru/data/design-ab-test/
GoPractice
ᐈ Дизайн A/B-тестов. Инструкция и шаблон
Как определить размер выборки, калькулятор выборки А/Б-тестов, шаблон эксперимента и примеры.
🔥6❤1