А если свой платформы для АБ-тестов нет и не используется готовое внешнее решение, приходится обходиться собственными силами. Тут у нас снова развилка:
- писать свои функции-библиотеки
- приспособить готовые библиотеки на питоне
Из интересных библиотек могу выделить две:
- Ambrosia от коллег из МТС
- Kolmogorov ABacus
Недавно потестировал Kolmogorov ABacus, очень даже неплохо. Основные особенности:
- Оценка результатов эксперимента с помощью многих стат. критериев, в том числе бустрапа - собственно, ожидаемо
- Инструмент для деления на группы с оценкой качества деления
- Подготовка эксперимента - ошибки 1 и 2 рода, mde, расчет необходимой выборки
Ссылки:
- Гитхаб
- Примеры оценки результатов эксперимента на гитхабе
- Документация
- Канал в телеграме
- Чат поддержки в телеграме
- Статья на Хабре об использовании
- писать свои функции-библиотеки
- приспособить готовые библиотеки на питоне
Из интересных библиотек могу выделить две:
- Ambrosia от коллег из МТС
- Kolmogorov ABacus
Недавно потестировал Kolmogorov ABacus, очень даже неплохо. Основные особенности:
- Оценка результатов эксперимента с помощью многих стат. критериев, в том числе бустрапа - собственно, ожидаемо
- Инструмент для деления на группы с оценкой качества деления
- Подготовка эксперимента - ошибки 1 и 2 рода, mde, расчет необходимой выборки
Ссылки:
- Гитхаб
- Примеры оценки результатов эксперимента на гитхабе
- Документация
- Канал в телеграме
- Чат поддержки в телеграме
- Статья на Хабре об использовании
GitHub
GitHub - kolmogorov-lab/abacus: ABacus: fast hypothesis testing and experiment design solution
ABacus: fast hypothesis testing and experiment design solution - kolmogorov-lab/abacus
🔥8👍2❤1
AB тесты и все вот про это вот все
Сбермаркет продолжает тему про платформы для A/B-тестов и проводит 28 марта митап. Помимо Сбермаркета участвуют EXPF (легендарные легенды индустрии) и Авито (не менее легендарные легенды в своей индустрии). Ссылка на регистрацию
Есть прекрасная поговорка - завтра в 6. Митап перенесен на завтра, 4 апреля, 18.00.
Ссылка актуальна.
Ссылка актуальна.
sbermarket.timepad.ru
A/B Platform Meetup | SberMarket Tech / События на TimePad.ru
Приглашаем на онлайн-митап СберМаркет Tech.
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
🤯2
На хабре вышла большая статья с подробным разбором нескольких стат. критериев:
- z-статистика
- t-статистика
- критерий хи-квадрат
- f-статистика
Она будет особенно полезна тем, кто использует эти критерии, не вникая с их суть.
- z-статистика
- t-статистика
- критерий хи-квадрат
- f-статистика
Она будет особенно полезна тем, кто использует эти критерии, не вникая с их суть.
Хабр
Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез
Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой...
🔥16👍3
Несколько дней назад коллега из Сбермаркета написал статью по работе с Ratio-метриками в AB-тестах. В ней предлагается использовать линеаризацию.
Почему это интересно. Потому что у наших любимых бутстрапа и дельта-метода тоже есть как сильные, так и слабые стороны. Плюс дополнительный метод точно будет полезен.
И еще прикладываю несколько материалов на тему дельта-метода и ratio-метрик:
- раз
- два
- три
- четыре
- пять
Почему это интересно. Потому что у наших любимых бутстрапа и дельта-метода тоже есть как сильные, так и слабые стороны. Плюс дополнительный метод точно будет полезен.
И еще прикладываю несколько материалов на тему дельта-метода и ratio-метрик:
- раз
- два
- три
- четыре
- пять
Хабр
Линеаризация: зачем и как укрощать ratio-метрики в A/B-тестах
Привет, Хабр! В прошлой статье я указал, что в A/B-тестах используются три основных типа метрик, а именно пользовательские конверсии , средние метрики пользователей и ratio-метрики . К последним...
🔥13👍3
Если вдруг кто-то пропустил митап от EXPF, запись здесь.
Темы:
- Как из подручных средств организовать процесс А/В тестирования
- Критерии валидности АБ-тестов
- Поиск Эффективных Прокси-Метрик
- Сбор качественных данных для проведения А/Б тестов
Темы:
- Как из подручных средств организовать процесс А/В тестирования
- Критерии валидности АБ-тестов
- Поиск Эффективных Прокси-Метрик
- Сбор качественных данных для проведения А/Б тестов
YouTube
Митап EXPF x DataGo!
Программа
18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, OKKO
18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет
19:00 – 19:30 Поиск Эффективных…
18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, OKKO
18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет
19:00 – 19:30 Поиск Эффективных…
🔥10❤2
Тут очень интересный доклад легендарного в некоторых кругах Анатолия Карпова про оценку продолжительности АБ-теста. Это одна из самых интересных и проблемных вопросов при проведении экспериментов. Внутри подглядывание, т-тесты, mde, fixed horizon.
Отдельно рекомендую к просмотру раздел со штрафами за подглядывание - менеджерам может понравиться...
Статья EXPF, о которой говорит Анатолий, здесь.
Отдельно рекомендую к просмотру раздел со штрафами за подглядывание - менеджерам может понравиться...
Статья EXPF, о которой говорит Анатолий, здесь.
YouTube
Анатолий Карпов, «Методы оценки размера выборки в А/Б-тестах. От размера эффекта до симуляций»
Анатолий Карповm, СЕО Karpov.Courses
Kolesa Conf 2022, 8 октября
Описание доклада:
Уметь отвечать на вопрос «Как долго должен идти А/Б-тест?» — важнейший навык аналитика. Если вы запускаете А/Б-тест на глазок, будьте готовы, что вас ждёт множество проблем:…
Kolesa Conf 2022, 8 октября
Описание доклада:
Уметь отвечать на вопрос «Как долго должен идти А/Б-тест?» — важнейший навык аналитика. Если вы запускаете А/Б-тест на глазок, будьте готовы, что вас ждёт множество проблем:…
Интересный разговор Александра Игнатенко (телеграм-канал Модель атрибуции) и Виталия Черемисинова (EXPF) про:
- альтернативы закрывшемуся Google Optimize
- особенности интерфейса GA4
- внедрение Сигмы от EXPF
- метрики экспериментов
- распространенные ошибки в командах, работающих с АБ-тестами
- нужно ли очень глубоко закапываться в исследования данных при АБ-тестах
- прочие важные вопросы про АБ-тесты и эксперименты от зрителей стрима
Незаслуженно мало просмотров у ролика как-то.
- альтернативы закрывшемуся Google Optimize
- особенности интерфейса GA4
- внедрение Сигмы от EXPF
- метрики экспериментов
- распространенные ошибки в командах, работающих с АБ-тестами
- нужно ли очень глубоко закапываться в исследования данных при АБ-тестах
- прочие важные вопросы про АБ-тесты и эксперименты от зрителей стрима
Незаслуженно мало просмотров у ролика как-то.
YouTube
Есть ли жизнь после Оптимайза?
Запись стрима о том, как, где и каким способом проводить AB-тесты после заката Google Optimize. И не только об этом.
Участники:
Александр Игнатенко, эксперт по маркетинг-аналитике, автор телеграм-канала «Модель атрибуции» - https://bit.ly/3uMhmZo
Виталий…
Участники:
Александр Игнатенко, эксперт по маркетинг-аналитике, автор телеграм-канала «Модель атрибуции» - https://bit.ly/3uMhmZo
Виталий…
👍5
Сбермаркет в новой статье рассказывает, как в своей платформе (да, я снова про платформу) АБ-тестов проверяет АБ-тесты на валидность.
Хабр
Как оценить валидность A/B-тестов. SRM и другие критерии
Привет! Меня зовут Полина, я руковожу A/B‑платформой в СберМаркете. В этой статье я расскажу о нескольких нюансах экспериментирования, которые возникают на разных этапах: от дизайна и сплитования до...
❤2
Тем, кто начинает заниматься АБ-тестами, часто кажется, что самое главное - делить на группы, считать pvalue, выбирать стат. Критерий. Но это не так.
На AHA сейчас идёт мастер-класс, на котором наши коллега из Самокат Тех разбирает дизайн АБ-теста со своего конкурса.
Для тех, кто не очень понимает, с чего начинается эксперимент, рекомендую.
На AHA сейчас идёт мастер-класс, на котором наши коллега из Самокат Тех разбирает дизайн АБ-теста со своего конкурса.
Для тех, кто не очень понимает, с чего начинается эксперимент, рекомендую.
👍7
Посматриваю на досуге AHA, ММ. И тут прекрасные доклады - casual impact, сетевые эффекты, использование ml, повышение чувствительности и прочие. Наивному зрителю может показаться, что все вокруг проводят АБ-тесты и прямо мастера.
К сожалению, опыт и общение с коллегами из других компаний рисуют альтернативную действительность - зачастую отсутствует культура проведения АБ-тестов, просто непонимание, как это работает. Из-за этого результаты получаются не такие, как ожидалось. А на словах зато прекрасно звучит "мы проводим эксперименты".
Простые примеры:
- мы раскатили эксперимент на 100%, после посмотрим когортно
- вчера запустили, давай завтра посмотрим промежуточные результаты, сверху просят
- планируем сделать 12/20/30/100500 тестовых вариантов
- запустим, а потом посмотрим, какие метрики нам выбрать
- не знаю, на сколько планируем увеличить метрики - посчитаем и решим, достаточно ли
- а зачем присваивать пользователям эксперимента метки, оно само не прорастет?
- почему не выросла конверсия? она же выросла на 0,003%
- да, мы не получим стат. значимых результатов, но давай проведем - начальство просит
- да, не получили, раскатываем на всех пользователей - начальство решило
Оттого страннее о таком слышать, что сейчас куча доступных, при этом бесплатных материалов, в которых детально разжевывается, как делать надо, а как не надо.
Гугл сломался, чатгпт, видимо, тоже? Впрочем, вопрос скорее риторический.
А то, что за пределами одних и тех же топ- мега- элитных- технологических компаний, представителей которых мы слышим на конференциях раз за разом, уровень культуры проведения АБ-тестов невысокий - очень печально.
Добавляю картинку, сгенерированную по тексту "неудачный аб-тест".
Всем хорошего понедельника.
К сожалению, опыт и общение с коллегами из других компаний рисуют альтернативную действительность - зачастую отсутствует культура проведения АБ-тестов, просто непонимание, как это работает. Из-за этого результаты получаются не такие, как ожидалось. А на словах зато прекрасно звучит "мы проводим эксперименты".
Простые примеры:
- мы раскатили эксперимент на 100%, после посмотрим когортно
- вчера запустили, давай завтра посмотрим промежуточные результаты, сверху просят
- планируем сделать 12/20/30/100500 тестовых вариантов
- запустим, а потом посмотрим, какие метрики нам выбрать
- не знаю, на сколько планируем увеличить метрики - посчитаем и решим, достаточно ли
- а зачем присваивать пользователям эксперимента метки, оно само не прорастет?
- почему не выросла конверсия? она же выросла на 0,003%
- да, мы не получим стат. значимых результатов, но давай проведем - начальство просит
- да, не получили, раскатываем на всех пользователей - начальство решило
Оттого страннее о таком слышать, что сейчас куча доступных, при этом бесплатных материалов, в которых детально разжевывается, как делать надо, а как не надо.
Гугл сломался, чатгпт, видимо, тоже? Впрочем, вопрос скорее риторический.
А то, что за пределами одних и тех же топ- мега- элитных- технологических компаний, представителей которых мы слышим на конференциях раз за разом, уровень культуры проведения АБ-тестов невысокий - очень печально.
Добавляю картинку, сгенерированную по тексту "неудачный аб-тест".
Всем хорошего понедельника.
👍15
Можно не беспокоиться, я не впал в летаргический сон. Жив, относительно здоров.
Тут появилась новая статья по бутстрапу. Смотрим теорию, кодим на питоне, ищем (и, к сожалению, находим) слабые места.
Также прикладываю список материалов по бутстрапу, что у меня есть:
- Статья Бутстрап, или прикладная статистика почти без формул
- Лекция EXPF
- Статья Использование бутстрапа
- Бутстреп и А/Б тестирование
- Большой подробный гайд про то как работает бутстрап
- Пуассоновский бутстрап
- Статья Бутстреп и А/Б тестирование
- Вебинар Анатолия Карпова Bootstrap VS t - test
Мой код на гитхаб для расчета бустрапа и децильного бутстрапа
Бутстрап, как метод анализа АБ-тестов, по моему скромному мнению, прекрасен, имеет минимум ограничений. При этом не то, чтобы часто слышу, что "мы его используем часто, почти постоянно". А жаль.
Тут появилась новая статья по бутстрапу. Смотрим теорию, кодим на питоне, ищем (и, к сожалению, находим) слабые места.
Также прикладываю список материалов по бутстрапу, что у меня есть:
- Статья Бутстрап, или прикладная статистика почти без формул
- Лекция EXPF
- Статья Использование бутстрапа
- Бутстреп и А/Б тестирование
- Большой подробный гайд про то как работает бутстрап
- Пуассоновский бутстрап
- Статья Бутстреп и А/Б тестирование
- Вебинар Анатолия Карпова Bootstrap VS t - test
Мой код на гитхаб для расчета бустрапа и децильного бутстрапа
Бутстрап, как метод анализа АБ-тестов, по моему скромному мнению, прекрасен, имеет минимум ограничений. При этом не то, чтобы часто слышу, что "мы его используем часто, почти постоянно". А жаль.
Хабр
Бутстрап и доверительные интервалы: от теории к практике на Python
Введение Применение Ограничения Схема бутстрапа Эфронов доверительный интервал Доверительный интервал Холла t-процентильный доверительный интервал Реализация на Python Проблемы Примечания Введение...
👍7🔥3❤1
Как перестать тестировать гипотезы, взятые с потолка? Делать это быстрее.
Не благодарите.
Не благодарите.
👍7💩4😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Приготовьтесь, нас снова посчитают.
New HR проводит очередное исследование рынка аналитиков. Предыдущее выходило в 2023 году, результаты можно найти здесь. Также у них куча других исследований на айтишные темы.
Что будет в исследовании:
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удаленка/офис), какие планы на трудоустройство.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
В течение октября можно пройти опрос, результаты текущего исследования выйдут в начале 2025 года.
Если хочешь знать, что происходит на рынке дата-, bi-, веб-, маркетинговых, продуктовых аналитиков и хочешь, чтобы эти данные были репрезентативными, просто пройди этот опрос. Без тебя никак.
Ссылочка на опросник тут
New HR проводит очередное исследование рынка аналитиков. Предыдущее выходило в 2023 году, результаты можно найти здесь. Также у них куча других исследований на айтишные темы.
Что будет в исследовании:
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удаленка/офис), какие планы на трудоустройство.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
В течение октября можно пройти опрос, результаты текущего исследования выйдут в начале 2025 года.
Если хочешь знать, что происходит на рынке дата-, bi-, веб-, маркетинговых, продуктовых аналитиков и хочешь, чтобы эти данные были репрезентативными, просто пройди этот опрос. Без тебя никак.
Ссылочка на опросник тут
👍3
Яндекс сообщает, что АБ-тесты в Яндекс Директе теперь доступны. Теперь все настройки и отчеты находятся непосредственно в Директе. Говорят, теперь станет удобнее.
Справка.
Справка.
yandex.ru
A/B-эксперименты |
Шаг 1. Сформулируйте гипотезу.
👍2
Классическая проблема - провели кучу АБ-тестов, многие со стат. значимым успехом, а после раскатки на 100% эффект уже и не сильно заметет. Статья о причинах и возможных решениях.
Medium
Why the uplift in A/B tests often differs from real-world results
Explore why the uplift seen in A/B tests often differs from real-world outcomes, and get insights on how to manage expectations…
Возвращаюсь, посмотрев очередной митап про АБ-тесты. Все не могу понять, что появилось раньше - АБ-тесты или платформы для их проведения.
Рекомендую к просмотру - очень интересно.
Рекомендую к просмотру - очень интересно.
YouTube
A/B Platform Meetup | SberMarket Tech
Митап про А/В-платформы, тесты и процессы, с этим связанные.
Вас ждут доклады спикеров из EXPF, СберМаркета и Авито.
4:57 «Система автоматического расчёта А/В тестов в СберМаркете»
Рамиль Чермантеев — руководитель команды аналитиков-инженеров платформы…
Вас ждут доклады спикеров из EXPF, СберМаркета и Авито.
4:57 «Система автоматического расчёта А/В тестов в СберМаркете»
Рамиль Чермантеев — руководитель команды аналитиков-инженеров платформы…
🔥4
Интересную тему затрагивает автор статьи - мониторить распределение пользователей между вариантами АБ-теста.
Проблема не так тривиальна, как может показаться. Если деление отличается от запланированного, да еще и неравномерно по дням или сегментам, это может привести к плачевным результатам.
У меня было такое, что у старух пользователей деление было такое, как настроено, а у новых оно мало того, что отличалось, так еще и имело изменяющийся тренд по дням. Из-за этого из анализа новых пользователей приходилось убирать. А смотреть за этим начал, обнаружив "странные" результаты.
Если подняться на уровень выше, контроль системы сплитования - одна из важнейших атрибутов успешного АБ-тестирования.
Проблема не так тривиальна, как может показаться. Если деление отличается от запланированного, да еще и неравномерно по дням или сегментам, это может привести к плачевным результатам.
У меня было такое, что у старух пользователей деление было такое, как настроено, а у новых оно мало того, что отличалось, так еще и имело изменяющийся тренд по дням. Из-за этого из анализа новых пользователей приходилось убирать. А смотреть за этим начал, обнаружив "странные" результаты.
Если подняться на уровень выше, контроль системы сплитования - одна из важнейших атрибутов успешного АБ-тестирования.
Хабр
Как Sample Ratio Mismatch спасает A/B тесты от ложных выводов
Если вы когда-либо работали с A/B тестированием, то знаете, что этот процесс не всегда идет гладко. Казалось бы, что тут может быть сложного? Разделили аудиторию, дали половине синюю кнопку, половине...
👍6
Некоторое время назад участвовал в одном мероприятии и мне задали вопрос про необходимость собственной платформы для проведения АБ-тестов. Сначала я удивился, ведь собственные платформы создают немногие компании, и только в том случае, если это действительно необходимо. Это достаточно трудны, болезненный и долгий путь.
Причина, по моему мнению, как раз в "лидерах рынка". Это крупные it-компании, которые много рассказывают о том, как проводят АБ-тесты, как они пришли к созданию платформ, какие проблемы встретили по пути. Они находятся на острие технологий и дают всем нам кучу информации о том, как все это правильно делать. И, когда слушаешь-смотришь все это, иногда может показаться, что "все давно проводят 100500 экспериментов в наносекунду, у всех есть свои платформы".
В действительности это, конечно, не так - АБ-тесты проводят далеко не все, кому это нужно, многие это делают с помощью достаточно простых инструментов, а собственные полноценно функционирующие платформы используются очень немногими компаниями.
А тем, кто только заходит на территорию экспериментов, совершенно не нужно бросаться писать свою платформу. Очень даже сгодятся все те же известные инструменты - Optimizely, VWO, Firebase Гугла, Sigma от EXPF, Varioqub Яндекса и другие. Жаль, что закончился Google Optimize - прекрасная была штуковина.
Можно также воспользоваться и своими разработчиками, чтобы написать т.н. "сплитовалку" - инструмент деления пользователей. Это, возможно, главное, что требуется - правильно поделить. А посчитать и интерпретировать результаты - значительно проще.
Причина, по моему мнению, как раз в "лидерах рынка". Это крупные it-компании, которые много рассказывают о том, как проводят АБ-тесты, как они пришли к созданию платформ, какие проблемы встретили по пути. Они находятся на острие технологий и дают всем нам кучу информации о том, как все это правильно делать. И, когда слушаешь-смотришь все это, иногда может показаться, что "все давно проводят 100500 экспериментов в наносекунду, у всех есть свои платформы".
В действительности это, конечно, не так - АБ-тесты проводят далеко не все, кому это нужно, многие это делают с помощью достаточно простых инструментов, а собственные полноценно функционирующие платформы используются очень немногими компаниями.
А тем, кто только заходит на территорию экспериментов, совершенно не нужно бросаться писать свою платформу. Очень даже сгодятся все те же известные инструменты - Optimizely, VWO, Firebase Гугла, Sigma от EXPF, Varioqub Яндекса и другие. Жаль, что закончился Google Optimize - прекрасная была штуковина.
Можно также воспользоваться и своими разработчиками, чтобы написать т.н. "сплитовалку" - инструмент деления пользователей. Это, возможно, главное, что требуется - правильно поделить. А посчитать и интерпретировать результаты - значительно проще.
👍9
Мы же все еще считаем себя сильными и уверенными в себе, поэтому катим фичи без АБ-теста. Еще один материал в копилку на тему "как посчитать эффект без АБ".
Хабр
Causal Inference методы на практике
Обычно, когда возникает необходимость оценить эффект от продуктовой фичи, аналитики проверяют гипотезы через A/B эксперименты. Но иногда запустить эксперимент нет возможности, а оценить эффект все еще...
👍7
А тут немного скептики по отношению к экспериментам.
Мое любимое: экспертиза + интуиция - смешать, но не взбалтывать.
Истина же, скорее всего, кроется в разумном и рациональном применении любого инструмента, будь то, АБ-тест, айфон, нож или молоток.
Мое любимое: экспертиза + интуиция - смешать, но не взбалтывать.
Истина же, скорее всего, кроется в разумном и рациональном применении любого инструмента, будь то, АБ-тест, айфон, нож или молоток.
Medium
The A/B Testing Delusion: Why Major Tech Companies Are Moving Away from Over-Testing
“A/B Testing is moving the responsibility to the user,” Brian Chesky of Airbnb recently declared. This wasn’t just another tech leader…
👍7