Сейчас, наверное, у всех крупных компаний используются собственные платформы для проведения АБ-тестов. Если кто-то еще на пути к этому, кое-где можно срезать углы, использовав чужой опыт.
И вот что некоторые из них про это рассказывают:
- Авито раз и два
- Ozon раз и два
- Lamoda
- Сбер
- Х5 про оффлайн-эксперименты
И вот что некоторые из них про это рассказывают:
- Авито раз и два
- Ozon раз и два
- Lamoda
- Сбер
- Х5 про оффлайн-эксперименты
Хабр
Как устроено A/B-тестирование в Авито
Всем привет. Меня зовут Данила, я работаю в команде, которая развивает аналитическую инфраструктуру в Авито. Центральное место в этой инфраструктуре занимает А/B-тестирование. А/B эксперименты —...
❤13
Сбермаркет продолжает тему про платформы для A/B-тестов и проводит 28 марта митап.
Помимо Сбермаркета участвуют EXPF (легендарные легенды индустрии) и Авито (не менее легендарные легенды в своей индустрии).
Ссылка на регистрацию
Помимо Сбермаркета участвуют EXPF (легендарные легенды индустрии) и Авито (не менее легендарные легенды в своей индустрии).
Ссылка на регистрацию
sbermarket.timepad.ru
A/B Platform Meetup | SberMarket Tech / События на TimePad.ru
Приглашаем на онлайн-митап СберМаркет Tech.
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
🔥6
Тут ребята из X5 рассказывают, как решают проблему проведения АБ-тестов с небольшими выборками с помощью разработки собственно критерия. Непонятно только, насколько это воспроизводимо на регулярной основе.
Хабр
А/Б тестирование на маленьких выборках. Построение собственного критерия
Хабр, привет! Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим...
👍6
А если свой платформы для АБ-тестов нет и не используется готовое внешнее решение, приходится обходиться собственными силами. Тут у нас снова развилка:
- писать свои функции-библиотеки
- приспособить готовые библиотеки на питоне
Из интересных библиотек могу выделить две:
- Ambrosia от коллег из МТС
- Kolmogorov ABacus
Недавно потестировал Kolmogorov ABacus, очень даже неплохо. Основные особенности:
- Оценка результатов эксперимента с помощью многих стат. критериев, в том числе бустрапа - собственно, ожидаемо
- Инструмент для деления на группы с оценкой качества деления
- Подготовка эксперимента - ошибки 1 и 2 рода, mde, расчет необходимой выборки
Ссылки:
- Гитхаб
- Примеры оценки результатов эксперимента на гитхабе
- Документация
- Канал в телеграме
- Чат поддержки в телеграме
- Статья на Хабре об использовании
- писать свои функции-библиотеки
- приспособить готовые библиотеки на питоне
Из интересных библиотек могу выделить две:
- Ambrosia от коллег из МТС
- Kolmogorov ABacus
Недавно потестировал Kolmogorov ABacus, очень даже неплохо. Основные особенности:
- Оценка результатов эксперимента с помощью многих стат. критериев, в том числе бустрапа - собственно, ожидаемо
- Инструмент для деления на группы с оценкой качества деления
- Подготовка эксперимента - ошибки 1 и 2 рода, mde, расчет необходимой выборки
Ссылки:
- Гитхаб
- Примеры оценки результатов эксперимента на гитхабе
- Документация
- Канал в телеграме
- Чат поддержки в телеграме
- Статья на Хабре об использовании
GitHub
GitHub - kolmogorov-lab/abacus: ABacus: fast hypothesis testing and experiment design solution
ABacus: fast hypothesis testing and experiment design solution - kolmogorov-lab/abacus
🔥8👍2❤1
AB тесты и все вот про это вот все
Сбермаркет продолжает тему про платформы для A/B-тестов и проводит 28 марта митап. Помимо Сбермаркета участвуют EXPF (легендарные легенды индустрии) и Авито (не менее легендарные легенды в своей индустрии). Ссылка на регистрацию
Есть прекрасная поговорка - завтра в 6. Митап перенесен на завтра, 4 апреля, 18.00.
Ссылка актуальна.
Ссылка актуальна.
sbermarket.timepad.ru
A/B Platform Meetup | SberMarket Tech / События на TimePad.ru
Приглашаем на онлайн-митап СберМаркет Tech.
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
🤯2
На хабре вышла большая статья с подробным разбором нескольких стат. критериев:
- z-статистика
- t-статистика
- критерий хи-квадрат
- f-статистика
Она будет особенно полезна тем, кто использует эти критерии, не вникая с их суть.
- z-статистика
- t-статистика
- критерий хи-квадрат
- f-статистика
Она будет особенно полезна тем, кто использует эти критерии, не вникая с их суть.
Хабр
Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез
Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой...
🔥16👍3
Несколько дней назад коллега из Сбермаркета написал статью по работе с Ratio-метриками в AB-тестах. В ней предлагается использовать линеаризацию.
Почему это интересно. Потому что у наших любимых бутстрапа и дельта-метода тоже есть как сильные, так и слабые стороны. Плюс дополнительный метод точно будет полезен.
И еще прикладываю несколько материалов на тему дельта-метода и ratio-метрик:
- раз
- два
- три
- четыре
- пять
Почему это интересно. Потому что у наших любимых бутстрапа и дельта-метода тоже есть как сильные, так и слабые стороны. Плюс дополнительный метод точно будет полезен.
И еще прикладываю несколько материалов на тему дельта-метода и ratio-метрик:
- раз
- два
- три
- четыре
- пять
Хабр
Линеаризация: зачем и как укрощать ratio-метрики в A/B-тестах
Привет, Хабр! В прошлой статье я указал, что в A/B-тестах используются три основных типа метрик, а именно пользовательские конверсии , средние метрики пользователей и ratio-метрики . К последним...
🔥13👍3
Если вдруг кто-то пропустил митап от EXPF, запись здесь.
Темы:
- Как из подручных средств организовать процесс А/В тестирования
- Критерии валидности АБ-тестов
- Поиск Эффективных Прокси-Метрик
- Сбор качественных данных для проведения А/Б тестов
Темы:
- Как из подручных средств организовать процесс А/В тестирования
- Критерии валидности АБ-тестов
- Поиск Эффективных Прокси-Метрик
- Сбор качественных данных для проведения А/Б тестов
YouTube
Митап EXPF x DataGo!
Программа
18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, OKKO
18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет
19:00 – 19:30 Поиск Эффективных…
18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, OKKO
18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет
19:00 – 19:30 Поиск Эффективных…
🔥10❤2
Тут очень интересный доклад легендарного в некоторых кругах Анатолия Карпова про оценку продолжительности АБ-теста. Это одна из самых интересных и проблемных вопросов при проведении экспериментов. Внутри подглядывание, т-тесты, mde, fixed horizon.
Отдельно рекомендую к просмотру раздел со штрафами за подглядывание - менеджерам может понравиться...
Статья EXPF, о которой говорит Анатолий, здесь.
Отдельно рекомендую к просмотру раздел со штрафами за подглядывание - менеджерам может понравиться...
Статья EXPF, о которой говорит Анатолий, здесь.
YouTube
Анатолий Карпов, «Методы оценки размера выборки в А/Б-тестах. От размера эффекта до симуляций»
Анатолий Карповm, СЕО Karpov.Courses
Kolesa Conf 2022, 8 октября
Описание доклада:
Уметь отвечать на вопрос «Как долго должен идти А/Б-тест?» — важнейший навык аналитика. Если вы запускаете А/Б-тест на глазок, будьте готовы, что вас ждёт множество проблем:…
Kolesa Conf 2022, 8 октября
Описание доклада:
Уметь отвечать на вопрос «Как долго должен идти А/Б-тест?» — важнейший навык аналитика. Если вы запускаете А/Б-тест на глазок, будьте готовы, что вас ждёт множество проблем:…
Интересный разговор Александра Игнатенко (телеграм-канал Модель атрибуции) и Виталия Черемисинова (EXPF) про:
- альтернативы закрывшемуся Google Optimize
- особенности интерфейса GA4
- внедрение Сигмы от EXPF
- метрики экспериментов
- распространенные ошибки в командах, работающих с АБ-тестами
- нужно ли очень глубоко закапываться в исследования данных при АБ-тестах
- прочие важные вопросы про АБ-тесты и эксперименты от зрителей стрима
Незаслуженно мало просмотров у ролика как-то.
- альтернативы закрывшемуся Google Optimize
- особенности интерфейса GA4
- внедрение Сигмы от EXPF
- метрики экспериментов
- распространенные ошибки в командах, работающих с АБ-тестами
- нужно ли очень глубоко закапываться в исследования данных при АБ-тестах
- прочие важные вопросы про АБ-тесты и эксперименты от зрителей стрима
Незаслуженно мало просмотров у ролика как-то.
YouTube
Есть ли жизнь после Оптимайза?
Запись стрима о том, как, где и каким способом проводить AB-тесты после заката Google Optimize. И не только об этом.
Участники:
Александр Игнатенко, эксперт по маркетинг-аналитике, автор телеграм-канала «Модель атрибуции» - https://bit.ly/3uMhmZo
Виталий…
Участники:
Александр Игнатенко, эксперт по маркетинг-аналитике, автор телеграм-канала «Модель атрибуции» - https://bit.ly/3uMhmZo
Виталий…
👍5
Сбермаркет в новой статье рассказывает, как в своей платформе (да, я снова про платформу) АБ-тестов проверяет АБ-тесты на валидность.
Хабр
Как оценить валидность A/B-тестов. SRM и другие критерии
Привет! Меня зовут Полина, я руковожу A/B‑платформой в СберМаркете. В этой статье я расскажу о нескольких нюансах экспериментирования, которые возникают на разных этапах: от дизайна и сплитования до...
❤2
Тем, кто начинает заниматься АБ-тестами, часто кажется, что самое главное - делить на группы, считать pvalue, выбирать стат. Критерий. Но это не так.
На AHA сейчас идёт мастер-класс, на котором наши коллега из Самокат Тех разбирает дизайн АБ-теста со своего конкурса.
Для тех, кто не очень понимает, с чего начинается эксперимент, рекомендую.
На AHA сейчас идёт мастер-класс, на котором наши коллега из Самокат Тех разбирает дизайн АБ-теста со своего конкурса.
Для тех, кто не очень понимает, с чего начинается эксперимент, рекомендую.
👍7
Посматриваю на досуге AHA, ММ. И тут прекрасные доклады - casual impact, сетевые эффекты, использование ml, повышение чувствительности и прочие. Наивному зрителю может показаться, что все вокруг проводят АБ-тесты и прямо мастера.
К сожалению, опыт и общение с коллегами из других компаний рисуют альтернативную действительность - зачастую отсутствует культура проведения АБ-тестов, просто непонимание, как это работает. Из-за этого результаты получаются не такие, как ожидалось. А на словах зато прекрасно звучит "мы проводим эксперименты".
Простые примеры:
- мы раскатили эксперимент на 100%, после посмотрим когортно
- вчера запустили, давай завтра посмотрим промежуточные результаты, сверху просят
- планируем сделать 12/20/30/100500 тестовых вариантов
- запустим, а потом посмотрим, какие метрики нам выбрать
- не знаю, на сколько планируем увеличить метрики - посчитаем и решим, достаточно ли
- а зачем присваивать пользователям эксперимента метки, оно само не прорастет?
- почему не выросла конверсия? она же выросла на 0,003%
- да, мы не получим стат. значимых результатов, но давай проведем - начальство просит
- да, не получили, раскатываем на всех пользователей - начальство решило
Оттого страннее о таком слышать, что сейчас куча доступных, при этом бесплатных материалов, в которых детально разжевывается, как делать надо, а как не надо.
Гугл сломался, чатгпт, видимо, тоже? Впрочем, вопрос скорее риторический.
А то, что за пределами одних и тех же топ- мега- элитных- технологических компаний, представителей которых мы слышим на конференциях раз за разом, уровень культуры проведения АБ-тестов невысокий - очень печально.
Добавляю картинку, сгенерированную по тексту "неудачный аб-тест".
Всем хорошего понедельника.
К сожалению, опыт и общение с коллегами из других компаний рисуют альтернативную действительность - зачастую отсутствует культура проведения АБ-тестов, просто непонимание, как это работает. Из-за этого результаты получаются не такие, как ожидалось. А на словах зато прекрасно звучит "мы проводим эксперименты".
Простые примеры:
- мы раскатили эксперимент на 100%, после посмотрим когортно
- вчера запустили, давай завтра посмотрим промежуточные результаты, сверху просят
- планируем сделать 12/20/30/100500 тестовых вариантов
- запустим, а потом посмотрим, какие метрики нам выбрать
- не знаю, на сколько планируем увеличить метрики - посчитаем и решим, достаточно ли
- а зачем присваивать пользователям эксперимента метки, оно само не прорастет?
- почему не выросла конверсия? она же выросла на 0,003%
- да, мы не получим стат. значимых результатов, но давай проведем - начальство просит
- да, не получили, раскатываем на всех пользователей - начальство решило
Оттого страннее о таком слышать, что сейчас куча доступных, при этом бесплатных материалов, в которых детально разжевывается, как делать надо, а как не надо.
Гугл сломался, чатгпт, видимо, тоже? Впрочем, вопрос скорее риторический.
А то, что за пределами одних и тех же топ- мега- элитных- технологических компаний, представителей которых мы слышим на конференциях раз за разом, уровень культуры проведения АБ-тестов невысокий - очень печально.
Добавляю картинку, сгенерированную по тексту "неудачный аб-тест".
Всем хорошего понедельника.
👍15
Можно не беспокоиться, я не впал в летаргический сон. Жив, относительно здоров.
Тут появилась новая статья по бутстрапу. Смотрим теорию, кодим на питоне, ищем (и, к сожалению, находим) слабые места.
Также прикладываю список материалов по бутстрапу, что у меня есть:
- Статья Бутстрап, или прикладная статистика почти без формул
- Лекция EXPF
- Статья Использование бутстрапа
- Бутстреп и А/Б тестирование
- Большой подробный гайд про то как работает бутстрап
- Пуассоновский бутстрап
- Статья Бутстреп и А/Б тестирование
- Вебинар Анатолия Карпова Bootstrap VS t - test
Мой код на гитхаб для расчета бустрапа и децильного бутстрапа
Бутстрап, как метод анализа АБ-тестов, по моему скромному мнению, прекрасен, имеет минимум ограничений. При этом не то, чтобы часто слышу, что "мы его используем часто, почти постоянно". А жаль.
Тут появилась новая статья по бутстрапу. Смотрим теорию, кодим на питоне, ищем (и, к сожалению, находим) слабые места.
Также прикладываю список материалов по бутстрапу, что у меня есть:
- Статья Бутстрап, или прикладная статистика почти без формул
- Лекция EXPF
- Статья Использование бутстрапа
- Бутстреп и А/Б тестирование
- Большой подробный гайд про то как работает бутстрап
- Пуассоновский бутстрап
- Статья Бутстреп и А/Б тестирование
- Вебинар Анатолия Карпова Bootstrap VS t - test
Мой код на гитхаб для расчета бустрапа и децильного бутстрапа
Бутстрап, как метод анализа АБ-тестов, по моему скромному мнению, прекрасен, имеет минимум ограничений. При этом не то, чтобы часто слышу, что "мы его используем часто, почти постоянно". А жаль.
Хабр
Бутстрап и доверительные интервалы: от теории к практике на Python
Введение Применение Ограничения Схема бутстрапа Эфронов доверительный интервал Доверительный интервал Холла t-процентильный доверительный интервал Реализация на Python Проблемы Примечания Введение...
👍7🔥3❤1
Как перестать тестировать гипотезы, взятые с потолка? Делать это быстрее.
Не благодарите.
Не благодарите.
👍7💩4😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Приготовьтесь, нас снова посчитают.
New HR проводит очередное исследование рынка аналитиков. Предыдущее выходило в 2023 году, результаты можно найти здесь. Также у них куча других исследований на айтишные темы.
Что будет в исследовании:
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удаленка/офис), какие планы на трудоустройство.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
В течение октября можно пройти опрос, результаты текущего исследования выйдут в начале 2025 года.
Если хочешь знать, что происходит на рынке дата-, bi-, веб-, маркетинговых, продуктовых аналитиков и хочешь, чтобы эти данные были репрезентативными, просто пройди этот опрос. Без тебя никак.
Ссылочка на опросник тут
New HR проводит очередное исследование рынка аналитиков. Предыдущее выходило в 2023 году, результаты можно найти здесь. Также у них куча других исследований на айтишные темы.
Что будет в исследовании:
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удаленка/офис), какие планы на трудоустройство.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
В течение октября можно пройти опрос, результаты текущего исследования выйдут в начале 2025 года.
Если хочешь знать, что происходит на рынке дата-, bi-, веб-, маркетинговых, продуктовых аналитиков и хочешь, чтобы эти данные были репрезентативными, просто пройди этот опрос. Без тебя никак.
Ссылочка на опросник тут
👍3
Яндекс сообщает, что АБ-тесты в Яндекс Директе теперь доступны. Теперь все настройки и отчеты находятся непосредственно в Директе. Говорят, теперь станет удобнее.
Справка.
Справка.
yandex.ru
A/B-эксперименты |
Шаг 1. Сформулируйте гипотезу.
👍2
Классическая проблема - провели кучу АБ-тестов, многие со стат. значимым успехом, а после раскатки на 100% эффект уже и не сильно заметет. Статья о причинах и возможных решениях.
Medium
Why the uplift in A/B tests often differs from real-world results
Explore why the uplift seen in A/B tests often differs from real-world outcomes, and get insights on how to manage expectations…
Возвращаюсь, посмотрев очередной митап про АБ-тесты. Все не могу понять, что появилось раньше - АБ-тесты или платформы для их проведения.
Рекомендую к просмотру - очень интересно.
Рекомендую к просмотру - очень интересно.
YouTube
A/B Platform Meetup | SberMarket Tech
Митап про А/В-платформы, тесты и процессы, с этим связанные.
Вас ждут доклады спикеров из EXPF, СберМаркета и Авито.
4:57 «Система автоматического расчёта А/В тестов в СберМаркете»
Рамиль Чермантеев — руководитель команды аналитиков-инженеров платформы…
Вас ждут доклады спикеров из EXPF, СберМаркета и Авито.
4:57 «Система автоматического расчёта А/В тестов в СберМаркете»
Рамиль Чермантеев — руководитель команды аналитиков-инженеров платформы…
🔥4
Интересную тему затрагивает автор статьи - мониторить распределение пользователей между вариантами АБ-теста.
Проблема не так тривиальна, как может показаться. Если деление отличается от запланированного, да еще и неравномерно по дням или сегментам, это может привести к плачевным результатам.
У меня было такое, что у старух пользователей деление было такое, как настроено, а у новых оно мало того, что отличалось, так еще и имело изменяющийся тренд по дням. Из-за этого из анализа новых пользователей приходилось убирать. А смотреть за этим начал, обнаружив "странные" результаты.
Если подняться на уровень выше, контроль системы сплитования - одна из важнейших атрибутов успешного АБ-тестирования.
Проблема не так тривиальна, как может показаться. Если деление отличается от запланированного, да еще и неравномерно по дням или сегментам, это может привести к плачевным результатам.
У меня было такое, что у старух пользователей деление было такое, как настроено, а у новых оно мало того, что отличалось, так еще и имело изменяющийся тренд по дням. Из-за этого из анализа новых пользователей приходилось убирать. А смотреть за этим начал, обнаружив "странные" результаты.
Если подняться на уровень выше, контроль системы сплитования - одна из важнейших атрибутов успешного АБ-тестирования.
Хабр
Как Sample Ratio Mismatch спасает A/B тесты от ложных выводов
Если вы когда-либо работали с A/B тестированием, то знаете, что этот процесс не всегда идет гладко. Казалось бы, что тут может быть сложного? Разделили аудиторию, дали половине синюю кнопку, половине...
👍6