Рекомендую посмотреть крайне интересное недавнее видео о проведении АБ-теста в оффлайн-ритейле, в формате собеседования. Там все работает несколько иначе, нем на наших привычных сайтах, приложеньках, играх. Оттого еще интереснее. Смотрим...
YouTube
A/B-тесты с Валерием Бабушкиным | Собеседование | karpov.courses
Симулятор A/B-тестов: @
Представьте, что вы работаете в физическом ритейле. Команда машинного обучения разрабатывает алгоритм ценообразования. Как оценить его эффективность с помощью A/B-теста?
Смотрите новое собеседование, чтобы узнать, как с этой задачей…
Представьте, что вы работаете в физическом ритейле. Команда машинного обучения разрабатывает алгоритм ценообразования. Как оценить его эффективность с помощью A/B-теста?
Смотрите новое собеседование, чтобы узнать, как с этой задачей…
💩2👍1
Когда подводим результаты АБ-теста, выносим некий вердикт, например, стат. значимых изменений нет, нулевая гипотеза отвергнута, идем дальше.
А потом к тебе приходят с запросом - а давай покопаемся в тех или иных сегментах пользователей, возможно, в каких-то из них у нас будет стат. значимый результат. И, конечно, почти всегда можно найти большие или маленькие сегменты, где наши изменения сработали. Но, они не меняют метрики на всех пользователях, так как или сегменты маленькие, или и на них влияние было не сильно кратное. А, может, и то, и другое сразу.
Такая информация может быть полезна, как дополнительное знание, которое может подтолкнуть к какием-то новым гипотезам, экспериментам, исследованиям.
Беда в том, что такие результаты иногда пытаются использовать для того, чтобы сказать, что "вот у таких и таких пользователей есть стат. значимое изменение метрик и поэтому данную фичу нужно раскатить на всех". В таком случае это явная манипуляция с целью исказить результаты нашего эксперимента. Потому что очень хочется, чтобы получилось успешно.
В такой ситуации стоит подводить итоги, как изначально планировалось. И, если все же приняли решение что-то дополнительно поисследовать в каких-то сегментах, оформить это именно как доп. исследование, не касающееся основных выводов по эксперименту. Мы же за истину все ж...
А потом к тебе приходят с запросом - а давай покопаемся в тех или иных сегментах пользователей, возможно, в каких-то из них у нас будет стат. значимый результат. И, конечно, почти всегда можно найти большие или маленькие сегменты, где наши изменения сработали. Но, они не меняют метрики на всех пользователях, так как или сегменты маленькие, или и на них влияние было не сильно кратное. А, может, и то, и другое сразу.
Такая информация может быть полезна, как дополнительное знание, которое может подтолкнуть к какием-то новым гипотезам, экспериментам, исследованиям.
Беда в том, что такие результаты иногда пытаются использовать для того, чтобы сказать, что "вот у таких и таких пользователей есть стат. значимое изменение метрик и поэтому данную фичу нужно раскатить на всех". В таком случае это явная манипуляция с целью исказить результаты нашего эксперимента. Потому что очень хочется, чтобы получилось успешно.
В такой ситуации стоит подводить итоги, как изначально планировалось. И, если все же приняли решение что-то дополнительно поисследовать в каких-то сегментах, оформить это именно как доп. исследование, не касающееся основных выводов по эксперименту. Мы же за истину все ж...
👍12
Сейчас, наверное, у всех крупных компаний используются собственные платформы для проведения АБ-тестов. Если кто-то еще на пути к этому, кое-где можно срезать углы, использовав чужой опыт.
И вот что некоторые из них про это рассказывают:
- Авито раз и два
- Ozon раз и два
- Lamoda
- Сбер
- Х5 про оффлайн-эксперименты
И вот что некоторые из них про это рассказывают:
- Авито раз и два
- Ozon раз и два
- Lamoda
- Сбер
- Х5 про оффлайн-эксперименты
Хабр
Как устроено A/B-тестирование в Авито
Всем привет. Меня зовут Данила, я работаю в команде, которая развивает аналитическую инфраструктуру в Авито. Центральное место в этой инфраструктуре занимает А/B-тестирование. А/B эксперименты —...
❤13
Сбермаркет продолжает тему про платформы для A/B-тестов и проводит 28 марта митап.
Помимо Сбермаркета участвуют EXPF (легендарные легенды индустрии) и Авито (не менее легендарные легенды в своей индустрии).
Ссылка на регистрацию
Помимо Сбермаркета участвуют EXPF (легендарные легенды индустрии) и Авито (не менее легендарные легенды в своей индустрии).
Ссылка на регистрацию
sbermarket.timepad.ru
A/B Platform Meetup | SberMarket Tech / События на TimePad.ru
Приглашаем на онлайн-митап СберМаркет Tech.
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
🔥6
Тут ребята из X5 рассказывают, как решают проблему проведения АБ-тестов с небольшими выборками с помощью разработки собственно критерия. Непонятно только, насколько это воспроизводимо на регулярной основе.
Хабр
А/Б тестирование на маленьких выборках. Построение собственного критерия
Хабр, привет! Сегодня рассмотрим кейс, в котором классические статистические критерии не работают, и разберёмся, почему так происходит. Научимся строить свои собственные критерии по историческим...
👍6
А если свой платформы для АБ-тестов нет и не используется готовое внешнее решение, приходится обходиться собственными силами. Тут у нас снова развилка:
- писать свои функции-библиотеки
- приспособить готовые библиотеки на питоне
Из интересных библиотек могу выделить две:
- Ambrosia от коллег из МТС
- Kolmogorov ABacus
Недавно потестировал Kolmogorov ABacus, очень даже неплохо. Основные особенности:
- Оценка результатов эксперимента с помощью многих стат. критериев, в том числе бустрапа - собственно, ожидаемо
- Инструмент для деления на группы с оценкой качества деления
- Подготовка эксперимента - ошибки 1 и 2 рода, mde, расчет необходимой выборки
Ссылки:
- Гитхаб
- Примеры оценки результатов эксперимента на гитхабе
- Документация
- Канал в телеграме
- Чат поддержки в телеграме
- Статья на Хабре об использовании
- писать свои функции-библиотеки
- приспособить готовые библиотеки на питоне
Из интересных библиотек могу выделить две:
- Ambrosia от коллег из МТС
- Kolmogorov ABacus
Недавно потестировал Kolmogorov ABacus, очень даже неплохо. Основные особенности:
- Оценка результатов эксперимента с помощью многих стат. критериев, в том числе бустрапа - собственно, ожидаемо
- Инструмент для деления на группы с оценкой качества деления
- Подготовка эксперимента - ошибки 1 и 2 рода, mde, расчет необходимой выборки
Ссылки:
- Гитхаб
- Примеры оценки результатов эксперимента на гитхабе
- Документация
- Канал в телеграме
- Чат поддержки в телеграме
- Статья на Хабре об использовании
GitHub
GitHub - kolmogorov-lab/abacus: ABacus: fast hypothesis testing and experiment design solution
ABacus: fast hypothesis testing and experiment design solution - kolmogorov-lab/abacus
🔥8👍2❤1
AB тесты и все вот про это вот все
Сбермаркет продолжает тему про платформы для A/B-тестов и проводит 28 марта митап. Помимо Сбермаркета участвуют EXPF (легендарные легенды индустрии) и Авито (не менее легендарные легенды в своей индустрии). Ссылка на регистрацию
Есть прекрасная поговорка - завтра в 6. Митап перенесен на завтра, 4 апреля, 18.00.
Ссылка актуальна.
Ссылка актуальна.
sbermarket.timepad.ru
A/B Platform Meetup | SberMarket Tech / События на TimePad.ru
Приглашаем на онлайн-митап СберМаркет Tech.
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
Регистрируйся и присоединяйся к нам!
Трансляция здесь: www.youtube.com/watch?v=YoTTuiVDeMo...
🤯2
На хабре вышла большая статья с подробным разбором нескольких стат. критериев:
- z-статистика
- t-статистика
- критерий хи-квадрат
- f-статистика
Она будет особенно полезна тем, кто использует эти критерии, не вникая с их суть.
- z-статистика
- t-статистика
- критерий хи-квадрат
- f-статистика
Она будет особенно полезна тем, кто использует эти критерии, не вникая с их суть.
Хабр
Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез
Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой...
🔥16👍3
Несколько дней назад коллега из Сбермаркета написал статью по работе с Ratio-метриками в AB-тестах. В ней предлагается использовать линеаризацию.
Почему это интересно. Потому что у наших любимых бутстрапа и дельта-метода тоже есть как сильные, так и слабые стороны. Плюс дополнительный метод точно будет полезен.
И еще прикладываю несколько материалов на тему дельта-метода и ratio-метрик:
- раз
- два
- три
- четыре
- пять
Почему это интересно. Потому что у наших любимых бутстрапа и дельта-метода тоже есть как сильные, так и слабые стороны. Плюс дополнительный метод точно будет полезен.
И еще прикладываю несколько материалов на тему дельта-метода и ratio-метрик:
- раз
- два
- три
- четыре
- пять
Хабр
Линеаризация: зачем и как укрощать ratio-метрики в A/B-тестах
Привет, Хабр! В прошлой статье я указал, что в A/B-тестах используются три основных типа метрик, а именно пользовательские конверсии , средние метрики пользователей и ratio-метрики . К последним...
🔥13👍3
Если вдруг кто-то пропустил митап от EXPF, запись здесь.
Темы:
- Как из подручных средств организовать процесс А/В тестирования
- Критерии валидности АБ-тестов
- Поиск Эффективных Прокси-Метрик
- Сбор качественных данных для проведения А/Б тестов
Темы:
- Как из подручных средств организовать процесс А/В тестирования
- Критерии валидности АБ-тестов
- Поиск Эффективных Прокси-Метрик
- Сбор качественных данных для проведения А/Б тестов
YouTube
Митап EXPF x DataGo!
Программа
18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, OKKO
18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет
19:00 – 19:30 Поиск Эффективных…
18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, OKKO
18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет
19:00 – 19:30 Поиск Эффективных…
🔥10❤2
Тут очень интересный доклад легендарного в некоторых кругах Анатолия Карпова про оценку продолжительности АБ-теста. Это одна из самых интересных и проблемных вопросов при проведении экспериментов. Внутри подглядывание, т-тесты, mde, fixed horizon.
Отдельно рекомендую к просмотру раздел со штрафами за подглядывание - менеджерам может понравиться...
Статья EXPF, о которой говорит Анатолий, здесь.
Отдельно рекомендую к просмотру раздел со штрафами за подглядывание - менеджерам может понравиться...
Статья EXPF, о которой говорит Анатолий, здесь.
YouTube
Анатолий Карпов, «Методы оценки размера выборки в А/Б-тестах. От размера эффекта до симуляций»
Анатолий Карповm, СЕО Karpov.Courses
Kolesa Conf 2022, 8 октября
Описание доклада:
Уметь отвечать на вопрос «Как долго должен идти А/Б-тест?» — важнейший навык аналитика. Если вы запускаете А/Б-тест на глазок, будьте готовы, что вас ждёт множество проблем:…
Kolesa Conf 2022, 8 октября
Описание доклада:
Уметь отвечать на вопрос «Как долго должен идти А/Б-тест?» — важнейший навык аналитика. Если вы запускаете А/Б-тест на глазок, будьте готовы, что вас ждёт множество проблем:…
Интересный разговор Александра Игнатенко (телеграм-канал Модель атрибуции) и Виталия Черемисинова (EXPF) про:
- альтернативы закрывшемуся Google Optimize
- особенности интерфейса GA4
- внедрение Сигмы от EXPF
- метрики экспериментов
- распространенные ошибки в командах, работающих с АБ-тестами
- нужно ли очень глубоко закапываться в исследования данных при АБ-тестах
- прочие важные вопросы про АБ-тесты и эксперименты от зрителей стрима
Незаслуженно мало просмотров у ролика как-то.
- альтернативы закрывшемуся Google Optimize
- особенности интерфейса GA4
- внедрение Сигмы от EXPF
- метрики экспериментов
- распространенные ошибки в командах, работающих с АБ-тестами
- нужно ли очень глубоко закапываться в исследования данных при АБ-тестах
- прочие важные вопросы про АБ-тесты и эксперименты от зрителей стрима
Незаслуженно мало просмотров у ролика как-то.
YouTube
Есть ли жизнь после Оптимайза?
Запись стрима о том, как, где и каким способом проводить AB-тесты после заката Google Optimize. И не только об этом.
Участники:
Александр Игнатенко, эксперт по маркетинг-аналитике, автор телеграм-канала «Модель атрибуции» - https://bit.ly/3uMhmZo
Виталий…
Участники:
Александр Игнатенко, эксперт по маркетинг-аналитике, автор телеграм-канала «Модель атрибуции» - https://bit.ly/3uMhmZo
Виталий…
👍5
Сбермаркет в новой статье рассказывает, как в своей платформе (да, я снова про платформу) АБ-тестов проверяет АБ-тесты на валидность.
Хабр
Как оценить валидность A/B-тестов. SRM и другие критерии
Привет! Меня зовут Полина, я руковожу A/B‑платформой в СберМаркете. В этой статье я расскажу о нескольких нюансах экспериментирования, которые возникают на разных этапах: от дизайна и сплитования до...
❤2
Тем, кто начинает заниматься АБ-тестами, часто кажется, что самое главное - делить на группы, считать pvalue, выбирать стат. Критерий. Но это не так.
На AHA сейчас идёт мастер-класс, на котором наши коллега из Самокат Тех разбирает дизайн АБ-теста со своего конкурса.
Для тех, кто не очень понимает, с чего начинается эксперимент, рекомендую.
На AHA сейчас идёт мастер-класс, на котором наши коллега из Самокат Тех разбирает дизайн АБ-теста со своего конкурса.
Для тех, кто не очень понимает, с чего начинается эксперимент, рекомендую.
👍7
Посматриваю на досуге AHA, ММ. И тут прекрасные доклады - casual impact, сетевые эффекты, использование ml, повышение чувствительности и прочие. Наивному зрителю может показаться, что все вокруг проводят АБ-тесты и прямо мастера.
К сожалению, опыт и общение с коллегами из других компаний рисуют альтернативную действительность - зачастую отсутствует культура проведения АБ-тестов, просто непонимание, как это работает. Из-за этого результаты получаются не такие, как ожидалось. А на словах зато прекрасно звучит "мы проводим эксперименты".
Простые примеры:
- мы раскатили эксперимент на 100%, после посмотрим когортно
- вчера запустили, давай завтра посмотрим промежуточные результаты, сверху просят
- планируем сделать 12/20/30/100500 тестовых вариантов
- запустим, а потом посмотрим, какие метрики нам выбрать
- не знаю, на сколько планируем увеличить метрики - посчитаем и решим, достаточно ли
- а зачем присваивать пользователям эксперимента метки, оно само не прорастет?
- почему не выросла конверсия? она же выросла на 0,003%
- да, мы не получим стат. значимых результатов, но давай проведем - начальство просит
- да, не получили, раскатываем на всех пользователей - начальство решило
Оттого страннее о таком слышать, что сейчас куча доступных, при этом бесплатных материалов, в которых детально разжевывается, как делать надо, а как не надо.
Гугл сломался, чатгпт, видимо, тоже? Впрочем, вопрос скорее риторический.
А то, что за пределами одних и тех же топ- мега- элитных- технологических компаний, представителей которых мы слышим на конференциях раз за разом, уровень культуры проведения АБ-тестов невысокий - очень печально.
Добавляю картинку, сгенерированную по тексту "неудачный аб-тест".
Всем хорошего понедельника.
К сожалению, опыт и общение с коллегами из других компаний рисуют альтернативную действительность - зачастую отсутствует культура проведения АБ-тестов, просто непонимание, как это работает. Из-за этого результаты получаются не такие, как ожидалось. А на словах зато прекрасно звучит "мы проводим эксперименты".
Простые примеры:
- мы раскатили эксперимент на 100%, после посмотрим когортно
- вчера запустили, давай завтра посмотрим промежуточные результаты, сверху просят
- планируем сделать 12/20/30/100500 тестовых вариантов
- запустим, а потом посмотрим, какие метрики нам выбрать
- не знаю, на сколько планируем увеличить метрики - посчитаем и решим, достаточно ли
- а зачем присваивать пользователям эксперимента метки, оно само не прорастет?
- почему не выросла конверсия? она же выросла на 0,003%
- да, мы не получим стат. значимых результатов, но давай проведем - начальство просит
- да, не получили, раскатываем на всех пользователей - начальство решило
Оттого страннее о таком слышать, что сейчас куча доступных, при этом бесплатных материалов, в которых детально разжевывается, как делать надо, а как не надо.
Гугл сломался, чатгпт, видимо, тоже? Впрочем, вопрос скорее риторический.
А то, что за пределами одних и тех же топ- мега- элитных- технологических компаний, представителей которых мы слышим на конференциях раз за разом, уровень культуры проведения АБ-тестов невысокий - очень печально.
Добавляю картинку, сгенерированную по тексту "неудачный аб-тест".
Всем хорошего понедельника.
👍15
Можно не беспокоиться, я не впал в летаргический сон. Жив, относительно здоров.
Тут появилась новая статья по бутстрапу. Смотрим теорию, кодим на питоне, ищем (и, к сожалению, находим) слабые места.
Также прикладываю список материалов по бутстрапу, что у меня есть:
- Статья Бутстрап, или прикладная статистика почти без формул
- Лекция EXPF
- Статья Использование бутстрапа
- Бутстреп и А/Б тестирование
- Большой подробный гайд про то как работает бутстрап
- Пуассоновский бутстрап
- Статья Бутстреп и А/Б тестирование
- Вебинар Анатолия Карпова Bootstrap VS t - test
Мой код на гитхаб для расчета бустрапа и децильного бутстрапа
Бутстрап, как метод анализа АБ-тестов, по моему скромному мнению, прекрасен, имеет минимум ограничений. При этом не то, чтобы часто слышу, что "мы его используем часто, почти постоянно". А жаль.
Тут появилась новая статья по бутстрапу. Смотрим теорию, кодим на питоне, ищем (и, к сожалению, находим) слабые места.
Также прикладываю список материалов по бутстрапу, что у меня есть:
- Статья Бутстрап, или прикладная статистика почти без формул
- Лекция EXPF
- Статья Использование бутстрапа
- Бутстреп и А/Б тестирование
- Большой подробный гайд про то как работает бутстрап
- Пуассоновский бутстрап
- Статья Бутстреп и А/Б тестирование
- Вебинар Анатолия Карпова Bootstrap VS t - test
Мой код на гитхаб для расчета бустрапа и децильного бутстрапа
Бутстрап, как метод анализа АБ-тестов, по моему скромному мнению, прекрасен, имеет минимум ограничений. При этом не то, чтобы часто слышу, что "мы его используем часто, почти постоянно". А жаль.
Хабр
Бутстрап и доверительные интервалы: от теории к практике на Python
Введение Применение Ограничения Схема бутстрапа Эфронов доверительный интервал Доверительный интервал Холла t-процентильный доверительный интервал Реализация на Python Проблемы Примечания Введение...
👍7🔥3❤1
Как перестать тестировать гипотезы, взятые с потолка? Делать это быстрее.
Не благодарите.
Не благодарите.
👍7💩4😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Приготовьтесь, нас снова посчитают.
New HR проводит очередное исследование рынка аналитиков. Предыдущее выходило в 2023 году, результаты можно найти здесь. Также у них куча других исследований на айтишные темы.
Что будет в исследовании:
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удаленка/офис), какие планы на трудоустройство.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
В течение октября можно пройти опрос, результаты текущего исследования выйдут в начале 2025 года.
Если хочешь знать, что происходит на рынке дата-, bi-, веб-, маркетинговых, продуктовых аналитиков и хочешь, чтобы эти данные были репрезентативными, просто пройди этот опрос. Без тебя никак.
Ссылочка на опросник тут
New HR проводит очередное исследование рынка аналитиков. Предыдущее выходило в 2023 году, результаты можно найти здесь. Также у них куча других исследований на айтишные темы.
Что будет в исследовании:
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой, например.
👉 Где работают аналитики, как работают (удаленка/офис), какие планы на трудоустройство.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
В течение октября можно пройти опрос, результаты текущего исследования выйдут в начале 2025 года.
Если хочешь знать, что происходит на рынке дата-, bi-, веб-, маркетинговых, продуктовых аналитиков и хочешь, чтобы эти данные были репрезентативными, просто пройди этот опрос. Без тебя никак.
Ссылочка на опросник тут
👍3
Яндекс сообщает, что АБ-тесты в Яндекс Директе теперь доступны. Теперь все настройки и отчеты находятся непосредственно в Директе. Говорят, теперь станет удобнее.
Справка.
Справка.
yandex.ru
A/B-эксперименты |
Шаг 1. Сформулируйте гипотезу.
👍2
Классическая проблема - провели кучу АБ-тестов, многие со стат. значимым успехом, а после раскатки на 100% эффект уже и не сильно заметет. Статья о причинах и возможных решениях.
Medium
Why the uplift in A/B tests often differs from real-world results
Explore why the uplift seen in A/B tests often differs from real-world outcomes, and get insights on how to manage expectations…