Анонс AI Quality Workshop
Открытый бесплатный курс по оценке качества и надежности моделей
Компания Truera запустила серию бесплатных открытых курсов AI Quality Workshop. Ближайшая сессия стартует 25 августа, зарегистрироваться можно тут.
Курс предполагает 4 live-сессии. Одна из целей курса, конечно же, реклама проприетарных продуктов Truera. Но, кажется, что при этом состав преподавателей вполне неплох (MIT, Carnegie Mellon University, Georgia Institute of Technology, University of Maryland) и темы, которые планируются к рассказу, тоже очень достойны для расширения кругозора: ML Explainability, Accuracy and Performance Debugging, Model Drift Fairness, NLP Model Quality.
#tech
Открытый бесплатный курс по оценке качества и надежности моделей
Компания Truera запустила серию бесплатных открытых курсов AI Quality Workshop. Ближайшая сессия стартует 25 августа, зарегистрироваться можно тут.
Курс предполагает 4 live-сессии. Одна из целей курса, конечно же, реклама проприетарных продуктов Truera. Но, кажется, что при этом состав преподавателей вполне неплох (MIT, Carnegie Mellon University, Georgia Institute of Technology, University of Maryland) и темы, которые планируются к рассказу, тоже очень достойны для расширения кругозора: ML Explainability, Accuracy and Performance Debugging, Model Drift Fairness, NLP Model Quality.
#tech
👍6🔥4🤩1
АБ-тесты - это не только ценный мех… Но еще и процессы.
Цикл постов про АБ-тестирование. Пост 1.
О математических нюансах АБ-тестирования есть много замечательной литературы, подборку которой мы дадим в конце этой серии постов.
Но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.
При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема.
На первый взгляд, кажется, что достаточно отработать методику АБ-тестирования на уровне объектов тестирования (например, точек продаж для офлайн ритейла). Но на практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.
С точки зрения бизнес-процессов компании АБ-тестирование - часть инвестиционного цикла проектов и продуктов, за который отвечает финансовое подразделение. Внутри инвестиционного цикла АБ-тестирование – это один из способов дизайна и оценки пилотных экспериментов компании для того, чтобы принять решение о дальнейших инвестициях в проект.
Обобщенно инвестиционный цикл можно разбить на этапы:
- Заявка на проект. Процедура отбора проектов, в которые компания готова инвестировать. Здесь АБ-тестирование может участвовать, дополняя критерии отбора проектов возможностью проведения статистически корректного АБ-теста.
На практике это, к сожалению, происходит редко, что приводит к значительным денежным потерям. Проект запустили, а вывод о том, эффективен ли он, сделать невозможно.
- Инвестиционный комитет по процедурам компании для решения о том, идет ли проект дальше по циклу.
- Разработка MVP. Разрабатывается прототип решения.
- Пилот. После разработки MVP нужно как можно дешевле (на минимальном числе объектов) оценить финансовый эффект проекта, чтобы принять решение о продолжении или прекращении инвестиций в проект.
Чтобы понять, окупятся ли дальнейшие инвестиции в проект, нам нужно быть уверенными, что мы получили достоверную оценку финансового эффекта.
Как тут помогает АБ тестирование: математически корректная методика дизайна и оценки результатов экспериментов дает возможность сделать правильные выводы о ценности разработанного MVP.
- Инвестиционный комитет по процедурам компании для решения о том, идет ли проект дальше по циклу.
- Ролл-аут. Осуществляется внедрение проекта на все целевые объекты в масштабе компании.
- Пост-инвест анализ. Чтобы отслеживать эффективность инвестиционной деятельности, компании нужно оценить итоговый финансовый эффект ролл-аута. Какие статистические инструменты доступны?
Прежде всего - контрфактические методы причинно-следственного анализа. Мы писали о них в начале года (тут, тут и тут).
Важно помнить, что АБ-тестирование – лишь часть (пусть и очень важная) методов причинно-следственного анализа. АБ-тесты - только один из способов дизайна и оценки пилотных экспериментов. Они хорошо работают в типовых случаях, а для сложных случаев помогут контрфактические методы. При использовании контрфактических методов критически важно обеспечить робастность применения моделей.
Эту структуру полезно иметь в виду при интеграции АБ-тестирования в бизнес-процессы компании.
В следующих постах цикла речь пойдет о детальном бизнес-процессе дизайна и оценки пилота, а также о том, какие этапы в нем закрывает математическая методика АБ-тестирования, а какие этапы нужно дополнительно продумать и упорядочить при ее внедрении.
#business #ab_testing
Цикл постов про АБ-тестирование. Пост 1.
О математических нюансах АБ-тестирования есть много замечательной литературы, подборку которой мы дадим в конце этой серии постов.
Но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.
При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема.
На первый взгляд, кажется, что достаточно отработать методику АБ-тестирования на уровне объектов тестирования (например, точек продаж для офлайн ритейла). Но на практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.
С точки зрения бизнес-процессов компании АБ-тестирование - часть инвестиционного цикла проектов и продуктов, за который отвечает финансовое подразделение. Внутри инвестиционного цикла АБ-тестирование – это один из способов дизайна и оценки пилотных экспериментов компании для того, чтобы принять решение о дальнейших инвестициях в проект.
Обобщенно инвестиционный цикл можно разбить на этапы:
- Заявка на проект. Процедура отбора проектов, в которые компания готова инвестировать. Здесь АБ-тестирование может участвовать, дополняя критерии отбора проектов возможностью проведения статистически корректного АБ-теста.
На практике это, к сожалению, происходит редко, что приводит к значительным денежным потерям. Проект запустили, а вывод о том, эффективен ли он, сделать невозможно.
- Инвестиционный комитет по процедурам компании для решения о том, идет ли проект дальше по циклу.
- Разработка MVP. Разрабатывается прототип решения.
- Пилот. После разработки MVP нужно как можно дешевле (на минимальном числе объектов) оценить финансовый эффект проекта, чтобы принять решение о продолжении или прекращении инвестиций в проект.
Чтобы понять, окупятся ли дальнейшие инвестиции в проект, нам нужно быть уверенными, что мы получили достоверную оценку финансового эффекта.
Как тут помогает АБ тестирование: математически корректная методика дизайна и оценки результатов экспериментов дает возможность сделать правильные выводы о ценности разработанного MVP.
- Инвестиционный комитет по процедурам компании для решения о том, идет ли проект дальше по циклу.
- Ролл-аут. Осуществляется внедрение проекта на все целевые объекты в масштабе компании.
- Пост-инвест анализ. Чтобы отслеживать эффективность инвестиционной деятельности, компании нужно оценить итоговый финансовый эффект ролл-аута. Какие статистические инструменты доступны?
Прежде всего - контрфактические методы причинно-следственного анализа. Мы писали о них в начале года (тут, тут и тут).
Важно помнить, что АБ-тестирование – лишь часть (пусть и очень важная) методов причинно-следственного анализа. АБ-тесты - только один из способов дизайна и оценки пилотных экспериментов. Они хорошо работают в типовых случаях, а для сложных случаев помогут контрфактические методы. При использовании контрфактических методов критически важно обеспечить робастность применения моделей.
Эту структуру полезно иметь в виду при интеграции АБ-тестирования в бизнес-процессы компании.
В следующих постах цикла речь пойдет о детальном бизнес-процессе дизайна и оценки пилота, а также о том, какие этапы в нем закрывает математическая методика АБ-тестирования, а какие этапы нужно дополнительно продумать и упорядочить при ее внедрении.
#business #ab_testing
🔥20❤3👍3
О Hard ML и karpov.courses
Наши подборки материалов по ML System Design и ML Engineering & ML Ops были бы неполными без курсов от Анатолия Карпова.
Многие из вас, вероятно, начинали свой путь с его бесплатных курсов на Stepik по статистике и введению в data science. А если не начинали, то мы очень их рекомендуем.
Кроме того, уважаем и рекомендуем также и платные курсы от karpov.courses, в особенности, Hard ML и System Design.
По Hard ML скоро стартует новый поток. До 5 сентября по промокоду RELIABLEML можно получить скидку 10%. Есть бесплатное демо.
По ML Engineering & ML Ops: в рамках курса есть отдельный модуль про деплой ML-сервисов. В сам курс включена тема создания feature stores.
По ML System Design: разбираются дизайны систем для задач матчинга и ранжирования, ценообразования, аплифт-моделирования. Отдельно объясняются темы АБ-тестирования и выбора корректных метрик при построении ML-систем.
Одним из авторов курса является Валера Бабушкин. А Валера, как мы знаем, плохого не делает.
#tech
Наши подборки материалов по ML System Design и ML Engineering & ML Ops были бы неполными без курсов от Анатолия Карпова.
Многие из вас, вероятно, начинали свой путь с его бесплатных курсов на Stepik по статистике и введению в data science. А если не начинали, то мы очень их рекомендуем.
Кроме того, уважаем и рекомендуем также и платные курсы от karpov.courses, в особенности, Hard ML и System Design.
По Hard ML скоро стартует новый поток. До 5 сентября по промокоду RELIABLEML можно получить скидку 10%. Есть бесплатное демо.
По ML Engineering & ML Ops: в рамках курса есть отдельный модуль про деплой ML-сервисов. В сам курс включена тема создания feature stores.
По ML System Design: разбираются дизайны систем для задач матчинга и ранжирования, ценообразования, аплифт-моделирования. Отдельно объясняются темы АБ-тестирования и выбора корректных метрик при построении ML-систем.
Одним из авторов курса является Валера Бабушкин. А Валера, как мы знаем, плохого не делает.
#tech
👍30🔥1🤯1
Митап NoML по Causal Inference
На следующей неделе - 7 сентября - сообщество NoML ждет всех на очный митап по Causal Inference.
Программа кажется довольно огненной!
И меня тоже пригласили поучаствовать.
А места при этом ограничены. Так что, если интересно, не откладывайте с регистрацией! Трансляции не будет, только запись.
Темы и спикеры:
📌 Введение в методы Causal Inference
😎 Полина Окунева, 😎 Наталья Тоганова, Эксперты команды Advanced Analytics в GlowByte
📌 Кейс применения Synthetic Control для оценки инициатив
😎 Артем Александрин, Дата аналитик мобильного приложения “Моя Москва”
📌 Дискуссия: “за”, “против”, а также сложности и причины сомнений в Causal Inference
Упомянутые выше докладчики, а также:
😎 Ирина Голощапова, Head of Data Science, Лента
😎 Александр Толмачев, Head of Analytics Ozon.Fintech
😎 Антон Григорьев, Руководитель службы аналитических инструментов Яндекс Доставки
Сбор гостей в 17:30.
В конце будет фуршет. 🥂
Вроде мелочь, а когда-то в студенческие годы для меня это было чуть ли не основным критерием выбора конференций 🙂
На следующей неделе - 7 сентября - сообщество NoML ждет всех на очный митап по Causal Inference.
Программа кажется довольно огненной!
И меня тоже пригласили поучаствовать.
А места при этом ограничены. Так что, если интересно, не откладывайте с регистрацией! Трансляции не будет, только запись.
Темы и спикеры:
📌 Введение в методы Causal Inference
😎 Полина Окунева, 😎 Наталья Тоганова, Эксперты команды Advanced Analytics в GlowByte
📌 Кейс применения Synthetic Control для оценки инициатив
😎 Артем Александрин, Дата аналитик мобильного приложения “Моя Москва”
📌 Дискуссия: “за”, “против”, а также сложности и причины сомнений в Causal Inference
Упомянутые выше докладчики, а также:
😎 Ирина Голощапова, Head of Data Science, Лента
😎 Александр Толмачев, Head of Analytics Ozon.Fintech
😎 Антон Григорьев, Руководитель службы аналитических инструментов Яндекс Доставки
Сбор гостей в 17:30.
В конце будет фуршет. 🥂
Вроде мелочь, а когда-то в студенческие годы для меня это было чуть ли не основным критерием выбора конференций 🙂
👍13😁2❤1
АБ-тесты. Интеграция в процесс пилотирования. Как выглядит типовой бизнес-процесс без АБ.
Цикл постов про АБ-тестирование. Пост 2.
В предыдущем посте цикла мы верхнеуровнево разобрали инвестиционный цикл проектов в офлайн-бизнесе и кратко поговорили о том, в какие его этапы и каким образом встраивается математическая методика АБ-тестирования.
В частности, мы определились, что наиболее важный этап инвестиционного цикла для АБ-тестирования - это этап пилотирования для понимания финансового эффекта от MVP какого-либо проекта.
Теперь предлагаем сделать zoom в этот этап и разобрать его детально, поняв, как именно в него может быть встроена методика АБ-тестирования, и что нужно предусмотреть в рамках интеграции.
Итак, бизнес-процесс пилота - еще до всяких АБ-тестирований - как правило, выглядит так:
- Определение целей, задач, KPI пилота. Бизнес-подразделение, ответственное за проект, формирует свои ожидания к проведению пилота и его ключевым параметрам. Если в компании нет единой методики оценки пилотов, то эти ожидания формируются несистемно, часто больше из соображений наименьших затрат на проведение пилота.
- Согласование ожиданий бизнеса по пилоту с финансовой службой. Все ожидания должны пройти контроль подразделения, отвечающего за инвестиционный цикл подобных проектов в финансовой службе.
- Определение географии пилота и выбор объектов для тестирования (пилотная группа, внедряем MVP) и сравнения (контрольная группа, ничего не внедряем). Как правило, выбирается экспертно, из соображений удобного и наименее затратного проведения пилота. Для небольших проектов может использоваться 1 выделенный для пилотов объект.
- Согласование запуска пилота с операционной службой. Изменения в пилотной группе объектов должны быть согласованы с операционным подразделением. Коллегам непосредственно на местах необходимо будет обеспечить исполнение пилота.
- Проведение пилота. Реализация MVP на местах в пилотной группе при отсутствии изменений в контрольной группе. Если эти понятия, конечно, выделяются при отсутствии АБ-тестирования. Надо сказать, что чаще всего, выделяются.
- Оценка результатов пилота. При отсутствии АБ, чаще всего применяется простая разность результатов пилотной группы с контрольной по целевой метрике (продажи, количество клиентов, маржа, и т.п.). Используются как темпы роста, так и абсолютные значения. Почему подобное ручное сравнение это плохо и что должно улучшить АБ (и как объяснить это бизнесу!), мы поговорим в дальнейших постах цикла. Сейчас для нас важно то, что без применения статистики (aka внедрения АБ) компания берет на себя огромный риск финансовых потерь за счет некорректных оценок пилотных экспериментов. Фактически, идет по инвестиционному циклу вслепую.
- Решение о дальнейшем развитии проекта. Здесь, что очень важно, происходит экстраполяция результатов пилота на всю сеть - расчет потенциального финансового эффекта для того, чтобы понять, стоит ли проект дальнейших инвестиций в его внедрение для всех объектов компании (ролл-аут).
В следующем посте рассмотрим риски, с которыми связан этот бизнес-процесс. И почему они формируются.
#business #ab_testing
Цикл постов про АБ-тестирование. Пост 2.
В предыдущем посте цикла мы верхнеуровнево разобрали инвестиционный цикл проектов в офлайн-бизнесе и кратко поговорили о том, в какие его этапы и каким образом встраивается математическая методика АБ-тестирования.
В частности, мы определились, что наиболее важный этап инвестиционного цикла для АБ-тестирования - это этап пилотирования для понимания финансового эффекта от MVP какого-либо проекта.
Теперь предлагаем сделать zoom в этот этап и разобрать его детально, поняв, как именно в него может быть встроена методика АБ-тестирования, и что нужно предусмотреть в рамках интеграции.
Итак, бизнес-процесс пилота - еще до всяких АБ-тестирований - как правило, выглядит так:
- Определение целей, задач, KPI пилота. Бизнес-подразделение, ответственное за проект, формирует свои ожидания к проведению пилота и его ключевым параметрам. Если в компании нет единой методики оценки пилотов, то эти ожидания формируются несистемно, часто больше из соображений наименьших затрат на проведение пилота.
- Согласование ожиданий бизнеса по пилоту с финансовой службой. Все ожидания должны пройти контроль подразделения, отвечающего за инвестиционный цикл подобных проектов в финансовой службе.
- Определение географии пилота и выбор объектов для тестирования (пилотная группа, внедряем MVP) и сравнения (контрольная группа, ничего не внедряем). Как правило, выбирается экспертно, из соображений удобного и наименее затратного проведения пилота. Для небольших проектов может использоваться 1 выделенный для пилотов объект.
- Согласование запуска пилота с операционной службой. Изменения в пилотной группе объектов должны быть согласованы с операционным подразделением. Коллегам непосредственно на местах необходимо будет обеспечить исполнение пилота.
- Проведение пилота. Реализация MVP на местах в пилотной группе при отсутствии изменений в контрольной группе. Если эти понятия, конечно, выделяются при отсутствии АБ-тестирования. Надо сказать, что чаще всего, выделяются.
- Оценка результатов пилота. При отсутствии АБ, чаще всего применяется простая разность результатов пилотной группы с контрольной по целевой метрике (продажи, количество клиентов, маржа, и т.п.). Используются как темпы роста, так и абсолютные значения. Почему подобное ручное сравнение это плохо и что должно улучшить АБ (и как объяснить это бизнесу!), мы поговорим в дальнейших постах цикла. Сейчас для нас важно то, что без применения статистики (aka внедрения АБ) компания берет на себя огромный риск финансовых потерь за счет некорректных оценок пилотных экспериментов. Фактически, идет по инвестиционному циклу вслепую.
- Решение о дальнейшем развитии проекта. Здесь, что очень важно, происходит экстраполяция результатов пилота на всю сеть - расчет потенциального финансового эффекта для того, чтобы понять, стоит ли проект дальнейших инвестиций в его внедрение для всех объектов компании (ролл-аут).
В следующем посте рассмотрим риски, с которыми связан этот бизнес-процесс. И почему они формируются.
#business #ab_testing
❤7👍4
АБ-тесты. Интеграция в процесс пилотирования. Риски типового бизнес-процесса без АБ
Цикл постов про АБ-тестирование. Пост 3
Бизнес-процесс, описанный в предшествующем посте цикла, связан со значительными рисками для компании:
- Риск некорректного финального решения о дальнейшем развитии проекта. Наиболее значимый риск среди всех. Как мы написали выше, компания идет по инвестиционному циклу вслепую. И очень важно понимать, что это связано не только с отсутствием АБ-тестирования в шаге оценки результатов пилотов. Даже если у вас стройная и правильная математика при оценке результата пилота, риски остаются и в других шагах:
- Нет фиксации ограниченного круга целевых метрик и KPI пилота. Это может приводить к тому, что при отсутствии эффекта на основные метрики, заинтересованная сторона будет искать эффект в других метриках, пока не найдет и постфактум сможет объявить о том, что пилот успешен, но на других метриках. Научно это называется проблемой множественного тестирования и отлично иллюстрируется известной историей про мертвого лосося.
- Нет единой базы пилотов. При проведении пилотов далеко не всегда контролируется отсутствие изменений в контрольной группе объектов. А если эксперименты проводятся в 1м объекте, выделенном для тестов, нередка ситуация, когда в одно время может проходить и два, и три, и пять пилотов. Результаты проведения каждого из них по отдельности, как нетрудно догадаться, в такой ситуации, оценить будет невозможно.
- Нет единой методики/правил экстраполяции результатов пилота для расчета финансового эффекта на все объекты. Даже при суперкорректной статистической оценке результатов пилота на основе АБ, финальное решение об инвестициях в проект может оказаться некорректным, если нет правил его масштабирования на всю сеть. Получили +1% к выручке на 5 объектах. Можем ли сказать, что при ролл-ауте проекта, для всей сети будет +1% к выручке? Была ли выборка репрезентативна для всей сети? Можем ли назвать результаты пилота робастными? Например, 5 объектов пилота могли быть расположены в Сибири, а основные объекты компании расположены в Центральных регионах.
- Риск задержек в проведении пилотов. Как мы увидели в предшествующем посте, в бизнес-процессе проведения пилота много шагов, в него вовлечено много сторон/согласующих. Это может приводить к значительному замедлению в продвижении компании по инвестиционному циклу, а значит, в перспективе - к отставанию от конкурентов во внедрении новых решений.
В следующем посте цикла мы поговорим о том “А что делать-то?”. Как подумать о рассмотренных рисках при интеграции АБ-тестирования, а также учесть особенности бизнес-процесса.
#business #ab_testing
Цикл постов про АБ-тестирование. Пост 3
Бизнес-процесс, описанный в предшествующем посте цикла, связан со значительными рисками для компании:
- Риск некорректного финального решения о дальнейшем развитии проекта. Наиболее значимый риск среди всех. Как мы написали выше, компания идет по инвестиционному циклу вслепую. И очень важно понимать, что это связано не только с отсутствием АБ-тестирования в шаге оценки результатов пилотов. Даже если у вас стройная и правильная математика при оценке результата пилота, риски остаются и в других шагах:
- Нет фиксации ограниченного круга целевых метрик и KPI пилота. Это может приводить к тому, что при отсутствии эффекта на основные метрики, заинтересованная сторона будет искать эффект в других метриках, пока не найдет и постфактум сможет объявить о том, что пилот успешен, но на других метриках. Научно это называется проблемой множественного тестирования и отлично иллюстрируется известной историей про мертвого лосося.
- Нет единой базы пилотов. При проведении пилотов далеко не всегда контролируется отсутствие изменений в контрольной группе объектов. А если эксперименты проводятся в 1м объекте, выделенном для тестов, нередка ситуация, когда в одно время может проходить и два, и три, и пять пилотов. Результаты проведения каждого из них по отдельности, как нетрудно догадаться, в такой ситуации, оценить будет невозможно.
- Нет единой методики/правил экстраполяции результатов пилота для расчета финансового эффекта на все объекты. Даже при суперкорректной статистической оценке результатов пилота на основе АБ, финальное решение об инвестициях в проект может оказаться некорректным, если нет правил его масштабирования на всю сеть. Получили +1% к выручке на 5 объектах. Можем ли сказать, что при ролл-ауте проекта, для всей сети будет +1% к выручке? Была ли выборка репрезентативна для всей сети? Можем ли назвать результаты пилота робастными? Например, 5 объектов пилота могли быть расположены в Сибири, а основные объекты компании расположены в Центральных регионах.
- Риск задержек в проведении пилотов. Как мы увидели в предшествующем посте, в бизнес-процессе проведения пилота много шагов, в него вовлечено много сторон/согласующих. Это может приводить к значительному замедлению в продвижении компании по инвестиционному циклу, а значит, в перспективе - к отставанию от конкурентов во внедрении новых решений.
В следующем посте цикла мы поговорим о том “А что делать-то?”. Как подумать о рассмотренных рисках при интеграции АБ-тестирования, а также учесть особенности бизнес-процесса.
#business #ab_testing
👍5🥰2❤1
image_2022-09-15_14-13-20.png
208 KB
Подытожим в одной картинке выводы последних двух постов цикла про АБ-тестирование: о бизнес-процессе пилотирования и его рисках.
P.S. Хочется выразить большую благодарность моим замечательным коллегам Анастасии Комович и Эдуарду Григоряну, которые вместе со мной в разное время долгие часы формировали концепцию внедрения АБ-тестирования в бизнес-процессы компаний. Без них понимания бизнес-процессов и того, что со всем этим делать, не состоялось бы.
#business #ab_testing
P.S. Хочется выразить большую благодарность моим замечательным коллегам Анастасии Комович и Эдуарду Григоряну, которые вместе со мной в разное время долгие часы формировали концепцию внедрения АБ-тестирования в бизнес-процессы компаний. Без них понимания бизнес-процессов и того, что со всем этим делать, не состоялось бы.
#business #ab_testing
👍7❤1
ML System Design ODS Course
Уже сегодня - 19 сентября - открывается курс по ML System Design для начинающих. Автор курса - Дмитрий Колодезев, директор Promsoft.
Первая лекция скоро будет доступна на странице курса! Группа для участников в тг тут.
Что входит в курс:
- ML-системы в реальной жизни с точки зрения софта, железа и бизнеса.
- Итеративный процесс построения ML-систем
Что не рассматривается:
- Алгоритмы машинного обучения
- Дата-инженерия
- Дизайн пользовательского интерфейса
- Как работать с докером и k8s
Курс состоит из видео, статей, докладов студентов, работы над проектом.
Уже сегодня - 19 сентября - открывается курс по ML System Design для начинающих. Автор курса - Дмитрий Колодезев, директор Promsoft.
Первая лекция скоро будет доступна на странице курса! Группа для участников в тг тут.
Что входит в курс:
- ML-системы в реальной жизни с точки зрения софта, железа и бизнеса.
- Итеративный процесс построения ML-систем
Что не рассматривается:
- Алгоритмы машинного обучения
- Дата-инженерия
- Дизайн пользовательского интерфейса
- Как работать с докером и k8s
Курс состоит из видео, статей, докладов студентов, работы над проектом.
🔥20👍5⚡2
День Открытых Дверей Mathshub - 4 октября 2022 г.
С наступлением осени снова появляются хорошие DS мероприятия. Хотим рассказать вам об одном из них.
Уже в ближайший вторник, 4 октября, состоится День Открытых Дверей Mathshub. Будет полезно всем интересующимся темой ML System Design.
В программе:
- Рассказ о том, как создать ML-проект с нуля (от выбора идеи до релиза), как найти большой рынок для своей идеи и не умереть в конкуренции с крупными компаниями. Спикер - замечательная Айра Монгуш [ex-Mail.Ru, ex-aitarget.com], основательница Mathshub, которая многим может быть уже хорошо знакома как преподаватель в МФТИ/ВШЭ.
- Краткая презентация осенней программы по созданию ML-проектов. 👩🎓 Среди преподавателей — Давид Дале из AI Research, Игорь Слинько, ex-Samsung AI Research и другие ребята с обширной практикой в диплернинге и обучении.
Регистрация на мероприятие тут.
#tech
С наступлением осени снова появляются хорошие DS мероприятия. Хотим рассказать вам об одном из них.
Уже в ближайший вторник, 4 октября, состоится День Открытых Дверей Mathshub. Будет полезно всем интересующимся темой ML System Design.
В программе:
- Рассказ о том, как создать ML-проект с нуля (от выбора идеи до релиза), как найти большой рынок для своей идеи и не умереть в конкуренции с крупными компаниями. Спикер - замечательная Айра Монгуш [ex-Mail.Ru, ex-aitarget.com], основательница Mathshub, которая многим может быть уже хорошо знакома как преподаватель в МФТИ/ВШЭ.
- Краткая презентация осенней программы по созданию ML-проектов. 👩🎓 Среди преподавателей — Давид Дале из AI Research, Игорь Слинько, ex-Samsung AI Research и другие ребята с обширной практикой в диплернинге и обучении.
Регистрация на мероприятие тут.
#tech
👍8
АБ-тесты. Интеграция в процесс пилотирования. Что делать.
Цикл постов про АБ-тестирование. Пост 4.
Теперь, когда мы разобрали бизнес-процессы и ключевые риски инвестиционного цикла и отдельно пилотирования, можно поговорить о том, как предусмотреть митигацию этих рисков при интеграции АБ-тестов в деятельность компании.
Первое, что мы рассмотрим, это создание процесса взаимодействия бизнеса с командой АБ-тестирования. Наличие у вас классной методики АБ - это круто, но этого недостаточно для того, чтобы нивелировать риски некорректных оценок финального эффекта и задержек в проведении пилота.
Создание такого бизнес-процесса (далее - БП):
- значительно уменьшает время на планирование и получение оценки пилота. Если БП создан командой АБ совместно с финансовой службой, то этот эффект еще заметнее. Финансовая служба - владелец процесса инвестиционного цикла проектов и являются ключевым согласующим по его этапам.
- позволяет получить максимально полную информацию для корректного планирования пилота и его последующей оценки, а значит, снижает риск неправильных выводов о финансовом эффекте.
Необходимые атрибуты процесса взаимодействия бизнеса с командой АБ-тестирования: единое окно для подачи всех заявок на АБ, механизм приоритезации, чек-листы для подачи заявки на дизайн пилота и на оценку эффекта после пилота, SLA ответа на корректно поданную заявку.
Ключевой атрибут - это чек-листы. Рассмотрим их подробнее.
A. Чек-лист для подачи заявки на дизайн пилота в команду АБ, включающий как технику, так и бизнес-постановку.
Бизнес-часть:
- сведения о заказчике пилота (бизнес-подразделение, контакты);
- содержание пилота (что внедряем, почему это принесет эффект);
- категория приоритетности расчета. Пока у вас нет библиотеки или платформы АБ-тестирования и дизайны экспериментов требуют вовлечения DS-ов, необходимо выстроить процесс приоритезации заявок: какие проекты оцениваются в 1/2/3 очередь, какие - не оцениваются вообще. Основа критериев: бюджет проведения пилота (считается ли проект крупным с точки зрения инвестиционного цикла компании) и материальность ожидаемого эффекта для PnL компании (ждем ли реально большой пользы от проекта).
Техническая часть. Стоит обозначить все пункты, необходимые для математического дизайна пилота по вашей методе:
- что является объектом тестирования;
- целевые метрики пилота и ожидаемый количественный эффект пилота на них;
- есть ли период привыкания с точки зрения бизнес-постановки. Например, распространено мнение, что изменение ассортимента в магазине может не сразу повлиять на спрос, покупателю требуется время привыкнуть к изменениям
возможные границы периода пилота, ожидаемая дата начала;
- максимальное количество объектов, которое бизнес готов выделить в пилот;
- ограничения на эти объекты по бизнес-постановке. Например, в пилот требуется включать только магазины определенных регионов присутствия и с финансовыми показателями выше заданных порогов.
Б. Чек-лист для подачи заявки в команду АБ на оценку пилота. Здесь возможны 2 варианта:
- Дизайн пилота делала команда АБ по единой методике. Чек-лист не требуется, вся информация есть у команды. Нужно только уведомление о завершении пилота и просьба рассчитать эффект.
- Пилот проводился без участия команды АБ. Для заявки на оценку пилота нужен максимально детальный чек-лист дизайна. Так команда АБ сможет понять, может ли сделать математически корректную оценку эффекта.
#business #ab_testing
Цикл постов про АБ-тестирование. Пост 4.
Теперь, когда мы разобрали бизнес-процессы и ключевые риски инвестиционного цикла и отдельно пилотирования, можно поговорить о том, как предусмотреть митигацию этих рисков при интеграции АБ-тестов в деятельность компании.
Первое, что мы рассмотрим, это создание процесса взаимодействия бизнеса с командой АБ-тестирования. Наличие у вас классной методики АБ - это круто, но этого недостаточно для того, чтобы нивелировать риски некорректных оценок финального эффекта и задержек в проведении пилота.
Создание такого бизнес-процесса (далее - БП):
- значительно уменьшает время на планирование и получение оценки пилота. Если БП создан командой АБ совместно с финансовой службой, то этот эффект еще заметнее. Финансовая служба - владелец процесса инвестиционного цикла проектов и являются ключевым согласующим по его этапам.
- позволяет получить максимально полную информацию для корректного планирования пилота и его последующей оценки, а значит, снижает риск неправильных выводов о финансовом эффекте.
Необходимые атрибуты процесса взаимодействия бизнеса с командой АБ-тестирования: единое окно для подачи всех заявок на АБ, механизм приоритезации, чек-листы для подачи заявки на дизайн пилота и на оценку эффекта после пилота, SLA ответа на корректно поданную заявку.
Ключевой атрибут - это чек-листы. Рассмотрим их подробнее.
A. Чек-лист для подачи заявки на дизайн пилота в команду АБ, включающий как технику, так и бизнес-постановку.
Бизнес-часть:
- сведения о заказчике пилота (бизнес-подразделение, контакты);
- содержание пилота (что внедряем, почему это принесет эффект);
- категория приоритетности расчета. Пока у вас нет библиотеки или платформы АБ-тестирования и дизайны экспериментов требуют вовлечения DS-ов, необходимо выстроить процесс приоритезации заявок: какие проекты оцениваются в 1/2/3 очередь, какие - не оцениваются вообще. Основа критериев: бюджет проведения пилота (считается ли проект крупным с точки зрения инвестиционного цикла компании) и материальность ожидаемого эффекта для PnL компании (ждем ли реально большой пользы от проекта).
Техническая часть. Стоит обозначить все пункты, необходимые для математического дизайна пилота по вашей методе:
- что является объектом тестирования;
- целевые метрики пилота и ожидаемый количественный эффект пилота на них;
- есть ли период привыкания с точки зрения бизнес-постановки. Например, распространено мнение, что изменение ассортимента в магазине может не сразу повлиять на спрос, покупателю требуется время привыкнуть к изменениям
возможные границы периода пилота, ожидаемая дата начала;
- максимальное количество объектов, которое бизнес готов выделить в пилот;
- ограничения на эти объекты по бизнес-постановке. Например, в пилот требуется включать только магазины определенных регионов присутствия и с финансовыми показателями выше заданных порогов.
Б. Чек-лист для подачи заявки в команду АБ на оценку пилота. Здесь возможны 2 варианта:
- Дизайн пилота делала команда АБ по единой методике. Чек-лист не требуется, вся информация есть у команды. Нужно только уведомление о завершении пилота и просьба рассчитать эффект.
- Пилот проводился без участия команды АБ. Для заявки на оценку пилота нужен максимально детальный чек-лист дизайна. Так команда АБ сможет понять, может ли сделать математически корректную оценку эффекта.
#business #ab_testing
👍3❤1👏1
АБ-тесты. Интеграция в процесс пилотирования. Что делать.
Пост 4. Взаимодействие АБ-команды, финансовой службы и бизнеса.
Краткое резюме - о чем был предыдущий пост.
Весь цикл постов про процессы в АБ-тестировании (на текущий момент):
- Пост 1. АБ-тесты - это не только ценный мех… Но еще и процессы. Об инвестиционном цикле и месте АБ в нем.
- Пост 2. АБ-тесты. Интеграция в процесс пилотирования. Как выглядит типовой бизнес-процесс без АБ.
- Пост 3. АБ-тесты. Интеграция в процесс пилотирования. Риски типового бизнес-процесса без АБ.
- Пост 4. АБ-тесты. Интеграция в процесс пилотирования. Что делать. Взаимодействие АБ-команды, финансовой службы и бизнеса.
- Продолжение - на канале Reliable ML!
#business #ab_testing
Пост 4. Взаимодействие АБ-команды, финансовой службы и бизнеса.
Краткое резюме - о чем был предыдущий пост.
Весь цикл постов про процессы в АБ-тестировании (на текущий момент):
- Пост 1. АБ-тесты - это не только ценный мех… Но еще и процессы. Об инвестиционном цикле и месте АБ в нем.
- Пост 2. АБ-тесты. Интеграция в процесс пилотирования. Как выглядит типовой бизнес-процесс без АБ.
- Пост 3. АБ-тесты. Интеграция в процесс пилотирования. Риски типового бизнес-процесса без АБ.
- Пост 4. АБ-тесты. Интеграция в процесс пилотирования. Что делать. Взаимодействие АБ-команды, финансовой службы и бизнеса.
- Продолжение - на канале Reliable ML!
#business #ab_testing
🔥8👍2❤1
Reliable ML как framework для работы с продвинутой аналитикой
В апреле мы рассказывали вам, какое содержание мы вкладываем в термин Reliable ML. Так называется наш канал, если вдруг кто еще не обратил внимания 😄
В сентябре я выступила на форуме Управление данными 2022 с более структурированным рассказом о том, что же такое Reliable ML как framework. Время выступления всего 20 минут, поэтому раскрыть детально удалось только темы про выбор проектов для реализации, бизнес-аспекты ML System Design и внедрение моделей.
Организаторы конференции разрешили выложить выступление.
https://www.youtube.com/watch?v=pTQYR0f5NQs
Welcome, кому интересно!
#reliable_ml
В апреле мы рассказывали вам, какое содержание мы вкладываем в термин Reliable ML. Так называется наш канал, если вдруг кто еще не обратил внимания 😄
В сентябре я выступила на форуме Управление данными 2022 с более структурированным рассказом о том, что же такое Reliable ML как framework. Время выступления всего 20 минут, поэтому раскрыть детально удалось только темы про выбор проектов для реализации, бизнес-аспекты ML System Design и внедрение моделей.
Организаторы конференции разрешили выложить выступление.
https://www.youtube.com/watch?v=pTQYR0f5NQs
Welcome, кому интересно!
#reliable_ml
👍8🔥5❤1
ML System Design Course 2022 - лекции
Список и краткое содержание опубликованных лекций
1. Практическое применение машинного обучения.
Делать ML-модели легко, трудно делать полезные ML-модели. В первой лекции дается определение “дизайна систем машинного обучения”, разбираются предположения ML-систем, их традиционные области применения и отличия академического и промышленного машинного обучения.
2. Основы проектирования ML-систем.
Дизайн - это работа с ограничениями, и во второй лекции мы разбираем источники этих ограничений, постановку задачи, метрики и бейзлайны.
3. Обучающие данные.
Машинное обучение основано на данных, и в этой лекции мы обсудим проблемы разметки и подготовки данных, проблему дисбаланса классов и сэмплирование.
4. Подготовка и отбор признаков.
Задача подготовки данных - упростить обучение модели. Обсуждаем аугментацию для разных типов данных, использование синтетических данных, работу с выбросами и пропущенными значениями, масштабирование, конструирование и отбор признаков. Отдельно мы разговариваем о даталиках - данных, доступных при обучении, но недоступных при использовании модели.
На странице курса также доступны презентации и списки рекомендованных к прочтению материалов для каждой лекции.
Всего планируется 15 лекций, а, возможно, и чуть больше - в качестве новогоднего подарка от @Reliable ML :)
Не переключайтесь!
#tech #ml_system_design
Список и краткое содержание опубликованных лекций
1. Практическое применение машинного обучения.
Делать ML-модели легко, трудно делать полезные ML-модели. В первой лекции дается определение “дизайна систем машинного обучения”, разбираются предположения ML-систем, их традиционные области применения и отличия академического и промышленного машинного обучения.
2. Основы проектирования ML-систем.
Дизайн - это работа с ограничениями, и во второй лекции мы разбираем источники этих ограничений, постановку задачи, метрики и бейзлайны.
3. Обучающие данные.
Машинное обучение основано на данных, и в этой лекции мы обсудим проблемы разметки и подготовки данных, проблему дисбаланса классов и сэмплирование.
4. Подготовка и отбор признаков.
Задача подготовки данных - упростить обучение модели. Обсуждаем аугментацию для разных типов данных, использование синтетических данных, работу с выбросами и пропущенными значениями, масштабирование, конструирование и отбор признаков. Отдельно мы разговариваем о даталиках - данных, доступных при обучении, но недоступных при использовании модели.
На странице курса также доступны презентации и списки рекомендованных к прочтению материалов для каждой лекции.
Всего планируется 15 лекций, а, возможно, и чуть больше - в качестве новогоднего подарка от @Reliable ML :)
Не переключайтесь!
#tech #ml_system_design
👍23❤7🔥1
АБ-тесты. Интеграция в процесс пилотирования. Что делать. База пилотов
Цикл постов про АБ-тестирование. Пост 5
Как мы разобрались раньше, при внедрении АБ-тестирования в процесс пилотирования полезно создать базу пилотов. Хорошая база позволяет не только снизить риск некорректного финального решения о дальнейшем развитии проекта (можем отслеживать пересечения пилотов: чтобы в пилотной группе тестировался только один проект, а в контрольной - ни одного), но и сильно систематизировать знания компании о пилотах. А последнее потом очень помогает подбить эффект от работы команды АБ-тестирования за год 😉, а также найти проблемы в работе с пилотами (как технические, так и бизнесовые).
Каковы компоненты идеальной базы пилотов?
На самом деле, мы наполовину уже ответили на этот вопрос в предыдущем посте цикла, описав поля для чек-листа заявки на дизайн пилота. Все эти сведения будут полезны для базы пилотов. Полезно также присвоить им метку design (сведения, известные на момент дизайна пилота).
К этим данным стоит добавить:
- Параметры пилота, полученные после осуществления дизайна: расчетные даты границ пилота и препилота, полученные ошибки 1-го и 2-го рода, минимально детектируемый эффект, на который рассчитан дизайн, ID объектов пилотной и контрольной группы.
- Результаты оценки эффекта пилота, рассчитанные после его окончания: итоговый эффект пилота (или его отсутствие😐), итоговые параметры пилота (даты пилота/препилота, ошибки, ID объектов). Для этих данных полезно проставить метку estimation (этап оценки эффекта пилота).
Так мы видим идеальную базу. Будем рады комментариям и дополнениям!
Предыдущие посты цикла тут.
Продолжение следует!
#tech #ab_testing
Цикл постов про АБ-тестирование. Пост 5
Как мы разобрались раньше, при внедрении АБ-тестирования в процесс пилотирования полезно создать базу пилотов. Хорошая база позволяет не только снизить риск некорректного финального решения о дальнейшем развитии проекта (можем отслеживать пересечения пилотов: чтобы в пилотной группе тестировался только один проект, а в контрольной - ни одного), но и сильно систематизировать знания компании о пилотах. А последнее потом очень помогает подбить эффект от работы команды АБ-тестирования за год 😉, а также найти проблемы в работе с пилотами (как технические, так и бизнесовые).
Каковы компоненты идеальной базы пилотов?
На самом деле, мы наполовину уже ответили на этот вопрос в предыдущем посте цикла, описав поля для чек-листа заявки на дизайн пилота. Все эти сведения будут полезны для базы пилотов. Полезно также присвоить им метку design (сведения, известные на момент дизайна пилота).
К этим данным стоит добавить:
- Параметры пилота, полученные после осуществления дизайна: расчетные даты границ пилота и препилота, полученные ошибки 1-го и 2-го рода, минимально детектируемый эффект, на который рассчитан дизайн, ID объектов пилотной и контрольной группы.
- Результаты оценки эффекта пилота, рассчитанные после его окончания: итоговый эффект пилота (или его отсутствие😐), итоговые параметры пилота (даты пилота/препилота, ошибки, ID объектов). Для этих данных полезно проставить метку estimation (этап оценки эффекта пилота).
Так мы видим идеальную базу. Будем рады комментариям и дополнениям!
Предыдущие посты цикла тут.
Продолжение следует!
#tech #ab_testing
👍4
Иллюстрация к посту про базу пилотов - какие риски процесса закрываем
Все посты цикла:
Пост 1. АБ-тесты - это не только ценный мех… Но еще и процессы. Об инвестиционном цикле и месте АБ в нем.
Пост 2. АБ-тесты. Интеграция в процесс пилотирования. Как выглядит типовой бизнес-процесс без АБ.
Пост 3. АБ-тесты. Интеграция в процесс пилотирования. Риски типового бизнес-процесса без АБ.
Пост 4. АБ-тесты. Интеграция в процесс пилотирования. Что делать. Взаимодействие АБ-команды, финансовой службы и бизнеса.
Пост 5. АБ-тесты. Интеграция в процесс пилотирования. Что делать. База пилотов.
#tech #ab_testing
Все посты цикла:
Пост 1. АБ-тесты - это не только ценный мех… Но еще и процессы. Об инвестиционном цикле и месте АБ в нем.
Пост 2. АБ-тесты. Интеграция в процесс пилотирования. Как выглядит типовой бизнес-процесс без АБ.
Пост 3. АБ-тесты. Интеграция в процесс пилотирования. Риски типового бизнес-процесса без АБ.
Пост 4. АБ-тесты. Интеграция в процесс пилотирования. Что делать. Взаимодействие АБ-команды, финансовой службы и бизнеса.
Пост 5. АБ-тесты. Интеграция в процесс пилотирования. Что делать. База пилотов.
#tech #ab_testing
🔥6👍1👏1
DataStart - 29 ноября 2022 г.
Друзья, довольно скоро состоится онлайн-конференция по Data Science - DataStart.
Регистрация тут.
Этот проект существует уже довольно давно и из года в год радует хорошим контентом.
Например, Виктор Кантор много лет поддерживает проект и всегда рассказывает там что-то хорошее и интересное. И этот год не исключение.
Вообще, в этом году организаторам удалось собрать особо огненную команду спикеров - на конференции выступят также Иван Оселедец, Евгений Бурнаев и Татьяна Шаврина, прочитавшая в треке ODS Reliable ML в 2021 г. один из самых мощных докладов про интерпретацию трансформенных моделей.
Полную программу можно посмотреть тут.
Сама конференция и просмотр всех докладов - бесплатные.
Возможность потом получить все материалы - платная.
Есть промокод: Reliable500.
Всем хороших выходных!
#tech
Друзья, довольно скоро состоится онлайн-конференция по Data Science - DataStart.
Регистрация тут.
Этот проект существует уже довольно давно и из года в год радует хорошим контентом.
Например, Виктор Кантор много лет поддерживает проект и всегда рассказывает там что-то хорошее и интересное. И этот год не исключение.
Вообще, в этом году организаторам удалось собрать особо огненную команду спикеров - на конференции выступят также Иван Оселедец, Евгений Бурнаев и Татьяна Шаврина, прочитавшая в треке ODS Reliable ML в 2021 г. один из самых мощных докладов про интерпретацию трансформенных моделей.
Полную программу можно посмотреть тут.
Сама конференция и просмотр всех докладов - бесплатные.
Возможность потом получить все материалы - платная.
Есть промокод: Reliable500.
Всем хороших выходных!
#tech
🔥13
АБ-тесты. Интеграция в процесс пилотирования. Что делать. Математическая методика дизайна и оценки результатов пилотов.
Цикл постов про АБ-тестирование. Пост 6
Ну вот, кажется, самая занудная часть постов про процессы закончена и можно перейти к методике. Последняя, как вы видите, занимает уже не так много места в общем процессе успешного запуска АБ в крупной компании 🙂 Но, тем не менее, остается основой для его появления.
Почти в любой методике АБ-тестирования для офлайна можно выделить следующие этапы:
- Этап 1. Дизайн пилота. Подбор пилотной и контрольной групп объектов (число и id), оптимальной длительности пилота, минимально-детектируемого эффекта с учетом вводных от бизнеса (чек-лист тут). Часть этих параметров обязательно будет ограничена - но только за счет свободы по остальным: либо эффект хочется поймать минимальный, но готовы взять в пилот много объектов, либо готовы взять в пилот мало объектов и провести его надо быстро, но эффект от проекта ждем бомбический.
Что важно учитывать в этом этапе:
- (а) репрезентативность пилотной и контрольной групп объектов для целей ролл-аута результатов пилота. Если в пилоте используем объекты только из одного города, а выводы хотим делать на всю страну - это не очень правильно.
- (б) ошибки 1-го и 2-го рода на препилотном периоде, равном планируемому периоду пилота. Ошибка 1-го рода - вероятность поймать эффект, когда его нет. Ошибка 2-го рода - вероятность не поймать эффект, когда он есть. И то, и другое не есть хорошо. Период препилота - возможность протестировать корректность алгоритма оценки эффекта заранее - в ситуации, когда мы знаем, что различий между группами нет. Важно определить границы допустимых ошибок 1-2го рода в вашей компании. Для офлайн экспериментов на нашей практике бенчмарком являются границы в ~15%.
- Этап 2. Расчет эффекта от проведенного пилота. На базе сравнения распределения значений целевой метрики (на которую воздействовали) в пилотной и контрольной группах. Важно, чтобы оценка эффекта здесь и на этапе дизайна (когда считаем ошибки) совпадала. Тогда расчеты будут согласованы.
Выстроить корректную оценку для офлайн-экспериментов сложнее, чем для онлайна, по ряду причин. Основные из них: мало объектов можем позволить себе в пилот (причем это “мало” может варьироваться от 100-150 объектов для одного пилота (если это, например, банкоматы), до 2-10 объектов (если это, например, сеть продуктового ритейла с небольшим числом магазинов🤓), объекты очень сильно отличаются друг от друга, на них сильно воздействуют внешние факторы (это влияет и на рост волатильности целевых метрик).
Каждая из этих причин может кардинально изменить методику пилота, которая будет оптимальна именно для вашей компании. Но главное, что статистический инструментарий дорос до такого уровня, что практически в любом случае - оценка возможна. Следующим постом дадим подборку качественной литературы по АБ-тестам.
- Этап 3. Интерпретация эффекта. На предыдущем этапе мы получили какие-то цифры. В худшем случае - одну цифру (точечную оценку). Теперь нужно сделать вывод об успехе или неуспехе пилота. На основе точечной оценки делать такой вывод, разумеется, нельзя. Важно рассчитать доверительный интервал и сделать вывод о робастности полученного вами результата (статистической значимости полученного эффекта). Будет ли оценка эффекта в таком же пилоте, проведенном сразу после только что завершенного, близкой к полученной сейчас? Будет ли она такой для всех объектов в целом, если мы сделаем ролл-аут проекта, который пилотировали?
Решение о значимости результатов пилота и возможности его экстраполяции должно осуществляться на основе доверительного интервала эффекта пилота.
Причем не стоит недооценивать важность погружения в статметоды для корректной оценки доверительного интервала. Известны случаи, когда внешний консультант утверждал о положительном эффекте от своего проекта, манипулируя именно расчетом доверительного интервала.
Будьте бдительны и хороших вам АБ-тестов!
#tech #ab_testing
Цикл постов про АБ-тестирование. Пост 6
Ну вот, кажется, самая занудная часть постов про процессы закончена и можно перейти к методике. Последняя, как вы видите, занимает уже не так много места в общем процессе успешного запуска АБ в крупной компании 🙂 Но, тем не менее, остается основой для его появления.
Почти в любой методике АБ-тестирования для офлайна можно выделить следующие этапы:
- Этап 1. Дизайн пилота. Подбор пилотной и контрольной групп объектов (число и id), оптимальной длительности пилота, минимально-детектируемого эффекта с учетом вводных от бизнеса (чек-лист тут). Часть этих параметров обязательно будет ограничена - но только за счет свободы по остальным: либо эффект хочется поймать минимальный, но готовы взять в пилот много объектов, либо готовы взять в пилот мало объектов и провести его надо быстро, но эффект от проекта ждем бомбический.
Что важно учитывать в этом этапе:
- (а) репрезентативность пилотной и контрольной групп объектов для целей ролл-аута результатов пилота. Если в пилоте используем объекты только из одного города, а выводы хотим делать на всю страну - это не очень правильно.
- (б) ошибки 1-го и 2-го рода на препилотном периоде, равном планируемому периоду пилота. Ошибка 1-го рода - вероятность поймать эффект, когда его нет. Ошибка 2-го рода - вероятность не поймать эффект, когда он есть. И то, и другое не есть хорошо. Период препилота - возможность протестировать корректность алгоритма оценки эффекта заранее - в ситуации, когда мы знаем, что различий между группами нет. Важно определить границы допустимых ошибок 1-2го рода в вашей компании. Для офлайн экспериментов на нашей практике бенчмарком являются границы в ~15%.
- Этап 2. Расчет эффекта от проведенного пилота. На базе сравнения распределения значений целевой метрики (на которую воздействовали) в пилотной и контрольной группах. Важно, чтобы оценка эффекта здесь и на этапе дизайна (когда считаем ошибки) совпадала. Тогда расчеты будут согласованы.
Выстроить корректную оценку для офлайн-экспериментов сложнее, чем для онлайна, по ряду причин. Основные из них: мало объектов можем позволить себе в пилот (причем это “мало” может варьироваться от 100-150 объектов для одного пилота (если это, например, банкоматы), до 2-10 объектов (если это, например, сеть продуктового ритейла с небольшим числом магазинов🤓), объекты очень сильно отличаются друг от друга, на них сильно воздействуют внешние факторы (это влияет и на рост волатильности целевых метрик).
Каждая из этих причин может кардинально изменить методику пилота, которая будет оптимальна именно для вашей компании. Но главное, что статистический инструментарий дорос до такого уровня, что практически в любом случае - оценка возможна. Следующим постом дадим подборку качественной литературы по АБ-тестам.
- Этап 3. Интерпретация эффекта. На предыдущем этапе мы получили какие-то цифры. В худшем случае - одну цифру (точечную оценку). Теперь нужно сделать вывод об успехе или неуспехе пилота. На основе точечной оценки делать такой вывод, разумеется, нельзя. Важно рассчитать доверительный интервал и сделать вывод о робастности полученного вами результата (статистической значимости полученного эффекта). Будет ли оценка эффекта в таком же пилоте, проведенном сразу после только что завершенного, близкой к полученной сейчас? Будет ли она такой для всех объектов в целом, если мы сделаем ролл-аут проекта, который пилотировали?
Решение о значимости результатов пилота и возможности его экстраполяции должно осуществляться на основе доверительного интервала эффекта пилота.
Причем не стоит недооценивать важность погружения в статметоды для корректной оценки доверительного интервала. Известны случаи, когда внешний консультант утверждал о положительном эффекте от своего проекта, манипулируя именно расчетом доверительного интервала.
Будьте бдительны и хороших вам АБ-тестов!
#tech #ab_testing
👍20🐳1
Подборка материалов по АБ
Цикл постов про АБ-тестирование. Пост 7
Как создать корректную методику АБ-тестирования для вашей компании в один пост, конечно, не уместить. В посте выше мы обозначили ключевые, на наш взгляд, составляющие любой методики.
А детали, нюансы и примеры использования мы обсудим 17 декабря на митапе Reliable ML по АБ-тестированию 🥳. Если вам интересна тема, то можно уже забивать место в календаре на целый день. Анонсы с программой и деталями регистрации будут чуть позже.
А в этом мы дадим обещанную подборку материалов по АБ-тестированию (большая часть - на русском языке):
- Книга Доверительное АБ-тестирование простым и понятным языком рассказывает об основах АБ для онлайна и примерах применения его в крупных компаниях. На русском языке это одна из лучших книг по онлайн-экспериментам.
- Книга Статистический анализ и визуализация данных с помощью R от Сергея Мастицкого. Это уже прям классика-классика, но статистический фундамент, релевантный АБ, дает отличный. Я, например, пришла в DS именно по блогу и книгам Сергея.
- Статьи Паши Нестерова на Хабре по офлайн-экспериментам (1, 2). Написаны давно, но настолько хорошо и понятно, что я до сих пор для объяснения каких-то частей методологии даю ссылки на них. Например, ссылку на байку про мертвого лосося для раскрытия темы вреда множественного тестирования давала, наверное, уже миллион раз. Лучше эту тему на русском не раскрыл никто.
- Practical Defaults for A/B Testing от Ronny Kohavi. Советы по выбору дефолтных значений от автора книги Доверительное АБ-тестирование.
- Caveats and Limitations of A/B Testing at Growth Tech Companies. Хорошая заметка в тему нашего цикла постов про сложности проведения АБ в компаниях и отличный ее пересказ от Артема Ерохина (у которого, кстати, отличный ТГ-канал с множеством материалов по АБ).
- Продвинутые темы в АБ можно посмотреть: в треке Валеры Бабушкина на ODS Data Fest 2020 г. (от нюансов АБ на малых данных до оптимизации метрик для контроля качества проведения экспериментов), докладах Ваагна Минасяна и Ивана Максимова про ускорение АБ-тестов, статьях Саши Сахнова о стратификации и бутстрепе (об основах АБ в оффлайне Саша, кстати, тоже классно пишет), а также о лайфхаках АБ от Авито (1, 2). Это из любимого. Из этих статей можно выйти на бесчисленное множество качественных материалов по интересующим вас нюансам в методике АБ-тестирования.
#tech #ab_testing
Цикл постов про АБ-тестирование. Пост 7
Как создать корректную методику АБ-тестирования для вашей компании в один пост, конечно, не уместить. В посте выше мы обозначили ключевые, на наш взгляд, составляющие любой методики.
А детали, нюансы и примеры использования мы обсудим 17 декабря на митапе Reliable ML по АБ-тестированию 🥳. Если вам интересна тема, то можно уже забивать место в календаре на целый день. Анонсы с программой и деталями регистрации будут чуть позже.
А в этом мы дадим обещанную подборку материалов по АБ-тестированию (большая часть - на русском языке):
- Книга Доверительное АБ-тестирование простым и понятным языком рассказывает об основах АБ для онлайна и примерах применения его в крупных компаниях. На русском языке это одна из лучших книг по онлайн-экспериментам.
- Книга Статистический анализ и визуализация данных с помощью R от Сергея Мастицкого. Это уже прям классика-классика, но статистический фундамент, релевантный АБ, дает отличный. Я, например, пришла в DS именно по блогу и книгам Сергея.
- Статьи Паши Нестерова на Хабре по офлайн-экспериментам (1, 2). Написаны давно, но настолько хорошо и понятно, что я до сих пор для объяснения каких-то частей методологии даю ссылки на них. Например, ссылку на байку про мертвого лосося для раскрытия темы вреда множественного тестирования давала, наверное, уже миллион раз. Лучше эту тему на русском не раскрыл никто.
- Practical Defaults for A/B Testing от Ronny Kohavi. Советы по выбору дефолтных значений от автора книги Доверительное АБ-тестирование.
- Caveats and Limitations of A/B Testing at Growth Tech Companies. Хорошая заметка в тему нашего цикла постов про сложности проведения АБ в компаниях и отличный ее пересказ от Артема Ерохина (у которого, кстати, отличный ТГ-канал с множеством материалов по АБ).
- Продвинутые темы в АБ можно посмотреть: в треке Валеры Бабушкина на ODS Data Fest 2020 г. (от нюансов АБ на малых данных до оптимизации метрик для контроля качества проведения экспериментов), докладах Ваагна Минасяна и Ивана Максимова про ускорение АБ-тестов, статьях Саши Сахнова о стратификации и бутстрепе (об основах АБ в оффлайне Саша, кстати, тоже классно пишет), а также о лайфхаках АБ от Авито (1, 2). Это из любимого. Из этих статей можно выйти на бесчисленное множество качественных материалов по интересующим вас нюансам в методике АБ-тестирования.
#tech #ab_testing
🔥16👍3👏2❤1
АБ-тесты. Интеграция в процесс пилотирования.
Цикл постов про процессы в АБ-тестировании (почти весь!)
Краткая иллюстрация к двум предыдущим постам - какие риски закрывает добавление математической методики дизайна и оценки результатов пилотов.
Все посты цикла (на текущий момент):
Пост 1. АБ-тесты - это не только ценный мех… Но еще и процессы. Об инвестиционном цикле и месте АБ в нем.
Пост 2. Как выглядит типовой бизнес-процесс без АБ.
Пост 3. Риски типового бизнес-процесса без АБ.
Пост 4. Что делать. Взаимодействие АБ-команды, финансовой службы и бизнеса.
Пост 5. Что делать. База пилотов.
Пост 6. Что делать. Математическая методика дизайна и оценки результатов пилотов.
Пост 7. Подборка материалов по АБ.
Ух, кажется, остался всего один, завершающий, пост про методику экстраполяции результатов пилота.
#tech #ab_testing
Цикл постов про процессы в АБ-тестировании (почти весь!)
Краткая иллюстрация к двум предыдущим постам - какие риски закрывает добавление математической методики дизайна и оценки результатов пилотов.
Все посты цикла (на текущий момент):
Пост 1. АБ-тесты - это не только ценный мех… Но еще и процессы. Об инвестиционном цикле и месте АБ в нем.
Пост 2. Как выглядит типовой бизнес-процесс без АБ.
Пост 3. Риски типового бизнес-процесса без АБ.
Пост 4. Что делать. Взаимодействие АБ-команды, финансовой службы и бизнеса.
Пост 5. Что делать. База пилотов.
Пост 6. Что делать. Математическая методика дизайна и оценки результатов пилотов.
Пост 7. Подборка материалов по АБ.
Ух, кажется, остался всего один, завершающий, пост про методику экстраполяции результатов пилота.
#tech #ab_testing
👍14❤1
Митап по ML & Model Ops - 15 декабря
У наших друзей - сообщества NoML (Not Only ML) - 15 декабря состоится митап по темам мониторинга и валидации моделей, модельного риска и ML Observability. Регистрация тут.
Лидер сообщества, Павел Снурницын (Kolmogorov AI), недавно опубликовал отличный обзор по отчету Gartner "Market Guide for DSML Engineering Platforms". Его полезно почитать для подготовки к мероприятию.
15 декабря c 17:30 МСК в офисе GlowByte (Москва, БЦ Арма) в программе:
1️⃣ “Мониторинг, или Почему мы спокойно спим по ночам”,
Марина Смирнова (Альфа-Банк), Александр Косов (GlowByte).
2️⃣ “Модели следят за моделями: опыт построения системы фактического и предиктивного ML мониторинга”,
Евгений Степанов (Банк Открытие).
3️⃣ “Мониторинг и валидация моделей в Kolmogorov AI”,
Михаил Зайцев (Kolmogorov AI).
4️⃣ Круглый стол на тему “DS/ML Observability”,
все спикеры и все желающие.
P.S. А еще Полина Окунева, один из авторов канала NoML и докладчик трека Reliable ML на Data Fest 2022, недавно опубликовала интересную статью по базовому пайплайну АБ-эксперимента: от этапа проектирования до анализа результатов. На каждом из шагов пайплайна Полина подсвечивает основные моменты, о которых стоит задуматься, для того чтобы создалось видение эксперимента целиком.
#анонс
У наших друзей - сообщества NoML (Not Only ML) - 15 декабря состоится митап по темам мониторинга и валидации моделей, модельного риска и ML Observability. Регистрация тут.
Лидер сообщества, Павел Снурницын (Kolmogorov AI), недавно опубликовал отличный обзор по отчету Gartner "Market Guide for DSML Engineering Platforms". Его полезно почитать для подготовки к мероприятию.
15 декабря c 17:30 МСК в офисе GlowByte (Москва, БЦ Арма) в программе:
1️⃣ “Мониторинг, или Почему мы спокойно спим по ночам”,
Марина Смирнова (Альфа-Банк), Александр Косов (GlowByte).
2️⃣ “Модели следят за моделями: опыт построения системы фактического и предиктивного ML мониторинга”,
Евгений Степанов (Банк Открытие).
3️⃣ “Мониторинг и валидация моделей в Kolmogorov AI”,
Михаил Зайцев (Kolmogorov AI).
4️⃣ Круглый стол на тему “DS/ML Observability”,
все спикеры и все желающие.
P.S. А еще Полина Окунева, один из авторов канала NoML и докладчик трека Reliable ML на Data Fest 2022, недавно опубликовала интересную статью по базовому пайплайну АБ-эксперимента: от этапа проектирования до анализа результатов. На каждом из шагов пайплайна Полина подсвечивает основные моменты, о которых стоит задуматься, для того чтобы создалось видение эксперимента целиком.
#анонс
❤🔥3👍2🔥2