Causal Inference в динамическом ценообразовании
Иван Горбань и Денис Пятых начали публикацию серии статей о методах причинно-следственного анализа в динамическом ценообразовании.
Статьи являются развитием доклада Вани и Дениса на Data Fest Online 2021 - Causal methods in dynamic pricing, где они рассказали о методах causal inference и динамической оптимизации, применительно к установке цен на товары в сети МегаФон.
Первая статья посвящена мотивации применения методов causal inference в задачах ML, гармонично дополняя предыдущий пост нашего канала о том что correlation doesn’t imply causation. В тексте Ваня разбирает этот тезис, ключевые причины, почему корреляция не предполагает причинно-следственную связь, а затем переходит к применению этих знаний для ML задач и конкретно кейса про ценообразование.
Кстати, Ваня Горбань – соавтор подкаста «Данные люди», где тимлиды DS (Ваня и Артём Глазунов) в формате войс-чата в телеграм-канале @bigdatapeople общаются с интересными людьми из сферы анализа данных. Они обсуждают, какое влияние большие данные оказывают на развитие мира, говорят о науке, бизнесе, философии и этике. Ребята вместе с гостями разбираются, где люди применяют анализ данных, как этому научиться, зачем это нужно и что ждет нас в будущем.
#tech #causal_inference #practice
Иван Горбань и Денис Пятых начали публикацию серии статей о методах причинно-следственного анализа в динамическом ценообразовании.
Статьи являются развитием доклада Вани и Дениса на Data Fest Online 2021 - Causal methods in dynamic pricing, где они рассказали о методах causal inference и динамической оптимизации, применительно к установке цен на товары в сети МегаФон.
Первая статья посвящена мотивации применения методов causal inference в задачах ML, гармонично дополняя предыдущий пост нашего канала о том что correlation doesn’t imply causation. В тексте Ваня разбирает этот тезис, ключевые причины, почему корреляция не предполагает причинно-следственную связь, а затем переходит к применению этих знаний для ML задач и конкретно кейса про ценообразование.
Кстати, Ваня Горбань – соавтор подкаста «Данные люди», где тимлиды DS (Ваня и Артём Глазунов) в формате войс-чата в телеграм-канале @bigdatapeople общаются с интересными людьми из сферы анализа данных. Они обсуждают, какое влияние большие данные оказывают на развитие мира, говорят о науке, бизнесе, философии и этике. Ребята вместе с гостями разбираются, где люди применяют анализ данных, как этому научиться, зачем это нужно и что ждет нас в будущем.
#tech #causal_inference #practice
🔥12
Что такое Reliable ML?
Настало время объяснить, что было задумано при создании данного канала. Концепция Reliable ML – это о том, что делать, чтобы результат работы data science/big data команд был, во-первых, применим в бизнес-процессах компании-заказчика, а, во-вторых, приносил этой компании пользу.
Что для этого нужно?
- Уметь составлять грамотный план исследования и развития продукта, учитывающий дальнейшее применение модели. Для таких постов вводим тег #planning
- Различать подходы, направленные на прогноз и на управление параметрами модели в дальнейшем для изменения ее результата (например, управление периодом и форматом проведения промо-активностей для максимизации выручки компании). Для второй цели – которая на практике встречается гораздо чаще просто прогноза – важно ориентироваться в подходах причинно-следственного анализа. О том, что такое причинно-следственный анализ, чем он отличается от простой корреляции, зачем и как его применять в DS-задачах, мы рассказываем вам под тегом #causal_inference
- Принимать взвешенные решения о дальнейшем развитии проекта и его потенциальном финансовом эффекте. Для этого необходимо не только проработать качественный дизайн пилотного эксперимента для вашей модели, но и затем сделать корректную статистическую оценку эффекта пилота, а также расчет ожидаемого финансового эффекта. О технической составляющей этого процесса мы будем рассказывать вам под тегом #ab_testing, о выстраивании процесса управления рисками инвестиционных инициатив – под тегами #investment_process
- Уметь интерпретировать работу и результат модели как для технической команды, так и для конечного пользователя (бизнеса). Для этого мы рассказываем вам об интерпретируемости. Теперь все посты по Interpretable ML будут помечены тегом #interpretable_ml
- Уметь выбрать не только корректные технические метрики качества для решаемой задачи, но и сформулировать правильные бизнес-метрики, связанные с процессом применения модели, связать их с техническими метриками и итоговым финансовым результатом применения модели. Тут тег довольно очевидный - #metrics
Итак, концепция Reliable ML охватывает не только технические особенности ML (#tech), но и построение процессов работы DS и взаимодействия с бизнесом (#business) для достижения максимального финансового эффекта.
Stay tuned!
Настало время объяснить, что было задумано при создании данного канала. Концепция Reliable ML – это о том, что делать, чтобы результат работы data science/big data команд был, во-первых, применим в бизнес-процессах компании-заказчика, а, во-вторых, приносил этой компании пользу.
Что для этого нужно?
- Уметь составлять грамотный план исследования и развития продукта, учитывающий дальнейшее применение модели. Для таких постов вводим тег #planning
- Различать подходы, направленные на прогноз и на управление параметрами модели в дальнейшем для изменения ее результата (например, управление периодом и форматом проведения промо-активностей для максимизации выручки компании). Для второй цели – которая на практике встречается гораздо чаще просто прогноза – важно ориентироваться в подходах причинно-следственного анализа. О том, что такое причинно-следственный анализ, чем он отличается от простой корреляции, зачем и как его применять в DS-задачах, мы рассказываем вам под тегом #causal_inference
- Принимать взвешенные решения о дальнейшем развитии проекта и его потенциальном финансовом эффекте. Для этого необходимо не только проработать качественный дизайн пилотного эксперимента для вашей модели, но и затем сделать корректную статистическую оценку эффекта пилота, а также расчет ожидаемого финансового эффекта. О технической составляющей этого процесса мы будем рассказывать вам под тегом #ab_testing, о выстраивании процесса управления рисками инвестиционных инициатив – под тегами #investment_process
- Уметь интерпретировать работу и результат модели как для технической команды, так и для конечного пользователя (бизнеса). Для этого мы рассказываем вам об интерпретируемости. Теперь все посты по Interpretable ML будут помечены тегом #interpretable_ml
- Уметь выбрать не только корректные технические метрики качества для решаемой задачи, но и сформулировать правильные бизнес-метрики, связанные с процессом применения модели, связать их с техническими метриками и итоговым финансовым результатом применения модели. Тут тег довольно очевидный - #metrics
Итак, концепция Reliable ML охватывает не только технические особенности ML (#tech), но и построение процессов работы DS и взаимодействия с бизнесом (#business) для достижения максимального финансового эффекта.
Stay tuned!
👍25❤1🔥1
Reliable ML pinned «Что такое Reliable ML? Настало время объяснить, что было задумано при создании данного канала. Концепция Reliable ML – это о том, что делать, чтобы результат работы data science/big data команд был, во-первых, применим в бизнес-процессах компании-заказчика…»
Почему Correlation != Causation
В недавнем посте мы поговорили о том, что корреляция не подразумевает причинно-следственную связь.
Давайте теперь обсудим, почему это может быть так.
Общепринято выделять 4 причины.
1. Пропущенная переменная (Omitted variable). В случае, если Х и Y скоррелированы, причиной их изменения может быть другой, третий фактор F, воздействие которого и заставляет X и Y двигаться вместе (сонаправленно). Поэтому, если цель нашего исследования – изменить Y, изменение Х нам с этим не поможет. К изменению Y приведет только изменение F.
В нашем недавнем посте можно найти ряд примеров, когда корреляция не означает причинно-следственной связи, именно по причине пропущенного фактора. Так, в корреляции наличия астмы и низкой вероятности смерти от пневмонии третьим фактором оказалось регулярное врачебное наблюдение, необходимое при астме и оказывающее значительное влияние на снижение смерти от пневмонии. А для корреляции ЗП и сексуальной активности третьим фактором, по мнению автора исследования, является состояние здоровья.
2. Обратная причинность (Reverse Causality). Корреляция X и Y не подразумевает, что Х влияет на Y, поскольку влияние может быть обратным – Y влияет на Х. Самым известным примером reverse causality считается взаимосвязь курения и депрессии. Здесь возможна как прямая взаимосвязь (курение способствует депрессии), так и обратная (подавленное состояние способствует курению). Другие примеры из экономической теории: уровень дохода и счастье, бедность и безработица, сексуальная активность и уровень ЗП.
3. Смещение выборки (Selection bias). Третья возможная причина, почему корреляция не подразумевает причинно-следственной связи – нерепрезентативность выборки, на основе которой мы делаем выводы, для генеральной совокупности. Пример – исследование факторов роста заработной платы. При проведении подобного исследования мы неизбежно рассматриваем только работающих и, следовательно, получающих ЗП на текущий момент людей и делаем выводы о факторах, влияющих на их доход. При этом в выборку не попадают неработающие люди (потерявшие работу, матери в декрете, официально безработные, и др.), данные о которых могут значимо повлиять на результат.
4. Ошибка измерения (Measurement error). Способ получения данных и его уязвимости также могут влиять на результат. Самый распространенный пример – систематическое искажение данных в опросах. Так, пациенты могут систематически приукрашивать данные о регулярности приема лекарств и занижать – о приеме алкоголя. В опросах про доходы также часто встречается завышение низкого дохода и занижение высокого. При этом не каждая ошибка измерения приводит к неверным выводам о причинно-следственной связи. В некоторых случаях она может быть вполне безобидной.
#tech #causal_inference
В недавнем посте мы поговорили о том, что корреляция не подразумевает причинно-следственную связь.
Давайте теперь обсудим, почему это может быть так.
Общепринято выделять 4 причины.
1. Пропущенная переменная (Omitted variable). В случае, если Х и Y скоррелированы, причиной их изменения может быть другой, третий фактор F, воздействие которого и заставляет X и Y двигаться вместе (сонаправленно). Поэтому, если цель нашего исследования – изменить Y, изменение Х нам с этим не поможет. К изменению Y приведет только изменение F.
В нашем недавнем посте можно найти ряд примеров, когда корреляция не означает причинно-следственной связи, именно по причине пропущенного фактора. Так, в корреляции наличия астмы и низкой вероятности смерти от пневмонии третьим фактором оказалось регулярное врачебное наблюдение, необходимое при астме и оказывающее значительное влияние на снижение смерти от пневмонии. А для корреляции ЗП и сексуальной активности третьим фактором, по мнению автора исследования, является состояние здоровья.
2. Обратная причинность (Reverse Causality). Корреляция X и Y не подразумевает, что Х влияет на Y, поскольку влияние может быть обратным – Y влияет на Х. Самым известным примером reverse causality считается взаимосвязь курения и депрессии. Здесь возможна как прямая взаимосвязь (курение способствует депрессии), так и обратная (подавленное состояние способствует курению). Другие примеры из экономической теории: уровень дохода и счастье, бедность и безработица, сексуальная активность и уровень ЗП.
3. Смещение выборки (Selection bias). Третья возможная причина, почему корреляция не подразумевает причинно-следственной связи – нерепрезентативность выборки, на основе которой мы делаем выводы, для генеральной совокупности. Пример – исследование факторов роста заработной платы. При проведении подобного исследования мы неизбежно рассматриваем только работающих и, следовательно, получающих ЗП на текущий момент людей и делаем выводы о факторах, влияющих на их доход. При этом в выборку не попадают неработающие люди (потерявшие работу, матери в декрете, официально безработные, и др.), данные о которых могут значимо повлиять на результат.
4. Ошибка измерения (Measurement error). Способ получения данных и его уязвимости также могут влиять на результат. Самый распространенный пример – систематическое искажение данных в опросах. Так, пациенты могут систематически приукрашивать данные о регулярности приема лекарств и занижать – о приеме алкоголя. В опросах про доходы также часто встречается завышение низкого дохода и занижение высокого. При этом не каждая ошибка измерения приводит к неверным выводам о причинно-следственной связи. В некоторых случаях она может быть вполне безобидной.
#tech #causal_inference
👍33❤4
Что такое Causal Inference? Определение
Поговорили о том, что существует корреляция, а существует причинно-следственная связь, а также почему так бывает. Давайте теперь сформулируем определения причинно-следственной связи и эффекта.
Есть два типа определений для causal inference: определение через воздействие (Intervention – Что случится с Y, если я сделаю Х?) и контрфактическое определение (Counterfactual – Давайте представим мир с Y таким, в котором мы сделали или не сделали Х).
- В intervention определении X является причиной Y тогда и только тогда, когда изменение Х влечет за собой изменение Y. Эффектом считается масштаб изменения Y после изменения Х на 1 единицу.
- В counterfactual логике X является причиной Y тогда и только тогда, когда мир Y, где присутствует/сделано X, отличается от мира Y без Х. Эффектом считается масштаб отличия мира Y в случае присутствия Х от мира Y без Х.
#tech #causal_inference
Поговорили о том, что существует корреляция, а существует причинно-следственная связь, а также почему так бывает. Давайте теперь сформулируем определения причинно-следственной связи и эффекта.
Есть два типа определений для causal inference: определение через воздействие (Intervention – Что случится с Y, если я сделаю Х?) и контрфактическое определение (Counterfactual – Давайте представим мир с Y таким, в котором мы сделали или не сделали Х).
- В intervention определении X является причиной Y тогда и только тогда, когда изменение Х влечет за собой изменение Y. Эффектом считается масштаб изменения Y после изменения Х на 1 единицу.
- В counterfactual логике X является причиной Y тогда и только тогда, когда мир Y, где присутствует/сделано X, отличается от мира Y без Х. Эффектом считается масштаб отличия мира Y в случае присутствия Х от мира Y без Х.
#tech #causal_inference
👍16❤1
Методы Causal Inference. Часть 1.
В различных докладах и статьях по причинно-следственному анализу мне всегда не хватало систематизации методов. Многие причисляют отдельные методы к каким-то категориям, подкатегориям, но общей классификации не дают, и в итоге возникает путаница. Непонятно, как собрать воедино все, что разрабатывается в этой области. Когда начинаешь прицельно искать систематизацию, то оказывается, что их очень много. И каждая, конечно, несовершенна.
Расскажу вам про лучшую, на мой взгляд, систематизацию – Evidence Ladder от A.Rebecq (2020).
Методы Causal Inference можно упорядочить с помощью так называемой доказательной лестницы (Evidence Ladder). От нижней ступени к верхней будет расти, во-первых, доказательная сила метода, во-вторых, простота применения, или, другими словами, снижаться число необходимых проверок на устойчивость результата применения метода (robustness checks).
На вершине этой лестницы находятся естественные эксперименты (Natural Experiments). Это, например, классические лабораторные эксперименты в физике и химии, когда мы можем создать полностью одинаковые условия для двух вариантов Y, отличающихся только наличием Х. Можно представить себе две одинаковые пробирки в химии (Y), где в одну добавлено какое-либо вещество (X), а в другую – нет. Тогда отличие Y где нет Х от Y с Х и будет выявленным причинно-следственным эффектом. Мы будем абсолютно уверены, что изменение состояния Y вызвано участием Х.
Следующая ступень – статистические эксперименты (Statistical Experiments) aka рандомизированные контролируемые эксперименты (Randomized Controlled Trials) aka АБ-тестирование (AB Testing). Здесь мы не можем обеспечить идеально одинаковые Y, но можем случайным образом собрать выборки объектов Y в пилотную (вводим событие Х) и контрольную (не вводим событие Х) группы таким образом, что размер этих выборок компенсирует различия Y между собой. То есть, пилотная и контрольная выборки должны быть достаточно объемны и однородны, чтобы статистический тест был корректным с точки зрения статистической мощности и значимости. На практике подобные тесты чаще всего возможны в e-commerce, где объектов (клиентов магазина, посетителей сайтов) много.
Если случайный отбор не работает, мы вынуждены спускаться еще на ступень ниже – к квази-экспериментам (Quasi-Experiments). На практике категории статистических экспериментов и квази-экспериментов чаще всего смешиваются, и называются просто АБ-тестами. В квази-экспериментах объекты Y могут существенно отличаться и их общего количества недостаточно, чтобы обеспечить однородные выборки и корректный статистический эксперимент. Поэтому в таких АБ-тестах мы вынуждены прибегать к дополнительным мерам снижения дисперсии типа CUPED и линеаризации, и другим танцам с бубном типа проверок репрезентативности выборки для генеральной совокупности и созданию синтетического контроля при критически малом количестве объектов. В АБ-тестах для офлайн-бизнеса чаще всего возможно применение только квази-экспериментов, вследствие малого количества объектов, на которых мы можем позволить себе проведение пилота (долго, дорого, трудно).
#tech #causal_inference #ab_testing
В различных докладах и статьях по причинно-следственному анализу мне всегда не хватало систематизации методов. Многие причисляют отдельные методы к каким-то категориям, подкатегориям, но общей классификации не дают, и в итоге возникает путаница. Непонятно, как собрать воедино все, что разрабатывается в этой области. Когда начинаешь прицельно искать систематизацию, то оказывается, что их очень много. И каждая, конечно, несовершенна.
Расскажу вам про лучшую, на мой взгляд, систематизацию – Evidence Ladder от A.Rebecq (2020).
Методы Causal Inference можно упорядочить с помощью так называемой доказательной лестницы (Evidence Ladder). От нижней ступени к верхней будет расти, во-первых, доказательная сила метода, во-вторых, простота применения, или, другими словами, снижаться число необходимых проверок на устойчивость результата применения метода (robustness checks).
На вершине этой лестницы находятся естественные эксперименты (Natural Experiments). Это, например, классические лабораторные эксперименты в физике и химии, когда мы можем создать полностью одинаковые условия для двух вариантов Y, отличающихся только наличием Х. Можно представить себе две одинаковые пробирки в химии (Y), где в одну добавлено какое-либо вещество (X), а в другую – нет. Тогда отличие Y где нет Х от Y с Х и будет выявленным причинно-следственным эффектом. Мы будем абсолютно уверены, что изменение состояния Y вызвано участием Х.
Следующая ступень – статистические эксперименты (Statistical Experiments) aka рандомизированные контролируемые эксперименты (Randomized Controlled Trials) aka АБ-тестирование (AB Testing). Здесь мы не можем обеспечить идеально одинаковые Y, но можем случайным образом собрать выборки объектов Y в пилотную (вводим событие Х) и контрольную (не вводим событие Х) группы таким образом, что размер этих выборок компенсирует различия Y между собой. То есть, пилотная и контрольная выборки должны быть достаточно объемны и однородны, чтобы статистический тест был корректным с точки зрения статистической мощности и значимости. На практике подобные тесты чаще всего возможны в e-commerce, где объектов (клиентов магазина, посетителей сайтов) много.
Если случайный отбор не работает, мы вынуждены спускаться еще на ступень ниже – к квази-экспериментам (Quasi-Experiments). На практике категории статистических экспериментов и квази-экспериментов чаще всего смешиваются, и называются просто АБ-тестами. В квази-экспериментах объекты Y могут существенно отличаться и их общего количества недостаточно, чтобы обеспечить однородные выборки и корректный статистический эксперимент. Поэтому в таких АБ-тестах мы вынуждены прибегать к дополнительным мерам снижения дисперсии типа CUPED и линеаризации, и другим танцам с бубном типа проверок репрезентативности выборки для генеральной совокупности и созданию синтетического контроля при критически малом количестве объектов. В АБ-тестах для офлайн-бизнеса чаще всего возможно применение только квази-экспериментов, вследствие малого количества объектов, на которых мы можем позволить себе проведение пилота (долго, дорого, трудно).
#tech #causal_inference #ab_testing
👍8🔥8
Методы Causal Inference. Часть 2.
Иногда бизнес-ограничения не позволяют добиться корректной оценки даже с помощью квази-экспериментов. В таком случае, мы вынуждены спуститься в самый низ нашей доказательной лестницы – к контрфактическим методам (Counterfactuals). Тут мы отказываемся от идеи пилотной и контрольной групп (на самом деле, не совсем), и, по сути, моделируем временной ряд Y по историческим данным без участия Х в будущее, где Х уже вступает в игру. Таким образом, в период проведения эксперимента мы сможем сравнить фактические данные Y (где Х участвовал) с модельными (прогноз Y без участия Х) и предположить размер эффекта. Однако, чтобы это предположение оказалось близким к правде, нам нужно сделать наибольшее количество тестов на устойчивость метода. Результирующий эффект будет критически зависеть от корректности применения выбранного метода CI категории Counterfactuals: от выбора самого метода до подбора гиперпараметров и учета при моделировании всех необходимых ковариатов (факторов, помимо Х).
На практике необходимость в counterfactual методах возникает совсем не редко. Например, построили mvp по какому-то проекту (не обязательно ML), прикинули в уме, что вроде норм, взяли и раскатали в прод сразу на все объекты Y. Как теперь оценить эффект от внедрения, если контрольной группы нет в принципе, а на объекты Y ежедневно воздействует миллион внешних факторов: от макроэкономических трендов до внутренних изменений в бизнес-процессах? Знакомо?
Или другой случай: бюджета проекта хватает только на один объект Y, а эффект оценить хочется. Как ни мучайся, подбирая синтетический контроль из множества других объектов Y, сделать это почти невозможно.
Ну и третий случай: мы хотим на исторических данных, там, где никакого эксперимента не проводили, понять, а был ли эффект от какого-то действия/события Х на целевую переменную Y. В последнем случае, мы чаще всего не можем собрать корректные контрольную и тестовую группы. Историческое событие Х чаще всего распределено сложно, внедрялось либо во всех объектах, либо в малом количестве и в разное время.
#tech #causal_inference #ab_testing
Иногда бизнес-ограничения не позволяют добиться корректной оценки даже с помощью квази-экспериментов. В таком случае, мы вынуждены спуститься в самый низ нашей доказательной лестницы – к контрфактическим методам (Counterfactuals). Тут мы отказываемся от идеи пилотной и контрольной групп (на самом деле, не совсем), и, по сути, моделируем временной ряд Y по историческим данным без участия Х в будущее, где Х уже вступает в игру. Таким образом, в период проведения эксперимента мы сможем сравнить фактические данные Y (где Х участвовал) с модельными (прогноз Y без участия Х) и предположить размер эффекта. Однако, чтобы это предположение оказалось близким к правде, нам нужно сделать наибольшее количество тестов на устойчивость метода. Результирующий эффект будет критически зависеть от корректности применения выбранного метода CI категории Counterfactuals: от выбора самого метода до подбора гиперпараметров и учета при моделировании всех необходимых ковариатов (факторов, помимо Х).
На практике необходимость в counterfactual методах возникает совсем не редко. Например, построили mvp по какому-то проекту (не обязательно ML), прикинули в уме, что вроде норм, взяли и раскатали в прод сразу на все объекты Y. Как теперь оценить эффект от внедрения, если контрольной группы нет в принципе, а на объекты Y ежедневно воздействует миллион внешних факторов: от макроэкономических трендов до внутренних изменений в бизнес-процессах? Знакомо?
Или другой случай: бюджета проекта хватает только на один объект Y, а эффект оценить хочется. Как ни мучайся, подбирая синтетический контроль из множества других объектов Y, сделать это почти невозможно.
Ну и третий случай: мы хотим на исторических данных, там, где никакого эксперимента не проводили, понять, а был ли эффект от какого-то действия/события Х на целевую переменную Y. В последнем случае, мы чаще всего не можем собрать корректные контрольную и тестовую группы. Историческое событие Х чаще всего распределено сложно, внедрялось либо во всех объектах, либо в малом количестве и в разное время.
#tech #causal_inference #ab_testing
🔥11👍10❤1
Систематизация методов Causal Inference. Более детальное описание каждой ступени можно найти в моем докладе тут.
#tech #causal_inference #ab_testing
#tech #causal_inference #ab_testing
👍15🔥5
Применение методов Causal Inference
Потребность в применении методов причинно-следственного анализа развивается со временем. В начале она была сконцентрирована, в основном, в науках: социальных науках, экономике, медицине, биологии, генетике. В последние пять лет наблюдается резкий рост этой потребности для бизнеса. Основными отраслями применения методов являются IT-компании, игровая индустрия, ритейл и e-commerce.
Ключевыми используемыми методами являются АБ-тесты, но с каждым годом встречается все больше отдельных интересных кейсов. Часто эти кейсы возникают из проблем применения классического ML для задач, когда мы хотим управлять параметрами моделей, тем самым, меняя целевую переменную Y. К этой категории можно отнести истории про исключение эффекта эндогенности при исследовании эффекта изменения цен на выручку при динамическом ценообразовании, оценку реального причинно-следственного эффекта изменения параметров персональной промо-кампании на выручку, которую она генерирует (uplift-модели), повышение эффективности работы прокатного стана за счет управления параметрами его работы, оценка эффекта генерации дополнительного спроса от установки различных видов прилавков (мясо, рыба, хлеб, и др.) в продуктовых магазинах.
В целом, о кейсах бизнес-применения causal inference 2021 г. я рассказывала в одном из постов @Reliable_ML еще в начале года.
#business #causal_inference #practice
Потребность в применении методов причинно-следственного анализа развивается со временем. В начале она была сконцентрирована, в основном, в науках: социальных науках, экономике, медицине, биологии, генетике. В последние пять лет наблюдается резкий рост этой потребности для бизнеса. Основными отраслями применения методов являются IT-компании, игровая индустрия, ритейл и e-commerce.
Ключевыми используемыми методами являются АБ-тесты, но с каждым годом встречается все больше отдельных интересных кейсов. Часто эти кейсы возникают из проблем применения классического ML для задач, когда мы хотим управлять параметрами моделей, тем самым, меняя целевую переменную Y. К этой категории можно отнести истории про исключение эффекта эндогенности при исследовании эффекта изменения цен на выручку при динамическом ценообразовании, оценку реального причинно-следственного эффекта изменения параметров персональной промо-кампании на выручку, которую она генерирует (uplift-модели), повышение эффективности работы прокатного стана за счет управления параметрами его работы, оценка эффекта генерации дополнительного спроса от установки различных видов прилавков (мясо, рыба, хлеб, и др.) в продуктовых магазинах.
В целом, о кейсах бизнес-применения causal inference 2021 г. я рассказывала в одном из постов @Reliable_ML еще в начале года.
#business #causal_inference #practice
👍7🔥5❤1
Митап DataPeople
Для управления жизненным циклом любого продукта полезно понимать риски, возникающие на каждом этапе его развития - чтобы вырабатывать меры по митигации этих рисков. Не менее полезно думать и о глобальных рисках внедрения продвинутой аналитики и управлять ими.
В дальнейшем в нашем канале планируем об этом серию постов.
А пока можно посмотреть материалы офлайн-митапа DataPeople, который прошел 12 апреля. Вот тут можно посмотреть запись трансляции и видеоотчет.
Темы, которые обсуждались на митапе:
- инструменты импортозамещения в Marketing Management и в направлении Risk Management & Compliance;
- система принятия решений для управления данными и мониторинга ML-моделей (разработка kolmogorov.ai).
Для управления жизненным циклом любого продукта полезно понимать риски, возникающие на каждом этапе его развития - чтобы вырабатывать меры по митигации этих рисков. Не менее полезно думать и о глобальных рисках внедрения продвинутой аналитики и управлять ими.
В дальнейшем в нашем канале планируем об этом серию постов.
А пока можно посмотреть материалы офлайн-митапа DataPeople, который прошел 12 апреля. Вот тут можно посмотреть запись трансляции и видеоотчет.
Темы, которые обсуждались на митапе:
- инструменты импортозамещения в Marketing Management и в направлении Risk Management & Compliance;
- система принятия решений для управления данными и мониторинга ML-моделей (разработка kolmogorov.ai).
👍5
Causal Inference как ключ к балансу классического ML и эконометрики
На мой взгляд, который озвучивала еще в 2019 г., data science можно определить через сближение дисциплин эконометрики и машинного обучения.
Основой моделирования для классического машинного обучения является качество прогноза. Вопросы интерпретируемости модели при этом вторичны. В начале развития ML стремление к интерпретируемости модели воспринималось, скорее, негативно – как упрощение модели в жертву способности ее интерпретировать.
Эконометрика – статистическая наука, основой которой является интерпретируемость. При этом во время становления дисциплины машинного обучения, когда в моду вошли слова data mining, эконометристы воспринимали их также с негативным окрасом. Те, кто занимаются data mining, добиваются роста метрик качества, используя любые преобразования данных, отодвигая на второе место логику модели – то, как она в реальном мире будет принимать решения/выдавать результат.
При этом постепенно происходило сближение этих дисциплин в науку о данных – data science. Можно обозначить ее как гармонию принципов классического ML и эконометрики. Интерпретируемость здесь трактуется как необходимость принятия моделей бизнесом, но она не должна быть абсолютной и не должна снижать качество прогноза.
В 2021 г. вышла статья Judea Pearl с более глубокой проработкой идеи роли Causal Inference в ML. В ней автор определяет data science как объединение дисциплины машинного обучения как школы радикального эмпиризма (когда только данные генерируют модель реальности) и эконометрики как школы интерпретации данных (когда модель процессов/реальности генерирует данные). Методы causal inference в данном случае выступают ключом к балансу эмпиризма и интерпретируемости в DS.
Этот баланс достигается с помощью трех ключевых принципов:
- Целесообразности. Модели реальности и Causal Inference помогают ускорить эволюцию ML-моделей. Так при резком появлении в нашей жизни COVID-19 отсутствие фактических исторических данных не дало бы возможность строить модели машинного обучения с прогнозами развития и принимать какие-либо решения. Развитию моделей помогли теоретические модели о принципах развития пандемии, которые объединялись с доступными историческими данными. Таким образом, модели быстро эволюционировали.
- Прозрачности. Использование инструментов и принципов причинно-следственного анализа критически полезно для управления процессами исследования и интерпретации данных.
- Объяснимости. Модель должна быть полезна конечному пользователю.
#business #causal_inference
На мой взгляд, который озвучивала еще в 2019 г., data science можно определить через сближение дисциплин эконометрики и машинного обучения.
Основой моделирования для классического машинного обучения является качество прогноза. Вопросы интерпретируемости модели при этом вторичны. В начале развития ML стремление к интерпретируемости модели воспринималось, скорее, негативно – как упрощение модели в жертву способности ее интерпретировать.
Эконометрика – статистическая наука, основой которой является интерпретируемость. При этом во время становления дисциплины машинного обучения, когда в моду вошли слова data mining, эконометристы воспринимали их также с негативным окрасом. Те, кто занимаются data mining, добиваются роста метрик качества, используя любые преобразования данных, отодвигая на второе место логику модели – то, как она в реальном мире будет принимать решения/выдавать результат.
При этом постепенно происходило сближение этих дисциплин в науку о данных – data science. Можно обозначить ее как гармонию принципов классического ML и эконометрики. Интерпретируемость здесь трактуется как необходимость принятия моделей бизнесом, но она не должна быть абсолютной и не должна снижать качество прогноза.
В 2021 г. вышла статья Judea Pearl с более глубокой проработкой идеи роли Causal Inference в ML. В ней автор определяет data science как объединение дисциплины машинного обучения как школы радикального эмпиризма (когда только данные генерируют модель реальности) и эконометрики как школы интерпретации данных (когда модель процессов/реальности генерирует данные). Методы causal inference в данном случае выступают ключом к балансу эмпиризма и интерпретируемости в DS.
Этот баланс достигается с помощью трех ключевых принципов:
- Целесообразности. Модели реальности и Causal Inference помогают ускорить эволюцию ML-моделей. Так при резком появлении в нашей жизни COVID-19 отсутствие фактических исторических данных не дало бы возможность строить модели машинного обучения с прогнозами развития и принимать какие-либо решения. Развитию моделей помогли теоретические модели о принципах развития пандемии, которые объединялись с доступными историческими данными. Таким образом, модели быстро эволюционировали.
- Прозрачности. Использование инструментов и принципов причинно-следственного анализа критически полезно для управления процессами исследования и интерпретации данных.
- Объяснимости. Модель должна быть полезна конечному пользователю.
#business #causal_inference
👍6❤3🔥2
Data Fest 3.0 - Reliable ML - Call for presentations
В этом году - 4 июня 2022 г. - состоится Data Fest 3.0 - крупнейшая конференция крупнейшего русскоязычного сообщества Open Data Science в области анализа данных.
Конференция будет онлайн, о деталях проведения скоро будет известно.
А сейчас хотелось бы объявить сбор заявок на доклады по теме Reliable ML.
О том, что такое Reliable ML можно почитать тут. Форма для заявок вот тут.
Будем рады, если сможете рассказать об интересных теоретических аспектах, или о кейсах применения в бизнесе по следующим темам:
- Планирование исследований и развития продукта – #planning
- Причинно-следственный анализ в машинном обучении – #causal_inference
- АБ-тестирование – #ab_testing
- Управление рисками инвестиционных инициатив – #investment_process
- Интерпретация моделей – #interpretable_ml
- Выбор технических и бизнес-метрик для оценки качества моделей - #metrics
В этом году - 4 июня 2022 г. - состоится Data Fest 3.0 - крупнейшая конференция крупнейшего русскоязычного сообщества Open Data Science в области анализа данных.
Конференция будет онлайн, о деталях проведения скоро будет известно.
А сейчас хотелось бы объявить сбор заявок на доклады по теме Reliable ML.
О том, что такое Reliable ML можно почитать тут. Форма для заявок вот тут.
Будем рады, если сможете рассказать об интересных теоретических аспектах, или о кейсах применения в бизнесе по следующим темам:
- Планирование исследований и развития продукта – #planning
- Причинно-следственный анализ в машинном обучении – #causal_inference
- АБ-тестирование – #ab_testing
- Управление рисками инвестиционных инициатив – #investment_process
- Интерпретация моделей – #interpretable_ml
- Выбор технических и бизнес-метрик для оценки качества моделей - #metrics
👍8🔥7
На Хабре была опубликована статья "Причинно-следственный анализ в машинном обучении", собранная из постов в этом канале.
Особо внимательные читатели даже найдут там новую информацию, которая тут еще не постилась 🙂.
Лучи добра за лайк, шер, репост статьи!
Особо внимательные читатели даже найдут там новую информацию, которая тут еще не постилась 🙂.
Лучи добра за лайк, шер, репост статьи!
Хабр
Причинно-следственный анализ в машинном обучении
Что появилось первым: курица или яйцо? Статистики давно уже нашли ответ на этот вопрос . Причем несколько раз. И каждый раз ответ был разным. А если серьезно, то для машинного обучения становятся все...
👍28
Causal Inference в ML
Для тех, кто не читал статью на Хабре (1/3)
В 2020 году в отчете State of AI впервые в явном виде была обозначена необходимость интеграции классического ML c методами Causal Inference.
Yoshua Bengio и Yann LeCun отметили, что ML-системы, построение которых основано на корреляциях, часто не справляются с задачами в реальном мире. Это происходит вследствие того, что реальный мир отличается от данных для обучения модели:
- Мир не является статичным. Условия, в которых работает модель, постоянно меняются. Если модель опирается на причинно-следственные связи, а не на корреляции, она будет более устойчива к изменениям.
- Параметры модели могут влиять на изменение целевой переменной, а целевая переменная, в свою очередь, может влиять на параметры модели. Так, цены влияют на спрос на товар, а спрос влияет на цены. С таким явлением также помогают бороться методы причинно-следственного анализа. Например, инструментальные переменные.
- Работа модели в продуктиве/реальном мире может менять закономерности, которые были выучены на исторических данных. Особенно уязвимы к этому системы, основанные на корреляциях. Так, в примере про высокую корреляцию вероятности умереть от пневмонии и наличия астмы, если в продуктиве мы будем меньше лечить тех, кто болен астмой, то вскоре кардинально поменяем ситуацию.
Решением указанных выше проблем ученые считают применение методов Causal Inference в ML. В State of AI 2020 тема causal inference была обозначена как путь к новому витку усиления ML-алгоритмов за счет повышения обобщающей способности моделей, их устойчивости и применимости для процесса принятия решений.
#business #causal_inference
Для тех, кто не читал статью на Хабре (1/3)
В 2020 году в отчете State of AI впервые в явном виде была обозначена необходимость интеграции классического ML c методами Causal Inference.
Yoshua Bengio и Yann LeCun отметили, что ML-системы, построение которых основано на корреляциях, часто не справляются с задачами в реальном мире. Это происходит вследствие того, что реальный мир отличается от данных для обучения модели:
- Мир не является статичным. Условия, в которых работает модель, постоянно меняются. Если модель опирается на причинно-следственные связи, а не на корреляции, она будет более устойчива к изменениям.
- Параметры модели могут влиять на изменение целевой переменной, а целевая переменная, в свою очередь, может влиять на параметры модели. Так, цены влияют на спрос на товар, а спрос влияет на цены. С таким явлением также помогают бороться методы причинно-следственного анализа. Например, инструментальные переменные.
- Работа модели в продуктиве/реальном мире может менять закономерности, которые были выучены на исторических данных. Особенно уязвимы к этому системы, основанные на корреляциях. Так, в примере про высокую корреляцию вероятности умереть от пневмонии и наличия астмы, если в продуктиве мы будем меньше лечить тех, кто болен астмой, то вскоре кардинально поменяем ситуацию.
Решением указанных выше проблем ученые считают применение методов Causal Inference в ML. В State of AI 2020 тема causal inference была обозначена как путь к новому витку усиления ML-алгоритмов за счет повышения обобщающей способности моделей, их устойчивости и применимости для процесса принятия решений.
#business #causal_inference
👍17🔥2
Causal Inference в ML: материалы
Для тех, кто не читал статью на Хабре (2/3)
Пост с главной литературой по Causal Inference в ML в 2020-2021 гг.
Материалы, систематизирующие методы causal inference в ML:
- Causal Inference Book. Это очередное обновленное издание замечательной фундаментальной книги по causality от Hernan & Robins. На Data Fest 2020 Антон Лебедевич в своем докладе разбирал основные интересные примеры из этой книги.
- A Survey on Causal Inference - Liuyi Yao et al. (2020). В этой статье авторы сравнивают по единому фреймворку ключевые существующие (и главное, применяемые на практике) методы Causal Inference, обсуждают тонкости их применения в R/Python.
Материалы по обобщающим Causal Inference фреймворкам:
- Библиотека DoWhy для python с различными датасетами, специально собранными или разработанными для тестирования, сравнения и бенчмаркинга различных методов causal inference. Если вы утром за чашечкой чая вдруг придумали новый метод причинно-следственного анализа, то вам дорога к этой библиотеке, чтобы понять, насколько ваш метод конкурентоспособен среди остальных. Подробнее про библиотеку и ее возможности можно почитать тут.
- Auto Causal Inference. Попытка создания AutoCI - один из трендов, возникших в рамках интеграции Causal Inference c машинным обучением. Можно ли, только загрузив датасет в библиотеку, понять структуру данных, существующие взаимосвязи и выбрать наилучший метод для из анализа, или для коррекции предсказаний модели, чтобы были учтены необходимые causal inference взаимосвязи? Пока исследования в данном направлении далеки от финальной стадии, но одна из его важных вех этого процесса – публикация от Netflix 2020 г. по Computational Causal Inference.
- Proximal Causal Inference – о возможностях непараметрической и полупараметрической оценки причинно-следственного эффекта, на примере медицинских исследований.
- Spatial Causal Inference – обзор методов для выявления причинно-следственных эффектов на пространственных данных.
- Causal Inference using DL – фреймворк для выявления причинно-следственного эффекта с помощью DL.
#tech #causal_inference
Для тех, кто не читал статью на Хабре (2/3)
Пост с главной литературой по Causal Inference в ML в 2020-2021 гг.
Материалы, систематизирующие методы causal inference в ML:
- Causal Inference Book. Это очередное обновленное издание замечательной фундаментальной книги по causality от Hernan & Robins. На Data Fest 2020 Антон Лебедевич в своем докладе разбирал основные интересные примеры из этой книги.
- A Survey on Causal Inference - Liuyi Yao et al. (2020). В этой статье авторы сравнивают по единому фреймворку ключевые существующие (и главное, применяемые на практике) методы Causal Inference, обсуждают тонкости их применения в R/Python.
Материалы по обобщающим Causal Inference фреймворкам:
- Библиотека DoWhy для python с различными датасетами, специально собранными или разработанными для тестирования, сравнения и бенчмаркинга различных методов causal inference. Если вы утром за чашечкой чая вдруг придумали новый метод причинно-следственного анализа, то вам дорога к этой библиотеке, чтобы понять, насколько ваш метод конкурентоспособен среди остальных. Подробнее про библиотеку и ее возможности можно почитать тут.
- Auto Causal Inference. Попытка создания AutoCI - один из трендов, возникших в рамках интеграции Causal Inference c машинным обучением. Можно ли, только загрузив датасет в библиотеку, понять структуру данных, существующие взаимосвязи и выбрать наилучший метод для из анализа, или для коррекции предсказаний модели, чтобы были учтены необходимые causal inference взаимосвязи? Пока исследования в данном направлении далеки от финальной стадии, но одна из его важных вех этого процесса – публикация от Netflix 2020 г. по Computational Causal Inference.
- Proximal Causal Inference – о возможностях непараметрической и полупараметрической оценки причинно-следственного эффекта, на примере медицинских исследований.
- Spatial Causal Inference – обзор методов для выявления причинно-следственных эффектов на пространственных данных.
- Causal Inference using DL – фреймворк для выявления причинно-следственного эффекта с помощью DL.
#tech #causal_inference
🔥5👍3❤1
Causal Inference в ML: инструменты
Для тех, кто не читал статью на Хабре (3/3)
Tool Boxes для Python:
- Dowhy - Propensity-based Stratification, PSM, IPW, Regression
- Causal ML - Tree-based algorithms, X/T/X/R-learner
- CausalNex - Structural Causal Models based on Bayesian Networks
- EconML - Doubly Robust Learner, Orthogonal Random Forests, Meta-Learners, Deep Instrumental Variables
- causalImpact - Bayesian structural time-series model (сейчас активна реализация c бекендом на tensorflow-probability вместо pystan)
Tool Boxes для R:
- causalToolbox - BART, Causal Forest, T/X/S-learner with BART/RF as base learner
- causalImpact - Bayesian structural time-series model
- did - Classical Difference-in-Difference (group-time average treatment effects)
- synthdid - Synthetic difference in difference estimator (SDID) for the average treatment effect in panel data, Arkhangelsky et al (2019) – доклад на Causal Inference in ML Track 2020
- causalweight - Inverse probability weighting (IPW)
Если вы считаете, что стоит пополнить этот список - пишите в комментариях!
#tech #causal_inference
Для тех, кто не читал статью на Хабре (3/3)
Tool Boxes для Python:
- Dowhy - Propensity-based Stratification, PSM, IPW, Regression
- Causal ML - Tree-based algorithms, X/T/X/R-learner
- CausalNex - Structural Causal Models based on Bayesian Networks
- EconML - Doubly Robust Learner, Orthogonal Random Forests, Meta-Learners, Deep Instrumental Variables
- causalImpact - Bayesian structural time-series model (сейчас активна реализация c бекендом на tensorflow-probability вместо pystan)
Tool Boxes для R:
- causalToolbox - BART, Causal Forest, T/X/S-learner with BART/RF as base learner
- causalImpact - Bayesian structural time-series model
- did - Classical Difference-in-Difference (group-time average treatment effects)
- synthdid - Synthetic difference in difference estimator (SDID) for the average treatment effect in panel data, Arkhangelsky et al (2019) – доклад на Causal Inference in ML Track 2020
- causalweight - Inverse probability weighting (IPW)
Если вы считаете, что стоит пополнить этот список - пишите в комментариях!
#tech #causal_inference
❤8👍6👏2🔥1