Reliable ML – Telegram
Reliable ML
6.54K subscribers
109 photos
1 file
224 links
Reliable ML - фреймворк о том, как управлять внедрением и развитием аналитики и data science/machine learning/AI, чтобы результат был применим в бизнес-процессах и приносил компании финансовую пользу.

Admin: @irina_goloshchapova @promsoft
Download Telegram
С Наступающим Новым Годом, друзья!
Пусть в нем ваши модели приносят значимый прирост целевых метрик, и вы понимаете, почему! 🥳
🎉10🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥1
Появление качественных общедоступных материалов по CI
Разбираем подробнее итоги года в Causal Inference

Среди множества материалов в открытом доступе по CI, появившихся в 2021 г., хотелось бы особенно отметить следующие:

- Курс лекций Дмитрия Архангельского (CEMFI) по экспериментальному анализу для экономического факультета МГУ.
- Randomised Controlled Trials. Вводная лекция в курс, на которой разобрана базовая модель эксперимента, а также приведены решения проблемы несбалансированности контрольной и экспериментальной групп.
- Внешние эффекты. Разобраны дизайны экспериментов, в которых не соблюдается ключевое предположение о стабильности воздействия (SUTVA), и на группы участников влияют различные внешние эффекты.
- Адаптивные эксперименты. Разобраны более сложные дизайны экспериментов, где предположение о стабильности воздействия (SUTVA) соблюдается, но условия могут быть адаптивны.
- Динамические эксперименты. Завершение курса обзором динамических экспериментов, где результат может зависеть не только от недавнего воздействия, но и от предыдущих. Именно такие условия характеризуют большинство более комплексных процессов в экономике и поэтому требуют более сложных дизайнов для оценки.

- Книга по CI на Python: Matheus Alves Causal Inference for The Brave and True. Очень доступное изложение и куча мемов – все как мы любим. И еще раз подчеркнем, что все примеры даны на python, что пока еще довольно большая редкость для литературы по CI.

- Telegram-канал доказательный_пробел. Исследователи из Центра перспективных управленческих решений (ЦПУР) публикуют обзоры свежих эконометрических статей по CI, делают анонсы мероприятий и открытых курсов в области CI в экономике, а также рассказывают новости из мира доказательной политики, которая направлена на использование государственными органами методов causal inference для обоснования политических решений. Коллеги фанатеют от Скотта Каннигема, а также собрали крутой стикерпак про causal inference. Курс Дмитрия Архангельского был опубликован на youtube в этом году именно при поддержке ЦПУР!

#tech #causal_inference
🔥11👍4
Больше практических кейсов в России
Разбираем подробнее итоги года в Causal Inference

В 2021 г. авторам канала удалось узнать о существенно большем, чем в 2020 г., числе практических кейсов применения CI методов в бизнес-задачах разных компаний в России.

Среди них выделим две категории: отдельные кейсы применения CI методов, а также развитие АБ-тестирования в офлайне. Кейсы опишем верхнеуровнево, а в 2022 г. попробуем разобрать их детальнее на митапах/конференциях.

Отдельные кейсы

- Мегафон, Data Fest 2021, Causal Methods in Dynamic Pricing – И. Горбань, Д. Пятых. В этом докладе авторы обсуждают методы causal inference и динамической оптимизации применительно к установке цен на товары в сети МегаФон Ритейл.
- Промсофт: анализ влияния рекламы на продажи с помощью interrupted time-series подхода.
- Glowbyte: EDA по оценке отдельных промо-активностей на основе библиотеки EconML, о которой коллеги рассказывали на Data Fest 2021.
- Лента: оценка гало-эффекта установки прилавков в магазинах с помощью causal impact, доработанным в сторону робастности.
- Промсофт: отладка и тюнинг моделей с использованием априорных знаний в доменной области на базе causal shapley values.

Тренды для АБ-тестирования в офлайн-бизнесе

Говорим именно про офлайн, поскольку для онлайн-бизнесов АБ-тесты уже достаточно давно являются базовой гигиеной для принятия решений о развитии бизнеса / оптимизации инвестиционного процесса. А вот офлайн в последние 2-3 года переживает активное развитие АБ.

- Х5 Group, Лента, М.Видео, Промсофт: единая методика АБ-тестирования для оценки эффективности пилотов в офлайне.
- Лента, Сбер: оценка эффекта пилотов для малого числа объектов на основе подхода synthetic controls.
- Лента: оценка причинно-следственного эффекта, когда АБ-тестирование невозможно (robust causal impact).

Если вам известны и другие бизнес-кейсы применения методов CI – пишите в комментариях, или @irina_goloshchapova. Сделаем дополненную подборку! И запишем вас в авторов выступлений на ближайших мероприятиях по Reliable ML 😊

Этим постом мы завершаем серию публикаций про итоги 2021 г. в causal inference. Далее расскажем про итоги в interpretable ml.

#tech #causal_inference #practice
🔥91👍1
Итоги года в XAI (Explainable AI) за 2021 г.
Сначала поговорим обобщенно, а затем детальнее раскроем наиболее интересные пункты

- DARPA подвели итоги 4хлетней программы по объяснимому ИИ, которую сформулировали в 2015 году и стартовали в 2017м. Цель программы - дать конечным пользователям возможность лучше понимать системы с ИИ, доверять им и эффективно управлять ими. Ключевые итоги, которые сформулировала DARPA можно прочитать по ссылке, или в следующем нашем посте.

- Мы научились интерпретировать модели, но как узнать, какой метод объяснения лучше?
Пожалуй, самое пристальное внимание в области XAI в 2021 г. было направлено на оценку качества методов интерпретации – для возможности сравнения методов между собой. В основном, работы посвящены созданию методик с конкретными количественными метриками для локальной интерпретации black-box моделей. При этом в январе 2022 г. на arxiv появилась знаковая работа, в которой авторы систематизируют около 300 работ в области XAI, опубликованных на CS конференциях в 2014-2020 гг. и предлагают набор из метрик, которые могут стать универсальными для оценки различных методов интерпретируемости: как для локальной интерпретации (как объяснить каждое отдельное предсказание), так и для глобальной (как работает модель в целом). Об этом также напишем далее более подробно.

- Актуальность темы XAI только растет. Но хороших и доступных системных обзоров, учитывающих проблематику внедрения методов в бизнес-процессы все еще единицы. Так, и в 2021 г. в разных бизнес-источниках продолжили ссылаться на отчет PwC по Explainable AI от 2018 г. В обзоре достаточно простым языком сделан обзор проблематики XAI, структурированы подходы к объяснению моделей, а также обоснована необходимость инвестиций в сферу XAI и применения интерпретации в бизнес-процессах.

- Прорывы и заслуживающие внимания достижения в отдельных областях ML. На эту тему планируем серию постов в дальнейшем – от гуру DS-ODS) Если вы хотели бы поделиться своим взглядом на достижения XAI в отдельных типов задач или алгоритмов, пишите @irina_goloshchapova для обсуждения.

- Применение методов интерпретируемости алгоритмов для бизнеса уже давно не является чем-то прорывным. Поэтому наиболее интересными являются либо проблемы применения этих методов, с которыми бизнес сталкивается на практике: в техническом решении какого-либо вопроса объяснения ML, или в вопросе внедрения методов интерпретируемости в бизнес-процессы компании.
Для меня, например, одной из таких проблем стала задача агрегированного вывода об устойчивой значимости и знаке влияния факторов множества однотипных предсказательных моделей. Если мы строим множество black-box моделей с похожим набором факторов на ряд близких по содержанию таргетов, то можно ли научным подходом сделать вывод о робастном влиянии того или иного фактора на них?
Если вы готовы рассказать о своем опыте и/или болях, связанных с интерпретируемостью ML моделей, welcome также для обсуждения к @irina_goloshchapova. Решим как представить ваш кейс и соберем агрегированные данные о бизнес-проблематике XAI.

#tech #interpretable_ml
🔥81👍1
Тема оценки качества методов XAI становится все более актуальной

#tech #interpretable_ml
1
Итоги XAI программы DARPA за 2017-2021 гг.
Разбираем подробно итоги года в XAI (Explainable AI) за 2021 г.

DARPA завершила и подвела итоги 4хлетней программы по объяснимому ИИ, которую сформулировало в 2015 году и стартовало в 2017м.

По мнению DARPA 2015 г. стал переломным в значимости темы Interpretable ML. С этого года активизировались исследования по интерпретируемости в 3х направлениях: интерпретируемость в области DL, усиление точности более интерпретируемых моделей, таких как Bayesian Rule Lists, а также развитие универсальных методов интерпретируемости (model-agnostic techniques), где превалировали методы, наподобие LIME.

Программа XAI DARPA подчеркивала, что ее целью является конечный пользователь, который зависит от решений или рекомендаций системы ИИ, и поэтому должен понимать, почему она предлагает то или иное решение. В итоге хотели предложить новые методы/упорядочить существующие, чтобы для каждой задачи предлагать оптимальный метод, исходя из противоречия точности алгоритма и возможности его интерпретировать.

Содержание XAI DARPA было разделено на три основные технические области: (а) разработка новых методов XAI; (б) понимание психологии объяснения; (c) оценка качества новых методов XAI – для возможности их объективного сравнения между собой.

Методы, рассмотренные в рамках программы, концентрируются на интерпретации DL алгоритмов и возможности оценки эффективности методов локальной интерпретации (объяснение конкретного/локального предсказания модели). Здесь можно посмотреть таблицу с краткими тезисами про все рассмотренные методы и ссылки на детальные разборы/статьи.

Все технические результаты XAI DARPA были интегрированы в репозиторий, содержание которого можно изучить на сайте https://xaitk.org/ . Методы, проработанные в рамках программы собраны в 2 раздела: ML-алгоритмы, направленные на прогноз (Analytics) и автономные системы (Autonomy).

Верхнеуровневые ключевые выводы, которые сформулировали в DARPA XAI:

- Пользователи предпочитают системы, которые предоставляют решения с объяснениями, а не системы, которые предоставляют только решения.
- Чтобы объяснение модели улучшали конечный результат использования модели, задача, решаемая моделью, должна быть достаточно сложной (Позиция PARC, UT Dallas)
- Когнитивная нагрузка пользователя для интерпретации объяснений может снизить производительность пользователя. В сочетании с предыдущим пунктом, объяснения и сложность задач должны быть откалиброваны, чтобы повысить производительность пользователя (UCLA, штат Орегон)
- Объяснения более полезны, когда ИИ неверен, и особенно ценны в пограничных случаях (UCLA, Rutgers)
- Показатели эффективности объяснения могут меняться со временем (Raytheon, BBN)
- Рекомендации могут значительно повысить доверие пользователей по сравнению с одними только объяснениями (Калифорнийский университет в Беркли)

#tech #interpretable_ml
👍51🤔1
🔥2🤔1
Усиление акцента на оценке эффективности методов XAI
Разбираем подробно итоги года в XAI (Explainable AI) за 2021 г.

В январе 2022 г. на arxiv появилась знаковая работа, в которой авторы систематизируют около 300 работ в области XAI, опубликованных на CS конференциях в 2014-2020 гг. Отдельным разделом в ней приведен обзор исследований, посвященных оценке эффективности методов XAI.

Основным результатом статьи является предложение универсального фреймворка для оценки эффективности методов как локальной, так и глобальной интерпретируемости. Авторы предлагают 12 стандартизированных метрик для универсальной оценки XAI методов, подчеркивая, что важность метрик варьируется в зависимости от целей интерпретации модели в каждом случае.

Метрики разбиты на три категории, в зависимости от того, на чем они делают акцент:

(1) Ориентированные на содержание объяснения:

- Корректность (Correctness) - насколько точны объяснения в сравнении с «истинным» поведением объясняемой модели.
- Полнота (Completeness) - насколько полно объяснение отражает разные аспекты поведения модели.
- Консистентность (Consistency) - объяснения должны зависеть от входов и выходов модели, а не от конкретной реализации метода XAI.
- Непрерывность (Continuity) - для похожих входных данных должны генерироваться похожие объяснения.
- Контрастность (Contrastivity) - объяснение должно указывать на факторы, необходимые и достаточные для принятия моделью именно такого решения, какое она приняла.
- Ковариатная сложность (Covariate complexity) - взаимодействия между факторами, которыми оперирует объяснение, должны быть достаточно простыми для понимания, даже если исходный алгоритм включает сложные взаимодействия.

(2) Ориентированные на форму объяснения:

- Компактность объяснения (Compactness) - чем короче объяснение, тем оно лучше.
- Композиция (Compositionality) - насколько выразительны и понятны формат и структура интерпретации.
- Уверенность (Confidence) - предоставляет ли метод XAI вероятностную оценку своей уверенности в предложенном объяснении.

(3) Ориентированные на потребности пользователя:

- Контекст (Context) - насколько метод учитывает потребности и уровень экспертизы конечного пользователя.
- Согласованность (Coherence) - до какой степени интерпретация согласуется с опытом, знаниями и убеждениями пользователей.
- Контролируемость (Controllability) - насколько пользователь может взаимодействовать с объяснением и настраивать его под свои нужды.

Стоит ли говорить о том, что в статье также в прекрасном структурированном виде приводятся и предложения конкретных количественных метрик для указанных выше разделов – на основе обзора статей за 2014-2020 гг.

#tech #interpretable_ml
👍9
Усиление акцента на оценке эффективности методов XAI - Часть 2
Разбираем подробно итоги года в XAI (Explainable AI) за 2021 г.

В 2021 г. многие работы в XAI были посвящены созданию методик с конкретными количественными метриками для локальной интерпретации black-box моделей.

Хотелось бы также рассказать про одну из статей как пример структурированного подхода к количественному сравнению между собой методов локальной интерпретации для конкретной задачи:

- Оценка качества XAI для решения задачи мультиклассовой классификации с помощью DL. Авторы сравнивают 10 популярных методов интерпретации DL-алгоритмов: Saliency, Input × Gradient, Integrated Gradients, Guided Backpropagation, Grad-CAM, Guided Grad-CAM, Lime, Occlusion, DeepLift, SmoothGrad. В качестве алгоритмов взяты DenseNet и ResNet на известном наборе данных BigEarthNet (изображения с воздуха со спутника Sentinel-2).

Для количественного сравнения предложены метрики:

- Max-Sensitivity. Показывает устойчивость XAI метода путем измерения максимального изменения результата интерпретации при небольших изменениях значений признаков с помощью Монте-Карло симуляций. Метрика минимизируется.

- Area Under the Most Relevant First perturbation curve. Оценивает, насколько быстро качество модели будет убывать, если мы начнем скрывать от нее информацию признаков (например, перемешивая пиксели), начиная с самых “важных”. Мы хотели бы, чтобы самыми “важными” считались признаки, действительно определяющие решение модели. Таким образом, хорошее объяснение минимизирует AUC-MoRF.

- File Size. Размер результирующего файла метода XAI: чем меньше файл, тем проще и понятнее он, скорее всего, будет для конечного пользователя.

- Computational Time. Вычислительная сложность метода XAI. Минимизируем.

По результатам исследования наибольшую успешность показали LIME и Grad-CAM. При этом LIME значительно уступает Grad-CAM по скорости.

Кстати, если вы хотели разобраться в Grad-CAM и не знали с чего начать, то в 2019 г. на секции Data Fest по Interpretable ML был прекрасный доклад Кости Лопухина - “Объяснение предсказаний нейросетей: Grad-CAM is all you need”.

А для более детального погружения в возможности и недостатки LIME можно посоветовать вот эту статью 2021 г.

#tech #interpretable_ml
👍71
Учебник «Дружелюбная эконометрика»

Филипп Картаев, д.э.н., зав. кафедрой математических методов анализа экономики в МГУ им. М.В. Ломоносова, опубликовал интерактивный учебник по основам эконометрики.

Если вам интересно познакомиться с тем, как экономисты смотрят на данные и почему считают, что правильное выявление причинно-следственных связей может быть важнее качества прогноза, то эта книга может стать отличным началом.

Филипп умеет объяснять простыми словами сложные вещи, рассказывать понятно и в то же время интересно. Многие, вероятно, уже это знают, поскольку смотрели его доклад по инструментальным переменным на треке Causal Inference in ML на Data Fest Online 2020.

Вот что сам Филипп говорит о своей книге:

«В этом учебнике я постарался собрать три ингредиента, нужных для знакомства с эконометрикой:
Во-первых, тут есть основы теории, изложенные не только в виде текста, но и в формате видеолекций.

Во-вторых, в учебнике содержится детальное обсуждение применения эконометрики на практике. При рассказе о разных методах я стараюсь пояснить, для чего каждый из них может быть полезен в ваших собственных изысканиях, и показать, как их можно реализовать в специальных эконометрических программах.

В-третьих, в конце глав предложены задания для самостоятельной работы. Формат электронного учебника позволил обеспечить для них автоматическую проверку. Поэтому после прохождения теста вы можете сразу получить обратную связь и узнать, сколько заданий вы решили верно.

Некоторое время я размышлял, с каким из эконометрических пакетов знакомить читателя в этой книге. В итоге я не смог выбрать единственную программу, так что в учебнике содержатся видеофрагменты, показывающие, как проводить расчеты сразу в двух пакетах на выбор: в Gretl и в R. Каждый из них распространяется бесплатно.

После простой регистрации вам откроется личный кабинет с возможностью делать закладки и заметки, а также решать задачи.

Работа над проектом продолжается, так что я буду рад вашей обратной связи. Берегите себя!»

#tech #causal_inference
🔥20👍52
Correlation doesn’t imply causation

Главный тезис эконометрики, который в последние 5 лет прочно пришел и в ML: «Корреляция не подразумевает причинно-следственную связь».

Корреляция - статистическая взаимосвязь двух показателей. Например, вес и рост скоррелированы - обычно более высокие люди весят больше. Но если человек наберет вес или похудеет, его рост не изменится - изменение веса не является причиной изменения роста. При этом если человек вырастет, вес, скорее всего, изменится - изменение роста будет являться причиной изменения веса.

Таким образом, корреляция - это линейная взаимосвязь двух показателей. Если меняется X, то обычно меняется и Y. А причинно-следственная связь показывает, что показатель X вызывает изменение Y или, другими словами, изменение Х является причиной изменения Y.

Вроде все просто и понятно, но, тем не менее, и сейчас, как и многие годы назад, мы продолжаем встречать неожиданные примеры, когда отсутствие внимания к этому тезису приводит к неожиданным проблемам.

Ниже наша подборка примеров.

Знаю, что в нашем канале много профессиональных эконометристов, DS-ов, биостатистиков, и других очень уважаемых людей. Дополняйте подборку и вашими примерами, пожалуйста!

1. Пример, который обычно приводится в лекциях на тему correlation doesn’t imply causation – это взаимосвязь покупок мороженого и солнцезащитных очков (иногда очки заменяют печальным показателем - числом утонувших людей). Эти показатели значимо скоррелированы, но говорить о причинно-следственной связи нельзя – если мы намеренно начнем есть мороженого больше, покупки солнцезащитных очков не увеличатся. Фактор, который определяет динамику этих показателей – погодные условия. Когда тепло, мы больше едим мороженого, и нам больше нужна защита от солнца.

2. В 90-х в рамках осуществлялась оценка применимости ML моделей для снижения издержек на здравоохранение (Cost-Effective HealthCare). По итогам программы нейронные сети значительно превзошли обычные модели (в основном, логрег) по качеству. Но невозможность интерпретировать предсказания нейронных сетей и системно анализировать причинно-следственные связи привело к отказу от их применения для этих задач (на тот момент).

Одной из важнейших задач программы было предсказание вероятности смерти от пневмонии. Цель – госпитализировать только людей с повышенным риском, остальных – лечить амбулаторно, снижая издержки. Rule-based системы для этой задачи показывали, что наличие у человека астмы значительно снижает риск смерти от пневмонии – такая закономерность явно наблюдалась в обучающем датасете. Причиной корреляции этих факторов являлось наличие регулярной врачебной помощи. Люди с астмой находились под особым медицинским наблюдением, следовательно, при заболевании пневмонией, были меньше подвержены осложнениям.

Наличие в проде неинтерпретируемой ML-модели, выучившей подобную закономерность, привело бы к большим проблемам, чего, к счастью, удалось избежать.

3. Результаты знаменитого Стенфордского Зефирного эксперимента долгие годы гласили: сила воли ребенка определяет его успешность в будущем (Walter, Shoda, Peake, 1990). Сила воли в эксперименте понималась как способность ребенка удержаться от съедения запретной зефирки на какое-то время, чтобы в итоге получить большее вознаграждение.

Как выяснилось не так давно (Watts, Dunkan, 2018), в этом эксперименте было критическим влияние третьего фактора – успешности и благополучия родителей. Именно этот фактор в данном эксперименте оказывал влияние как на успешность ребенка в будущем, так и на то, способен ли он был удержаться от сладкого. В более благополучных семьях зефир не являлся для ребенка диковинкой, поэтому и удержаться от того, чтобы его съесть, было проще.

Надо сказать, что научный спор вокруг Зефирного эксперимента еще продолжается – если кто-то заинтересовался темой, ключевые вехи дискуссии можно посмотреть тут (2019 г.) и тут (2020 г.).

#tech #causal_inference #practice
👍20🔥2
4. Серия Смешариков о борьбе с холодом замечательно показывает отличие корреляции от причинно-следственной связи на примере связи примет и изменения погоды. Придет ли весна к тебе быстрее, если прогнать из своего двора всех зябликов, вырубить черемуху и изменить направление дыма из трубы?

5. Немецкое издание Gawker.com в 2013 г. вольно проинтерпретировало выводы статьи «The Effect of Sexual Activity on Wages». В статье автор нашел значительную корреляцию частоты сексуальных контактов для домохозяйств в Греции и величиной их дохода, но явно уточнил, что исследования на наличие causal взаимосвязи не проводилось. Однако немецкому изданию это не помешало выйти с большими выводами о том, как прийти к высокому доходу в Германии.

#tech #causal_inference #practice
👍11😁8
Causal Inference в динамическом ценообразовании

Иван Горбань и Денис Пятых начали публикацию серии статей о методах причинно-следственного анализа в динамическом ценообразовании.

Статьи являются развитием доклада Вани и Дениса на Data Fest Online 2021 - Causal methods in dynamic pricing, где они рассказали о методах causal inference и динамической оптимизации, применительно к установке цен на товары в сети МегаФон.

Первая статья посвящена мотивации применения методов causal inference в задачах ML, гармонично дополняя предыдущий пост нашего канала о том что correlation doesn’t imply causation. В тексте Ваня разбирает этот тезис, ключевые причины, почему корреляция не предполагает причинно-следственную связь, а затем переходит к применению этих знаний для ML задач и конкретно кейса про ценообразование.

Кстати, Ваня Горбань – соавтор подкаста «Данные люди», где тимлиды DS (Ваня и Артём Глазунов) в формате войс-чата в телеграм-канале @bigdatapeople общаются с интересными людьми из сферы анализа данных. Они обсуждают, какое влияние большие данные оказывают на развитие мира, говорят о науке, бизнесе, философии и этике. Ребята вместе с гостями разбираются, где люди применяют анализ данных, как этому научиться, зачем это нужно и что ждет нас в будущем.

#tech #causal_inference #practice
🔥12
Что такое Reliable ML?

Настало время объяснить, что было задумано при создании данного канала. Концепция Reliable ML – это о том, что делать, чтобы результат работы data science/big data команд был, во-первых, применим в бизнес-процессах компании-заказчика, а, во-вторых, приносил этой компании пользу.

Что для этого нужно?

- Уметь составлять грамотный план исследования и развития продукта, учитывающий дальнейшее применение модели. Для таких постов вводим тег #planning

- Различать подходы, направленные на прогноз и на управление параметрами модели в дальнейшем для изменения ее результата (например, управление периодом и форматом проведения промо-активностей для максимизации выручки компании). Для второй цели – которая на практике встречается гораздо чаще просто прогноза – важно ориентироваться в подходах причинно-следственного анализа. О том, что такое причинно-следственный анализ, чем он отличается от простой корреляции, зачем и как его применять в DS-задачах, мы рассказываем вам под тегом #causal_inference

- Принимать взвешенные решения о дальнейшем развитии проекта и его потенциальном финансовом эффекте. Для этого необходимо не только проработать качественный дизайн пилотного эксперимента для вашей модели, но и затем сделать корректную статистическую оценку эффекта пилота, а также расчет ожидаемого финансового эффекта. О технической составляющей этого процесса мы будем рассказывать вам под тегом #ab_testing, о выстраивании процесса управления рисками инвестиционных инициатив – под тегами #investment_process

- Уметь интерпретировать работу и результат модели как для технической команды, так и для конечного пользователя (бизнеса). Для этого мы рассказываем вам об интерпретируемости. Теперь все посты по Interpretable ML будут помечены тегом #interpretable_ml

- Уметь выбрать не только корректные технические метрики качества для решаемой задачи, но и сформулировать правильные бизнес-метрики, связанные с процессом применения модели, связать их с техническими метриками и итоговым финансовым результатом применения модели. Тут тег довольно очевидный - #metrics

Итак, концепция Reliable ML охватывает не только технические особенности ML (#tech), но и построение процессов работы DS и взаимодействия с бизнесом (#business) для достижения максимального финансового эффекта.

Stay tuned!
👍251🔥1
Какие темы Reliable ML освещать больше?
Anonymous Poll
23%
38%
👍21🔥1
А тут давайте проголосуем, что интереснее: #tech или #business
Anonymous Poll
50%
Надо больше разборов статей, докладов и тех. трендов (#tech)
10%
Мне вообще пост про Смешариков понравился
🔥1
Reliable ML pinned «Что такое Reliable ML? Настало время объяснить, что было задумано при создании данного канала. Концепция Reliable ML – это о том, что делать, чтобы результат работы data science/big data команд был, во-первых, применим в бизнес-процессах компании-заказчика…»
Почему Correlation != Causation

В недавнем посте мы поговорили о том, что корреляция не подразумевает причинно-следственную связь.

Давайте теперь обсудим, почему это может быть так.
Общепринято выделять 4 причины.

1. Пропущенная переменная (Omitted variable). В случае, если Х и Y скоррелированы, причиной их изменения может быть другой, третий фактор F, воздействие которого и заставляет X и Y двигаться вместе (сонаправленно). Поэтому, если цель нашего исследования – изменить Y, изменение Х нам с этим не поможет. К изменению Y приведет только изменение F.

В нашем недавнем посте можно найти ряд примеров, когда корреляция не означает причинно-следственной связи, именно по причине пропущенного фактора. Так, в корреляции наличия астмы и низкой вероятности смерти от пневмонии третьим фактором оказалось регулярное врачебное наблюдение, необходимое при астме и оказывающее значительное влияние на снижение смерти от пневмонии. А для корреляции ЗП и сексуальной активности третьим фактором, по мнению автора исследования, является состояние здоровья.

2. Обратная причинность (Reverse Causality). Корреляция X и Y не подразумевает, что Х влияет на Y, поскольку влияние может быть обратным – Y влияет на Х. Самым известным примером reverse causality считается взаимосвязь курения и депрессии. Здесь возможна как прямая взаимосвязь (курение способствует депрессии), так и обратная (подавленное состояние способствует курению). Другие примеры из экономической теории: уровень дохода и счастье, бедность и безработица, сексуальная активность и уровень ЗП.

3. Смещение выборки (Selection bias). Третья возможная причина, почему корреляция не подразумевает причинно-следственной связи – нерепрезентативность выборки, на основе которой мы делаем выводы, для генеральной совокупности. Пример – исследование факторов роста заработной платы. При проведении подобного исследования мы неизбежно рассматриваем только работающих и, следовательно, получающих ЗП на текущий момент людей и делаем выводы о факторах, влияющих на их доход. При этом в выборку не попадают неработающие люди (потерявшие работу, матери в декрете, официально безработные, и др.), данные о которых могут значимо повлиять на результат.

4. Ошибка измерения (Measurement error). Способ получения данных и его уязвимости также могут влиять на результат. Самый распространенный пример – систематическое искажение данных в опросах. Так, пациенты могут систематически приукрашивать данные о регулярности приема лекарств и занижать – о приеме алкоголя. В опросах про доходы также часто встречается завышение низкого дохода и занижение высокого. При этом не каждая ошибка измерения приводит к неверным выводам о причинно-следственной связи. В некоторых случаях она может быть вполне безобидной.

#tech #causal_inference
👍334
Что такое Causal Inference? Определение

Поговорили о том, что существует корреляция, а существует причинно-следственная связь, а также почему так бывает. Давайте теперь сформулируем определения причинно-следственной связи и эффекта.

Есть два типа определений для causal inference: определение через воздействие (Intervention – Что случится с Y, если я сделаю Х?) и контрфактическое определение (Counterfactual – Давайте представим мир с Y таким, в котором мы сделали или не сделали Х).

- В intervention определении X является причиной Y тогда и только тогда, когда изменение Х влечет за собой изменение Y. Эффектом считается масштаб изменения Y после изменения Х на 1 единицу.

- В counterfactual логике X является причиной Y тогда и только тогда, когда мир Y, где присутствует/сделано X, отличается от мира Y без Х. Эффектом считается масштаб отличия мира Y в случае присутствия Х от мира Y без Х.

#tech #causal_inference
👍161
Методы Causal Inference. Часть 1.

В различных докладах и статьях по причинно-следственному анализу мне всегда не хватало систематизации методов. Многие причисляют отдельные методы к каким-то категориям, подкатегориям, но общей классификации не дают, и в итоге возникает путаница. Непонятно, как собрать воедино все, что разрабатывается в этой области. Когда начинаешь прицельно искать систематизацию, то оказывается, что их очень много. И каждая, конечно, несовершенна.

Расскажу вам про лучшую, на мой взгляд, систематизацию – Evidence Ladder от A.Rebecq (2020).

Методы Causal Inference можно упорядочить с помощью так называемой доказательной лестницы (Evidence Ladder). От нижней ступени к верхней будет расти, во-первых, доказательная сила метода, во-вторых, простота применения, или, другими словами, снижаться число необходимых проверок на устойчивость результата применения метода (robustness checks).

На вершине этой лестницы находятся естественные эксперименты (Natural Experiments). Это, например, классические лабораторные эксперименты в физике и химии, когда мы можем создать полностью одинаковые условия для двух вариантов Y, отличающихся только наличием Х. Можно представить себе две одинаковые пробирки в химии (Y), где в одну добавлено какое-либо вещество (X), а в другую – нет. Тогда отличие Y где нет Х от Y с Х и будет выявленным причинно-следственным эффектом. Мы будем абсолютно уверены, что изменение состояния Y вызвано участием Х.

Следующая ступень – статистические эксперименты (Statistical Experiments) aka рандомизированные контролируемые эксперименты (Randomized Controlled Trials) aka АБ-тестирование (AB Testing). Здесь мы не можем обеспечить идеально одинаковые Y, но можем случайным образом собрать выборки объектов Y в пилотную (вводим событие Х) и контрольную (не вводим событие Х) группы таким образом, что размер этих выборок компенсирует различия Y между собой. То есть, пилотная и контрольная выборки должны быть достаточно объемны и однородны, чтобы статистический тест был корректным с точки зрения статистической мощности и значимости. На практике подобные тесты чаще всего возможны в e-commerce, где объектов (клиентов магазина, посетителей сайтов) много.

Если случайный отбор не работает, мы вынуждены спускаться еще на ступень ниже – к квази-экспериментам (Quasi-Experiments). На практике категории статистических экспериментов и квази-экспериментов чаще всего смешиваются, и называются просто АБ-тестами. В квази-экспериментах объекты Y могут существенно отличаться и их общего количества недостаточно, чтобы обеспечить однородные выборки и корректный статистический эксперимент. Поэтому в таких АБ-тестах мы вынуждены прибегать к дополнительным мерам снижения дисперсии типа CUPED и линеаризации, и другим танцам с бубном типа проверок репрезентативности выборки для генеральной совокупности и созданию синтетического контроля при критически малом количестве объектов. В АБ-тестах для офлайн-бизнеса чаще всего возможно применение только квази-экспериментов, вследствие малого количества объектов, на которых мы можем позволить себе проведение пилота (долго, дорого, трудно).

#tech #causal_inference #ab_testing
👍8🔥8