Всем привет от Дмитрия Колодезева и Ирины Голощаповой, авторов треков Interpretable & Causal ML на конференциях Open Data Science с 2019 г.
Создаем телеграм-канал для развития темы Reliable ML.
Собираемся обсуждать:
- Новости из мира Reliable ML: интерпретируемость, причинно-следственный анализ и АБ-тестирование
- Мероприятия, полезные статьи и доклады в сфере Reliable ML
Подключайтесь.
Создаем телеграм-канал для развития темы Reliable ML.
Собираемся обсуждать:
- Новости из мира Reliable ML: интерпретируемость, причинно-следственный анализ и АБ-тестирование
- Мероприятия, полезные статьи и доклады в сфере Reliable ML
Подключайтесь.
👍4🔥1
Что появилось первым – курица или яйцо?
Под Новый Год хочется говорить только о важном.
Один из простых методов для первичного анализа причинно-следственных связей во временных рядах – тест Грейнджера.
Именно с помощью него в 1988 г. Walter N. Truman и Mark E. Fisher попытались ответить на извечный вопрос: что появилось первым, курица или яйцо? Это одна из знаковых работ в области, вдохновившая многих на дальнейшее применение и развитие методов CI. Датасет был включен в стандартные библиотеки python и R, так что результаты можно легко воспроизвести и сейчас.
Для исследования были взяты данные по производству яиц и численности кур с 1930 г. по 1983 г. Причем авторы позаботились и о коррекции выборки на коммерческих бройлеров, чтобы можно было назвать выборку репрезентативной для исследования.
По результатам был сделан вывод о том, что яйца являются причиной по Грейнджеру для кур, а наоборот, гипотеза неверна – куры не являются причиной по Грейнджеру для яиц.
В качестве продолжения применения метода авторы предложили исследовать следующие факты:
- Хорошо смеется тот, кто смеется последним
- Погибели предшествует гордость, а падению предшествует надменность
Вот так. Используйте методы CI для правильных вопросов.
***
Немного подробнее о тесте Грейнджера
Тест Гренджера базируется на построении регрессии предполагаемой зависимой переменной Y на собственные предшествующие значения и предшествующие значения предполагаемого фактора Х c помощью верификации нулевой гипотезы об одновременной незначимости или равенстве нулю коэффициентов при последних [Granger, 1969].
В случае отвержения нулевой гипотезы, можно сделать вывод о наличии причинности по Гренджеру между рассматриваемыми рядами. Тест также включает в себя проверку обратной взаимосвязи и проверку устойчивости выводов относительно числа используемых лагов для вычисления предшествующих значений переменной. Результаты последнего могут отличаться при изменении числа включаемых в анализ лагов. Корректное проведение теста возможно только для стационарных временных рядов.
Положительный результат теста на причинность по Гренджеру не обязательно означает наличие истинной причинно-следственной связи. Последняя должна быть обязательно подтверждена теоретическими предпосылками, а также может быть дополнительно проверена с помощью другого статистического инструментария, который к 2021 г. значительно продвинулся.
#tech #causal_inference
Под Новый Год хочется говорить только о важном.
Один из простых методов для первичного анализа причинно-следственных связей во временных рядах – тест Грейнджера.
Именно с помощью него в 1988 г. Walter N. Truman и Mark E. Fisher попытались ответить на извечный вопрос: что появилось первым, курица или яйцо? Это одна из знаковых работ в области, вдохновившая многих на дальнейшее применение и развитие методов CI. Датасет был включен в стандартные библиотеки python и R, так что результаты можно легко воспроизвести и сейчас.
Для исследования были взяты данные по производству яиц и численности кур с 1930 г. по 1983 г. Причем авторы позаботились и о коррекции выборки на коммерческих бройлеров, чтобы можно было назвать выборку репрезентативной для исследования.
По результатам был сделан вывод о том, что яйца являются причиной по Грейнджеру для кур, а наоборот, гипотеза неверна – куры не являются причиной по Грейнджеру для яиц.
В качестве продолжения применения метода авторы предложили исследовать следующие факты:
- Хорошо смеется тот, кто смеется последним
- Погибели предшествует гордость, а падению предшествует надменность
Вот так. Используйте методы CI для правильных вопросов.
***
Немного подробнее о тесте Грейнджера
Тест Гренджера базируется на построении регрессии предполагаемой зависимой переменной Y на собственные предшествующие значения и предшествующие значения предполагаемого фактора Х c помощью верификации нулевой гипотезы об одновременной незначимости или равенстве нулю коэффициентов при последних [Granger, 1969].
В случае отвержения нулевой гипотезы, можно сделать вывод о наличии причинности по Гренджеру между рассматриваемыми рядами. Тест также включает в себя проверку обратной взаимосвязи и проверку устойчивости выводов относительно числа используемых лагов для вычисления предшествующих значений переменной. Результаты последнего могут отличаться при изменении числа включаемых в анализ лагов. Корректное проведение теста возможно только для стационарных временных рядов.
Положительный результат теста на причинность по Гренджеру не обязательно означает наличие истинной причинно-следственной связи. Последняя должна быть обязательно подтверждена теоретическими предпосылками, а также может быть дополнительно проверена с помощью другого статистического инструментария, который к 2021 г. значительно продвинулся.
#tech #causal_inference
👍4🔥2
Итоги года в Causal Inference за 2021 г.
Сначала поговорим обобщенно, а затем детальнее раскроем наиболее интересные пункты. В начале года на youtube канале ods.ai будет опубликовано видео с Data Елки 2021 с подробным рассказом об итогах года. Пока видео вместе с другими итогами года можно найти в полном видео трансляции с Data Елки.
В целом, итоги года в CI можно представить в двух больших разделах - теоретическом и прикладном.
Теория
- Закрепление высокой актуальности темы в ML. Нобелевская премия по экономике была выдана за развитие методов CI, крупнейшие конференции по ML провели воркшопы (NeurIPS, ICML) по вопросам CI для ML. Causal Data Science Meeting, направленный на коллаборацию экспертов-теоретиков в области CI с практиками из бизнеса, экспериментально проведенный в 2020 г., стал крупным движением с ежегодной конференцией.
- Знаковая статья Judea Pearl о роли CI для ML. Radical empiricism and machine learning research, опубликованная в Journal of Causal Inference, где автор определяет data science как объединение дисциплины машинного обучения как школы радикального эмпиризма (когда только данные генерируют модель реальности) и эконометрики как школы интерпретации данных (когда модель процессов/реальности генерирует данные). Методы CI в данном случае выступают ключом к балансу эмпиризма и интерпретируемости в DS.
- Interpretable & Causal ML Track – Data Fest Online 2021. На ежегодном Data Fest провели уже в третий раз трек по вопросам Reliable ML.
- Появление качественных общедоступных материалов по CI, включая как открытые русскоязычные курсы по теории CI, так и материалы по применению методов на Python. Напишем позже отдельный пост.
- Развитие концепции Reliable ML как объединения концепций интерпретируемости моделей и методов причинно-следственного анализа для целей усиления применимости ML моделей. Для этого создали данный tg канал + все еще надеемся сделать курс в 2022 г. (при помощи сообщества).
Практика
- Больше практических кейсов в России. Все больще практических примеров применения CI методов в бизнес-задачах разных компаний в РФ. Позже будет отдельный пост.
- Рост запроса бизнеса на управление рисками в ML проектах, где основа – causal inference методы. АБ-тестирование и контрфактический анализ - основа для корректной оценки эффективности пилотов по инвестиционным инициативам в бизнесе, а значит, и ключ к оптимизации управления инвестициями. Этот взгляд в 2021 г. (по наблюдениям авторов и по содержанию докладов конференций) стало разделять заметно больше компаний, чем ранее.
#tech #causal_inference
Сначала поговорим обобщенно, а затем детальнее раскроем наиболее интересные пункты. В начале года на youtube канале ods.ai будет опубликовано видео с Data Елки 2021 с подробным рассказом об итогах года. Пока видео вместе с другими итогами года можно найти в полном видео трансляции с Data Елки.
В целом, итоги года в CI можно представить в двух больших разделах - теоретическом и прикладном.
Теория
- Закрепление высокой актуальности темы в ML. Нобелевская премия по экономике была выдана за развитие методов CI, крупнейшие конференции по ML провели воркшопы (NeurIPS, ICML) по вопросам CI для ML. Causal Data Science Meeting, направленный на коллаборацию экспертов-теоретиков в области CI с практиками из бизнеса, экспериментально проведенный в 2020 г., стал крупным движением с ежегодной конференцией.
- Знаковая статья Judea Pearl о роли CI для ML. Radical empiricism and machine learning research, опубликованная в Journal of Causal Inference, где автор определяет data science как объединение дисциплины машинного обучения как школы радикального эмпиризма (когда только данные генерируют модель реальности) и эконометрики как школы интерпретации данных (когда модель процессов/реальности генерирует данные). Методы CI в данном случае выступают ключом к балансу эмпиризма и интерпретируемости в DS.
- Interpretable & Causal ML Track – Data Fest Online 2021. На ежегодном Data Fest провели уже в третий раз трек по вопросам Reliable ML.
- Появление качественных общедоступных материалов по CI, включая как открытые русскоязычные курсы по теории CI, так и материалы по применению методов на Python. Напишем позже отдельный пост.
- Развитие концепции Reliable ML как объединения концепций интерпретируемости моделей и методов причинно-следственного анализа для целей усиления применимости ML моделей. Для этого создали данный tg канал + все еще надеемся сделать курс в 2022 г. (при помощи сообщества).
Практика
- Больше практических кейсов в России. Все больще практических примеров применения CI методов в бизнес-задачах разных компаний в РФ. Позже будет отдельный пост.
- Рост запроса бизнеса на управление рисками в ML проектах, где основа – causal inference методы. АБ-тестирование и контрфактический анализ - основа для корректной оценки эффективности пилотов по инвестиционным инициативам в бизнесе, а значит, и ключ к оптимизации управления инвестициями. Этот взгляд в 2021 г. (по наблюдениям авторов и по содержанию докладов конференций) стало разделять заметно больше компаний, чем ранее.
#tech #causal_inference
👍1
Закрепление высокой актуальности темы в ML
Разбираем подробнее итоги 2021 года в Causal Inference.
В 2021 г. ½ Нобелевской премии по экономике была выдана Guido W. Imbens и Joshua D. Angrist за вклад в области CI.
Так, Guido W. Imbens, помимо огромного вклада в развитие методов в предыдущие годы (например, фундаментальный труд по CI для социальных наук, статистики и биомедицины), только в 2021 г. опубликовал ряд знаковых работ как по относительно новым методам, так и по развитию классических методов расчета causal эффекта для нестандартных случаев:
– Synthethic Difference-in-Differences – метод, объединяющий широко используемые концепции diff-in-diff и синтетического контроля. Детальнее этот подход был разобран в докладе Дмитрия Архангельского (соавтора статьи!) на Data Fest 2020 в треке Causal ML.
- Causal Bootstrap как развитие классического бутстрапа, основанного на предпосылке о том, что неопределенность в оценке возникает исключительно из неопределенности выборки (приближаем истинную ф-ию распределения через эмпирическое распределение). Авторы предполагают, что при применении бутстрап-методов для CI оценок, необходимо учитывать не только эмпирическое распределение, но и стохастическую природу самого эффекта воздействия.
- Design-based analysis in Difference-In-Differences settings with staggered adoption интересна предложением подхода к оценке эффекта, когда оценка эффекта какого-то решения не заканчивается пилотным периодом, а продолжается во времени и далее.
Joshua D. Angrist наряду с Guido W. Imbens обосновал значимость проведения естественных экспериментов для оценки причинно-следственного эффекта, структурировал и развил теорию и методы анализа причинно-следственных связей. Одной из знаковых работ Энгриста является статья о применении метода инструментальных переменных для задач CI – на примере исследования влияния службы в армии на доход во время Вьетнамской войны. Важным фундаментальным трудом – книга Mastering 'Metrics: The Path from Cause to Effect. По ее мотивам на Data Fest 2020 также был доклад от Ивана Комарова.
Из работ Joshua D. Angrist, планирующихся к публикации в 2021 г. хотелось бы обратить внимание на:
- Breaking Ties: Regression Discontinuity Design Meets Market Design – обобщение метода RDD для множественного воздействия (multiple treatments) на примере оценки causal эффекта от способа распределения мест в школах с избыточным количеством кандидатов на обучение на последующую успеваемость учеников.
- One Instrument to Rule Them All: The Bias and Coverage of Just-ID IV – про проблематику использования слабых инструментов для оценки эффектов.
#tech #causal_inference
Разбираем подробнее итоги 2021 года в Causal Inference.
В 2021 г. ½ Нобелевской премии по экономике была выдана Guido W. Imbens и Joshua D. Angrist за вклад в области CI.
Так, Guido W. Imbens, помимо огромного вклада в развитие методов в предыдущие годы (например, фундаментальный труд по CI для социальных наук, статистики и биомедицины), только в 2021 г. опубликовал ряд знаковых работ как по относительно новым методам, так и по развитию классических методов расчета causal эффекта для нестандартных случаев:
– Synthethic Difference-in-Differences – метод, объединяющий широко используемые концепции diff-in-diff и синтетического контроля. Детальнее этот подход был разобран в докладе Дмитрия Архангельского (соавтора статьи!) на Data Fest 2020 в треке Causal ML.
- Causal Bootstrap как развитие классического бутстрапа, основанного на предпосылке о том, что неопределенность в оценке возникает исключительно из неопределенности выборки (приближаем истинную ф-ию распределения через эмпирическое распределение). Авторы предполагают, что при применении бутстрап-методов для CI оценок, необходимо учитывать не только эмпирическое распределение, но и стохастическую природу самого эффекта воздействия.
- Design-based analysis in Difference-In-Differences settings with staggered adoption интересна предложением подхода к оценке эффекта, когда оценка эффекта какого-то решения не заканчивается пилотным периодом, а продолжается во времени и далее.
Joshua D. Angrist наряду с Guido W. Imbens обосновал значимость проведения естественных экспериментов для оценки причинно-следственного эффекта, структурировал и развил теорию и методы анализа причинно-следственных связей. Одной из знаковых работ Энгриста является статья о применении метода инструментальных переменных для задач CI – на примере исследования влияния службы в армии на доход во время Вьетнамской войны. Важным фундаментальным трудом – книга Mastering 'Metrics: The Path from Cause to Effect. По ее мотивам на Data Fest 2020 также был доклад от Ивана Комарова.
Из работ Joshua D. Angrist, планирующихся к публикации в 2021 г. хотелось бы обратить внимание на:
- Breaking Ties: Regression Discontinuity Design Meets Market Design – обобщение метода RDD для множественного воздействия (multiple treatments) на примере оценки causal эффекта от способа распределения мест в школах с избыточным количеством кандидатов на обучение на последующую успеваемость учеников.
- One Instrument to Rule Them All: The Bias and Coverage of Just-ID IV – про проблематику использования слабых инструментов для оценки эффектов.
#tech #causal_inference
❤1
Interpretable & Causal ML Track – Data Fest Online 2021
Продолжаем разбирать подробнее итоги года в Causal Inference
На ежегодном Data Fest провели уже в третий раз трек по вопросам Reliable ML.
Вот тут можно посмотреть великолепное вступление о тематике трека 😇
В этот раз в программе были следующие доклады:
1: Causality & Shapley Values (О. Филиппова). Доклад вошел в топ всех выступлений сообщества Open Data Science в 2021 г. Тема с Causal Shapley Values прогремела в 2020 г., в 2021 г. - начинает все больше применяться, обсуждаются различные вопросы, связанные с практикой применения.
2: Обзор библиотеки EconML: идеи и реализация (Н. Тоганова). Библиотеку коллеги используют в реальном бою для задач EDA по оценке эффективности отдельных промо-активностей. Методы, обсуждаемые в докладе: double ML, doubly robust, meta-learners, применение инструментальных переменных и еще чуть об honest forest и bootstrap.
3: Все способы измерить слона: заглянуть внутрь трансформенных моделей (Т. Шаврина). Доклад посвящён актуальным методам оценки и интерпретации результатов обучения трансформерных моделей. Достижения NLP команды Татьяны в рамках AIRI Сбера в этом году сложно переоценить, доклад крайне рекомендуется к просмотру.
4: Explaining Hidden Representations (К. Быков). В докладе рассмотрены популярные методы для объяснения выученных репрезентаций для нейронных сетей и обсуждается, почему навык интерпретировать усвоенные нейронной сетью концепты является must-have для Data Scientist’ов в 2021 году. Кирилл также представляет лабораторию по Interpretable AI в TU Berlin, открытую в 2020 г. Вот тут можно подписаться на их Twitter.
5: Интерпретация банковских моделей (И. Ашрапов). В рамках доклада показано как, строя сложные модели с использованием блендинга/стэкинга, можно добиться понятной бизнес интерпретации. Как результат, подсветить на основе каких наиболее критичных факторов модель приняла то или иное решение для каждого заемщика.
6: Causal Inference в анализе временных рядов (Д. Павлов). В докладе Дима рассказывает о задачах causal inference, встречаемых в контексте работы с временными рядами: Causal Treatment Effect Estimation on Time Series, Causal Discovery for Time Series и методах их решения.
#tech #causal_inference
Продолжаем разбирать подробнее итоги года в Causal Inference
На ежегодном Data Fest провели уже в третий раз трек по вопросам Reliable ML.
Вот тут можно посмотреть великолепное вступление о тематике трека 😇
В этот раз в программе были следующие доклады:
1: Causality & Shapley Values (О. Филиппова). Доклад вошел в топ всех выступлений сообщества Open Data Science в 2021 г. Тема с Causal Shapley Values прогремела в 2020 г., в 2021 г. - начинает все больше применяться, обсуждаются различные вопросы, связанные с практикой применения.
2: Обзор библиотеки EconML: идеи и реализация (Н. Тоганова). Библиотеку коллеги используют в реальном бою для задач EDA по оценке эффективности отдельных промо-активностей. Методы, обсуждаемые в докладе: double ML, doubly robust, meta-learners, применение инструментальных переменных и еще чуть об honest forest и bootstrap.
3: Все способы измерить слона: заглянуть внутрь трансформенных моделей (Т. Шаврина). Доклад посвящён актуальным методам оценки и интерпретации результатов обучения трансформерных моделей. Достижения NLP команды Татьяны в рамках AIRI Сбера в этом году сложно переоценить, доклад крайне рекомендуется к просмотру.
4: Explaining Hidden Representations (К. Быков). В докладе рассмотрены популярные методы для объяснения выученных репрезентаций для нейронных сетей и обсуждается, почему навык интерпретировать усвоенные нейронной сетью концепты является must-have для Data Scientist’ов в 2021 году. Кирилл также представляет лабораторию по Interpretable AI в TU Berlin, открытую в 2020 г. Вот тут можно подписаться на их Twitter.
5: Интерпретация банковских моделей (И. Ашрапов). В рамках доклада показано как, строя сложные модели с использованием блендинга/стэкинга, можно добиться понятной бизнес интерпретации. Как результат, подсветить на основе каких наиболее критичных факторов модель приняла то или иное решение для каждого заемщика.
6: Causal Inference в анализе временных рядов (Д. Павлов). В докладе Дима рассказывает о задачах causal inference, встречаемых в контексте работы с временными рядами: Causal Treatment Effect Estimation on Time Series, Causal Discovery for Time Series и методах их решения.
#tech #causal_inference
👍1🔥1
С Наступающим Новым Годом, друзья!
Пусть в нем ваши модели приносят значимый прирост целевых метрик, и вы понимаете, почему! 🥳
Пусть в нем ваши модели приносят значимый прирост целевых метрик, и вы понимаете, почему! 🥳
🎉10🔥1
Появление качественных общедоступных материалов по CI
Разбираем подробнее итоги года в Causal Inference
Среди множества материалов в открытом доступе по CI, появившихся в 2021 г., хотелось бы особенно отметить следующие:
- Курс лекций Дмитрия Архангельского (CEMFI) по экспериментальному анализу для экономического факультета МГУ.
- Randomised Controlled Trials. Вводная лекция в курс, на которой разобрана базовая модель эксперимента, а также приведены решения проблемы несбалансированности контрольной и экспериментальной групп.
- Внешние эффекты. Разобраны дизайны экспериментов, в которых не соблюдается ключевое предположение о стабильности воздействия (SUTVA), и на группы участников влияют различные внешние эффекты.
- Адаптивные эксперименты. Разобраны более сложные дизайны экспериментов, где предположение о стабильности воздействия (SUTVA) соблюдается, но условия могут быть адаптивны.
- Динамические эксперименты. Завершение курса обзором динамических экспериментов, где результат может зависеть не только от недавнего воздействия, но и от предыдущих. Именно такие условия характеризуют большинство более комплексных процессов в экономике и поэтому требуют более сложных дизайнов для оценки.
- Книга по CI на Python: Matheus Alves Causal Inference for The Brave and True. Очень доступное изложение и куча мемов – все как мы любим. И еще раз подчеркнем, что все примеры даны на python, что пока еще довольно большая редкость для литературы по CI.
- Telegram-канал доказательный_пробел. Исследователи из Центра перспективных управленческих решений (ЦПУР) публикуют обзоры свежих эконометрических статей по CI, делают анонсы мероприятий и открытых курсов в области CI в экономике, а также рассказывают новости из мира доказательной политики, которая направлена на использование государственными органами методов causal inference для обоснования политических решений. Коллеги фанатеют от Скотта Каннигема, а также собрали крутой стикерпак про causal inference. Курс Дмитрия Архангельского был опубликован на youtube в этом году именно при поддержке ЦПУР!
#tech #causal_inference
Разбираем подробнее итоги года в Causal Inference
Среди множества материалов в открытом доступе по CI, появившихся в 2021 г., хотелось бы особенно отметить следующие:
- Курс лекций Дмитрия Архангельского (CEMFI) по экспериментальному анализу для экономического факультета МГУ.
- Randomised Controlled Trials. Вводная лекция в курс, на которой разобрана базовая модель эксперимента, а также приведены решения проблемы несбалансированности контрольной и экспериментальной групп.
- Внешние эффекты. Разобраны дизайны экспериментов, в которых не соблюдается ключевое предположение о стабильности воздействия (SUTVA), и на группы участников влияют различные внешние эффекты.
- Адаптивные эксперименты. Разобраны более сложные дизайны экспериментов, где предположение о стабильности воздействия (SUTVA) соблюдается, но условия могут быть адаптивны.
- Динамические эксперименты. Завершение курса обзором динамических экспериментов, где результат может зависеть не только от недавнего воздействия, но и от предыдущих. Именно такие условия характеризуют большинство более комплексных процессов в экономике и поэтому требуют более сложных дизайнов для оценки.
- Книга по CI на Python: Matheus Alves Causal Inference for The Brave and True. Очень доступное изложение и куча мемов – все как мы любим. И еще раз подчеркнем, что все примеры даны на python, что пока еще довольно большая редкость для литературы по CI.
- Telegram-канал доказательный_пробел. Исследователи из Центра перспективных управленческих решений (ЦПУР) публикуют обзоры свежих эконометрических статей по CI, делают анонсы мероприятий и открытых курсов в области CI в экономике, а также рассказывают новости из мира доказательной политики, которая направлена на использование государственными органами методов causal inference для обоснования политических решений. Коллеги фанатеют от Скотта Каннигема, а также собрали крутой стикерпак про causal inference. Курс Дмитрия Архангельского был опубликован на youtube в этом году именно при поддержке ЦПУР!
#tech #causal_inference
🔥11👍4
Больше практических кейсов в России
Разбираем подробнее итоги года в Causal Inference
В 2021 г. авторам канала удалось узнать о существенно большем, чем в 2020 г., числе практических кейсов применения CI методов в бизнес-задачах разных компаний в России.
Среди них выделим две категории: отдельные кейсы применения CI методов, а также развитие АБ-тестирования в офлайне. Кейсы опишем верхнеуровнево, а в 2022 г. попробуем разобрать их детальнее на митапах/конференциях.
Отдельные кейсы
- Мегафон, Data Fest 2021, Causal Methods in Dynamic Pricing – И. Горбань, Д. Пятых. В этом докладе авторы обсуждают методы causal inference и динамической оптимизации применительно к установке цен на товары в сети МегаФон Ритейл.
- Промсофт: анализ влияния рекламы на продажи с помощью interrupted time-series подхода.
- Glowbyte: EDA по оценке отдельных промо-активностей на основе библиотеки EconML, о которой коллеги рассказывали на Data Fest 2021.
- Лента: оценка гало-эффекта установки прилавков в магазинах с помощью causal impact, доработанным в сторону робастности.
- Промсофт: отладка и тюнинг моделей с использованием априорных знаний в доменной области на базе causal shapley values.
Тренды для АБ-тестирования в офлайн-бизнесе
Говорим именно про офлайн, поскольку для онлайн-бизнесов АБ-тесты уже достаточно давно являются базовой гигиеной для принятия решений о развитии бизнеса / оптимизации инвестиционного процесса. А вот офлайн в последние 2-3 года переживает активное развитие АБ.
- Х5 Group, Лента, М.Видео, Промсофт: единая методика АБ-тестирования для оценки эффективности пилотов в офлайне.
- Лента, Сбер: оценка эффекта пилотов для малого числа объектов на основе подхода synthetic controls.
- Лента: оценка причинно-следственного эффекта, когда АБ-тестирование невозможно (robust causal impact).
Если вам известны и другие бизнес-кейсы применения методов CI – пишите в комментариях, или @irina_goloshchapova. Сделаем дополненную подборку! И запишем вас в авторов выступлений на ближайших мероприятиях по Reliable ML 😊
Этим постом мы завершаем серию публикаций про итоги 2021 г. в causal inference. Далее расскажем про итоги в interpretable ml.
#tech #causal_inference #practice
Разбираем подробнее итоги года в Causal Inference
В 2021 г. авторам канала удалось узнать о существенно большем, чем в 2020 г., числе практических кейсов применения CI методов в бизнес-задачах разных компаний в России.
Среди них выделим две категории: отдельные кейсы применения CI методов, а также развитие АБ-тестирования в офлайне. Кейсы опишем верхнеуровнево, а в 2022 г. попробуем разобрать их детальнее на митапах/конференциях.
Отдельные кейсы
- Мегафон, Data Fest 2021, Causal Methods in Dynamic Pricing – И. Горбань, Д. Пятых. В этом докладе авторы обсуждают методы causal inference и динамической оптимизации применительно к установке цен на товары в сети МегаФон Ритейл.
- Промсофт: анализ влияния рекламы на продажи с помощью interrupted time-series подхода.
- Glowbyte: EDA по оценке отдельных промо-активностей на основе библиотеки EconML, о которой коллеги рассказывали на Data Fest 2021.
- Лента: оценка гало-эффекта установки прилавков в магазинах с помощью causal impact, доработанным в сторону робастности.
- Промсофт: отладка и тюнинг моделей с использованием априорных знаний в доменной области на базе causal shapley values.
Тренды для АБ-тестирования в офлайн-бизнесе
Говорим именно про офлайн, поскольку для онлайн-бизнесов АБ-тесты уже достаточно давно являются базовой гигиеной для принятия решений о развитии бизнеса / оптимизации инвестиционного процесса. А вот офлайн в последние 2-3 года переживает активное развитие АБ.
- Х5 Group, Лента, М.Видео, Промсофт: единая методика АБ-тестирования для оценки эффективности пилотов в офлайне.
- Лента, Сбер: оценка эффекта пилотов для малого числа объектов на основе подхода synthetic controls.
- Лента: оценка причинно-следственного эффекта, когда АБ-тестирование невозможно (robust causal impact).
Если вам известны и другие бизнес-кейсы применения методов CI – пишите в комментариях, или @irina_goloshchapova. Сделаем дополненную подборку! И запишем вас в авторов выступлений на ближайших мероприятиях по Reliable ML 😊
Этим постом мы завершаем серию публикаций про итоги 2021 г. в causal inference. Далее расскажем про итоги в interpretable ml.
#tech #causal_inference #practice
🔥9❤1👍1
Итоги года в XAI (Explainable AI) за 2021 г.
Сначала поговорим обобщенно, а затем детальнее раскроем наиболее интересные пункты
- DARPA подвели итоги 4хлетней программы по объяснимому ИИ, которую сформулировали в 2015 году и стартовали в 2017м. Цель программы - дать конечным пользователям возможность лучше понимать системы с ИИ, доверять им и эффективно управлять ими. Ключевые итоги, которые сформулировала DARPA можно прочитать по ссылке, или в следующем нашем посте.
- Мы научились интерпретировать модели, но как узнать, какой метод объяснения лучше?
Пожалуй, самое пристальное внимание в области XAI в 2021 г. было направлено на оценку качества методов интерпретации – для возможности сравнения методов между собой. В основном, работы посвящены созданию методик с конкретными количественными метриками для локальной интерпретации black-box моделей. При этом в январе 2022 г. на arxiv появилась знаковая работа, в которой авторы систематизируют около 300 работ в области XAI, опубликованных на CS конференциях в 2014-2020 гг. и предлагают набор из метрик, которые могут стать универсальными для оценки различных методов интерпретируемости: как для локальной интерпретации (как объяснить каждое отдельное предсказание), так и для глобальной (как работает модель в целом). Об этом также напишем далее более подробно.
- Актуальность темы XAI только растет. Но хороших и доступных системных обзоров, учитывающих проблематику внедрения методов в бизнес-процессы все еще единицы. Так, и в 2021 г. в разных бизнес-источниках продолжили ссылаться на отчет PwC по Explainable AI от 2018 г. В обзоре достаточно простым языком сделан обзор проблематики XAI, структурированы подходы к объяснению моделей, а также обоснована необходимость инвестиций в сферу XAI и применения интерпретации в бизнес-процессах.
- Прорывы и заслуживающие внимания достижения в отдельных областях ML. На эту тему планируем серию постов в дальнейшем – от гуру DS-ODS) Если вы хотели бы поделиться своим взглядом на достижения XAI в отдельных типов задач или алгоритмов, пишите @irina_goloshchapova для обсуждения.
- Применение методов интерпретируемости алгоритмов для бизнеса уже давно не является чем-то прорывным. Поэтому наиболее интересными являются либо проблемы применения этих методов, с которыми бизнес сталкивается на практике: в техническом решении какого-либо вопроса объяснения ML, или в вопросе внедрения методов интерпретируемости в бизнес-процессы компании.
Для меня, например, одной из таких проблем стала задача агрегированного вывода об устойчивой значимости и знаке влияния факторов множества однотипных предсказательных моделей. Если мы строим множество black-box моделей с похожим набором факторов на ряд близких по содержанию таргетов, то можно ли научным подходом сделать вывод о робастном влиянии того или иного фактора на них?
Если вы готовы рассказать о своем опыте и/или болях, связанных с интерпретируемостью ML моделей, welcome также для обсуждения к @irina_goloshchapova. Решим как представить ваш кейс и соберем агрегированные данные о бизнес-проблематике XAI.
#tech #interpretable_ml
Сначала поговорим обобщенно, а затем детальнее раскроем наиболее интересные пункты
- DARPA подвели итоги 4хлетней программы по объяснимому ИИ, которую сформулировали в 2015 году и стартовали в 2017м. Цель программы - дать конечным пользователям возможность лучше понимать системы с ИИ, доверять им и эффективно управлять ими. Ключевые итоги, которые сформулировала DARPA можно прочитать по ссылке, или в следующем нашем посте.
- Мы научились интерпретировать модели, но как узнать, какой метод объяснения лучше?
Пожалуй, самое пристальное внимание в области XAI в 2021 г. было направлено на оценку качества методов интерпретации – для возможности сравнения методов между собой. В основном, работы посвящены созданию методик с конкретными количественными метриками для локальной интерпретации black-box моделей. При этом в январе 2022 г. на arxiv появилась знаковая работа, в которой авторы систематизируют около 300 работ в области XAI, опубликованных на CS конференциях в 2014-2020 гг. и предлагают набор из метрик, которые могут стать универсальными для оценки различных методов интерпретируемости: как для локальной интерпретации (как объяснить каждое отдельное предсказание), так и для глобальной (как работает модель в целом). Об этом также напишем далее более подробно.
- Актуальность темы XAI только растет. Но хороших и доступных системных обзоров, учитывающих проблематику внедрения методов в бизнес-процессы все еще единицы. Так, и в 2021 г. в разных бизнес-источниках продолжили ссылаться на отчет PwC по Explainable AI от 2018 г. В обзоре достаточно простым языком сделан обзор проблематики XAI, структурированы подходы к объяснению моделей, а также обоснована необходимость инвестиций в сферу XAI и применения интерпретации в бизнес-процессах.
- Прорывы и заслуживающие внимания достижения в отдельных областях ML. На эту тему планируем серию постов в дальнейшем – от гуру DS-ODS) Если вы хотели бы поделиться своим взглядом на достижения XAI в отдельных типов задач или алгоритмов, пишите @irina_goloshchapova для обсуждения.
- Применение методов интерпретируемости алгоритмов для бизнеса уже давно не является чем-то прорывным. Поэтому наиболее интересными являются либо проблемы применения этих методов, с которыми бизнес сталкивается на практике: в техническом решении какого-либо вопроса объяснения ML, или в вопросе внедрения методов интерпретируемости в бизнес-процессы компании.
Для меня, например, одной из таких проблем стала задача агрегированного вывода об устойчивой значимости и знаке влияния факторов множества однотипных предсказательных моделей. Если мы строим множество black-box моделей с похожим набором факторов на ряд близких по содержанию таргетов, то можно ли научным подходом сделать вывод о робастном влиянии того или иного фактора на них?
Если вы готовы рассказать о своем опыте и/или болях, связанных с интерпретируемостью ML моделей, welcome также для обсуждения к @irina_goloshchapova. Решим как представить ваш кейс и соберем агрегированные данные о бизнес-проблематике XAI.
#tech #interpretable_ml
🔥8❤1👍1
