Forwarded from NoML Digest (Pavel Snurnitsyn)
По следам вчерашнего обсуждения А/Б тестов публикуем еще немного материалов про анализ причинно-следственных связей (и снова спасибо Наталье Тогановой @nataliatoganova за подборку!).
Книги он-лайн
📚 Causal Inference: The Mixtape от Scott Cunningham - есть примеры кода на R и Python.
📚 Causal Inference for The Brave and True By Matheus Facure Alves. Название говорит само за себя. Еще там прекрасные мемасики и код на Python.
📚 Causal Inference: What If by Hernán MA, Robins JM. Книга без кода, но очень доступно написана.
Курсы
💻 Scott Cunningham, про чью книжку упоминали, читает курсы, на которые можно записаться. Читает очень хорошо, очень интересно - но очень поздно по Москве, начинается в пять-шесть вечера, а заканчивается ближе к двум-трем ночи.
💻 Causal Diagrams: Draw Your Assumptions Before Your Conclusions - этот курс записан отчасти по книге Causal Inference: What If и читает его один из авторов - МА Hernán. Основывается он также на работах Джуда Перла. Чем хорош курс: во-первых, объясняет на простых примерах как использовать даги в анализе; во-вторых, там рассказывается о прекрасных медицинских кейсах, когда совершались ошибки в анализе.
💻 Трек Causal Inference in ML на ODS. На русском довольно мало материалов, поэтому маст-вотч!
💻 Курс Архангельского Д. Intro into Panel Data Methods, прочитанный в МГУ в 2020 году. Ссылка на первую лекцию.
На закуску
🙈🙈🙈 Статья с подробными рекомендациями, как завалить любого потенциального аналитика на собеседовании вопросами про АБ тесты Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations . В ней 25 расхожих утверждений об А/Б тестах, с объяснениями почему они не верны.
Книги он-лайн
📚 Causal Inference: The Mixtape от Scott Cunningham - есть примеры кода на R и Python.
📚 Causal Inference for The Brave and True By Matheus Facure Alves. Название говорит само за себя. Еще там прекрасные мемасики и код на Python.
📚 Causal Inference: What If by Hernán MA, Robins JM. Книга без кода, но очень доступно написана.
Курсы
💻 Scott Cunningham, про чью книжку упоминали, читает курсы, на которые можно записаться. Читает очень хорошо, очень интересно - но очень поздно по Москве, начинается в пять-шесть вечера, а заканчивается ближе к двум-трем ночи.
💻 Causal Diagrams: Draw Your Assumptions Before Your Conclusions - этот курс записан отчасти по книге Causal Inference: What If и читает его один из авторов - МА Hernán. Основывается он также на работах Джуда Перла. Чем хорош курс: во-первых, объясняет на простых примерах как использовать даги в анализе; во-вторых, там рассказывается о прекрасных медицинских кейсах, когда совершались ошибки в анализе.
💻 Трек Causal Inference in ML на ODS. На русском довольно мало материалов, поэтому маст-вотч!
💻 Курс Архангельского Д. Intro into Panel Data Methods, прочитанный в МГУ в 2020 году. Ссылка на первую лекцию.
На закуску
🙈🙈🙈 Статья с подробными рекомендациями, как завалить любого потенциального аналитика на собеседовании вопросами про АБ тесты Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations . В ней 25 расхожих утверждений об А/Б тестах, с объяснениями почему они не верны.
🔥5👍2
Forwarded from Совет молодых учёных ЭФ МГУ (СМУч)
Научные семинары по эконометрике в пятницу 4 февраля:
📌Chamberlain Seminar
20:00 МСК (5 pm London), Zoom
Whitney Newey (MIT) "Automatic Debiased Machine Learning via Neural Nets for Generalized Linear Regression" (with Victor Chernozhukov, Victor Quintas-Martinez, and Vasilis Syrgkanis)
https://www.chamberlainseminar.org/home
📌CEBA talks (Центр эконометрики и бизнес-аналитики)
14:00 МСК, Zoom
Evgenii Vladimirov "Estimating Option Pricing Models Using a Characteristic Function-Based Linear State Space Representation"
https://ceba-lab.org/tpost/oxx325i5o1-estimating-option-pricing-models-using-a
📌Chamberlain Seminar
20:00 МСК (5 pm London), Zoom
Whitney Newey (MIT) "Automatic Debiased Machine Learning via Neural Nets for Generalized Linear Regression" (with Victor Chernozhukov, Victor Quintas-Martinez, and Vasilis Syrgkanis)
https://www.chamberlainseminar.org/home
📌CEBA talks (Центр эконометрики и бизнес-аналитики)
14:00 МСК, Zoom
Evgenii Vladimirov "Estimating Option Pricing Models Using a Characteristic Function-Based Linear State Space Representation"
https://ceba-lab.org/tpost/oxx325i5o1-estimating-option-pricing-models-using-a
В ПОИСКЕ НИЗКО ВИСЯЩИХ ПЛОДОВ
Ирина Денисова в подкасте «Экономическая политика» (apple podcast, spotify, yandex.music, castbox) Экономического факультета МГУ про дизайн политики и доказательный подход, раскрытие данных и мотивацию чиновников. Выбрали несколько важных цитат:
Ирина Денисова в подкасте «Экономическая политика» (apple podcast, spotify, yandex.music, castbox) Экономического факультета МГУ про дизайн политики и доказательный подход, раскрытие данных и мотивацию чиновников. Выбрали несколько важных цитат:
👍1
🔶 Про данные: «Есть принципиально сложные вещи, которые очень тяжело померить. А есть, к сожалению, в России ситуации, когда померить можно, но это не измеряется. У организаций, которые собирают данные часто нет ресурса и мандата на раскрытие данных. Данные для них — это побочный результат деятельности. Эта информация, которая бы могла принести много пользы, но она недоиспользуется.
Но в последнее время происходят изменения, это очень радует. Неожиданным мотиватором стал национальный проект «Цифровизация». Его побочным положительным результатом для нас является появление в доступе пусть пока для ограниченного круга аналитиков данных, которые раньше никто и не мечтал использовать. В частности, я имею ввиду данные Пенсионного фонда. Например, сейчас с помощью этих данных пытаются понять, насколько та часть мигрантов, которая находится в формальном секторе, вытесняет россиян с рынка труда, и как это влияет на зарплаты. Данные ПФР не идеальные, но они очень неплохие».
🔶 Про инфраструктуру принятия обоснованных решений: «Иногда создается впечатление, что не очень важно, что там в реальности, поскольку мы и так знаем, что хотим сделать. Это, к сожалению есть, и тут у меня есть вопросы, к тому, как проводилась перепись, потому что есть ощущение, что было неинтересно. Но это изменяется. Случаев, когда есть спрос на понимание того, что происходит, со стороны людей, принимающих решения, становится больше. Да, у нас не очень хорошо организована система сбора и представления данных. Не всегда достаточно ресурса аналитиков, которые способны это сделать. Отдельный вопрос — как совместить независимые организации, которые занимаются аналитикой, и людей, которые принимают решения. Необходимо развивать эту инфраструктуру».
🔶 Про горизонт планирования: «Несмотря на то, что у нас политическая структура очень устойчива в течение долгого периода времени, горизонт планирования продолжает быть не очень длинным. Это можно видеть и в структуре заказов на аналитические работы: максимум — это год, три года — исключение. Длинных проектов, которые заказывает государство, очень мало. Иногда создается впечатление, что хочется не столько узнать, каково реальное положение дел в зоне ответственности людей, принимающих решения, сколько получить подтверждение своему собственному понимаю. Это естественное желание. Но картина, которая может открыться в результате продолжительного исследования, может изменить направления и элементы тех решений, которые они принимают».
🔶 Про мотивацию: «Есть другая проблема, которая связана с системой мотивации людей, которые принимают решения. У нас был проект, в котором предполагалась оценка программы переобучения. Мы получили вывод, что на коротком горизонте люди проигрывают по сравнению с теми, кто не пошел на эту программу, потому что пока другие развивали карьеру, они учились. В нашем заключении мы писали, что сейчас эти люди проигрывают, но нужно последить, что с ними будет через пять лет. Тогда с большой вероятностью их карьера продвинется. Но это не понравилось людям, которые отвечают за эту программу, потому что они хотят показать эффект прямо сейчас. У нас убрали этот лист из отчета. Я связываю это с тем, что мотивация управленцев состоит в том, чтобы не выяснить, где эта программа работает, а где не работает, и что-то улучшить. А с опаской, если пришлось, заказать оценку, и дальше надеяться, что она покажет, что, действительно, работает».
Но в последнее время происходят изменения, это очень радует. Неожиданным мотиватором стал национальный проект «Цифровизация». Его побочным положительным результатом для нас является появление в доступе пусть пока для ограниченного круга аналитиков данных, которые раньше никто и не мечтал использовать. В частности, я имею ввиду данные Пенсионного фонда. Например, сейчас с помощью этих данных пытаются понять, насколько та часть мигрантов, которая находится в формальном секторе, вытесняет россиян с рынка труда, и как это влияет на зарплаты. Данные ПФР не идеальные, но они очень неплохие».
🔶 Про инфраструктуру принятия обоснованных решений: «Иногда создается впечатление, что не очень важно, что там в реальности, поскольку мы и так знаем, что хотим сделать. Это, к сожалению есть, и тут у меня есть вопросы, к тому, как проводилась перепись, потому что есть ощущение, что было неинтересно. Но это изменяется. Случаев, когда есть спрос на понимание того, что происходит, со стороны людей, принимающих решения, становится больше. Да, у нас не очень хорошо организована система сбора и представления данных. Не всегда достаточно ресурса аналитиков, которые способны это сделать. Отдельный вопрос — как совместить независимые организации, которые занимаются аналитикой, и людей, которые принимают решения. Необходимо развивать эту инфраструктуру».
🔶 Про горизонт планирования: «Несмотря на то, что у нас политическая структура очень устойчива в течение долгого периода времени, горизонт планирования продолжает быть не очень длинным. Это можно видеть и в структуре заказов на аналитические работы: максимум — это год, три года — исключение. Длинных проектов, которые заказывает государство, очень мало. Иногда создается впечатление, что хочется не столько узнать, каково реальное положение дел в зоне ответственности людей, принимающих решения, сколько получить подтверждение своему собственному понимаю. Это естественное желание. Но картина, которая может открыться в результате продолжительного исследования, может изменить направления и элементы тех решений, которые они принимают».
🔶 Про мотивацию: «Есть другая проблема, которая связана с системой мотивации людей, которые принимают решения. У нас был проект, в котором предполагалась оценка программы переобучения. Мы получили вывод, что на коротком горизонте люди проигрывают по сравнению с теми, кто не пошел на эту программу, потому что пока другие развивали карьеру, они учились. В нашем заключении мы писали, что сейчас эти люди проигрывают, но нужно последить, что с ними будет через пять лет. Тогда с большой вероятностью их карьера продвинется. Но это не понравилось людям, которые отвечают за эту программу, потому что они хотят показать эффект прямо сейчас. У нас убрали этот лист из отчета. Я связываю это с тем, что мотивация управленцев состоит в том, чтобы не выяснить, где эта программа работает, а где не работает, и что-то улучшить. А с опаской, если пришлось, заказать оценку, и дальше надеяться, что она покажет, что, действительно, работает».
👍6
🔶 Про содержательный аудит: «В США есть большие институты, которые занимаются оценкой. В частности, у Urban Institute есть много проектов, которые заказывают министерства и ведомства для того, чтобы понять, сработало или не сработало, для каких групп работает, а для каких — нет. Интересно, как выстроена эта система: можно обязать заказать оценку, но будет колоссальное сопротивление, если результаты оценки будут использоваться для того, чтобы оценить людей, которые отвечают за эту программу. Нужно исходить из того, что чиновник имеет право на ошибку. Это нормально. Если мотивация устроена так, что если что-то не работает, то это ты виноват, то чиновник вообще не будет пробовать, не проверять».
Иллюстрация: Camille Pissarro, Apple Picking at Eragny-sur-Epte (1888)
Иллюстрация: Camille Pissarro, Apple Picking at Eragny-sur-Epte (1888)
👍4🔥1
Forwarded from Совет молодых учёных ЭФ МГУ (СМУч)
Онлайн-научные семинары на этой неделе:
📌Среда 16 февраля 18:00 (МСК)— семинар ЦБ и журнала «Деньги и кредит»:
Андрей Полбин (Инстиут Гайдара, РАНХиГС)
«Can today’s and tomorrow’s world uniformly gain from carbon taxation?»
Регистрация: https://rjmf.econs.online/news/seminar-16022022/?bx_sender_conversion_id=1208101&utm_source=newsletter&utm_medium=mail&utm_campaign=onlayn_seminar_po_ekonomicheskim_issledovaniyam
📌Пятница 18 февраля 14:00 (МСК) - семинар CEBA talks, Центр эконометрики и бизнес-аналитики СПбГУ
Дмитрий Архангельский (профессор CEMFI, Мадрид)
"On Policy Evaluation with Aggregate Time-Series Shocks" (в соавторстве с Василием Коровкиным, CERGE-EI, Прага)
https://ceba-lab.org/tpost/ro9alamkc1-on-policy-evaluation-with-aggregate-time
📌Пятница 18 февраля 20:00 (МСК) - Chamberlain seminar
Alexei Onatskiy (Cambridge)
"Uniform asymptotics for strong and weak factors"
https://www.chamberlainseminar.org/
📌Среда 16 февраля 18:00 (МСК)— семинар ЦБ и журнала «Деньги и кредит»:
Андрей Полбин (Инстиут Гайдара, РАНХиГС)
«Can today’s and tomorrow’s world uniformly gain from carbon taxation?»
Регистрация: https://rjmf.econs.online/news/seminar-16022022/?bx_sender_conversion_id=1208101&utm_source=newsletter&utm_medium=mail&utm_campaign=onlayn_seminar_po_ekonomicheskim_issledovaniyam
📌Пятница 18 февраля 14:00 (МСК) - семинар CEBA talks, Центр эконометрики и бизнес-аналитики СПбГУ
Дмитрий Архангельский (профессор CEMFI, Мадрид)
"On Policy Evaluation with Aggregate Time-Series Shocks" (в соавторстве с Василием Коровкиным, CERGE-EI, Прага)
https://ceba-lab.org/tpost/ro9alamkc1-on-policy-evaluation-with-aggregate-time
📌Пятница 18 февраля 20:00 (МСК) - Chamberlain seminar
Alexei Onatskiy (Cambridge)
"Uniform asymptotics for strong and weak factors"
https://www.chamberlainseminar.org/
👍2
Дорогие подписчики, 50 дней мы ничего не писали в этом канале. Нужен был перерыв, чтобы все осмыслить и пережить. Многие вещи, о которых мы рассказывали, после 24 февраля потеряли смысл. Но мы решили, что хотим продолжить рассказывать про методы выявления причинности и исследования на российских данных. Пусть это будет заделом на будущее.
Войну нужно немедленно остановить.
Войну нужно немедленно остановить.
👍23👎1
Обзорная статья про разность разностей
Ключевые слова: методы оценки причинности, разность разностей
Сложность: ⭐️⭐️
Несмотря на то, что метод «разность разностей» (DID) успешно используется прикладными исследователями уже несколько десятилетий, в 2020 году начался новый этап его методологического развития. Был опубликован ряд статей, которые рассматривают серьезные недостатки применения моделей с фиксированными эффектами (two-way fixed effects, TWFE) для оценки эффектов (а это очень распространенная практика). *Модель TWFE это обычная регрессия, в которую дополнительно включены фиксированные временные и индивидуальные эффекты.
Основные проблемы c TWFE возникают, когда:
• Временных периода не два, как в классической модели разности разностей, а больше
• Наблюдения из экспериментальной группы подвергаются воздействию не одновременно, а в разные моменты времени (variation in treatment timing). Например, регионы могут вводить какую-то политику в разные годы.
• Оцениваемый эффект не гомогенен, а отличается для разных наблюдений (treatment effect heterogeneity)
Сложности возникают из-за того, что неявно в такой модели подвергшиеся воздействию наблюдения сравниваются не только с теми наблюдениями, которые еще не подверглись воздействию, но и с теми, которые подверглись воздействию в более ранние периоды. В результате, попытка свести оцениваемый эффект к единственному параметру α из регрессии оказывается несостоятельной.
Чтобы познакомиться с новыми подходами к оценке эффектов с помощью разности разностей, можно прочитать хорошую обзорную статью Difference-in-Differences for Policy Evaluation профессора Университета Джорджии Brantly Callaway, которую он написал для своего нового учебника Statistical Tools for Causal Inference (в учебнике еще много ненаписанных глав). На русском языке прочитать про разность разностей можно в переводной статье Джеффри Вулриджа, опубликованной в журнале Квантиль.
👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
Ключевые слова: методы оценки причинности, разность разностей
Сложность: ⭐️⭐️
Несмотря на то, что метод «разность разностей» (DID) успешно используется прикладными исследователями уже несколько десятилетий, в 2020 году начался новый этап его методологического развития. Был опубликован ряд статей, которые рассматривают серьезные недостатки применения моделей с фиксированными эффектами (two-way fixed effects, TWFE) для оценки эффектов (а это очень распространенная практика). *Модель TWFE это обычная регрессия, в которую дополнительно включены фиксированные временные и индивидуальные эффекты.
Основные проблемы c TWFE возникают, когда:
• Временных периода не два, как в классической модели разности разностей, а больше
• Наблюдения из экспериментальной группы подвергаются воздействию не одновременно, а в разные моменты времени (variation in treatment timing). Например, регионы могут вводить какую-то политику в разные годы.
• Оцениваемый эффект не гомогенен, а отличается для разных наблюдений (treatment effect heterogeneity)
Сложности возникают из-за того, что неявно в такой модели подвергшиеся воздействию наблюдения сравниваются не только с теми наблюдениями, которые еще не подверглись воздействию, но и с теми, которые подверглись воздействию в более ранние периоды. В результате, попытка свести оцениваемый эффект к единственному параметру α из регрессии оказывается несостоятельной.
Чтобы познакомиться с новыми подходами к оценке эффектов с помощью разности разностей, можно прочитать хорошую обзорную статью Difference-in-Differences for Policy Evaluation профессора Университета Джорджии Brantly Callaway, которую он написал для своего нового учебника Statistical Tools for Causal Inference (в учебнике еще много ненаписанных глав). На русском языке прочитать про разность разностей можно в переводной статье Джеффри Вулриджа, опубликованной в журнале Квантиль.
👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
Ad meliora tempora / Cedant arma togae
«Тотальные» административные данные для анализа трудоустройства выпускников высшего образования
Вчера на Ясинской (Апрельской) конференции исследователи из ЛИРТ представили доклад 📒 «Выпускники высшего образования на российском рынке труда: тренды и вызовы». Главная новация доклада — использование связанных административных микроданных Рособрнадзора и ПФР, которые охватывают всех выпускников школ, колледжей, вузов. Это один из первых проектов в России такого рода:
«Основой доклада стали административные данные Мониторинга трудоустройства выпускников Роструда — ключевого российского проекта в области доказательной политики. Доказательная политика предполагает принятие решений на базе исследований и анализа данных, что повышает прозрачность и эффективность государственного управления. Мониторинг базируется на индивидуальных обезличенных данных о выданных дипломах и трудоустройстве из государственных реестров Рособрнадзора и Пенсионного фонда России, которые позволяют воссоздавать, анализировать и оценивать карьерные и образовательные траектории выпускников образовательных организаций».
📌 Посмотреть регламент, в соответствии с которым формируются эти данные, можно по ссылке. Схема сбора данных и основные ограничения описаны на первых страницах доклада Вышки.
В ходе обсуждения заместитель руководителя Роструда 🗣 Денис Васильев отметил, что в ближайшее время планируется определить, какие образом исследователи вне зависимости от их институциональной принадлежности смогут получать доступ к данным для проведения исследований.
👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
«Тотальные» административные данные для анализа трудоустройства выпускников высшего образования
Вчера на Ясинской (Апрельской) конференции исследователи из ЛИРТ представили доклад 📒 «Выпускники высшего образования на российском рынке труда: тренды и вызовы». Главная новация доклада — использование связанных административных микроданных Рособрнадзора и ПФР, которые охватывают всех выпускников школ, колледжей, вузов. Это один из первых проектов в России такого рода:
«Основой доклада стали административные данные Мониторинга трудоустройства выпускников Роструда — ключевого российского проекта в области доказательной политики. Доказательная политика предполагает принятие решений на базе исследований и анализа данных, что повышает прозрачность и эффективность государственного управления. Мониторинг базируется на индивидуальных обезличенных данных о выданных дипломах и трудоустройстве из государственных реестров Рособрнадзора и Пенсионного фонда России, которые позволяют воссоздавать, анализировать и оценивать карьерные и образовательные траектории выпускников образовательных организаций».
📌 Посмотреть регламент, в соответствии с которым формируются эти данные, можно по ссылке. Схема сбора данных и основные ограничения описаны на первых страницах доклада Вышки.
В ходе обсуждения заместитель руководителя Роструда 🗣 Денис Васильев отметил, что в ближайшее время планируется определить, какие образом исследователи вне зависимости от их институциональной принадлежности смогут получать доступ к данным для проведения исследований.
👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍1
Семинары по causal inference
🔸 12 апреля (вторник) в 18:30 МСК — на Online Causal Inference Seminar выступит 🗣 Neil Davies (University of Bristol). Тема — «Average causal effect estimation via instrumental variables: the no simultaneous heterogeneity assumption?». Подключиться можно по ссылке.
🔸 15 апреля (пятница) в 9:00 МСК — на семинаре по эконометрике Департамента экономики Университета Торонто 🗣 Дмитрий Архангельский (CEMFI) расскажет про совместную с 🗣 Василием Коровкиным (CERGE-EI) статью «On Policy Evaluation with Aggregate Time-Series Shocks».
🔸 15 апреля (пятница) в 19:00 МСК — на Chamberlain Seminar 🗣 Хидо Имбенс (Stanford) презентует свою совместную с 🗣 Дмитрием Архангельским (CEMFI) статью «The Role of the Propensity Score in Fixed Effect Models». Зарегистрироваться на семинар можно по ссылке.
🔸 12 апреля (вторник) в 18:30 МСК — на Online Causal Inference Seminar выступит 🗣 Neil Davies (University of Bristol). Тема — «Average causal effect estimation via instrumental variables: the no simultaneous heterogeneity assumption?». Подключиться можно по ссылке.
🔸 15 апреля (пятница) в 9:00 МСК — на семинаре по эконометрике Департамента экономики Университета Торонто 🗣 Дмитрий Архангельский (CEMFI) расскажет про совместную с 🗣 Василием Коровкиным (CERGE-EI) статью «On Policy Evaluation with Aggregate Time-Series Shocks».
🔸 15 апреля (пятница) в 19:00 МСК — на Chamberlain Seminar 🗣 Хидо Имбенс (Stanford) презентует свою совместную с 🗣 Дмитрием Архангельским (CEMFI) статью «The Role of the Propensity Score in Fixed Effect Models». Зарегистрироваться на семинар можно по ссылке.
Forwarded from Совет молодых учёных ЭФ МГУ (СМУч)
⚡️
Олег Ицхоки, выпускник ЭФ 2003, профессор университета Калифорнии в Лос Анжелесе, получил медаль Джона Бейтса Кларка. Медаль Кларка -- премия, которая вручается американской экономической ассоциацией лучшему молодому экономисту, работающему в США. Олег получил эту награду как ведущий исследователь в области международной торговли и глобальной макроэкономики. Это первый случай награждения экономиста, который получил высшее образование в России. Поздравляем Олега и гордимся им! https://www.aeaweb.org/about-aea/honors-awards/bates-clark
Олег Ицхоки, выпускник ЭФ 2003, профессор университета Калифорнии в Лос Анжелесе, получил медаль Джона Бейтса Кларка. Медаль Кларка -- премия, которая вручается американской экономической ассоциацией лучшему молодому экономисту, работающему в США. Олег получил эту награду как ведущий исследователь в области международной торговли и глобальной макроэкономики. Это первый случай награждения экономиста, который получил высшее образование в России. Поздравляем Олега и гордимся им! https://www.aeaweb.org/about-aea/honors-awards/bates-clark
👍12🎉3
Напомним, что с 1947 года медаль Кларка получили 14 нобелевских лауреата. Среди обладателей медали Кларка такие экономисты, как Пол Самуэльсон, Милтон Фридман, Джеймс Тобин, Кеннет Эрроу, Гэри Беккер, Джозеф Стиглиц, Джеймс Хекман, Пол Кругман, Дэвид Кард, Дарон Асемоглу, Эстер Дуфло, Радж Четти и другие.
Фейк: causal inference — это сплошная математика и очень сложно.
Факт: методы выявления причинности опираются на статистику и теорию вероятностей, однако многие из них очень интуитивны.
Разрывный дизайн —популярный метод causal inference. Для идентификации эффекта он использует тот факт, что попадание в группу воздействия определяется значением переменной участия (например, балл за ЕГЭ при поступлении в университет). Наблюдения, для которых значение переменной участия превышает установленный порог (проходной балл) попадают в группу воздействия, а остальные наблюдения — нет. Вблизи от порогового значения (слева и справа) ничего не меняется кроме статуса воздействия. Тогда эти наблюдения можно использовать, чтобы оценивать целевой эффект.
📖 Собрали в одной подборке учебники, видео-лекции и статьи по разрывному дизайну. Там можно найти материалы как для начинающих, так и для тех, кто хочет разобраться в отдельных нюансах метода. Подборка будет обновляться 🕷.
👉 Подписаться на доказательный ⎵ пробел
Факт: методы выявления причинности опираются на статистику и теорию вероятностей, однако многие из них очень интуитивны.
Разрывный дизайн —популярный метод causal inference. Для идентификации эффекта он использует тот факт, что попадание в группу воздействия определяется значением переменной участия (например, балл за ЕГЭ при поступлении в университет). Наблюдения, для которых значение переменной участия превышает установленный порог (проходной балл) попадают в группу воздействия, а остальные наблюдения — нет. Вблизи от порогового значения (слева и справа) ничего не меняется кроме статуса воздействия. Тогда эти наблюдения можно использовать, чтобы оценивать целевой эффект.
📖 Собрали в одной подборке учебники, видео-лекции и статьи по разрывному дизайну. Там можно найти материалы как для начинающих, так и для тех, кто хочет разобраться в отдельных нюансах метода. Подборка будет обновляться 🕷.
👉 Подписаться на доказательный ⎵ пробел
🔥9
Forwarded from Платформа ИНИД
База данных показателей по муниципальным образованиям России за 2006—2020 годы
Уже не бета — кстати, спасибо всем за обратную связь.
К выходу новой версии мы успели ещё немного дополнить данные за последний год и добавили возможность получить датасет в формате БД — при скачивании можно выбрать CSV или POSTGRESQL.
А в остальном — это всё та же удобная, нормализованная база на 200+ миллионов наблюдений.
Чтобы освежить память:
🔹 Этот датасет — результат обработки дампа исходной БД Росстата (данные максимально актуальные и полные).
🔹Рубрикатор работает — можно скачивать и использовать в работе отдельные группы показателей МО. Но можно и БД полностью:)
Подробности и сам датасет
Уже не бета — кстати, спасибо всем за обратную связь.
К выходу новой версии мы успели ещё немного дополнить данные за последний год и добавили возможность получить датасет в формате БД — при скачивании можно выбрать CSV или POSTGRESQL.
А в остальном — это всё та же удобная, нормализованная база на 200+ миллионов наблюдений.
Чтобы освежить память:
🔹 Этот датасет — результат обработки дампа исходной БД Росстата (данные максимально актуальные и полные).
🔹Рубрикатор работает — можно скачивать и использовать в работе отдельные группы показателей МО. Но можно и БД полностью:)
Подробности и сам датасет
❤5🔥2👍1
Forwarded from Reliable ML
Применение методов Causal Inference
Потребность в применении методов причинно-следственного анализа развивается со временем. В начале она была сконцентрирована, в основном, в науках: социальных науках, экономике, медицине, биологии, генетике. В последние пять лет наблюдается резкий рост этой потребности для бизнеса. Основными отраслями применения методов являются IT-компании, игровая индустрия, ритейл и e-commerce.
Ключевыми используемыми методами являются АБ-тесты, но с каждым годом встречается все больше отдельных интересных кейсов. Часто эти кейсы возникают из проблем применения классического ML для задач, когда мы хотим управлять параметрами моделей, тем самым, меняя целевую переменную Y. К этой категории можно отнести истории про исключение эффекта эндогенности при исследовании эффекта изменения цен на выручку при динамическом ценообразовании, оценку реального причинно-следственного эффекта изменения параметров персональной промо-кампании на выручку, которую она генерирует (uplift-модели), повышение эффективности работы прокатного стана за счет управления параметрами его работы, оценка эффекта генерации дополнительного спроса от установки различных видов прилавков (мясо, рыба, хлеб, и др.) в продуктовых магазинах.
В целом, о кейсах бизнес-применения causal inference 2021 г. я рассказывала в одном из постов @Reliable_ML еще в начале года.
#business #causal_inference #practice
Потребность в применении методов причинно-следственного анализа развивается со временем. В начале она была сконцентрирована, в основном, в науках: социальных науках, экономике, медицине, биологии, генетике. В последние пять лет наблюдается резкий рост этой потребности для бизнеса. Основными отраслями применения методов являются IT-компании, игровая индустрия, ритейл и e-commerce.
Ключевыми используемыми методами являются АБ-тесты, но с каждым годом встречается все больше отдельных интересных кейсов. Часто эти кейсы возникают из проблем применения классического ML для задач, когда мы хотим управлять параметрами моделей, тем самым, меняя целевую переменную Y. К этой категории можно отнести истории про исключение эффекта эндогенности при исследовании эффекта изменения цен на выручку при динамическом ценообразовании, оценку реального причинно-следственного эффекта изменения параметров персональной промо-кампании на выручку, которую она генерирует (uplift-модели), повышение эффективности работы прокатного стана за счет управления параметрами его работы, оценка эффекта генерации дополнительного спроса от установки различных видов прилавков (мясо, рыба, хлеб, и др.) в продуктовых магазинах.
В целом, о кейсах бизнес-применения causal inference 2021 г. я рассказывала в одном из постов @Reliable_ML еще в начале года.
#business #causal_inference #practice
👍4🔥3
Дифференциальная приватность и TopDown алгоритм Бюро переписи населения США
При публикации больших объемов данных стат. ведомствам и коммерческим компаниям неизбежно приходится искать компромисс между детализацией и конфиденциальностью данных. С одной стороны, пользователи данных стремятся получить доступ к более гранулярным данным. С другой стороны, оператор, раскрывающий данные, ограничен требованиями законодательства о защите персональных данных и этическими соображениями. Традиционно используются методы снижения детализации и зашумления, чтобы исключить возможность идентификации реальных людей в опубликованной информации.
💡В этот вторник Бюро переписей населения США выложило программную статью про механизм обеспечения конфиденциальности данных при публикации результатов переписи 2020 года — TopDown алгоритме с дифференциальной приватностью.
🤔 В чем идея дифференциальной приватности? Она заключается в том, что внешний пользователь не имеет доступа к микроданным, но может строить различные запросы агрегированной статистики к ним. К примеру, запрашивает информацию о количестве наблюдений, обладающих определенными характеристиками. Так работал конструктор на данных переписей 2002 и 2010 годов Росстата (к сожалению, безвременно от нас ушедший). Но если запросы детальные, то выполнив их достаточно много и в большем числе разрезов, можно будет восстановить исходные микроданные. Дифференциальная приватность предполагает, что в ситуации, когда внешний пользователь имеет доступ к двум версиям набора данных, которые различаются всего на одно наблюдение, один и тот же запрос агрегированной статистики по любому атрибуту (например, подсчет количества записей с определенными характеристиками) с высокой вероятностью должен вернуть одинаковый результат.
Тогда значения атрибутов для этого наблюдения хорошо защищены — даже выполнив много запросов, восстановить исходные микроданные не получится. Если такой принцип выполняется для каждого наблюдения в наборе данных, то он соответствует принципу дифференциальной приватности. Реализовать механизм дифференциальной приватности можно использую различные алгоритмы, которые к результату запроса добавляют случайный шум. А уровень шума выбирается как раз такой, чтобы удаление или добавление одного наблюдения, почти не меняло доступный пользователю результат.
Простая идея на практике сталкивается с большим числом вызовов, о которых в статье тоже идет речь. Например, нужно, чтобы при последовательной агрегации зашумленных данных от переписных блоков к штатам все суммы в дифференциально приватных данных сходились. Или, чтобы при подсчете числа наблюдений алгоритм в результате зашумления не выдавал отрицательные числа.
Что еще посмотреть:
· Github-репозиторий Census Bureau c исходным кодом TopDown алгоритма
· 12-минутный популярный ролик про дифференциальную приватность
· Подробное руководство по дифференциальной приватности есть в книге Differential Privacy and Applications
Иллюстрация к посту: https://habr.com/ru/company/domclick/blog/526724/
При публикации больших объемов данных стат. ведомствам и коммерческим компаниям неизбежно приходится искать компромисс между детализацией и конфиденциальностью данных. С одной стороны, пользователи данных стремятся получить доступ к более гранулярным данным. С другой стороны, оператор, раскрывающий данные, ограничен требованиями законодательства о защите персональных данных и этическими соображениями. Традиционно используются методы снижения детализации и зашумления, чтобы исключить возможность идентификации реальных людей в опубликованной информации.
💡В этот вторник Бюро переписей населения США выложило программную статью про механизм обеспечения конфиденциальности данных при публикации результатов переписи 2020 года — TopDown алгоритме с дифференциальной приватностью.
🤔 В чем идея дифференциальной приватности? Она заключается в том, что внешний пользователь не имеет доступа к микроданным, но может строить различные запросы агрегированной статистики к ним. К примеру, запрашивает информацию о количестве наблюдений, обладающих определенными характеристиками. Так работал конструктор на данных переписей 2002 и 2010 годов Росстата (к сожалению, безвременно от нас ушедший). Но если запросы детальные, то выполнив их достаточно много и в большем числе разрезов, можно будет восстановить исходные микроданные. Дифференциальная приватность предполагает, что в ситуации, когда внешний пользователь имеет доступ к двум версиям набора данных, которые различаются всего на одно наблюдение, один и тот же запрос агрегированной статистики по любому атрибуту (например, подсчет количества записей с определенными характеристиками) с высокой вероятностью должен вернуть одинаковый результат.
Тогда значения атрибутов для этого наблюдения хорошо защищены — даже выполнив много запросов, восстановить исходные микроданные не получится. Если такой принцип выполняется для каждого наблюдения в наборе данных, то он соответствует принципу дифференциальной приватности. Реализовать механизм дифференциальной приватности можно использую различные алгоритмы, которые к результату запроса добавляют случайный шум. А уровень шума выбирается как раз такой, чтобы удаление или добавление одного наблюдения, почти не меняло доступный пользователю результат.
Простая идея на практике сталкивается с большим числом вызовов, о которых в статье тоже идет речь. Например, нужно, чтобы при последовательной агрегации зашумленных данных от переписных блоков к штатам все суммы в дифференциально приватных данных сходились. Или, чтобы при подсчете числа наблюдений алгоритм в результате зашумления не выдавал отрицательные числа.
Что еще посмотреть:
· Github-репозиторий Census Bureau c исходным кодом TopDown алгоритма
· 12-минутный популярный ролик про дифференциальную приватность
· Подробное руководство по дифференциальной приватности есть в книге Differential Privacy and Applications
Иллюстрация к посту: https://habr.com/ru/company/domclick/blog/526724/
SpringerLink
Privacy in Microdata Release: Challenges, Techniques, and Approaches
Releasing and disseminating useful microdata while ensuring that no personal or sensitive information is improperly exposed is a complex problem, heavily investigated by the scientific community in the past couple of decades. Various microdata protection…
❤1🔥1
Воркшоп Microsoft про open-source инструменты для причинного вывода
🔸 3 мая (вторник) в 19:00 МСК Microsoft проведет двухчасовой онлайн-воркшоп, на котором расскажет про свои открытые библиотеки (DoWhy+EconML) для анализа причинно-следственных связей и кейсы их использования в финансах, ретейле и энергетике. Зарегистрироваться на воркшоп можно по ссылке.
👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
🔸 3 мая (вторник) в 19:00 МСК Microsoft проведет двухчасовой онлайн-воркшоп, на котором расскажет про свои открытые библиотеки (DoWhy+EconML) для анализа причинно-следственных связей и кейсы их использования в финансах, ретейле и энергетике. Зарегистрироваться на воркшоп можно по ссылке.
👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
Семинары и курсы по Causal Inference
🔸 26 апреля (вторник) в 18:30 МСК — на Online Causal Inference Seminar выступит 🗣 Shu Yang (North Carolina State University). Тема — «Test-based integrative analysis for heterogeneous treatment effects combining randomized trial and real-world data». Подключиться можно по ссылке.
🔸 29 апреля (пятница) в 19:00 МСК — в рамках Chamberlain Seminar состоится интервью с нобелевским лауреатом по экономике 2000 года 🗣 Dan McFadden (Berkeley).
🔸 И возвращается рубрика #скоттнампишет. В рамках Mixtape Sessions 12 и 13 августа пройдет двухдневный воркшоп по прикладным экономическим исследованиям от 🗣 Daniel Rees (Universidad Carlos III de Madrid, IZA) и 🗣 Mark Anderson (Montana State University, NBER, IZA). Обещают рассказать про то, как проводить прикладные исследования, проходить job-market интервью, подавать статьи в журналы, успешно преодолевать рецензирование, участвовать в конференциях и выстраивать академический нетворкинг. Курс платный, но для студентов и слушателей из развивающихся стран доступны большие скидки 🤟. В прошлый раз места на эти воркшопы быстро закончились, так что стоит поторопиться с регистрацией.
👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
🔸 26 апреля (вторник) в 18:30 МСК — на Online Causal Inference Seminar выступит 🗣 Shu Yang (North Carolina State University). Тема — «Test-based integrative analysis for heterogeneous treatment effects combining randomized trial and real-world data». Подключиться можно по ссылке.
🔸 29 апреля (пятница) в 19:00 МСК — в рамках Chamberlain Seminar состоится интервью с нобелевским лауреатом по экономике 2000 года 🗣 Dan McFadden (Berkeley).
🔸 И возвращается рубрика #скоттнампишет. В рамках Mixtape Sessions 12 и 13 августа пройдет двухдневный воркшоп по прикладным экономическим исследованиям от 🗣 Daniel Rees (Universidad Carlos III de Madrid, IZA) и 🗣 Mark Anderson (Montana State University, NBER, IZA). Обещают рассказать про то, как проводить прикладные исследования, проходить job-market интервью, подавать статьи в журналы, успешно преодолевать рецензирование, участвовать в конференциях и выстраивать академический нетворкинг. Курс платный, но для студентов и слушателей из развивающихся стран доступны большие скидки 🤟. В прошлый раз места на эти воркшопы быстро закончились, так что стоит поторопиться с регистрацией.
👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
Forwarded from Рюмочная ИПП
Олимпиада ИПП и «Пепеляев Групп»
«Мысли эмпирически»
Друзья, в этом году мы совместно с «Пепеляев Групп» объявляем Олимпиаду «Мысли эмпирически».
Олимпиада посвящена теме эмпирического правоведения — междисциплинарного направления, в рамках которого право изучаются методами социальных наук. В ходе проведения Олимпиады участникам будет предложено пройти серию обучающих вебинаров от сотрудников ИПП и «Пепеляев Групп» и, в завершении, написать три мини-эссе, посвященных публичному, частному и уголовному правоприменению.
К участию приглашаются студенты последних курсов обучения и выпускников вузов. Призами для лучших участников станут:
📍 Две стажировки в «Пепеляев Групп»
📍 Один бонус 99 баллов при сдаче экзаменов в магистратуру ЕУСПб «Эмпирические исследования права».
Подробности проведения и расписание вебинаров вы можете найти на сайте Олимпиады.
«Мысли эмпирически»
Друзья, в этом году мы совместно с «Пепеляев Групп» объявляем Олимпиаду «Мысли эмпирически».
Олимпиада посвящена теме эмпирического правоведения — междисциплинарного направления, в рамках которого право изучаются методами социальных наук. В ходе проведения Олимпиады участникам будет предложено пройти серию обучающих вебинаров от сотрудников ИПП и «Пепеляев Групп» и, в завершении, написать три мини-эссе, посвященных публичному, частному и уголовному правоприменению.
К участию приглашаются студенты последних курсов обучения и выпускников вузов. Призами для лучших участников станут:
📍 Две стажировки в «Пепеляев Групп»
📍 Один бонус 99 баллов при сдаче экзаменов в магистратуру ЕУСПб «Эмпирические исследования права».
Подробности проведения и расписание вебинаров вы можете найти на сайте Олимпиады.
👍4
Байесовские методы в оценке программ и политик
Ключевой вопрос в доказательной политике – привели ли вмешательство / интервенция / изменения к улучшениям или нет? Но простой ответ «да/нет» на этот вопрос сформировать сложно, поскольку все оценки воздействия подвержены статистическим ошибкам. Фактически мы можем утверждать сработала ли наша интервенция или нет с некоторой степенью неопределенности. Исследователи часто используют в этих целях проверку статистических гипотез и уровень статистической значимости (p-value / p-критерий). Однако зачастую стат. значимость неверно интерпретируется как мера вероятности эффекта, а иногда и его размера. К тому же, проверка стат. гипотез принимает к оценке только одну гипотезу, не принимая во внимание остальные возможные.
Альтернативой классической проверке стат. гипотез являются байесовские методы, которые могут учитывать накопленные доказательства, корректируя оценки эффектов от доказательства к доказательству и фиксируя их размер с указанием доверительного интервала. В свою очередь, доверительные интервалы позволяют получить более точное восприятие данных, чем p-критерий (см. например Beyth-Marom, R., Fidler, F., & Cumming, G. (2008). «Statistical cognition: Towards evidence-based practice in statistics and statistics education»).
📙 В начале апреля Национальный центр оценки образования США (National Center for Education Evaluation and Regional Assistance) выпустил подробное руководство по методике оценки программ и политик, основанной на байесовских методах (BAyeSian Interpretation of Estimates - BASIE). На основе базы данных обзоров доказательств в области развития образования What Works Clearinghouse авторами методики рассчитаны распределения предшествующих (априорных) эффектов от реализуемых мер госполитики, параметры которых могут использоваться при оценке новых интервенций. Доказательства, полученные в ходе таких оценок, будут учитывать прошлые эффекты и являться более валидными. Руководство содержит электронные таблицы и код (на языках R и Stan), позволяющие имплементировать описанную методику.
Ключевой вопрос в доказательной политике – привели ли вмешательство / интервенция / изменения к улучшениям или нет? Но простой ответ «да/нет» на этот вопрос сформировать сложно, поскольку все оценки воздействия подвержены статистическим ошибкам. Фактически мы можем утверждать сработала ли наша интервенция или нет с некоторой степенью неопределенности. Исследователи часто используют в этих целях проверку статистических гипотез и уровень статистической значимости (p-value / p-критерий). Однако зачастую стат. значимость неверно интерпретируется как мера вероятности эффекта, а иногда и его размера. К тому же, проверка стат. гипотез принимает к оценке только одну гипотезу, не принимая во внимание остальные возможные.
Альтернативой классической проверке стат. гипотез являются байесовские методы, которые могут учитывать накопленные доказательства, корректируя оценки эффектов от доказательства к доказательству и фиксируя их размер с указанием доверительного интервала. В свою очередь, доверительные интервалы позволяют получить более точное восприятие данных, чем p-критерий (см. например Beyth-Marom, R., Fidler, F., & Cumming, G. (2008). «Statistical cognition: Towards evidence-based practice in statistics and statistics education»).
📙 В начале апреля Национальный центр оценки образования США (National Center for Education Evaluation and Regional Assistance) выпустил подробное руководство по методике оценки программ и политик, основанной на байесовских методах (BAyeSian Interpretation of Estimates - BASIE). На основе базы данных обзоров доказательств в области развития образования What Works Clearinghouse авторами методики рассчитаны распределения предшествующих (априорных) эффектов от реализуемых мер госполитики, параметры которых могут использоваться при оценке новых интервенций. Доказательства, полученные в ходе таких оценок, будут учитывать прошлые эффекты и являться более валидными. Руководство содержит электронные таблицы и код (на языках R и Stan), позволяющие имплементировать описанную методику.
🔥7👍1