доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Ещё один анонс — в пятницу и субботу состоится первый международный воркшоп «Прикладные исследования в области экономики труда и человеческого капитала». Выбрали несколько интересных докладов с оценкой эффектов на российских данных:

🔹 Пятница, 13:00-14:00. Рубен Ениколопов (РЭШ). Divided We Stay Home: Social Distancing and Ethnic Diversity.

По этой ссылке размещена working paper. В статье рассматривается, как этническое разнообразие в российских городах влияло на социальное дистанцирование. В качестве эмпирической стратегии для оценки выбран метод разности разностей (Difference in Differences): сопоставляются города с высоким и низким уровнями этнического разнообразия до и после первого зарегистрированного случая заболевания коронавирусом.

🔹 Пятница, 15:40-16:10. Alina Malkova (University of Missouri). The Impact of Formal and Informal Credit Institutions on Entrepreneurship.

К сожалению на сайте конференции отсутствуют аннотации, но похоже, что доклад основан на этой статье. С помощью данных РМЭЗ авторы показывают, что ослабление условий получения кредита повышает вероятность перехода работников из неформальной занятости в формальную. Для оценки используется мультиномиальная логистическая регрессия.

🔹Суббота, 13:20-13:50. Anna Pestova (MGIMO University, CERGE-EI). Childcare Provision and Female Labor Supply in Russia: Evidence from Household Survey Data.

Препринт нашли по этой ссылке. Авторы оценивают, как доступность инфраструктуры ухода за детьми (детских садов и ясельных групп) на уровне муниципалитетов влияет на занятость и участие в рабочей силе женщин с детьми в возрасте от 0 до 2 лет. Эмпирическая стратегия — снова разность разностей: в качестве контрольной группы выступают или бездетные женщины или женщины, у которых есть хотя бы один ребенок старше трех лет, или женщины, у которых есть хотя бы один ребенок старше шести лет. Оценки получены на данных РМЭЗ. Дополнительно авторы получили информацию о конкретных 36 муниципалитетах, в которых проводится обследование, и связали данные РМЭЗ с данными об инфраструктуре муниципальных образований.
Наши коллеги из Счетной палаты пишут про роль экспертного интервью в оценке.
Экспертные интервью часто используются в оценке госпрограмм и анализе госполитик. Это и быстрый способ разобраться в предмете, и порой возможность получить необходимый доступ в исследовательское поле. Корректная работа ведомств с экспертами - один из ключевых элементов доказательной политики.

В зависимости от целей экспертные интервью могут различными:

1) Разведывательное экспертное интервью для вхождения в новую проблематику, тему (это подготовительный этап анализа)

2) Систематизирующее экспертное интервью - получение от эксперта фактов и информации с целью систематизировать уже имеющиеся данные.

3) "Генерирующее теорию" экспертное интервью - реконструкция представлений эксперта, приводящих его или её к тому или иному выводу.

Есть и другая классификация. В её основе - различные подходы к определению экспертов.

Первый тип экспертов — эксперты как носители знаний о проблеме. Яркий пример таких экспертов — представители академического сообщества, эксперты-ученые. Они особенно полезны в рамках систематизирующих экспертных интервью, потому что обладают обширными фактологическими знаниями о проблеме.

Второй тип экспертов — это эксперты опыта. Такие эксперты обладают специализированным знанием о социальном контексте анализируемого феномена, потому что непосредственно погружены в него, обладают необходимым опытом работы. Например, при исследовании доступности городской среды экспертами опыта могут быть люди с инвалидностью. Подбор таких экспертов также может опираться на формальные критерии, но в большей степени - это традиционный поиск информантов в качественном поле.

https://telegra.ph/EHkspertnye-intervyu-kak-issledovatelskij-metod-11-15
👍2
Скотт Каннингем объявил даты новой серии курсов по анализу причинно-следственных связей:

🔸 14, 15, 21, 22, 28 января — 5-дневный общий курс по Causal Inference: про модель потенциальных исходов, DAG, разрывный дизайн, инструментальные переменные, разность в разностях и синтетический контроль. Планируется большое количество практических занятий.

🔸 18, 19, 25 февраля — 3-дневный курс по методу разность разностей, включая разбор новаций последних двух лет.

Чуть позже планируется запуск курса по методу инструментальных переменных.

Обычная стоимость каждого из курсов — 595 долларов, но для студентов, а также слушателей из развивающихся стран доступна специальная цена — 50 долларов за курс. Чтобы получить скидку, нужно отправить запрос на почту causalinf@mixtape.consulting. Мы проверили — все работает, для слушателей из России доступны специальные цены👌

#скоттнампишет
Часто исследовательские возможности оказываются ограничены доступными вычислительными мощностями. Это может быть недостаток оперативной памяти для открытия большого датасета или хранения промежуточных результатов вычислений, нехватка мощности процессора, чтобы вычисления заняли обозримый промежуток времени, или необходимость параллельно использовать компьютер для решения других задач. В этом посте мы расскажем, как использовать возможности облачных вычислений, чтобы временно получить доступ к мощному железу, не покупая его навсегда.

Подробнее — в материале по ссылке.
1
Завтра и послезавтра пройдет 49 научная конференция РЭШ. С программой можно познакомиться по ссылке.

🔶 18 ноября на сессии с 15:50 до 16:50 выступит Евгений Яковлев с рассказом об оценке влияния политики ограничения цен на лекарства на смертность, о которой мы писали раньше.
Forwarded from Платформа ИНИД
Завтра и послезавтра РЭШ проводит 49-ю NES Research Conference.

В четверг на ней выступят Рубен Ениколопов, Евгений Яковлев, Константин Сонин и другие эксперты. Среди спикеров в пятницу — Андрей Маркевич, Олег Шибанов, Сергей Ковбасюк и другие.

Присоединяйтесь к трансляции на YouTube по ссылкам:
▶️ 18 ноября
▶️ 19 ноября
Ребята из Opportunity Insights (исследовательская организация на базе Гарвардского университета) публикуют на своем сайте материалы курса «Using Big Data Solve Economic and Social Problems», который представляет собой введение в современную прикладную экономику и не требует предварительных знаний статистики. Среди тем: равенство возможностей, образование, здравоохранение, окружающая среда и правоприменительная практика. В контексте этих тем курс рассматривает основные статистические методы и методы анализа данных, включая регрессионный анализ, причинно-следственные связи (causal inference), квазиэкспериментальные методы и машинное обучение. Opportunity Insights - команда, которая на основе микроданных и административных данных разработала интерактивный «Атлас возможностей», позволяющий оценивать решения в области политики по обеспечению благосостояния населения. Своей миссией Opportunity Insights видят обучение нового поколения исследователей и политических лидеров современным методам анализа для реализации экономических возможностей.
В этот четверг с 17:45 до 19:30 при поддержке ЦПУР Экономический факультет МГУ в рамках празднования 80-летия факультета проведёт панельную дискуссию о доказательной политике в России.

Алексей Кудрин (председатель Счетной палаты), Эльвира Набиуллина (председатель ЦБ) и Александр Аузан (декан экономического факультета МГУ) обсудят:

🔸 что можно сделать для того, чтобы повысить роль научных исследований и результатов анализа данных при разработке новых и оценке уже реализуемых программ и проектов

🔸 какие данные и исследования необходимы для пополнения «банка» эффективных доказанных практик государственного вмешательства в сферах образования, рынка труда, регулирования отраслей и т.д.

🔸 на какие шаги готово пойти исследовательское сообщество в России, а на какие — органы государственной власти.

Модератор дискуссии — генеральный директор ЦПУР Мария Шклярук.
Прямо сейчас можно принять участие в голосовании о необходимых шагах для развития доказательной политики в России.

Голосование проводится в рамках панельной дискуссии «Доказательная политика в России. Как исследования на основе эмпирических данных могут помочь российскому госуправлению?».‎

Чтобы проголосовать, нужно:

🔶 Или перейти по ссылке
🔶 Или открыть сайт menti.com и ввести код 7826 8309
Выборки с микроданными переписей по индивидам и частным домохозяйствам — к новому году для исследователей.

🔶 10 процентов, 2002 год: можно скачать тут
🔶 10 процентов, 2010 год: можно скачать тут
🔷 20 процентов, 2002 год: можно получить доступ тут
🔷 20 процентов, 2010 год: можно получить доступ тут
Главная и наиболее обсуждаемая мера гос. политики минувшего года — кампания вакцинации от коронавируса. Публичные комментаторы в основном сходятся во мнении, что она была неудачной. Почему люди отказываются вакцинироваться и какие факторы это определяют? Сегодня на SSRN был опубликован препринт исследования Яны Рощиной, Сергея Рощина и Ксении Рожковой из Высшей школы экономики, которые на данных РМЭЗ пытаются ответить на эти вопросы. Колонка авторов на русском языке доступна по ссылке.

Данные

В 2020 году в вопросник панельного обследования домохозяйств РМЭЗ (вопросы 194-211 взрослого опросника) был добавлен специальный блок вопросов про коронавирус. Само обследование проводилось с октября 2020 года по январь 2021 года —до старта кампании по вакцинации, поэтому исследование рассматривает намерение респондента вакцинироваться, а не реализацию этого намерения. Кстати, с учетом панельной структуры РМЭЗ, появление данных 30 волны (за 2021 год) позволит проверить еще больше важных гипотез про коронавирус и реакцию государства на него 🧐.

Методы

Вопрос о готовности вакцинироваться («Собираетесь ли Вы пройти вакцинацию от коронавируса, когда она появится?») предполагал пять вариантов ответа («Да, в любом случае», «Да, только если будете уверены в ее безопасности и надежности», «Нет», «Уже переболели коронавирусом и считаете, что вакцинация Вам не нужна», «Уже вакцинировались»). Это определило выбор метода оценки — мультиномиальной логистической регрессии.

Основные результаты

Риск отказа от вакцинации (по сравнению с условным принятием вакцины) ниже для тех, кто живет с пожилыми людьми, имеет высшее или среднее профессионально образование, и не живет в Москве и Санкт-Петербурге. Активное использование социальных сетей повышает риск отказа от вакцинации. Люди с очень плохим или очень хорошим здоровьем (по самооценке) характеризуются более высоким риском отказа от вакцинации. При этом собственный опыт заболевания COVID-19 повышает риск отказа от вакцинации, тогда как аналогичный опыт друзей снижает этот риск. Наконец, люди с высоким общим уровнем доверия и высоким уровнем доверия к государственным институтам более склонны вакцинироваться.

Важность доверия к институтам и государству часто обсуждается в контексте результативности мер гос. политики, принимаемых в период пандемии. Например, летом дискуссию «Public trust and evidence-based policymaking: Lessons from the COVID-19 response» проводил European Policy Centre.
ЧТО ПОСЛУШАТЬ НА ASSA

Ультракороткие описания секций по доказательной политике, доступности данных и оценке причинно-следственных связей

Каждый год в начале января (в этот раз с шестого по девятое) Американская экономическая ассоциация проводит конференцию ASSA (Allied Social Sciences Associations — Объединенные ассоциации социальных наук). В программе — невозможное количество секций (почти шестьсот) по разным предметным направлениям. Мы выбрали секции, посвященные раскрытию данных, доказательной политике и causal inference:

7 января

🔶 Economists Can Influence Policy Decision Makers: Extracting More Meaning from Your Research: академические экономисты про собственный опыт влияния на решения, которые принимают политики

🔶 Machine Learning Methods for Heterogeneous Treatment Effects: машинное обучение для оценки гетерогенных эффектов воздействия (среди спикеров — Виктор Черножуков)

🔶 Using Matched Data to Address Policy Questions: связанные административные данные позволяют отвечать на важные вопросы исследователям по всему миру. Об этом и пойдет речь на секции с примерами на конкретных кейсах.

🔶 Increased Access to Administrative Data for Policy Research: Its Value and How We Get There: в январе 2019 года в США был подписан «Закон об основах доказательной политики» и создан Консультативный комитет по данным для сбора доказательств. В дискуссии с участием членов Комитета и академических исследователей будут обсуждаться необходимые шаги по повышению доступности административных данных, а также вызовы, с которыми сталкиваются ведомства, раскрывающие данные.

9 января

🔶 Econometrics and Data in the 21st Century: Reproducibility and Transparency versus Privacy and Confidentiality: про воспроизводимость и прозрачность результатов исследований на фоне необходимости защиты приватности и конфиденциальности. Среди спикеров — Радж Четти и Джон Фридман из Opportunity Insights, будет затронута тема модной дифференциальной приватности.

🔶 Advances in Difference-in-Differences: три статьи про последние достижения в классическом методе оценки. Особенно внимание — докладу Clement de Chaisemartin и Xavier D'Haultfoeuille (не рискуем переводить имена). Авторы, по сути, расскажут обо всем, что было написано и сделано за последние пару лет в части оценок гетерогенных эффектов воздействия с помощью моделей с фиксированными эффектами.

🔶 From Micro Data to Public Policy: четыре прикладных исследования, которые используют микроданные, чтобы отвечать на важные вопросы государственной политики в разных областях: от поддержки безработных до мобильности.
👍1
Forwarded from Reliable ML
Итоги года в Causal Inference за 2021 г.

Сначала поговорим обобщенно, а затем детальнее раскроем наиболее интересные пункты. В начале года на youtube канале ods.ai будет опубликовано видео с Data Елки 2021 с подробным рассказом об итогах года. Пока видео вместе с другими итогами года можно найти в полном видео трансляции с Data Елки.

В целом, итоги года в CI можно представить в двух больших разделах - теоретическом и прикладном.

Теория

- Закрепление высокой актуальности темы в ML. Нобелевская премия по экономике была выдана за развитие методов CI, крупнейшие конференции по ML провели воркшопы (NeurIPS, ICML) по вопросам CI для ML. Causal Data Science Meeting, направленный на коллаборацию экспертов-теоретиков в области CI с практиками из бизнеса, экспериментально проведенный в 2020 г., стал крупным движением с ежегодной конференцией.

- Знаковая статья Judea Pearl о роли CI для ML. Radical empiricism and machine learning research, опубликованная в Journal of Causal Inference, где автор определяет data science как объединение дисциплины машинного обучения как школы радикального эмпиризма (когда только данные генерируют модель реальности) и эконометрики как школы интерпретации данных (когда модель процессов/реальности генерирует данные). Методы CI в данном случае выступают ключом к балансу эмпиризма и интерпретируемости в DS.

- Interpretable & Causal ML Track – Data Fest Online 2021. На ежегодном Data Fest провели уже в третий раз трек по вопросам Reliable ML.

- Появление качественных общедоступных материалов по CI, включая как открытые русскоязычные курсы по теории CI, так и материалы по применению методов на Python. Напишем позже отдельный пост.

- Развитие концепции Reliable ML как объединения концепций интерпретируемости моделей и методов причинно-следственного анализа для целей усиления применимости ML моделей. Для этого создали данный tg канал + все еще надеемся сделать курс в 2022 г. (при помощи сообщества).

Практика

- Больше практических кейсов в России. Все больще практических примеров применения CI методов в бизнес-задачах разных компаний в РФ. Позже будет отдельный пост.

- Рост запроса бизнеса на управление рисками в ML проектах, где основа – causal inference методы. АБ-тестирование и контрфактический анализ - основа для корректной оценки эффективности пилотов по инвестиционным инициативам в бизнесе, а значит, и ключ к оптимизации управления инвестициями. Этот взгляд в 2021 г. (по наблюдениям авторов и по содержанию докладов конференций) стало разделять заметно больше компаний, чем ранее.
👍1
Forwarded from Рюмочная ИПП
Отгремели новогодние праздники и ИПП возвращается в рабочий режим. И сразу с отличными новостями. В журнале Applied Economics Letters на днях вышла публикация наших сотрудников Дмитрия Скугаревского и Руслана Кучакова. В ней анализируются меры господдержки малых и средних предприятий в условиях пандемии COVID-19 в России. Авторы сопоставили данные о доходах/расходах и численности сотрудников организаций с реестром предприятий, получивших поддержку в 2020 году. В итоге они не смогли обнаружить значимого позитивного эффекта от проводимой политики ни для сохранения рабочих мест, ни для доходов организаций. Наиболее вероятным объяснением является ошибочная стратегия выбора целей государственной поддержки.


Мы уже в свое время писали аналитическую записку об ограничениях подхода к выбору организаций, пострадавших от пандемии и имеющих право на поддержку. Краткая история вопроса. В апреле 2020 года правительство утвердило перечень из наиболее пострадавших отраслей экономики. Базой для поиска пострадавших стали основные коды ОКВЭД, указываемые при регистрации организаций. Только организация с кодом ОКВЭД, включенным в перечень, получила право на участие в программах господдержки. Но это оказался не самый удачный вариант решения сложной задачи сохранения рабочих мест. Как результат, только за 2020 год правительству пришлось 7 раз расширять перечень пострадавших отраслей.

Почему так получилось – читайте подробнее на английском статью и на русском аналитическую записку по ссылкам выше.
👍4🔥2

Байесовские методы широко используются в современной статистике, эконометрике и машинном обучении. Многие подходы в теории принятия решений тоже основаны на байесовской логике. Кстати, советуем познакомиться со статьей Альберто Абади про статистическую значимость в прикладной экономике («Statistical Nonsignificance in Empirical Economics»). В ней он, опираясь на байесовскую аргументацию, объясняет, почему статистическая значимость оценок (те самые звездочки ***) для управленцев, принимающих решения, не должна играть слишком большую роль.

А если хотите разобраться в байесовской статистике, рекомендуем отличный учебник Computer Age Statistical Inference от Брэдли Эфрона и Тревора Хасти.
👍12
🏺 Для тех, кто хочет начать разбираться в анализе причинно-следственных связей: в открытом репозитории github доступны материалы вводного курса Скотта Каннингема по Causal Inference. Курс пока что идет, поэтому сейчас есть материалы по трем темам: основы анализа причинно-следственных связей, разрывный дизайн, инструментальные переменные.
🤩4🔥3👍1
🎉 В каталоге платформы ИНИД появился обновлённый датасет с муниципальной статистикой за 2006 — 2020 годы. Его можно использовать отдельно или, например, совмещать с выборочными обследованиями, как в исследовании, о котором мы писали раньше.
Forwarded from Платформа ИНИД
Мы обновили датасет по муниципальным образованиям России!

Теперь в наборе все доступные показатели по всем типам муниципальных образований за 2006—2020 годы.
200+ млн наблюдений!

+ добавили рубрикатор: данные разбиты на 26 таблиц (рубрик). Одна таблица — одна группа показателей.

Это бета-версия, и мы очень хотим получить обратную связь. Присылайте ваши комментарии про удобство пользования и корректность данных сюда: ask@data-in.ru
🔥4
Forwarded from NoML Digest (Pavel Snurnitsyn)
По следам вчерашнего обсуждения А/Б тестов публикуем еще немного материалов про анализ причинно-следственных связей (и снова спасибо Наталье Тогановой @nataliatoganova за подборку!).

Книги он-лайн
📚 Causal Inference: The Mixtape от Scott Cunningham - есть примеры кода на R и Python.
📚 Causal Inference for The Brave and True By Matheus Facure Alves. Название говорит само за себя. Еще там прекрасные мемасики и код на Python.
📚 Causal Inference: What If by Hernán MA, Robins JM. Книга без кода, но очень доступно написана.

Курсы
💻 Scott Cunningham, про чью книжку упоминали, читает курсы, на которые можно записаться. Читает очень хорошо, очень интересно - но очень поздно по Москве, начинается в пять-шесть вечера, а заканчивается ближе к двум-трем ночи.
💻 Causal Diagrams: Draw Your Assumptions Before Your Conclusions - этот курс записан отчасти по книге Causal Inference: What If и читает его один из авторов - МА Hernán. Основывается он также на работах Джуда Перла. Чем хорош курс: во-первых, объясняет на простых примерах как использовать даги в анализе; во-вторых, там рассказывается о прекрасных медицинских кейсах, когда совершались ошибки в анализе.
💻 Трек Causal Inference in ML на ODS. На русском довольно мало материалов, поэтому маст-вотч!
💻 Курс Архангельского Д. Intro into Panel Data Methods, прочитанный в МГУ в 2020 году. Ссылка на первую лекцию.

На закуску
🙈🙈🙈 Статья с подробными рекомендациями, как завалить любого потенциального аналитика на собеседовании вопросами про АБ тесты Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations . В ней 25 расхожих утверждений об А/Б тестах, с объяснениями почему они не верны.
🔥5👍2