доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Когда ваши сыновья заинтересовались политикой?

«Олег никогда не интересовался — вплоть до того, как начались все эти уголовные дела. А Алешка — мне кажется, когда мы с ним программу «ВИД» вместе стали смотреть. Он музыкой стал интересоваться: у нас вся квартира оказалась обклеена плакатами (группы) ДДТ. А в программе «ВИД» сначала все было про политику, а потом про музыку — вот Алеша со мной и смотрел — ждал музыки».

Светлая память Алексею Навальному.
😢31👎4
В этом году на «Летней Школе» снова заработает мастерская Дата-журналистики. Ее организует издание «Системный Блокъ». До этого мастерская проводилась в 2019 году — 5 лет назад

В этом году своими знаниями и данными вместе с журналистами Системного Блока поделятся ребята из «Если быть точным» @tochno_st, «Лаборатории университетской прозрачности» @uni_loup, Яндекс-исследований, Инфокультуры, Т-Ж, центра научной коммуникаций ИТМО, института Общей генетики РАН и не только.

В общем, если вы любите сосны и исследования, то можно отлично провести время в июле-августе на «Летней школе» на берегу Волги. В палатке.

Подать заявку на участие можно на странице мастерской (https://letnyayashkola.org/data-jour/) до 20 мая.

🎓Кому будет интересно?

Журналистам, дата-журналистам, студентам и выпускникам медийных и других гуманитарных специальностей, а также программистам, аналитикам данных и визуализаторам, кто готов попробовать себя в новой сфере.

✍🏼 Что будет?

Сначала лекции, а потом практика. Программа состоит из образовательной и проектной части.

В образовательной части мастерской участники узнают, каким данным можно верить и какими источниками пользоваться, как сделать материал интересным, какие бывают виды графиков и как визуализировать данные.

В проектной части вас ждет хакатон: 10 редакций пройдут полный цикл создания медиаматериала на базе подготовленных датасетов. Каждая команда завершит мастерскую с публикацией своего исследования в “Системном Блоке” или у партнеров.

📍Когда и где?

Даты проведения: с 21 июля по 5 августа 2024 года на Волге недалеко от Дубны.
4👨‍💻4🔥2
Роструд раскрыл детальные данные о зарплатах и трудоустройстве выпускников 6,5 тысячи образовательных организаций

Роструд опубликовал результаты Мониторинга трудоустройства выпускников. Это набор данных о доле трудоустроенных выпускников из 6,5 тысячи образовательных организаций и средней зарплате в разрезе 500 специальностей за 2019-2023 годы.

Что можно узнать:

🔺Выпускникам каких образовательных организаций и специальностей на старте карьеры платят больше всего (с разбивкой по регионам и федеральным округам).

🔺Соотношение мужчин и женщин среди выпускников по специальностям в регионах страны.

🔺Разрыв в доле трудоустроенных между женщинами и мужчинами и выпускниками отдельных специальностей.

🔺Разрыв в средних зарплатах между женщинами и мужчинами, выпускниками бакалавриата и магистратуры или отдельных направлений.

Предостережение: интерпретировать данные стоит осторожно, поскольку мониторинг собирает их из информационных систем разных ведомств. Например, средняя зарплата рассчитывается по данным о социальных взносах работодателей, поэтому учитываются только официальные выплаты.

⚫️Если у вас есть вопросы по работе с данными или пожелания по новым наборам для каталога — напишите в чат. Мы постараемся ответить как можно раньше.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉8👍5🔥2
Зачем нужны «бандиты» в госуправлении, как истории про динозавров и кошек связаны с дизайнами экспериментов, а также как не просто оценивать политику, но и эффективно определять ее целевых реципиентов? Об этом и не только вы сможете узнать из прекрасных семейных лекций Сьюзан Эйти и лауреата нобелевской премии по экономике Гвидо Имбенса, которыми нас порадовали последние июльские дни летней школы NBER. Материал очень насыщенный и посвящён передовым экспериментальным методам, которые рассматриваются в качестве инструментов оценки и реализации различного рода политик. Сьюзан Эйти и Гвидо Имбенс показывают как уже успешно применяемые в коммерческом секторе экспериментальные методы можно транспонировать в оценку policy.

🏃🏻‍♀️ «Analysis and Design of Multi-Armed Bandit Experiments and Policy Learning» by Susan Athey
🏃 «Interference and Spillovers in Randomized Experiments» by Guido Imbens

PS: из лекций узнали о существовании github Сьюзан Эйти, она давно ничего не коммитила, но там есть полезные библиотеки для R.

Другие стримы с летней школы NBER

@evidencespace
18👍3👎1
Для всех тех, кто успел посмотреть лекции по экспериментам, выкладываем ссылку на бесплатную книгу по байесовскому анализу данных от Эндрю Гельмана. Книга с историей и, возможно, кто-то, безусловно, знает о ее существовании, но в нашем канале мы ее еще не выкладывали. Поэтому вот: Bayesian Data Analysis. К книге есть отдельный курс. Здесь всё, как вы любите: интерактивный формат, отдельный стэк лекций на aalto, репозитории с кодом на R и python, датасеты, а также задачи для самостоятельного решения. Читаем, смотрим, пишем код, проверяем себя - мы прекрасны! )

@evidencespace
🔥175
〽️ CausalPy - набор библиотек для причинно-следственного анализа на python от проекта PyData Global. Преимущество библиотеки: основные модели causal inference под капотом (Synthetic Control, DiD, RDD и другие), понятное визуальное представление результатов работы моделей. Вики содержит примеры имплементации библиотек. Здесь можно посмотреть пример использования библиотек CausalPy на одном из известных кейсов реализации политики ограничения курения в Калифорнии и ее влияния на продажи сигарет: генерация синтетической Калифорнии с использованием Марковских цепей Монте-Карло никогда не была такой простой 📊.

Также библиотеки, о которых писали ранее:
✔️ DoWhy: особенной функцией является возможность составление направленных ациклических графов, на домашней странице проекта найдете много примеров использования библиотеки на данных (в том числе оценки государственной политики, например, пенсионной).
✔️ EconML: одна из наиболее полных эконометрических библиотек (домашняя страница).
✔️ HypEx: о ней еще не писали, но у нее узкий профиль с фокусом на мэтчинг.

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥146👨‍💻5
Не удержались)

@evidencespace
😁232👍1🥰1🤩1
Ранее мы уже рассказывали про развитие микросимуляционных моделей с открытым кодом, позволяющих моделировать эффекты от реформ в налоговом администрировании. Такие модели получают развитие, и вслед за Policy Simulation Library (PSL), которая - с последнего нашего упоминания о ней - заапгредилась в части новых библиотек (появились модели оценки поведенческих факторов населения при изменении подоходного налога, макроэкономические оценки общего равновесия, новые python-библиотеки Tax-Brain) к PSL подключился новый проект PolicyEngine, который использует репрезентативные микроданные опросов домохозяйств (US, UK) и позволяет пользователям моделировать системы налогообложения и льгот в США и Великобритании, предоставляя в том числе low-code платформы (подробнее на странице youtube проекта), которые дают возможность разрабатывать индивидуальные реформы налоговых льгот и видеть, как они влияют на население (бюджет домохозяйств, уровень бедности и неравенство).

Проекты, аналогичные PSL, кратно повышают ценность микроданных выборочных опросов населения, позволяя видеть потенциальные эффекты от планируемых реформ, повышая открытость данных и популяризируя культуру доказательной политики. К сожалению, на сегодняшний день такие решения на данных выборочных обследований Росстата имплементированы только в нескольких российских вузах, не являясь при этом открытыми. Зачастую эти решения выступают инструментами монополии на определенного рода экспертизу конкретного вуза. Отсутствует open-source площадка, где научные школы могли бы развивать подходы к микросимулированию налоговых (и не только) реформ в стране. Такая площадка могла бы стать хорошим проектом для организаций из научной отечественной институциональной среды. А солидарность исследовательских школ к подходам, порядку и механикам расчетов микросимуляционных моделей могла бы лечь в основу стандартов оценки реформ на уровне реализации госполитики. «Так поставим перед собою цель — высшее благо, чтобы стремиться к ней изо всех сил и иметь ее в виду в каждом деле, в каждом слове» )

@evidencespace
👍8
На сайтах хранится очень много данных — и часть из них не видна пользователям. Рассказываем, как найти труднодоступную информацию

В 2019 году журналисты и исследователи из США обнаружили, что «умные» дверные звонки со встроенными камерами используются правоохранителями. Сеть таких устройств слежки постоянно растет, охватывая всю страну.

Сеть была раскрыта через данные приложения Ring Neighbors, в котором владельцы «умных» звонков делились с соседями видео- и текстовыми сообщениями об обстановке в районе. Помог им в этом недокументированный API — и другого способа получить такие данные не было.

Дело в том, что информация с любого сайта выводится на экран пользователя через интерфейсы. Один из них — API, своего рода цифровая бюрократия. Отправляете шаблонный запрос и получаете ответ в понятном и заранее определенном формате. Часто API создаются в технических целях и инструкций, как ими пользоваться, разработчики не оставляют — их называют «недокументированными». Если научиться их находить, то можно сильно упростить выгрузку данных, а иногда — даже скачать больше данных, чем видно.

Через недокументированный API Росприроднадзора мы нашли, кто отвечает за выбросы самых опасных веществ от промышленных объектов в России. Правда, через несколько месяцев после публикации ведомство удалило API, а совсем недавно закрыло и весь реестр.

⚫️О том, как без специальных навыков выгрузить много данных, читайте в новой инструкции «Если быть точным». В качестве примера — финансовая отчетность компаний от ФНС.
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍4🔥4👏1🤔1
🌍 Evaluation matters - оценка имеет значение, - с таких слов начинается саммари к новому изданию Evaluation handbook от International Partnerships. Новое издание было опубликовано пару дней назад, вбирает в себя и систематизирует почти 20-летний опыт в международной оценке - достойный труд. Представлены конкретные инструменты планирования и реализации оценки на всех этапах проектов и программ (от планирования до реализации и ex-post оценки). Подробно описаны и разобраны шесть этапов оценки:

1. Подготовительный этап, предполагающий формирование предмета оценки и организацию команды на основе проектных принципов (несколько блоков книги посвящены команде, ее компетенциям и порядкам взаимодействия).
2. Начальный этап, итогом которого являются уточненные вопросы оценки, матрица оценки (посвящен отдельный раздел) и методология оценки.
3. Промежуточный этап, включающий сбор и анализ данных, в том числе кабинетные и полевые исследования.
4. Этап синтеза полученных доказательств - формирование основных выводов и уроков в формате кейсов.
5. Этап распространения до заинтересованных лиц, принимающих решения.
6. Этап обратной связи, обеспечивающий наблюдение и контроль за выполнением субъектами, ответственными за принятие решений, рекомендаций оценки.

Отдельное внимание уделено методам и принципам оценки. В каждом разделе описаны требования к качеству результатов, прилагаются чек-листы. В свою очередь, бегло изучив документ, можно отметить, что вопросы качества самих доказательств во многом остаются открытыми. Безусловно будем возвращаться к этой теме в нашем канале: на сегодня есть много подходов к валидации доказательств при принятии решений на основе результатов оценки.

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍6
🔥Это лето очень богато на публикации материалов по casual inference и оценке. Рады сообщить о новом издании CasualML-Book от Виктора Черножукова (MIT): Applied Causal Inference Powered by ML and AI.

«Эта книга, основанная как на традиционной эконометрической теории, так и на современных методах машинного обучения, обязательна к прочтению специалистам по прикладной эконометрике любого возраста с любым бэкграундом!»

Джошуа Ангрист, лауреат премии по экономике памяти Нобеля «за методологический вклад в анализ причинно-следственных связей»


⚡️ Самое вкусное, что этот фундаментальный труд упакован в отдельный бесплатный общедоступный курс CasualML-Book. Теория интегрируется с практикой: главы книги разбиты на модули с детальным разбором практических кейсов в Google Colab (R и python). Большое внимание уделяется Double ML, что не удивительно, поскольку это авторская разработка Виктора Черножукова. Разделите эту радостную новость вместе с нами.

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
18🔥12😱2🤩1
Forwarded from Polina Okuneva
Всем привет!
На майской конференции МТС у меня было выступление с докладом про Causal Inference (причинно-следственный анализ) по мотивам проекта, который мы реализовывали вместе с командой.
На примере оценки эффекта от нетаргетированной кампании рассказываю про этапы в работе по оценке эффекта от нетаргетированного предложения.
Этапы:
- построение причинно-следственного графа
- определение корректного набора переменных для оценки эффекта
- непосредственно оценка эффекта

Делюсь ссылкой. Будем рады вопросам😉

https://www.youtube.com/watch?v=oyQsIx-JjAU
7
В 2021 году в свет вышла книга профессора ЦЕУ Габора Бекеша и профессора Мичиганского университета Габора Кезди «Анализ данных для бизнеса, экономики и госуправления», опубликованная Cambridge University Press. Основным преимуществом книги является ее развитие от простого к сложному, а также большое количество прикладных кейсов, на примере которых рассматриваются процессы постановки исследовательской задачи, сбора и обработки данных, выбора и применения методов анализа с целью принятия решений.

В это же время появился интерактивный ресурс, посвященный изданию: https://gabors-data-analysis.com. В конце июля этого года ресурс обновился, предоставив в открытый доступ презентационные материалы по всем 24 разделам книги. Каждый кейс - мини-исследование. Например, разбираются следующие вопросы (возможно, какие-то из них будут отвечать вашим исследовательским интересам, и вы сможете реализовать описанные подходы на своих данных):
- как удаленная работа влияет на производительность труда;
- прогнозирование цен на жилье;
- как употребление овощей и фруктов влияет на здоровье;
- оценка гендерных и возрастных различий в доходах;
- как связаны продолжительность жизни и средний доход в стране;
- оценка портфеля акций и вероятности его убытков;
- оценка распределения доходов (как выбрать наилучшее распределение для аппроксимации результатов выборочных наблюдений)

🖥 Примеры кода на R, Stata и Python по кейсам можно найти здесь, примеры кода по другим разделам книги - здесь.

Однако полная книга доступна только за деньги. Но для наших читателей мы постарались (надеемся, что нас не закидают претензиями на авторское право🤫): pdf-копия - в аттаче. Знания должны быть доступными.

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
20👍9🔥7🥰2
#учебники #textbook #методы #methods #learning #Causal_Inference #CI

В преддверии стремительно (особенно для преподавателей) приближающейся летней школы ЛССИ по методам статистического причинно-следственного вывода (ака causal inference) публикуем небольшой список учебников и других образовательных ресурсов по теме, который читатели нашего канала могут найти для себя полезными.

Перечень, разумеется, далеко не полный: в этой области давно уже наступила технологическая текстовая сингулярность - пока прочитаешь один учебник, опубликуют ещё восемь. Представленные в списке источники отображают в первую очередь читательский опыт авторов курса, чьи память и свободное время ограничены и не позволяют объять необъятное. Поэтому не ругайтесь сильно, если мы упустили что-то интересное и важное - лучше просто напишите нам и поставьте в известность.

Итак, вот что мы рекомендуем:


Основные учебники

Cunningham, S. (2021). Causal Inference: The Mixtape. Yale University Press. Доступен в электронном виде: https://mixtape.scunning.com/index.html

Hernán M., and J.M. Robins. (2020). Causal Inference: What if. Boca Raton: Chapman & Hall/CRC. Обновленный вариант препринта доступен в электронном виде (и с примерами кода, причём не только в R!): https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/


Дополнительные учебники:

Ding, P. (2024). A first course in causal inference. CRC Press. Препринт доступен в электронном виде: https://arxiv.org/abs/2305.18793. Много примеров в R, которые позволяют понять механику соответствующих расчётов в терминах кода. Может быть сложновато для новичков, но зато идеально для тех, кто хочет понять, как статистический причинно-следственный вывод работает «под капотом» с программно-вычислительной точки зрения.

Morgan, S. L., & Winship, C. (2015). Counterfactuals and causal inference. Cambridge University Press. Используют много каузальных диаграмм (DAGs/НАГов). Однако и стандартную перспективу Рубина и др., а также классические дизайны эти авторы излагают неплохо.

Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge University Press. Самый математически нагруженный учебник из всех. Для тех, кто любит формулы и доказательства, а также готов разбираться с ними без соответствующего кода. Зато написан нобелиатом вместе с крёстным отцом всей дисциплины.

Angrist, J., and J. Pischke. (2008). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. Не баян, а Классика, но примерно гомеровских времён. База изложена понятно и достойно, хотя детали относительно конкретных методов во многом уже устарели.

Chernozhukov, V., Hansen, C., Kallus, N., Spindler, M., & Syrgkanis, V. (2024). Applied causal inference powered by ML and AI. Доступен в электронном виде (с примерами в Python и R): https://causalml-book.org/. Помимо классических тем (потенциальные исходы, стандартные обсервационные дизайны, НАГи) много внимания уделяется интеграции каузального вывода и методов машинного обучения с акцентом на сценарии с реально большими данными. Много математики, зато очень пригодится, если вы хотите решать по-настоящему сложные прикладные задачи. Также есть отличный сайт-компаньон, посвященный одному из семейств методов, рассматриваемых в книге: https://docs.doubleml.org/stable/

Deng, A. (2021). Causal Inference and Its Applications in Online Industry. Доступен в электронном виде: https://alexdeng.github.io/causal/. Это черновик, причём, насколько можно судить, заброшенный. Однако даёт хорошее представление о том, как с методами каузального вывода работают в онлайн-индустрии. Впрочем, будет полезен и для тех, кто планирует научную карьеру и интересуется онлайн-процессами и/или большими данными.
🔥102
Blair, G., Coppock, A., & Humphreys, M. (2023). Research design in the social sciences: declaration, diagnosis, and redesign. Princeton University Press. Доступен в электронном виде: https://book.declaredesign.org/. Это не про причинно-следственный вывод в чистом виде, а про ex ante количественную оценку сильных и слабых сторон исследовательского дизайна с помощью статистических экспериментов, но идеи и принципы, изложенные в этой книге, окажут вам неоценимую помощь при анализе каузальных вопросов на практике.

Pearl, J., Glymour, M., & Jewell, N. P. (2016). Causal inference in statistics: A primer. John Wiley & Sons. Хорошее нетехническое введение в теорию направленных ациклических диаграмм (НАГов), но (мнение первого автора курса, а также, например, лауреата премии Шве́дского национа́льного ба́нка по экономи́ческим нау́кам па́мяти А́льфреда Но́беля Гвидо Имбенса) не особо полезное с точки зрения решения прикладных задач в социальных науках/оценке эффективности. То же самое замечание можно в целом предъявить и другим учебникам Пёрла и соавторов, да и математики в них больше, а их доступных бесплатных pdf-версий в информационно-телекоммуникационной сети «Интернет» – меньше.

Еще более дополнительные учебники

Вот ещё несколько учебников, которые могут кому-то оказаться полезными и доступны онлайн. Однако доступные ресурсы памяти и свободного времени у авторов ограничены, поэтому подробные отзывы предоставить [пока] не можем. Так что ограничимся ссылками:

Huntington-Klein, N. (2021). The effect: An introduction to research design and causality. Chapman and Hall/CRC. Доступен в электронном виде (с примерами в R, Python и Stata): https://theeffectbook.net/.

Barrett, M., D’Agostino McGowan, L. (2024). Causal Inference in R. Черновик. Доступен в электронном виде: https://www.r-causal.org/.

Bauer, P. (2020). Applied Causal Analysis (with R). Черновик. Доступен в электронном виде: https://bookdown.org/paul/applied-causal-analysis/.

Chabe-Ferre, S. (2024). Statistical Tools for Causal Inference. Черновик. Доступен в электронном виде: https://chabefer.github.io/STCI/.

Brumback, B.A. (2021). Fundamentals of causal inference: With R. Chapman and Hall/CRC.


P.S. И вот ещё немного полезных ссылок на закуску:

- Материалы курса (для политологов) Мэттью Блэквелла, прочитанного в Гарварде в 2022 году: https://mattblackwell.github.io/gov2003-f21-site/.

- Материалы курса (для политологов) Сайруса Самии, прочитанного в Нью-Йоркском университете (NYU) в 2024 году: https://cyrussamii.com/?page_id=3893.

-Материалы курса (для экономистов) Кирилла Боруcяка, прочитанного в Беркли в 2023 году: https://github.com/borusyak/are213.

- Материалы курса (для политологов) Косуке Имаи, прочитанного в Гарварде (NYU) в 2021 году: https://imai.fas.harvard.edu/teaching/cause.html

- Список пакетов R, в той или иной сфере затрагивающих проблематику статистического причинно-следственного вывода: https://cran.r-project.org/web/views/CausalInference.html.

- Личная страница Джуды Пёрла на сайте UCLA: https://bayes.cs.ucla.edu/jp_home.html. А также его блог, в котором в том числе публикуются интересные обзоры на свежую литературу: https://causality.cs.ucla.edu/blog/.
5👍3🔥3