доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Семинар по Causal Inference

🔸 24 марта (пятница) в 20:00 МСК — на Chamberlain Seminar 🗣 Claudia Noack (Oxford) расскажет про «Flexible Covariate Adjustments in Regression Discontinuity Designs»‎.

Зарегистрироваться на семинар можно по ссылке.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
4👍1
Наиболее подробный (хотя не уверены, что полный) список пакетов R для статистического причинно-следственного вывода (англ. Causal Inference), причем с делением на тематические разделы и даже краткими комментариями, что к чему и почему. Тысяча чертей, технологическая сингулярность наступила - пока выучишь имеющиеся сейчас, в R появится раза в четыре больше новых. Это тем не менее не повод сдаваться.
#rstats #сausal_inference

https://cran.r-project.org/web/views/CausalInference.html
👍9
Микроданные от Банка России (да еще и панельные)

🧳 Неожиданная новость по нынешним временам. Банк России выложил в открытый доступ микроданные сразу пяти волн обследования домохозяйств по потребительским финансам. Обследование включает вопросы про доходы и расходы домохозяйств, использование финансовых инструментов, ожидания, оценивает уровень финансовой грамотности. Тут обзорная преза про обследование. Из основного:

• всего проведено пять волн (2013, 2015, 2018, 2020, 2022)
• за полевую часть сейчас отвечает ООО«Демоскоп» (тот самый, который проводит РМЭЗ ВШЭ)
• в обследовании есть панельная составляющая (используется сплит-модель, чтобы в рамках одной волны сохранять репрезентативность, подробная методология описана здесь)
• опрос проводится в 38 населенных пунктах
• есть индивидуальный вопросник и вопросник для домохозяйств

@evidencespace
🔥19👍31
Forwarded from Reliable ML
Секция Reliable ML на Data Fest Online 2023
Call for Papers

Друзья, рады сообщить вам, что крупнейшая русскоязычная конференция по Data Science - Data Fest от сообщества Open Data Science состоится и в 2023 г. (в конце мая).

И на ней снова будет секция от Reliable ML. Ждем ваших заявок на доклады: пишите напрямую мне или Диме.

Про секцию

Концепция Reliable ML – это о том, что делать, чтобы результат работы data команд был, во-первых, применим в бизнес-процессах компании-заказчика, а, во-вторых, приносил этой компании пользу.

Для этого нужно уметь:

- правильно собрать портфель проектов (#business)
- продумать дизайн системы каждого проекта (#ml_system_design)
- преодолеть разные трудности при разработке прототипа (#tech #causal_inference #metrics)
- объяснить бизнесу, что ваш MVP заслуживает пилота (#interpretable_ml)
- провести пилот (#causal_inference #ab_testing)
- внедрить ваше решение в бизнес-процессы (#tech #mlops #business)
- настроить мониторинг решения в проде (#tech #mlops)

Если вам есть, что сказать по темам выше, пишите! Если сомневаетесь, все-равно пишите. Много крутейших докладов предыдущих треков Reliable ML появились в результате дискуссии и совместной работы над темой.

Если вы не готовы делать доклад, но послушать интересного хочется, то вы всё ещё можете помочь! Сделать репост в релевантное сообщество/переслать другу = поучаствовать в создании хорошего контента.

Регистрация и полная инфо про Data Fest 2023 тут.

Ваш @Reliable ML
В полку годных и к тому же (что немаловажно) находящихся в открытом доступе учебников по базовой статистике прибыло. Мэттью Блэквелл из Гарварда вчера выложил на GitHub сборник своих лекций. Круто, системно (хотя и не совсем на пальцах) и просто кросивое. Ссылка в первом комментарии.

https://mattblackwell.github.io/gov2002-book/

#stats #datascience #quantmethods #textbooks
14
5 курсов по анализу причинно-следственных связей от Mixtape Sessions

В апреле-мае Mixtape Sessions проводит целую серию воркшопов и курсов по Causal Inference:

Advanced DID (21 апреля, 👨🏼‍🏫 Jonathan Roth)
Synthetic Control and Clustering (27 апреля, 👨🏻‍🏫 Alberto Abadie)
Doing Applied Research (4 мая, 👨🏼‍🏫 Daniel Rees, 👨🏼‍🏫 Mark Anderson)
Machine Learning and Heterogeneous Effects (15 мая, 👨🏼‍🏫 Brigham Frandsen)
Regression Discontinuity Design (17 мая, 👩🏼‍🏫 Rocío Titunik)

Курсы платные, но есть возможность получить промокод на большую скидку, мы проверяли.

👉 Подписаться на @evidencespace
3🔥2
доказательный ⎵ пробел
5 курсов по анализу причинно-следственных связей от Mixtape Sessions В апреле-мае Mixtape Sessions проводит целую серию воркшопов и курсов по Causal Inference: • Advanced DID (21 апреля, 👨🏼‍🏫 Jonathan Roth) • Synthetic Control and Clustering (27 апреля,…
💥 Если запросите скидку на один из курсов, и пройдёте по условиям (students, postdocs, predocs and residents of middle-income countries), то вам пришлют промокоды ещё и на три других курса (на все кроме Doing Applied Research ). 50💲, к слову, специальная цена одного курса.
3
👇 Презентации с воркшопа по методу синтетического контроля и кластеризации стандартных ошибок Alberto Abadie. А для старта можно посмотреть седьмую лекцию межфакультетского курса Экономического факультета МГУ.
5
Семинар по Causal Inference

🔸 5 мая (пятница) в 20:00 МСК — на Chamberlain Seminar 🗣 Francesca Molinari (Cornell) и 🗣 Elie Tamer (Harvard) расскажут про подходы к частичной идентификации параметров.

В этом классе методов исследователь ослабляет предпосылки по поводу процесса генерации данных из генеральной совокупности, повышает достоверность анализа (не накладываем слишком жесткие ограничения, которые тяжело проверить), но платит за это невозможностью получить точечные оценки параметров.

Зарегистрироваться на семинар можно по ссылке.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍3
Голландский психолог 🗣 Daniel Lakens (Eindhoven University of Technology) опубликовал учебное пособие Improving Your Statistical Inference. В нём он обсуждает вопросы, которые обычно остаются за рамками стандартных курсов по статистике или количественным методам.

Есть главы про интерпретацию p-value, контроль ошибок, постановку статистических вопросов, доверительные интервалы, байесовский подход и воспроизводимость исследований. Daniel рассказывает не столько про техническую сторону методов, сколько про их интуицию.

Безусловный плюс пособия — интерактивные примеры. Посмотрите, например, на shiny-симулятор t-теста. Меняем альфу, размеры выборок и предполагаемого эффекта, и смотрим, как ведут себя p-value и мощность.

Пробежаться по тексту будет полезно, как исследователям, так и аналитикам, которые занимаются A/B-тестированием.

P.S. Еще Daniel не так давно запустил подкаст о научном познании Nullius in Verba. Он тоже прекрасен.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
🔥11👍1
Все преимущества доступа исследователей к административным микроданным — в колонке профессора Российской экономической школы Евгения Яковлева по мотивам Медали Кларка 2023 года. Ну и к Панамским архивам заодно 👀
🤔3👍1😢1
Семинар по Causal Inference

🔸 19 мая (пятница) в 20:00 МСК — на Chamberlain Seminar 🗣 Kate Ho (Princeton) и 🗣 Eduardo Morales (Princeton) представят практическое руководство по частичной идентификации параметров. Это продолжение первой теоретической части.

Зарегистрироваться на семинар можно по ссылке. А записи всех прошедших семинаров можно смотреть тут.

👉 Подписаться на доказательный ⎵ пробел: @evidencespace
👍2
Evidential Pluralism

Вопрос о причинности — ключевой в социальных науках. Он же переносится в практическое поле при реализации политических курсов (policymaking). Снижает ли программа поддержки сельских школ неравенство образовательных возможностей? Влияет ли единый государственный экзамен на доступность высшего образования?

Чтобы причинность (causal claim) считать установленной, нужны основания. Апологеты доказательного подхода (evidence-based policy making) развертывают иерархию доказательств с результатами контролируемых рандомизированных экспериментов на самой вершине. Еще лучше, если в этих экспериментах получаются одни и те же результаты в разных контекстах. Но что и как мы доказываем, когда постулируем наличие причинности? И всегда ли именно количественная оценка эффекта — главное?
👍7
Философы 🗣 Джон Уильямсон и 🗣 Яфэн Шан из Кентского университета в книге Evidential Pluralism in the Social Sciences пишут про эпистемологическую теорию Evidential Pluralism (такая доказательная политика следующего поколения). Они выделяют:

• два объекта доказательства (object pluralism):
наличие корреляции (вероятностной связи) между предполагаемой причиной и предполагаемым эффектом с учетом влияния третьих факторов
наличие комплексного механизма (mechanism complex), посредством которого предполагаемая причина приводит к предполагаемому эффекту

• два типа исследований (study pluralism):
исследования ассоциаций (association studies), цель которых — подтвердить наличие вероятностной связи между причиной и эффектом (с учетом влияния третьих факторов), а также оценить степень этой связи
исследования механизмов (mechanistic studies), цель которых — пролить свет на конкретные элементы связи между причиной и эффектом

В каждом из типов исследований могут использовать как количественные, так и качественные методы (коллеги-качественники, вам большой привет💚) — исследовательский плюрализм не тождественен методическому плюрализму (хотя в четвертой главе авторы предлагают использовать теорию Evidential Pluralism в качестве философского основания применения смешанных методов в социальных исследованиях).

В третьей части авторы разбирают кейсы из социологии, экономики, политологии и права, но они не всегда очевидные и самые яркие. Авторам как будто не хватает погружения в конкретные области. История The New Yorker об экспериментальной программе по борьбе с безработицей в австрийской деревушке Граматнойзидль более показательна 🧑🏻‍🌾🏡.

@evidencespace
🔥42
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
ФНС России опубликовала API для получения сведений из Государственного адресного реестра и статистику по 16 тысячам муниципалитетов

Очень приятно, что появляются новые открытые данные, и на этот раз порадовала ФНС России, которая значительно обновила портал Федеральной информационной адресной системы.

На портале расширили функциональные возможности, обновили дизайн, модернизировали поиск (теперь можно искать по частям адреса, индексам и различным классификаторам), и, самое главное, добавили API.

На данный момент ФНС России предоставляет всем желающим возможность получить данные (а именно 36 Гб) в том виде, в котором им удобно:

- дампы (bulk data) - возможность скачать архив целиком. Тот вид предоставления данных, которого мы очень ждем от Минфина России и Комитета информатизации Санкт-Петербурга. При скачивании дампов доступна версионность до сентября 2022. Конечно, хотелось бы скачивать и более разные версии.
- API для разработчиков с документацией в Swagger
- СМЭВ.

Помимо этого разработчикам доступно руководство пользователя API-сервисов (с примерами) и возможность напрямую отправить запросы в техподдержку. Хотела написать, что доступны и условия использования открытых сервисов, но ссылка на них выдает ошибку 404 (думаю, быстро это пофиксят).

На сайте доступна и статистика о количестве адресных объектов: количество муниципальных образований, населенных пунктов, элементов планировочной структуры, улично-дорожной сети, земельных участков, зданий (строений), помещений в пределах здания и помещений в пределах помещений. В веб-интерфейсе указаны текущие значения (но, не указана дата, на которую они выгружены) и динамика за неделю.

Удивительно, но эти данные доступны и в формате открытых данных с детализацией до муниципального образования. Для 16 тысяч муниципалитетов доступны данные по количеству земельных участков, зданий, помещений, машино-мест и пр.

Вот бы и по ЕГРЮЛу так!

fias.nalog.ru

#фнсроссии #открытыеданные #фиас #api #открытость
👍12
marginaleffects

Вышла новая книга по библиотеке marginaleffects 📦 для оценки предельных эффектов и прогнозирования, которая содержит 25 глав, полных руководств, тематических исследований и технических примечаний. Библиотека позволяет работать с более 80 классами статистических моделей.
🎉8🔥3
Канал, канал, учебник

Предыдущий пост — тизер.

👉 Евгений Матёров, который работает в Сибирской пожарно-спасательной академии, запустил свой телеграм-канал про анализ данных и язык R. С Евгением я познакомился пару лет назад, когда, работая с данными по лесным пожарам, случайно наткнулся на его блог. Обычно блоги такого уровня встречаются в академическом твиттере. Правда, в биографии Евгения есть работа в Max-Planck-Institut, University of Massachusetts и Freie Universität Berlin. Если вы используете в своей работе R, то на канал стоит подписаться — Евгений следит за актуальными новостями, пишет про новые библиотеки и мероприятия.

👉 Еще один «региональный» исследовательский канал, за которым слежу, — канал Татьяны Черкашиной из Новосибирска. В нём много про обследования, переписи и архивные данные. Этими источниками пользуются многие исследователи, но про них, как правило, не пишут в сообществах по открытым данным.

📖 И, наконец, учебник. Вчера Академия Яндекса и Европейский университет в Санкт-Петербурге опубликовали хендбук «Прикладной анализ данных в социальных науках». Это учебник совсем для начинающих. Если не знаете, с какой стороны подступиться к статистике и анализу данных, то открывайте его. Авторы бережно и постепенно рассказывают про основные концепции. А параллельно учат писать код на питоне.

👉 Подписаться на доказательный ⎵ пробел: @evidencespace
🔥10👍5
Счетная палата проводит конкурс для молодых исследователей по применению доказательного подхода в оценке. Не то, чтобы у этого подхода есть сейчас перспективы, но учиться хорошим методам всегда вовремя. Еще у Счетки есть классная страничка про доказательный подход с хорошими спикерами.

В конкурсе будет две номинации:
▫️«анализ реализации» – проекты, направленные на выявление проблем в процессах реализации программ, разработку механизмов повышения их эффективности;
▫️«оценка влияния» – проекты, направленные на оценку достижения результатов программ.

Участвовать можно с индивидуальным проектом или командой до 3 человек. Заявку можно подать до 18 августа включительно.

📌 Подробнее о конкурсе и условиях участия можно узнать на странице конкурса.

@evidencespace
👍81