доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
AS OPEN AS POSSIBLE, AS CLOSED AS NECESSARY

Новый закон ЕС об управлении данными устанавливает рамку для повторного использования данных государства, компаний и граждан для создания публичных благ

16 мая Совет Европейского союза одобрил Закон ЕС об управлении данными (EU Data Governance Act). Он устанавливает принципы и правила повторного использования данных гос. органов, компаний и граждан в коммерческих и некоммерческих целях (в т.ч. исследовательских). До этого каждая страна ЕС придумывала свои инструменты раскрытия данных. Теперь все они подведены под одну рамку.

Отдельный акцент сделан на раскрытии данных для исследователей. Предполагается, что гос. органы будут внедрять практики управления данными, которые сделают процесс доступа исследователей к данным максимально прозрачным и простым в соответствии с принципом «as open as possible, as close as necessary».

Закон акцентируется на четырех типах данных:

• данные, составляющие коммерческую тайну
• данные, защищаемые принципами конфиденциальности первичной статистической информации
• данные, составляющие интеллектуальную собственность
персональные данные

Институционально закрепляются роли:

💱 дата-посредников (data intermediation services providers), которые помогают владельцам данных сделать их пригодными для использования третьими лицами, анонимизировать, а также развивают сервисы по доступу к данным (например, среды защищенного удаленного или физического доступа к чувствительным данным).

🏛 ответственных органов (competent bodies) на уровне государств-членов ЕС, которые помогают другим гос. органам предоставлять доступ к данным, в частности:

• осуществляют техническую поддержку по обеспечению доступа к данным в защищенных средах
• консультируют гос. органы по форматам хранения и структурирования данных
• помогают анонимизировать данные и проверять, что при раскрытии данных не нарушается конфиденциальность и другие требования
• помогают получать согласие других владельцев данных на объединение данных

📌 единых точек доступа (single information points) к информации о данных, которые собираются в информационных системах гос. органов и могут быть использованы третьими лицами, а также о правилах доступа к таким данным. Такие точки создаются в каждом государстве-члене ЕС, через них будут проходить все запросы по доступу к данным. Также создается общеевропейский электронный регистр доступных данных и правил доступа к ним.

Предполагается, что гос. органы смогут взимать плату с компаний за доступ к данным. Однако закон требует использование специальных условий (скидки или отсутствие платы) в случае, если запрос на доступ к данным поступил от некоммерческих организаций (в т.ч. научных), малого и среднего бизнеса, а также стартапов. Перечень категорий пользователей, которые смогут получить доступ к данным на льготных условиях, утверждается ответственными органами на уровне государств-членов ЕС и публикуется в открытом доступе.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍4🔥1
Forwarded from Reliable ML
Data Fest 3.0 - Reliable ML - 5 июня 2022 г. - Программа
Продолжаем анонсы

В 10:00 по Мск нашу секцию откроет Полина Окунева, ведущий аналитик Glowbyte, с докладом "Causal Inference. Advanced методы моделирования".

Полина расскажет об усовершенствованных методах моделирования причинно-следственного эффекта с опорой на библиотеки causalML и EconML : X-, R-, DR-learner, Domain Adaptation Learner, Doubly Robust Instrumental Variable learner, Tree-based algorithms (DDP, CTS). Рассмотрит основные плюсы и минусы методов и особенности их применения.
👍2🔥2
Исторический факультет Иркутского государственного университета в рамках Международного летнего университета на Байкале организует Вторую летнюю методологическую школу «Текст как данные: количественный и качественный анализ текстов в политических науках».

Это школа для тех, кто хочет научиться:

формировать дизайн научного исследования;
критически читать политические тексты и понимать скрытые в них смыслы;
применять современные методы анализа текстов в политической науке;
использовать в исследовательской работе современное ПО (Python, программная среда R, Dedoose).

К участию приглашаются студенты старших курсов, магистранты, аспиранты, молодые исследователи в области политических наук и смежных дисциплин.

📍Школа пройдет 7-13 августа в пос. Большие Коты, на побережье оз. Байкал.

Срок подачи заявок: до 3 июля 2022 года (включительно)

Подробная программа, условия участия и форма регистрации на сайте школы:
http://baikalmethodsschool.ru/
👍53
Наиболее цитируемые статьи по экспериментам

Ronny Kohavi составил список самых цитируемых статей по экспериментам и перечислил их в спредшите.

Все статьи отсортированы по цитированию, разделенному по годам с момента публикации

https://docs.google.com/spreadsheets/d/1PAWG7NWVEwAwwfrd9b-V5o5q4nB6i67N2ITrzyrIdP0/edit#gid=0
👍6
PyWhy вместо DoWhy

В апреле мы уже рассказывали о воркшопе Microsoft, посвященному открытым библиотекам DoWhy и EconML для анализа причинно-следственных связей.

В конце мая Microsoft передал библиотеку DoWhy для анализа причинно-следственных связей в независимую некоммерческую организацию PyWhy. К проекту присоединилась AWS, дополнившая функциональность инструмента своими разработками.

Подробнее об изменениях можно почитать в Microsoft Research Blog и посмотреть запись воркшопа, посвященного изменениям.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍6
Семинар по Causal Inference

🔸 Сегодня 14 июня (вторник) в 18:30 МСК — на Online Causal Inference Seminar выступит 🗣 AmirEmad Ghassami (Johns Hopkins University). Тема — «Combining Experimental and Observational Data for Identification and Estimation of Long-Term Causal Effects». В обсуждении примет участие 🗣 Guido Imbens. Подключиться можно по ссылке (пароль: 386638).

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
🔥3👍1
🧩 В этом интерактивном таймлайне собрано много важных статей по анализу причинно-следственных связей, методам машинного обучения и статистике. Начинается таймлайн с классической статьи 1923 года математика и статистика 🗣Ежи Неймана, в которой он впервые ввел понятие потенциального исхода. Заканчивается всё на статье 2020 года профессора статистики и политологии 🗣 Эндрю Гельмана про bayesian workflow в анализе данных.
3
#визуализация
Важнейшие статистические идеи последних лет (там ещё ссылка на статью есть).
https://time.graphics/line/459681
👍73
👨‍🏫 До 26 июля наши друзья из Института образования Вышки ведут набор на магистерскую программу Доказательное развитие образования. Студентов программы учат проводить эмпирические исследования для того, чтобы принимать обоснованные решения в области образования.

📚 В учебной программе есть курсы по экспериментам в образовании, анализу данных, методам вычислительных социальных наук и качественным методам анализа.

🎞 Запись вебинара программы в ютуб-канале ИнОбра

Вопросы о программе можно задать академическому руководителю программы Вере Андреевне Мальцевой vamaltseva@hse.ru, по поступлению — ioestudy@hse.ru.

• Телеграм-канал для абитуриентов программы: @postuplenie_inobr
👍3🔥1
Семинар по Causal Inference

🔸 20 июля (среда) в 21:30 МСК — на Electronic Health Economics Colloquium «Summer Special‎»🗣 Jonathan Roth (Brown University) расскажет про новые направления в оценке методом «разность разностей» (difference-in-difference, DiD). В обсуждении примет участие 🗣 Andrew Goodman-Bacon, который, напомним, в своей статье 2021 года разобрал, что происходит, если применить классическую схему оценивания DiD для случая, когда есть больше двух периодов, а воздействие наступает в разные моменты времени.

Зарегистрироваться на семинар можно по ссылке .

Перед семинаром можно почитать обзорную статью про новые методологические подходы к оценке с помощью «разности разностей».

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍41
NBER SUMMER INSTITUTE 2022

В понедельник стартовала самая мощная экономическая конференция NBER Summer Institute. В программе — почти все разделы современной прикладной экономической науки.

Программа: https://www.nber.org/conferences/summer-institute-2022

В этом году все сессии доступны в трансляции и записях на youtube-канале NBER https://www.youtube.com/nbervideos

На что обратить внимание:

14 июля на сессии по международным финансам и макроэкономике Дмитрий Мухин и Олег Ицхоки с работой "Optimal Exchange Rate Policy" https://www.nber.org/conferences/si-2022-international-finance-macroeconomics

15 июля на сессии по монетарной экономике — Дмитрий Архангельский и Василий Коровкин с работой "On Policy Evaluation with Aggregate Time-Series Shocks" https://www.nber.org/conferences/si-2022-monetary-economics

19 июля — Почетная лекция в честь основателя NBER Мартина Фельдстайна от Гиты Гопинат: Managing a Turn in the Global Financial Cycle https://www.nber.org/conferences/si-2022-martin-feldstein-lecture

28 июля — традиционный цикл лекций по эмпирическим методам в этот раз посвящен Байесовской эконометрике https://www.nber.org/conferences/si-2022-methods-lecture-empirical-bayes-methods-theory-and-application
👍3
РАЗРЫВНЫЙ ДИЗАЙН В МЕДИЦИНЕ

Разрывный дизайн
(Regression Discontinuity Design, RDD) — один из основных методов оценки причинно-следственных связей, в последнее время все активнее применяется в биомедицинских исследованиях. 🗣Boon et al. (2021) нашли 325 статей c RDD в области исследований здоровья, опубликованных с 1980 по 2019 годы.

При совершении медицинских интервенций (назначение лекарств, выбор метода лечения и т.п.) врачи часто пользуются результатами медицинских анализов. Границы на значения отдельных показателей учитываются в правилах принятия решений. Например, если значение показателя по результатам анализа крови превышает определенный порог, то назначается специальное лечение. Это как раз то, что нужно, для применения RDD — можно сравнивать пациентов, находящихся слева и справа от такой границы, чтобы оценивать эффекты от лечения.

В новом гайде 🗣 Matias D. Cattaneo, 🗣 Luke Keele, 🗣 Roc ́ıo Titiunik разбирают особенности применения разрывного дизайна в медицине. Прикладная часть построена на анализе трех кейсов:

• The Hlabisa HIV Treatment and Care Programme (Южная Африка): пациентам с ВИЧ назначалось прохождение антиретровирусной терапии, если концентрация СВ-4 лимфоцитов в крови не превышала 350 клеток/мл

• Когорта пациенток с раком молочной железы (the Penn Breast Database): для принятия решения о целесообразности назначения химиотерапии после операции используются специальные генетические тесты для предсказания вероятности рецидива (если вероятность превышает определенный порог, то назначается химиотерапия)

• Программа медицинского страхования в Тайване: любые медицинские услуги для детей младше трех лет полностью бесплатны

💻 Данные и код на R для репликации кейсов доступны в репозитории

👨‍🏫 Подборку с учебниками, лекциями и статьями по RDD можно посмотреть тут
👍11
Forwarded from Записки Ппилифа (Ppilif Uliankin)
Мой друг Леша Царёв принес к нам в канал новость недели:

Брюс Хансен всё-таки дописал свои учебники по Теории вероятностей и статистике для экономистов, а также по Эконометрике. По моему мнению, это лучшие книги продвинутого уровня для изучения этой части науки о данных. Во-первых, потому что они достаточно глубокие и дотошные. Во-вторых, потому что Хансен хорошо и понятно пишет. И в-третьих, электронный формат не ограничивает автора и позволяет достигнуть бОльшей гибкости в плане эмпирических примеров, данных и кода.

В общем, как я уже сказал, отличная новость под конец недели!

P.S. Добавлю от себя, что это именно тот Хансен, который доказал, что из ТГМ можно выбросить одно из условий 🙂
👍11
Курсы по анализу причинно-следственных связей в открытом доступе

В 📀 github-репозитории Mixtape Sessions, организованных 🗣Скоттом Каннингемом, доступны материалы пяти курсов по causal inference:

Causal Inference Part I
Causal Inference Part II (пока наполняется)
Instrumental variables (IV)
Shift-Share Instrumental Variables (SSIV)
Advanced Difference-in-Differences

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
🔥14👍2
Эконометристам:

16 сентября (19:00 МСК) — семинар памяти Гэри Чермберлена
Zoom, язык - английский
Докладчик - Ashesh Rambachan (Microsoft Research)
Тема: "Identifying Prediction Mistakes in Observational Data".
Модератор - Jann Spiess (Stanford GSB), дискутанты - Ismael Mourifie (университет Торонто и NBER) и Peter Hull (Университет Брауна и NBER)

Регистрация и подробности:
https://www.chamberlainseminar.org/home
Драфт статьи:
https://asheshrambachan.github.io/assets/files/asheshr_identifyingPredictionMistakes_Main.pdf
👍5
Семинар по Causal Inference

🔸 14 октября (пятница) в 19:00 МСК — на Chamberlain Seminar 🗣 Charles Manski (Northwestern) представит своё исследование «Probabilistic Prediction for Binary Treatment Choice: with focus on personalized medicine»‎.

Зарегистрироваться на семинар можно по ссылке.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍5🔥1🎉1
Нашли мероприятие, которое объединит подписчиков из академии и индустрии🧑🏼‍🎓👩‍💻

➡️ 7-8 ноября будет проходить второй Causal Data Science Meeting. Формат — онлайн. Зарегистрироваться можно по ссылке.

Главные спикеры — профессор 🗣 Judea Pearl (UCLA) и 🗣 Silvia Chiappa из британской компании DeepMind.

👌 В программе много интересного: от рассказов про прикладные тулы для причинно-следственного вывода в машинном обучении до теоретических докладов. И, конечно, достаточно прикладных кейсов от Netflix, Microsoft, eBay, LinkedIn и одной запрещенной в России компании.

Увидимся в зуме 👀

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🤩31
Онлайн-научные семинары в пятницу 28.10.22 г. (классные, но к сожалению, идут одновременно)

📌Семинар памяти Гэри Чемберлена
5pm London (19:00 по Москве), Zoom.
Кирилл Пономарёв (Чикаго) "Selecting Inequalities for Sharp Identification in Models with Set-Valued Predictions."
Модератор - Stephane Bonhomme.
Регистрация: https://www.chamberlainseminar.org/home
Семинар проходит раз в 2 недели. На сайте выложены старые записи и слайды.

📌Applied Machine Learning, Economics, and Data Science (AMLEDS)
Alberto Cavallo (Harvard) - "Big Data and Covid Inflation"
11:00 EDT / 16:00 GMT / 17:00 CET (19:00 по Москве), Zoom
Регистрация:
https://sites.google.com/view/amleds/home
Мероприятие интересное, среди организаторов Jesús Fernández-Villaverde, например. Проходит раз в месяц, докладчики - Радж Четти, Хелен Рэй, Francis X. Diebold...
На сайте выложены старые записи.
👍4
🎲 Рандомизированные контролируемые эксперименты (Randomized Control Trials, RCT) часто называют «золотым стандартом» эмпирического анализа. Но у RCT, как у любого другого метода, есть ограничения и недостатки. О них, а также о причинах стремительного взлета методологии рандомизированных экспериментов до передних краев экономического мейнстрима, рассуждает 🗣 Ростилав Капелюшников:

➡️ На практике достигать посредством рандомизации абсолютной сбалансированности между экспериментальной и контрольной группами почти никогда не удается.

➡️ Ограниченность бюджета вынуждает использовать небольшие по размеру выборки, тогда как идеальная схема RCT предполагает использование большого числа наблюдений.

➡️ RCT не застрахованы от проблемы аутлайерства, то есть появления выбросов, которые сильно искажают результаты.

➡️ RCT в экономике не являются двойными слепыми. Отсюда высокий риск возникновения эффекта самоотбора: участники эксперимента могут переходить из одной группы в другую, если надеются, что их положение от этого улучшится.

➡️ Нередко разбивка на экспериментальную и контрольную группу производится по целым кластерам— деревням, школам, больницам и т.д. Однако разбивка на две случайные группы кластеров не гарантирует разбивки на две случайные группы индивидов.

➡️ Даже в идеальных условиях с помощью RCT чаще всего оценивается только один показатель — средний эффект воздействия. Но политикам и спонсорам программ могут быть важны и другие характеристики распределения, т.к. любое вмешательство чаще всего порождает как выигрывающих, так и проигрывающих — в зависимости от характеристик индивидов и социальных групп, к которым они принадлежат.

➡️ Как правило, RCT ограничиваются оценкой краткосрочных эффектов вмешательства, игнорируя долгосрочные.

➡️ Проблема внутренней валидности — успешный RCT говорит лишь о том, что для данной группы населения данного региона программа оказалась эффективной. Но он ничего не говорит о том, есть ли смысл распространять эту программу на другие группы населения других регионов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥41
🧐 Так, нас становится больше, и мы планируем дальше развивать этот островок иллюзорной стабильности. Расскажите, чем вы сейчас занимаетесь, чтобы нам было проще подбирать интересный контент.
Please open Telegram to view this post
VIEW IN TELEGRAM