доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Дифференциальная приватность и TopDown алгоритм Бюро переписи населения США

При публикации больших объемов данных стат. ведомствам и коммерческим компаниям неизбежно приходится искать компромисс между детализацией и конфиденциальностью данных. С одной стороны, пользователи данных стремятся получить доступ к более гранулярным данным. С другой стороны, оператор, раскрывающий данные, ограничен требованиями законодательства о защите персональных данных и этическими соображениями. Традиционно используются методы снижения детализации и зашумления, чтобы исключить возможность идентификации реальных людей в опубликованной информации.

💡В этот вторник Бюро переписей населения США выложило программную статью про механизм обеспечения конфиденциальности данных при публикации результатов переписи 2020 годаTopDown алгоритме с дифференциальной приватностью.

🤔 В чем идея дифференциальной приватности? Она заключается в том, что внешний пользователь не имеет доступа к микроданным, но может строить различные запросы агрегированной статистики к ним. К примеру, запрашивает информацию о количестве наблюдений, обладающих определенными характеристиками. Так работал конструктор на данных переписей 2002 и 2010 годов Росстата (к сожалению, безвременно от нас ушедший). Но если запросы детальные, то выполнив их достаточно много и в большем числе разрезов, можно будет восстановить исходные микроданные. Дифференциальная приватность предполагает, что в ситуации, когда внешний пользователь имеет доступ к двум версиям набора данных, которые различаются всего на одно наблюдение, один и тот же запрос агрегированной статистики по любому атрибуту (например, подсчет количества записей с определенными характеристиками) с высокой вероятностью должен вернуть одинаковый результат.

Тогда значения атрибутов для этого наблюдения хорошо защищены — даже выполнив много запросов, восстановить исходные микроданные не получится. Если такой принцип выполняется для каждого наблюдения в наборе данных, то он соответствует принципу дифференциальной приватности. Реализовать механизм дифференциальной приватности можно использую различные алгоритмы, которые к результату запроса добавляют случайный шум. А уровень шума выбирается как раз такой, чтобы удаление или добавление одного наблюдения, почти не меняло доступный пользователю результат.

Простая идея на практике сталкивается с большим числом вызовов, о которых в статье тоже идет речь. Например, нужно, чтобы при последовательной агрегации зашумленных данных от переписных блоков к штатам все суммы в дифференциально приватных данных сходились. Или, чтобы при подсчете числа наблюдений алгоритм в результате зашумления не выдавал отрицательные числа.

Что еще посмотреть:
· Github-репозиторий Census Bureau c исходным кодом TopDown алгоритма
· 12-минутный популярный ролик про дифференциальную приватность
· Подробное руководство по дифференциальной приватности есть в книге Differential Privacy and Applications

Иллюстрация к посту: https://habr.com/ru/company/domclick/blog/526724/
1🔥1
Воркшоп Microsoft про open-source инструменты для причинного вывода

🔸 3 мая (вторник) в 19:00 МСК Microsoft проведет двухчасовой онлайн-воркшоп, на котором расскажет про свои открытые библиотеки (DoWhy+EconML) для анализа причинно-следственных связей и кейсы их использования в финансах, ретейле и энергетике. Зарегистрироваться на воркшоп можно по ссылке.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
Семинары и курсы по Causal Inference

🔸 26 апреля (вторник) в 18:30 МСК — на Online Causal Inference Seminar выступит 🗣 Shu Yang (North Carolina State University). Тема — «Test-based integrative analysis for heterogeneous treatment effects combining randomized trial and real-world data». Подключиться можно по ссылке.

🔸 29 апреля (пятница) в 19:00 МСК — в рамках Chamberlain Seminar состоится интервью с нобелевским лауреатом по экономике 2000 года 🗣 Dan McFadden (Berkeley).

🔸 И возвращается рубрика #скоттнампишет. В рамках Mixtape Sessions 12 и 13 августа пройдет двухдневный воркшоп по прикладным экономическим исследованиям от 🗣 Daniel Rees (Universidad Carlos III de Madrid, IZA) и 🗣 Mark Anderson (Montana State University, NBER, IZA). Обещают рассказать про то, как проводить прикладные исследования, проходить job-market интервью, подавать статьи в журналы, успешно преодолевать рецензирование, участвовать в конференциях и выстраивать академический нетворкинг. Курс платный, но для студентов и слушателей из развивающихся стран доступны большие скидки 🤟. В прошлый раз места на эти воркшопы быстро закончились, так что стоит поторопиться с регистрацией.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
Forwarded from Рюмочная ИПП
Олимпиада ИПП и «Пепеляев Групп»
«Мысли эмпирически»

Друзья, в этом году мы совместно с «Пепеляев Групп» объявляем Олимпиаду «Мысли эмпирически».

Олимпиада посвящена теме эмпирического правоведения — междисциплинарного направления, в рамках которого право изучаются методами социальных наук. В ходе проведения Олимпиады участникам будет предложено пройти серию обучающих вебинаров от сотрудников ИПП и «Пепеляев Групп» и, в завершении, написать три мини-эссе, посвященных публичному, частному и уголовному правоприменению.

К участию приглашаются студенты последних курсов обучения и выпускников вузов. Призами для лучших участников станут:

📍 Две стажировки в «Пепеляев Групп»
📍 Один бонус 99 баллов при сдаче экзаменов в магистратуру ЕУСПб «Эмпирические исследования права».

Подробности проведения и расписание вебинаров вы можете найти на сайте Олимпиады.
👍4
Байесовские методы в оценке программ и политик

Ключевой вопрос в доказательной политике – привели ли вмешательство / интервенция / изменения к улучшениям или нет? Но простой ответ «да/нет» на этот вопрос сформировать сложно, поскольку все оценки воздействия подвержены статистическим ошибкам. Фактически мы можем утверждать сработала ли наша интервенция или нет с некоторой степенью неопределенности. Исследователи часто используют в этих целях проверку статистических гипотез и уровень статистической значимости (p-value / p-критерий). Однако зачастую стат. значимость неверно интерпретируется как мера вероятности эффекта, а иногда и его размера. К тому же, проверка стат. гипотез принимает к оценке только одну гипотезу, не принимая во внимание остальные возможные.

Альтернативой классической проверке стат. гипотез являются байесовские методы, которые могут учитывать накопленные доказательства, корректируя оценки эффектов от доказательства к доказательству и фиксируя их размер с указанием доверительного интервала. В свою очередь, доверительные интервалы позволяют получить более точное восприятие данных, чем p-критерий (см. например Beyth-Marom, R., Fidler, F., & Cumming, G. (2008). «Statistical cognition: Towards evidence-based practice in statistics and statistics education»).

📙 В начале апреля Национальный центр оценки образования США (National Center for Education Evaluation and Regional Assistance) выпустил подробное руководство по методике оценки программ и политик, основанной на байесовских методах (BAyeSian Interpretation of Estimates - BASIE). На основе базы данных обзоров доказательств в области развития образования What Works Clearinghouse авторами методики рассчитаны распределения предшествующих (априорных) эффектов от реализуемых мер госполитики, параметры которых могут использоваться при оценке новых интервенций. Доказательства, полученные в ходе таких оценок, будут учитывать прошлые эффекты и являться более валидными. Руководство содержит электронные таблицы и код (на языках R и Stan), позволяющие имплементировать описанную методику.
🔥7👍1
Из вкусного: Лаборатория борьбы с бедностью (J-PAL) при Массачусетском технологическом институте опубликовала электронный гайд по проведению рандомизированных контролируемых исследований в «поле» при оценке влияния различных мер госполитики. Очень много полезной информации: от погружения в контекст RCTs (что это такое?) до проектировки полевого исследования, разработки и обработки опросов, проверки и валидации качества данных, раскрытия результатов.

#ebpm #rct
👍7🔥3
Семинары по Causal Inference

🔸 27 мая (пятница) в 19:00 МСК — на Chamberlain Seminar 🗣 Michael Pollmann (Stanford) презентует свою статью «Causal Inference for Spatial Treatments». Речь пойдет про то, как оценивать эффекты для программ, действие которых привязано к определенной географической локации. Например, как открытие больницы влияет на здоровье тех, кто живет в непосредственной близости от нее. Или как наличие продуктового магазина рядом с рестораном влияет на пешеходный трафик и выручку.

К обсуждению присоединятся 🗣 Paul Goldsmith-Pinkham (Yale School of Management), 🗣 Fredrik Sävje (Yale University) и 🗣 Alberto Abadie (MIT). Зарегистрироваться на семинар можно по ссылке.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍2🔥2
14-17 июня на экономическом факультете МГУ – Летний семинар «Современные методы и модели в экономике». Тема 2022 года – Пространственная и городская экономика.
https://www.econ.msu.ru/science/smu/announce/Article.20220524194451_4061/

Спикеры:
Лариса Баранова, ЭФ’19, Высшая школа урбанистики НИУ ВШЭ’21, аналитик АНО «Московский урбанистический форум»,

Виктор Ветеринаров, ЭФ’19, CEMFI (Мадрид)’21, исследователь в Университетском колледже Лондона.

В рамках семинара запланированы лекции по экономике города и городскому планированию, микро-основаниях в моделях агломерационной экономики, обзору эмпирических исследований и практические занятия по геокодингу, пространственному мэтчингу в R и работе с пространственными данными в QGIS.

Программа курса с список литературы для слушателей

Расписание занятий

Формат – смешанный очно + zoom, язык - русский

Регистрация до 8 июня 23:59 (МСК): https://forms.gle/uAfBG2aQCgzUgSLU7

Контакты организаторов smu.econ218@yandex.ru (Совет молодых учёных ЭФ МГУ).
👍8
AS OPEN AS POSSIBLE, AS CLOSED AS NECESSARY

Новый закон ЕС об управлении данными устанавливает рамку для повторного использования данных государства, компаний и граждан для создания публичных благ

16 мая Совет Европейского союза одобрил Закон ЕС об управлении данными (EU Data Governance Act). Он устанавливает принципы и правила повторного использования данных гос. органов, компаний и граждан в коммерческих и некоммерческих целях (в т.ч. исследовательских). До этого каждая страна ЕС придумывала свои инструменты раскрытия данных. Теперь все они подведены под одну рамку.

Отдельный акцент сделан на раскрытии данных для исследователей. Предполагается, что гос. органы будут внедрять практики управления данными, которые сделают процесс доступа исследователей к данным максимально прозрачным и простым в соответствии с принципом «as open as possible, as close as necessary».

Закон акцентируется на четырех типах данных:

• данные, составляющие коммерческую тайну
• данные, защищаемые принципами конфиденциальности первичной статистической информации
• данные, составляющие интеллектуальную собственность
персональные данные

Институционально закрепляются роли:

💱 дата-посредников (data intermediation services providers), которые помогают владельцам данных сделать их пригодными для использования третьими лицами, анонимизировать, а также развивают сервисы по доступу к данным (например, среды защищенного удаленного или физического доступа к чувствительным данным).

🏛 ответственных органов (competent bodies) на уровне государств-членов ЕС, которые помогают другим гос. органам предоставлять доступ к данным, в частности:

• осуществляют техническую поддержку по обеспечению доступа к данным в защищенных средах
• консультируют гос. органы по форматам хранения и структурирования данных
• помогают анонимизировать данные и проверять, что при раскрытии данных не нарушается конфиденциальность и другие требования
• помогают получать согласие других владельцев данных на объединение данных

📌 единых точек доступа (single information points) к информации о данных, которые собираются в информационных системах гос. органов и могут быть использованы третьими лицами, а также о правилах доступа к таким данным. Такие точки создаются в каждом государстве-члене ЕС, через них будут проходить все запросы по доступу к данным. Также создается общеевропейский электронный регистр доступных данных и правил доступа к ним.

Предполагается, что гос. органы смогут взимать плату с компаний за доступ к данным. Однако закон требует использование специальных условий (скидки или отсутствие платы) в случае, если запрос на доступ к данным поступил от некоммерческих организаций (в т.ч. научных), малого и среднего бизнеса, а также стартапов. Перечень категорий пользователей, которые смогут получить доступ к данным на льготных условиях, утверждается ответственными органами на уровне государств-членов ЕС и публикуется в открытом доступе.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍4🔥1
Forwarded from Reliable ML
Data Fest 3.0 - Reliable ML - 5 июня 2022 г. - Программа
Продолжаем анонсы

В 10:00 по Мск нашу секцию откроет Полина Окунева, ведущий аналитик Glowbyte, с докладом "Causal Inference. Advanced методы моделирования".

Полина расскажет об усовершенствованных методах моделирования причинно-следственного эффекта с опорой на библиотеки causalML и EconML : X-, R-, DR-learner, Domain Adaptation Learner, Doubly Robust Instrumental Variable learner, Tree-based algorithms (DDP, CTS). Рассмотрит основные плюсы и минусы методов и особенности их применения.
👍2🔥2
Исторический факультет Иркутского государственного университета в рамках Международного летнего университета на Байкале организует Вторую летнюю методологическую школу «Текст как данные: количественный и качественный анализ текстов в политических науках».

Это школа для тех, кто хочет научиться:

формировать дизайн научного исследования;
критически читать политические тексты и понимать скрытые в них смыслы;
применять современные методы анализа текстов в политической науке;
использовать в исследовательской работе современное ПО (Python, программная среда R, Dedoose).

К участию приглашаются студенты старших курсов, магистранты, аспиранты, молодые исследователи в области политических наук и смежных дисциплин.

📍Школа пройдет 7-13 августа в пос. Большие Коты, на побережье оз. Байкал.

Срок подачи заявок: до 3 июля 2022 года (включительно)

Подробная программа, условия участия и форма регистрации на сайте школы:
http://baikalmethodsschool.ru/
👍53
Наиболее цитируемые статьи по экспериментам

Ronny Kohavi составил список самых цитируемых статей по экспериментам и перечислил их в спредшите.

Все статьи отсортированы по цитированию, разделенному по годам с момента публикации

https://docs.google.com/spreadsheets/d/1PAWG7NWVEwAwwfrd9b-V5o5q4nB6i67N2ITrzyrIdP0/edit#gid=0
👍6
PyWhy вместо DoWhy

В апреле мы уже рассказывали о воркшопе Microsoft, посвященному открытым библиотекам DoWhy и EconML для анализа причинно-следственных связей.

В конце мая Microsoft передал библиотеку DoWhy для анализа причинно-следственных связей в независимую некоммерческую организацию PyWhy. К проекту присоединилась AWS, дополнившая функциональность инструмента своими разработками.

Подробнее об изменениях можно почитать в Microsoft Research Blog и посмотреть запись воркшопа, посвященного изменениям.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍6
Семинар по Causal Inference

🔸 Сегодня 14 июня (вторник) в 18:30 МСК — на Online Causal Inference Seminar выступит 🗣 AmirEmad Ghassami (Johns Hopkins University). Тема — «Combining Experimental and Observational Data for Identification and Estimation of Long-Term Causal Effects». В обсуждении примет участие 🗣 Guido Imbens. Подключиться можно по ссылке (пароль: 386638).

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
🔥3👍1
🧩 В этом интерактивном таймлайне собрано много важных статей по анализу причинно-следственных связей, методам машинного обучения и статистике. Начинается таймлайн с классической статьи 1923 года математика и статистика 🗣Ежи Неймана, в которой он впервые ввел понятие потенциального исхода. Заканчивается всё на статье 2020 года профессора статистики и политологии 🗣 Эндрю Гельмана про bayesian workflow в анализе данных.
3
#визуализация
Важнейшие статистические идеи последних лет (там ещё ссылка на статью есть).
https://time.graphics/line/459681
👍73
👨‍🏫 До 26 июля наши друзья из Института образования Вышки ведут набор на магистерскую программу Доказательное развитие образования. Студентов программы учат проводить эмпирические исследования для того, чтобы принимать обоснованные решения в области образования.

📚 В учебной программе есть курсы по экспериментам в образовании, анализу данных, методам вычислительных социальных наук и качественным методам анализа.

🎞 Запись вебинара программы в ютуб-канале ИнОбра

Вопросы о программе можно задать академическому руководителю программы Вере Андреевне Мальцевой vamaltseva@hse.ru, по поступлению — ioestudy@hse.ru.

• Телеграм-канал для абитуриентов программы: @postuplenie_inobr
👍3🔥1
Семинар по Causal Inference

🔸 20 июля (среда) в 21:30 МСК — на Electronic Health Economics Colloquium «Summer Special‎»🗣 Jonathan Roth (Brown University) расскажет про новые направления в оценке методом «разность разностей» (difference-in-difference, DiD). В обсуждении примет участие 🗣 Andrew Goodman-Bacon, который, напомним, в своей статье 2021 года разобрал, что происходит, если применить классическую схему оценивания DiD для случая, когда есть больше двух периодов, а воздействие наступает в разные моменты времени.

Зарегистрироваться на семинар можно по ссылке .

Перед семинаром можно почитать обзорную статью про новые методологические подходы к оценке с помощью «разности разностей».

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍41
NBER SUMMER INSTITUTE 2022

В понедельник стартовала самая мощная экономическая конференция NBER Summer Institute. В программе — почти все разделы современной прикладной экономической науки.

Программа: https://www.nber.org/conferences/summer-institute-2022

В этом году все сессии доступны в трансляции и записях на youtube-канале NBER https://www.youtube.com/nbervideos

На что обратить внимание:

14 июля на сессии по международным финансам и макроэкономике Дмитрий Мухин и Олег Ицхоки с работой "Optimal Exchange Rate Policy" https://www.nber.org/conferences/si-2022-international-finance-macroeconomics

15 июля на сессии по монетарной экономике — Дмитрий Архангельский и Василий Коровкин с работой "On Policy Evaluation with Aggregate Time-Series Shocks" https://www.nber.org/conferences/si-2022-monetary-economics

19 июля — Почетная лекция в честь основателя NBER Мартина Фельдстайна от Гиты Гопинат: Managing a Turn in the Global Financial Cycle https://www.nber.org/conferences/si-2022-martin-feldstein-lecture

28 июля — традиционный цикл лекций по эмпирическим методам в этот раз посвящен Байесовской эконометрике https://www.nber.org/conferences/si-2022-methods-lecture-empirical-bayes-methods-theory-and-application
👍3
РАЗРЫВНЫЙ ДИЗАЙН В МЕДИЦИНЕ

Разрывный дизайн
(Regression Discontinuity Design, RDD) — один из основных методов оценки причинно-следственных связей, в последнее время все активнее применяется в биомедицинских исследованиях. 🗣Boon et al. (2021) нашли 325 статей c RDD в области исследований здоровья, опубликованных с 1980 по 2019 годы.

При совершении медицинских интервенций (назначение лекарств, выбор метода лечения и т.п.) врачи часто пользуются результатами медицинских анализов. Границы на значения отдельных показателей учитываются в правилах принятия решений. Например, если значение показателя по результатам анализа крови превышает определенный порог, то назначается специальное лечение. Это как раз то, что нужно, для применения RDD — можно сравнивать пациентов, находящихся слева и справа от такой границы, чтобы оценивать эффекты от лечения.

В новом гайде 🗣 Matias D. Cattaneo, 🗣 Luke Keele, 🗣 Roc ́ıo Titiunik разбирают особенности применения разрывного дизайна в медицине. Прикладная часть построена на анализе трех кейсов:

• The Hlabisa HIV Treatment and Care Programme (Южная Африка): пациентам с ВИЧ назначалось прохождение антиретровирусной терапии, если концентрация СВ-4 лимфоцитов в крови не превышала 350 клеток/мл

• Когорта пациенток с раком молочной железы (the Penn Breast Database): для принятия решения о целесообразности назначения химиотерапии после операции используются специальные генетические тесты для предсказания вероятности рецидива (если вероятность превышает определенный порог, то назначается химиотерапия)

• Программа медицинского страхования в Тайване: любые медицинские услуги для детей младше трех лет полностью бесплатны

💻 Данные и код на R для репликации кейсов доступны в репозитории

👨‍🏫 Подборку с учебниками, лекциями и статьями по RDD можно посмотреть тут
👍11