доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
284 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Forwarded from Tatyana Cherkashina
Традиционный подарок к началу академического сезона и нового университетского учебного года: опубликованы микроданные и коудбуки 33-й волны Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ за 2024 год.
🎉14
Всё меняется. Совсем недавно сделать хотя бы базовый литобзор по теме исследования, погрузиться в новую область знания требовало много времени. Сейчас приходит время AI-агентов, способных выполнять базовые исследовательские задачи, которые раньше занимали недели, за минуты. Хорошо это или плохо - вопрос отдельного порядка, одно можно сказать точно - это текущие реалии. Подробнее об изменениях в области применения ИИ в экономических исследованиях в статье Anton Korinek — «AI Agents for Economic Research» (NBER Working Paper №34202, сентябрь 2025).

Статья посвящена использованию AI-агентов — автономных систем на базе больших языковых моделей (LLM), которые могут:
- планировать исследования,
- собирать и анализировать данные,
- писать и отлаживать код,
- выполнять сложные многошаговые исследовательские задачи.

Некоторые направления использования AI-агентов в экономических исследованиях:

I. Deep Research Agents (
Google Gemini, OpenAI, Claude, Perplexity)
Используют мультиагентную архитектуру. Могут: анализировать сотни источников, делать структурированные обзоры литературы, собирать статистику и визуализировать результаты. Время подготовки отчёта: от 5 до 30 минут. Недостатки: иногда приводят некорректные ссылки, плохо отбирают ключевые публикации по новым темам.

II. Coding Agents (Claude Code, Cursor, ChatGPT Agents)
Позволяют создавать эконометрические инструменты без знания Python или R. Реализуют концепцию “vibe coding” — написание и отладка кода на основе описания задачи обычным языком. Подход позволяет строить сложные инструменты анализа данных за несколько минут.

III. Автоматизация рабочих процессов
AI-агенты могут: выполнять регрессионный анализ и строить графики (OLS, VAR, ML-модели); интегрироваться с базами данных (FRED, IMF, World Bank); создавать отчёты по макроэкономическим показателям за минуты; готовить презентации и статьи с цитированием источников.

______________________
Ключевые рекомендации для исследователей от автора статьи:
1. Использовать Deep Research Agents для ускоренного обзора литературы и поиска данных.
2. Применять Coding Agents для автоматизации анализа, моделирования и визуализации.
3. Разрабатывать собственных агентов с помощью LangGraph или LangChain.
4. Всегда проверять результаты и проводить верификацию источников.
5. Комбинировать несколько AI-провайдеров, чтобы снизить стоимость и повысить надёжность.

@evidencespace
👍14🤔5👎31👨‍💻1
J-PAL совместно с MIT стартует свой курс по оценке социальных программ. Наши подписчики оставляли замечательный отзыв о курсах J-PAL здесь. Теперь у вас снова есть возможность пройти бесплатный курс в этом потоке. Регистрация здесь.

@evidencespace
🔥72👍1
Forwarded from Reliable ML
Causal Inference Workshop #1

Всем привет! Мы запускаем серию воркшопов по анализу причинно-следственных связей (causal inference).

Формат - академическая пара, онлайн, будем разбирать по одной теме за раз.
Каждое занятие будет разбирать одну практическую тему,
Первое занятие - 27.10.2025 с 12:00 до 14:00 мск.
Тема: "Введение в Causal Inference. Причинно-следственные связи без А/Б тестов. Ортогонализация"
Разберем базовые понятия Causal Inference, несколько примеров "как делать не надо" и одну простую технику, как можно делать.
У участников останутся ноутбуки с примерами и инструкциями, можно будет задать свои вопросы.

Занятия бесплатные. Записи в открытом доступе не будет. Технического ограничения на размер группы нет, но в слишком большой группе никто не успеет ничего спросить, поэтому в какой-то момент набор закроем.

Чтобы записаться, пишите в комментариях к этому посту - зачем вам изучать Causal Inference. Будем добавлять в закрытый канал воркшопа.

Ваш @Reliable ML

#reliable_ml #causal_inference #workshop
🔥10🎉54
📚Всего пару лет назад мы радовались тому, что по теме причинного вывода начали появляться современные и доступные книги, а теперь наступил новый этап – их авторы выпускают переработанные издания с учётом последних трендов и новых методов

📗 Летом 2025 года увидело свет второе издание книги «The Effect» Ника Хантингтон-Кляйна – одной из самых популярных и доступных по эконометрике и анализу причинно-следственных связей.
В книге появилась новая глава про partial identification, обновились разделы по современным эмпирическим методам, а навигация и практические примеры стали ещё удобнее
🔗 Последняя версия книги
🔗 Видеоуроки к книге

Обзоры первого издания книги делали авторы каналов This is Data и H0H1: про HR-аналитику – рекомендуем и их ревью, и каналы в целом, они отличные!

Кроме того, напомним, что в начале этого года было обновление книги «Causal Inference: What If» Джеймса Робинса и Мигеля Эрнана. А также напоминаем о нашем посте-путеводителе по книгам в сфере причинного вывода

Успехов в учёбе и исследованиях!

#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥6👍1
👎 Как «накрутить» связь между переменными, не подделывая данные?

В своем исследовании Кфир Элиаз, Ран Шпиглер и Яир Вайс (Eliaz, Spiegler, Weiss, 2021) задаются простым, но фундаментальным вопросом:
Насколько сильно может быть искажена оценка корреляции между переменными, если модель, используемая для интерпретации данных, является ошибочной, но при этом проходит тест на корректность?


😢 Почему это важно?
🟤Модели – основа решений: научных, политических, экономических. Ошибки в модели могут приводить к ложным выводам и дорогостоящим последствиям (Piccione, Rubinstein, 2003; Eyster, Piccione, 2013)
🟤Манипуляции нарративами: политики и медиа могут использовать ложные причинные объяснения для искажения реальности и влияния на общественное мнение (Eliaz, Spiegler, 2018)
🟤Стимулы к преувеличению: учёные заинтересованы в демонстрации «сильных» результатов, что подталкивает к оппортунистическому выбору структуры модели (Eyster, Rabin, 2005)
🟤Когнитивные искажения: люди плохо распознают каузальные ошибки и легко верят правдоподобно выглядящим моделям (Spiegler, 2020)
Формальные основы этих искажений: ограниченная рациональность (Piccione, Rubinstein, 2003; Jehiel, 2005), «проклятые убеждения» (cursed beliefs) (Eyster, Rabin, 2005), конкурирующие нарративы и модели (Eliaz, Spiegler, 2018; Montiel Olea et al., 2018)

😢 Базовая постановка задачи
🟤У вас есть реальные, «чистые» данные по многим переменным
🟤Вы не фальсифицируете данные
🟤Но вы можете выбирать какие переменные включать в модель, и как связать их между собой
Цель: убедить аудиторию, что две переменные тесно связаны, даже если на самом деле они независимы
Ограничение: модель должна сохранять предельные распределения (marginal distributions) – модель не должна искажать распределение каждой переменной по отдельности

Суть в том, что даже неспециалист может заметить явные манипуляции в вашей модели, например, если она утверждает, что средний доход равен $200 000, когда в данных – $30 000 (такое ограничение называется Undistorted Marginals Constraint). Но при этом зависимости между переменными (корреляции, причинные связи) – уже не так просто проверить. И именно тут начинается «читерство»

😢 Как работает «обман»?
🟤Исследователь строит направленный ациклический граф (DAG) – стандарт в байесовских сетях и в теории причинности (Pearl, 2009; Koller, Friedman, 2009)
🟤Он вставляет между интересующими переменными оппортунистически подобранную цепочку медиаторов, усиливающую видимую зависимость между началом и концом цепи

😢 Пример: marker hacking
Представим фармацевтическую компанию, которая хочет доказать, что новое лекарство увеличивает выживаемость. Прямой связи нет, но есть:
🟤Краткосрочные данные о реакции биомаркеров на препарат
🟤Долгосрочные наблюдения о связи биомаркеров с выживаемостью

😢 Она строит модель:
Препарат → Биомаркер → Выживаемость
Если биомаркер подобран правильно, то даже при полном отсутствии реальной связи между препаратом и выживаемостью, модель покажет значимую корреляцию

Это приём называется marker hacking – отсылка к p-hacking, но вместо подгонки p-значений происходит подгонка структуры модели. См. также понятие surrogate paradox в (VanderWeele, 2015)

😢 Главный результат
Даже при нулевой реальной корреляции между переменными, можно построить модель, которая покажет почти идеальную зависимость без манипуляций с данными, с сохранением предельных распределений, с использованием легитимного инструментария

😢 Почему это работает?
В статье данный результат аккуратно выведен тригонометрически:
если между двумя точками (переменными) разместить цепочку «промежуточных» точек (медиаторов) с маленькими отклонениями, итоговая зависимость между краями может казаться сильной

😢 Выводы
🟤Даже «правильная» на вид модель может лгать, если у исследователя есть свобода выбора структуры
🟤Проверка распределений не гарантирует достоверности модели
🟤Чем больше у исследователя переменных (в эпоху Big Data – тысячи), тем легче накрутить корреляции

#канал_обозревает
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍41👎1
Forwarded from CEBDA Events
🌍 iCEBDA Seminar Series — Launching a New Online Networking Platform for Econometrics and Data Analysis

We are delighted to announce the launch of the iCEBDA Seminar Series, a new regular online seminar initiative organized by the Center for Big Data in Economics and Finance (HSE University, Moscow). This series extends the success of the recent iCEBDA-25 Conference into an ongoing digital format, bringing together researchers, students, and practitioners worldwide.

📅 The opening seminar will take place on September 29, 2025:
🔹 Recent Development in Instrument-Free Approaches to Regression Models with Endogenous Regressors
👤 Speaker: Kien C. Tran (University of Lethbridge, Canada)

Over the coming months, the program will feature distinguished scholars from Syracuse University, the University of Liverpool, the University of Birmingham, Brunel University of London, the University of Macau, ITAM (Mexico), and other leading institutions. Topics will range from clustered data inference and panel econometrics to systemic risk measures and change-point detection in time series.

🖥 Format: Online (via Zoom)
💡 Participation: Free, registration required

🔗 Full program and updates: https://economics.hse.ru/bigdata/seminars
👉 Direct registration: https://www.bechair.online/reg/CEBDA_Talks
👍6
🗺 Causal inference и пространственный treatment

На Substack Скотта Каннингема вышла заметка Кайла Баттса (доцент экономики в University of Arkansas). Она посвящена исследованию Майкла Поллманна (доцент экономики в Duke University), «Causal Inference with Spatial Treatments».

Поллманн рассматривает ситуацию, когда treatment «привязан» не к индивиду, а к месту (location). Тогда ключевой вызов - корректно оценить его влияние на соседние объекты. Он предлагает дизайн-базированный подход (design-based inference), где treatment случайно назначается из множества возможных точек-кандидатов, а контрольные единицы (control units) формируются на основе тех локаций, где treatment мог быть реализован, но не был.

Автор критикует стандартную стратегию «внутренний контур vs. внешний контур» (inner vs. outer ring): подход базируется на утверждении, что если бы не treatment, то объекты во внутреннем контуре (близком к объектам «лечения») и внешнем контуре были бы похожи - значит, внешний контур можно использовать как контрольную группу для внутреннего. Поллманн пишет, что «внешние» объекты могут систематически отличаться по пространственным характеристикам. В качестве решения он предлагает учёт пространственной корреляции и использование методов машинного обучения для балансировки по пространственным ковариатам, иными словами - моделирование пространственного распределения.

Эмпирический пример - влияние расположения продуктовых магазинов на трафик к ресторанам в период COVID-19: положительный эффект treatment'а заметен лишь в непосредственной близости и быстро исчезает с расстоянием.

Работа Поллманна предлагает новую методологию анализа пространственных treatment-эффектов.

@evidencespace
🔥121
⚪️⚪️⚪️3 месяца работы и 64 тысячи таблиц спустя — и вы можете скачать набор данных с муниципальной статистикой за 2025 год. Поддержите «Если быть точным», чтобы эти данные были доступны и дальше

Полтора года назад мы выложили датасет с муниципальной статистикой. За это время его скачали 7 тысяч раз. В таком виде этих данных нет больше нигде. Это наш самый востребованный датасет, и чтобы мы могли обновлять его, нам нужна ваша поддержка.

В наборе данных 603 показателя о численности населения, миграции, заработных платах по отраслям, доходах и расходах местных бюджетов, финансовых результатах компаний и других сферах.

Из этих данных, например, видно, что в 2024 году минимум в 594 районах страны больше половины детских садов находились в аварийном состоянии или нуждались в капитальном ремонте. Выше всего эта доля — в Калмыкии, Кабардино-Балкарии, Адыгеи, Курганской и Мурманской областях.

Вот что изменилось в новой версии:

🔸Внесли данные за 2024 и 2025 годы, которые появились в базе Росстата к середине лета этого года.

🔸Добавили 21 новый показатель — например, статистику о наличии и износе строительных машин (бульдозеров, кранов, бурильных установок) по районам. Посмотреть все показатели и скачать таблицы с данными можно здесь.

🔸Поправили ошибки о национальном составе, которые были в исходных данных Росстата.

🔸Обновили стабильные идентификаторы районов, которые учитывают изменения в муниципальной структуре с 2010 года. За прошедший год больше 190 районов изменили свой тип, название и код ОКТМО. Мы учли все такие изменения, чтобы по каждому району можно было смотреть значения показателей за длинный период.

Обработка данных требует ресурсов и времени. Чтобы у нас получилось собирать больше датасетов — поддержите нас. Это можно сделать через Boosty или Patreon.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉98👍5
18–19 сентября в Стэнфорде прошёл семинар NBER Economics of Transformative AI Workshop. Участники обсудили, как новые поколения искусственного интеллекта повлияют на конкуренцию, распределение доходов, инновации и глобальную экономику. Среди тем — рост производительности, регулирование, геоэкономика, а также риски и возможности, связанные с трансформационными эффектами ИИ. Организаторы: Ajay K. Agrawal — профессор Университета Торонто, директор Creative Destruction Lab; Anton Korinek — профессор экономики Университета Виргинии, исследователь NBER, эксперт по ИИ и макроэкономике (писали о его статье в канале здесь); Erik Brynjolfsson — профессор Стэнфорда, директор Digital Economy Lab, один из ведущих исследователей цифровой экономики.

Видео выступлений и материалы доступны на сайте NBER и в открытом плейлисте-YouTube.

@evidencespace
🔥5👍2
Упустили весьма интересный handbook. В декабре 2024 года Всемирная организация здравоохранения представила новое руководство по мониторингу неравенства в сфере здравоохранения. Позиционируется руководство как системный набор методик и инструментов, который помогает переходить от деклараций о справедливости в доступе к здравоохранению к точным измерениям и практическим действиям.

Что внутри?
Концептуальные основы — зачем и как измерять неравенство; связь с ЦУР и глобальной политикой в области здоровья.
Методология — выбор индикаторов, дисагрегация данных (по полу, доходу, образованию, месту жительства), а также методы оценки.
Статистический инструментарий — рекомендации по расчётам в R, Stata и Excel; примеры готовых скриптов для анализа.
Открытые ресурсы — использование HEAT (Health Equity Assessment Toolkit) для анализа и визуализации, организация доступа к открытым репозиториям данных ВОЗ (в том числе к Health Inequality Data Repository (HIDR) — крупнейшему набору данных о неравенстве в здоровье).
Применение — кейсы из разных стран, примеры интеграции мониторинга в системы здравоохранения.

О каких показателях речь?
- охват вакцинацией по группам дохода или регионам;
- доступ к медицинской помощи в сельской и городской местности;
- материнская и детская смертность по уровню образования матери;
- факторы риска (курение, ожирение, питание) в разных социальных группах.

👉 Полный текст доступен онлайн: WHO – Health inequality monitoring (2024)

@evidencespace
👍8🔥43👨‍💻1
Интересное применение GenAI — Research Gap Finder для поиска пробелов в исследовательских областях. В ответ на запрос показывает, где в теме не хватает:
◽️теории (нет актуальной теоретической рамки)
◽️методологии
◽️или эмпирических результатов.

Оговорка - результаты, конечно, стоит верифицировать более детальным обзором литературы. AnswerThis также предлагает как продукты других AI агентов для исследователей, с доступом к 250+ млн статей.

https://answerthis.io/ai/research-gap-finder?fpr=razia75
👍6🔥2
Forwarded from CEBDA Events
📢 The iCEBDA Econometric seminar

Join us on October 13 at 12:00 (Moscow time, online via Zoom) for a research seminar by

🎓 Bogdan Potanin (HSE, Moscow)
Talk: “Double machine learning for causal inference in multivariate sample selection model”

The seminar will present novel Plug-in and Double Machine Learning (DML) estimators for causal effects (ATE, ATET, LATE). The proposed DML estimators are doubly robust and based on efficient influence functions. Simulation evidence shows that ignoring multivariate sample selection leads to significant bias, while the new methods effectively correct it.

🔗 Register here: https://economics.hse.ru/bigdata/seminars
7👍2🔥2
Forwarded from Рюмочная ИПП
Зимняя школа ИПП в Санкт-Петербурге

16–22
февраля мы проведем зимнюю школу эмпирических исследований правоприменения.

Участники под руководством кураторов пройдут путь от выработки идеи проекта до черновика статьи. Довести текст до публикации — при должном упорстве со стороны авторов — мы тоже поможем. Примеры публикаций, выросших из школьных проектов прошлых лет: 1, 2, 3, 4.

В программе — лекции, работа с данными, текстом и презентация результатов. Дни будут насыщенными, совмещать школу с учебой или работой не получится, требуется очное присутствие.

Чтобы попасть на школу, нужно пройти конкурс: до 1 декабря мы будем принимать заявки с ответами на предложенные вопросы, а 15 декабря сообщим кандидатам, прошли ли они отбор.

Участие в школе бесплатное. Мы также оплачиваем проживание и обеды. Транспорт до места проведения (Санкт-Петербург) оплачивают участники.

Мы приглашаем всех, но будем отдавать предпочтение студентам старших курсов бакалавриата и тем, кто еще не защищал кандидатскую.

Подробности
7🎉2
Forwarded from АСОПП
🌟Офис независимой оценки Нового банка развития на конференции АСОПП
Оценка – управленческий инструмент, который позволяет повышать эффективность работы на основе корректно собранных и проанализированных данных. Специалисты Нового банка развития (НБР) обсудят, как результаты оценок проектов с частными бизнесом, реализованные банком в России, могут повлиять на его работу с частными компаниями в нашей стране и других странах БРИКС.

📑Сессия: Опыт Нового банка развития по взаимодействию с бизнесом в России и других странах-членах
Трек 1, 14 октября 12:00-13:30
Спикеры:
🔸Сергей Сторчак, Старший банкир, ВЭБ.РФ, бывший Председатель Совета директоров НБР, бывший заместитель министра финансов РФ
🔸Евгений Кочкин, Помощник вице-президента, НБР
🔸Энрике Писайя, Главный специалист, Офис независимой оценки НБР
🔸Сергей Шаталов, Член высокого консультативного совета по оценке НБР
🔸Сяочжэ Чжан, Старший специалист, Офис независимой оценки НБР (модератор)

Новый банк развития (НБР) был создан Бразилией, Россией, Индией, Китаем и Южной Африкой для мобилизации ресурсов на инфраструктурные проекты и проекты устойчивого развития в государствах БРИКС и других развивающихся странах.

Офис независимой оценки НБР проводит оценку стратегий, политик, инициатив, процессов и операций Банка для вынесения суждения о достигнутых результатах, выявления полученных уроков и выработки рекомендаций для улучшения эффективности и результативности работы НБР. Результаты оценок используются Советом директоров и руководством Банка для повышения прозрачности деятельности и постоянного совершенствования работы НБР в странах-членах.

Интересно? Приходите на конференцию АСОПП. Конференция АСОПП состоится онлайн 14-15 октября. Участие в конференции бесплатное. Для участия необходима регистрация. После регистрации каждый участник получит доступ в личный кабинет, из которого во время конференции сможет войти во все конференционные «залы».

Познакомиться с программой конференции и зарегистрироваться можно на сайте конференции https://evalconf.ru/

#АСОПП2025 #оценка
👍5
📘 Matching and Weighting for Causal Inference — новый практический гид от Ноа Грайфера (Noah Greifer)

На сайте IQSS Гарвардского университета вышла электронная книга «Matching and Weighting for Causal Inference: A Primer and Tutorial» - подробное руководство по методам подбора (matching) и взвешивания (weighting) в causal inference.

Грайфер систематизирует лучшие практики для исследований, где невозможно случайное распределение treatment — будь то медицина, экономика или социальные науки, и где (как мы с вами знаем) требуется особое искусство взвешиваний и перевзвешиваний ) Книга охватывает:

- планирование анализа и проверку допущений;
- методы подбора и взвешивания (включая propensity score);
- оценку качества сопоставления и чувствительности результатов;
- корректную интерпретацию эффектов и оформление отчета.

Это не «учебник», а практическое руководство для исследователей, которые хотят надежно использовать методы каузальной корректировки в прикладных данных.
_________________
Автор — Ноа Грайфер (Noah Greifer), исследователь и разработчик пакетов R (MatchIt, WeightIt, cobalt), активно пишет о применении каузальных методов в блоге (рекомендуем), где публикует заметки о практических аспектах анализа, ошибках и новых инструментах.

@evidencespace
🔥126👍4
⚪️⚪️⚪️Почти половина компаний, входивших в первую сотню по выручке в 2021-м, не опубликовала финансовую отчетность. Данные о них можно узнать из нашего нового датасета

В 2024 году только 52 компании, которые входили в первую сотню по объему выручки в 2021-м, раскрыли сведения о своей выручке. Из 48 компаний, которые перестали публиковать отчетность, 5 — были ликвидированы, остальные продолжают свою работу, но финансовые показатели не раскрывают.

Вот пример. С 2022 года РЖД перестала раскрывать свои финансовые показатели. Между тем в 2021 году компания занимала четвертое место по выручке среди всех российских предприятий — около 2 трлн рублей. Также из первой десятки перестала раскрывать отчетности «Газпром нефть».

Некоторые компании вернулись к публикации финансовых показателей в прошлом году. Среди них Новолипецкий металлургический комбинат, который не опубликовал отчетность в 2022–2023 годах.

▫️Данные из финансовых отчетов всех действующих компаний России за 2011–2024 годы можно найти в Российской базе бухгалтерской отчетности. Ее подготовил Институт проблем правоприменения Европейского университета в Санкт-Петербурге. Сегодня мы опубликовали ее в нашем каталоге. База включает не только компании, подавшие отчетность в ФНС, но и те, кто должен был это сделать, но не сделал.

▫️Также мы опубликовали датасет о компаниях, которые входят в реестр субъектов малого и среднего предпринимательства. В нем есть не только актуальные, но и исторические данные за 2016-2024 годы. Это первый большой датасет в каталоге, который для нас подготовил волонтер.

В данных есть название юридического лица, адрес регистрации с точностью до населенного пункта, категория по классификации малых и средних предприятий, расходы и среднесписочная численность работников. Есть и географическая привязка — для каждой организации приведены географические координаты и код ОКТМО населенного пункта, в котором она зарегистрирована.

◾️ Если у вас есть данные, которые вы хотите опубликовать в нашем каталоге, напишите нам в @tochno_bot.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉54👍1
Всем хорошего воскресения. Just for fun: Брайн Мур оценил волатильность 50-цента.
😁14👍3😢1
В апреле этого года вышла статья Центра микросимуляции и анализа политики (CeMPA), посвященная обновленной библиотеке SimPaths - это open-source микросимуляционный фреймворк жизненного пути (life course) для индивидуумов и домохозяйств: карьера, семья, здоровье, финансы. Что можно делать с помощью библиотеки:

- моделировать жизненные траектории индивидов и домохозяйств (работа, семья, здоровье, финансы);
- анализировать влияние налогово-бюджетной и социальной политики;
- оценивать вероятности перехода между состояниями (например, из безработицы в занятость).

Модель позволяет оценить долгосрочные последствия политики, даже если эффект проявится через десятилетия. Например, повышение пособий семьям с детьми можно смоделировать как снижение вероятности бедности через 20 лет или рост образования у детей.

Варианты исследовательских вопросов:
– Как бедность в детстве влияет на уровень дохода или образования во взрослом возрасте?
– Как материнский отпуск или ранняя занятость женщин отражаются на пенсионных правах и здоровье?
– Как потери работы влияют на карьерные траектории, вероятность повторной занятости и доход в долгосрочной перспективе?
– Как изменения в налогах или субсидиях влияют на решения о рождении детей, переезде, образовании?


Библиотека адаптирована для Великобритании и Италии (развиваются модели для Венгрии, Польши, Греции) и на вход требует лонгитюдные (панельные) данные. Потенциально модель может быть адаптирована и под отечественные данные (российский РЛМС-ВШЭ) с корректировкой модели под институциональную и социальную структуру России. Код на Java.

@evidencespace
👍6🔥21
🔎 Я хочу найти эффект, а где его искать?

Вместе с Никитой Бурловым решили пробить стену междисциплинарности и сделать совместный пост-коллаборацию с каналом Ebm_base – сегодня говорим о том, какие разные бывают эффекты, а в канале Никиты читайте о том, как их правильно оценивать 🔥

Если бы нас попросили пересказать причинный вывод в одном предложении, то мы бы сказали, что это такая подобласть статистики, которая пытается разными способами реконструировать альтернативные судьбы наших наблюдений – значит ли это, что мы изобрели машину времени?


Когда мы оцениваем эффект, мы хотим понять, как изменился показатель в ответ на воздействие. Это может быть изменение состояние здоровья пациента после приёма лекарства, эффект образовательной программы на успеваемость и т.д.

Проблема в том, что если мы уже провели реформу или выдали лекарство, то мы не знаем, что было бы, если бы мы не предприняли это действие – это называется «фундаментальной проблемой причинного вывода» (Holland, 1985)

В идеале нам надо бы путешествовать между альтернативными вселенными и записывать значение зависимой переменной, чтобы посчитать эффект. Эти альтернативные вселенные называются потенциальными исходами – это варианты судеб (гипотетические ненаблюдаемые величины) наших испытуемых в зависимости от того в какой мир мы их решим отправить – в контрольную группу или группу воздействия

Esti... что?
Исследователи пытаются реконструировать то, что в мир заложила природа. Но все начинается с постановки исследовательского вопроса, например: «увеличила ли реформа качество образования?» (Barrett et al., 2025; Watson et al., 2025)
🟤Далее мы формулируем целевой эстиманд (estimand) – статистическое выражение нашего вопроса. В примере это разница между качеством образования после реформы и гипотетическим качеством без неё. Эстиманд задаётся через потенциальные исходы
🟤Затем выбираем оценщик (estimator) – алгоритм, который использует данные, чтобы оценить значение эстиманда
🟤Наконец, рассчитываем оценку (estimate) – конкретное числовое значение, полученное применением оценщика к данным

А что за эффект мы считаем?
Причинный вывод занимается реконструкцией потенциальных исходов для оценки эффекта (обычно среднего). Но что значит среднего? Среднего участника нашего эксперимента? Среднего не-участника эксперимента? Среднего гражданина нашей страны? Даже не зная статистики, кажется, что ответы на эти вопросы будут разные (Nguyen, 2020):
🟤ATE (Average Treatment Effect) – средний эффект для всей популяции, если бы под воздействие попали бы все. Это самый общий estimand, отвечающий на вопрос о политике для всех
🟤ATT (Average Treatment effect on the Treated) – эффект именно для тех, кто фактически попал под воздействие. Важен для оценки влияния уже проведённого вмешательства
🟤ATnT или ATC (Average Treatment effect on the Non-Treated/Controls) – гипотетический эффект, если бы воздействие распространилось на тех, кто под него изначально не попал. Полезен для оценки целесообразности расширения программы

Эти параметры могут сильно отличаться, особенно при наличии гетерогенности эффектов или самоотборе в воздействие. Например, в добровольных программах ATT часто отличается от ATE, если мотивированные участники склонны участвовать в эксперименте (Heiss, 2024)

А что тогда показывают разные методы?
🟤DiD и Synthetic Control оценивают ATT – сравнивают изменения в тритмент группе с изменениями в контрольной, чтобы выявить эффект именно на тех, кто попал под воздействие (Zeldow et al., 2019)
🟤RDD и IV оценивают LATE – локальный эффект воздействия для подгруппы субъектов, чьё поведение изменилось из‑за инструмента (Cattaneo et al., 2019)
🟤Causal Machine Learning направлено на оценку CATE, позволяя изучать гетерогенные эффекты воздействия на разных подгруппах (Chernozhukov et al., 2024)
🟤Matching – в зависимости от задачи может оценивать ATE, ATT или ATnT (Barrett et al., 2025 – мем взяли тут)

Круг замкнулся: мы ищем эффект, но чтобы его найти, нужно заранее понять, какой именно эффект мы ищем. И, может быть, именно это и есть главный секрет

@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥5