доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
284 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Python Case Studies — «крафтовый» репо с разборами шести кейсов анализа данных на синтаксисе python от Раждипа Чакраборти:

1. DNA Sequencing — исследование биоинформатики: работа с последовательностями ДНК, выявление шаблонов и биологических закономерностей.
2. Linguistic Analysis of Books — анализ лексической вариативности в книгах: частотность, стилистика, различия между авторами.
3. Classification Models — построение предиктивных моделей на табличных данных: отбор признаков и интерпретация.
4. Whisky Flavor Profiles — исследование вкусовых характеристик шотландского виски и предпочтений потребителей (кластеризация по регионам).
5. Bird Migration (GPS) — пространственно-временной анализ маршрутов перелётных птиц.
6. Social Networks — анализ взаимодействий и социальных структур среди жителей деревни.

@evidencespace
9👍5
Недавно VoxDev (платформа Института Всемирного банка, посвященная исследованию экономики развития) опубликовали интересный материал о применении эконометрических методов в экономике. В статье рассматриваются примеры применения различных каузальных методов, некоторые примеры:

1. RCT:
⬇️ Государственное субсидирование среднего образования в Гане продемонстрировало выраженные положительные эффекты, отличающиеся комплексным характером, при этом особенно значительные результаты были зафиксированы в отношении женщин. Подробнее здесь.
⬇️Внедрение децентрализованных систем водоснабжения в сельских районах Индии способствовало существенным улучшениям показателей здоровья домохозяйств, особенно за счёт повышения доступа к чистой питьевой воде и снижения распространённости заболеваний, связанных с её нехваткой. Подробнее здесь.
⬇️ Программа распределения жилья посредством жилищной лотереи в Эфиопии выявила высокий уровень неудовлетворённого спроса на улучшенные жилищные условия среди жителей трущоб, что свидетельствует о значительной потребности в доступном и качественном жилье в уязвимых городских сообществах. Подробнее здесь.

2. Натуральные эксперименты:
⬇️ Отмена программы условных денежных трансфертов в Мексике позволила оценить её влияние на образование и трудовые результаты. Подробнее здесь.
⬇️ Внедрение генетически модифицированной сои в сельском хозяйстве Бразилии позволило эмпирически оценить влияние аграрных инноваций на гендерные различия в трудовой занятости, выявив, в частности, значимые эффекты на трудовые результаты женщин в сельской местности. Подробнее здесь.

3. DID:
⬇️ Скоординированные усилия по обеспечению вакцинации существенно повысили охват детского населения, что, по оценкам, позволило предотвратить около 1,5 миллиона случаев преждевременной смертности, продемонстрировав высокую эффективность международных программ в области профилактического здравоохранения. Подробнее здесь.

4. RDD:
⬇️ Эмпирический анализ воздействия квотирования на трудоустройство лиц с инвалидностью в Бразилии продемонстрировал, что усиленные меры контроля за соблюдением трудового законодательства способствуют увеличению занятости в данной группе, подчёркивая значимость институционального давления в реализации социальной инклюзии на рынке труда. Подробнее здесь.

5. Инструментальные переменные:
⬇️Доступ к 3G широкополосному интернету в Индонезии снизил количество случаев COVID-19 примерно на 45%, что является относительно большим воздействием по сравнению с эффективностью других нехимических интервенций. Районы с более высокими уровнями грамотности и большей способностью к удаленной работе испытали еще более выраженные преимущества. Подробнее здесь.

В статье также есть материалы об образовательных ресурсах VoxDev, включая подкасты и литературу.

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍32
Forwarded from Ну Экон
Interested in using intermediate outcomes to better understand causal mechanisms and predict long-term impacts of interventions? Join Prof. Chetty and Prof. Kosuke Imai at the NBER Methods lectures:

📅 Thursday, 7/24, 3 pm
📍 Cambridge, MA for NBER SI attendees, or virtually ⬇️

https://www.nber.org/conferences/si-2025-methods-lecture-uncovering-causal-mechanisms-mediation-analysis-and-surrogate-indices
8
Causal Inference в реальных задачах индустрии

Привет! На связи Саша Кузнецов, старший аналитик команды Trisigma External в Авито.

Когда разговор заходит о причинно-следственных выводах (Causal Inferense), часто уходят в дебри статистики, не доходя до главного — как это работает в индустрии и зачем это нужно бизнесу.

Алекс Дэнг (ex-Microsoft, один из авторов CUPED и многих других industry-standard техник) написал открытый конспект про causality — «Causal Inference and Its Applications in Online Industry».

• Что внутри

Это не учебник, а набор глав, объясняющих «на пальцах» применение действительно релевантных для задач бизнеса методов и концепций. Также материал покрывает следующие топики:
— корреляции и Парадокс Симпсона;
— рандомизированные эксперементы;
— Propensity Scores;
— SUTVA;
— Causal Graphical Models;
— регрессионные методы;
— А/В-тесты на больших данных;
— диагностика «здоровья» А/В-систем;
— повышение чувствительности метрик.

• Главная мысль

Causality может эффективно применяться не только в академических исследованиях, но и в реальных задачах бизнеса на больших данных и высоконагруженных системах. Конспект дает базу про проектирование, запуск и интерпретацию экспериментов. Поэтому, если ещё остались вопросы, почему SRM — не баг, а симптом, или зачем в CUPED важно корректно задавать ковариты — то вам точно стоит прочитать статью.

• От себя

Это must-read для тех, кто строит эксперименты в проде, особенно если вы хотите верхнеуровнево понять, как устроены платформы уровня Bing, Airbnb или Booking. На мой взгляд, конспект не покрывает важные advanced-топики, как в Causal Inference, так и в A/B — Uplift Modelling, Mixed Models, нестандартные дизайны по типу свичбэка. Всему этому уделено неприлично мало внимания — видимо, автор решил сфокусироваться на базовых понятиях.

🔵Прочитать материал можно тут 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥5
🚀 Летняя школа по анализу данных

Если вы интересуетесь анализом данных, обратите внимание на серию воркшопов от Hertie School Data Science Lab*

Data Science Summer School 2025 – это бесплатные воркшопы по анализу данных и математическим основам
🟤Школа является частью подготовки к программе Master of Data Science for Public Policy в Hertie School, но участвовать могут все желающие
🟤Летняя школа стартует с введения в программирование и математику для data science
🟤Завершается знакомством с современными методами ML и DL – от компьютерного зрения до обработки естественного языка
🟤Можно посетить как отдельные занятия, так и весь курс целиком

🥲Что обещают организаторы?
🟤Однодневные (4 часа) практические воркшопы
🟤Преподаватели – профессора, исследователи, практики отрасли
🟤Сертификат об участии и живой нетворкинг

🥲Как подключиться?
🟤Все занятия пройдут онлайн в Zoom с трансляцией на YouTube
🟤Регистрация по ссылке

🥲Воркшопы школы

😢 Введение в R для анализа данных
4 августа, 10:00 MSK, Sebastian Ramirez Ruiz
Практика основ языка R – от рабочего окружения и функций до работы с tidyverse

😢 Введение в Python для анализа данных
5 августа, 10:00 MSK
Базовый синтаксис, работа с реальными датасетами, основы визуализации и лайфхаки по использованию ИИ для обучения и автоматизации

😢 Математический анализ для анализа данных
6 августа, 10:00 MSK, Ilja Klebanov
Ключевые концепции (градиент, производные, градиентный спуск), без которых невозможны ML и DL

😢 Линейная алгебра для анализа данных
7 августа, 10:00 MSK, Dr. Kristian Rother
Простыми словами о матрицах, векторах, реальных задачах и даже трансформации изображений

😢 Статистика и вероятность для анализа данных
8 августа, 10:00 MSK, Dr. Darina Goldin
О том, как измерять неопределенность, строить выводы из несовершенных данных и методологическую базу для ML и A/B-тестирования

😢 Построение автономных AI-агентов
7 августа, 15:00 MSK, Huy Dang
С нуля о том, что такое AI-агенты – инструменты, которые уже используется для автоматизации процессов, экспериментов и анализа. Создадите своего агента на Python

😢 Экспериментальный дизайн для цифровых медиа исследований
8 августа, 03:00 MSK, Dr. Kevin Munger
О том, как оценить влияние контента и алгоритмов в соцсетях, о дизайне экспериментов для real-world платформ (YouTube, Twitter/X, TikTok) и поведении и аудитории в медиа

❇️Hertie School Data Science Lab – исследовательский и образовательный центр в Берлине, объединяющий data science и социальные науки для решения общественных задач. Лаборатория развивает исследования и обучение в сфере данных и ИИ для принятия обоснованных решений

#канал_зовёт
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2
Forwarded from Рюмочная ИПП
РББО 2.0.1

Мы обновили Российскую базу бухгалтерской отчетности (РББО), а процесс ее создания описали в журнале Scientific Data:

🗓 Добавлены данные за 2024 год для более чем 2,2 млн фирм.

👾 Ошибки в отчетностях за предыдущие годы, исправленные фирмами с этого января, теперь исправлены и у нас.

🔨 Устранен баг, из-за которого в предыдущих версиях мы не досчитались 280+ тыс. наблюдений, реконструированных из отчетностей будущих годов.

🗺 Улучшено геокодирование юридических адресов фирм.

Обо всех изменениях читайте на гитхабе проекта.

Как писали исследователи Google в 2021 г., «все хотят работать с моделями, никто не хочет работать с данными». За работой по производству данных сохраняется репутация грязной, тяжелой, требующей меньшей компетентности, чем моделирование, — короче говоря, менее престижной и важной. Из-за этого качеству данных зачастую уделяется недостаточно времени и внимания, что ведет к каскадам искажений.

Мы прикладываем много усилий для подготовки РББО, но видим, что в ней есть что улучшать, и приглашаем всех заинтересованных присоединяться к этой работе.

Скачать РББО можно на Hugging Face и Zenodo.
🔥112
🆕 Новое практическое руководство по работе с панельными данными

Хотим с вами поделиться отличными материалами для всех, кто работает с панельными данными. Недавно вышло практическое руководство, написанное Яном Дитценом и Янисом Каравиасом, где авторы объясняют, почему классические модели фиксированных эффектов (TWFE), к которым мы привыкли, не всегда отвечают современным задачам

Руководство посвящено описанию более аккуратного моделирования структурной неоднородности данных и зависимостей между наблюдениями, которые часто упускаются в стандартных подходах

📖 В центре внимания
🟤Interactive Fixed Effects (IFE): расширение классической модели фиксированных эффектов, при котором влияние ненаблюдаемых индивидуальных характеристик является как изменяющимся во времени, так и неоднородным между наблюдениями
🟤Grouped Fixed Effects (GFE): метод, предполагающий, что наблюдения можно разбить на конечное число однородных групп, каждая из которых характеризуется своим уникальным эффектом времени
🟤Non-separable Two-Way Fixed Effects (NSTW): обобщение IFE, допускающее нелинейные и более комплексные формы взаимодействия ненаблюдаемых эффектов через неизвестную гладкую функцию

📖 Авторы показывают, как меняются выводы при использовании новых оценок вместо традиционных на реальных эмпирических примерах
🟤Инфляция и экономический рост: анализ панельных данных 74 стран за 1970−2022 годы выявил, что высокая инфляция оказывает значительное отрицательное влияние на рост ВВП, при этом модели NSTW обеспечивают лучшее моделирование скрытых факторов и более надёжные оценки по сравнению с FE и TWFE
🟤Парадокс Фельдштейна-Хориоки (связь сбережений и инвестиций): исследование 98 стран с 1980 по 2019 год с применением IFE, GFE и NSTW-моделей и показало, что традиционные модели переоценивают корреляцию, тогда как современные подходы дают более точные и оценки степени мобильности капитала

🖥 В руководстве не только обсуждаются современные процедуры оценки моделей, но и диагностические тесты, практические рекомендации и ссылки на библиотеки для реализации в Stata и R

#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115🎉5
Forwarded from Ну Экон
Ребята, как вы может быть заметили, у меня появилось немного энергии вести каналы (ну как немного ахха, теперь у меня 4 канала!). Я уже начала по чуть чуть репостить пока тестировала концепт, но теперь хочу заявить официально. Не уверена, что буду вести все каналы сама, может быть со временем добавлю авторов, но пока я одна и концепт такой:

@NUKUDA7 - моя душа и любовь про образование и международные возможности, тут все остается также

@nuecon - канал с вакансиями и полезными материалами в экономике, публичной политике и data science/ai. Наверное, самый узкий из моих каналов, но больше всего про то, чем я сейчас занимаюсь

@nukudarabota - рабочие вакансии

@tetenkaeconomist - канал с обсуждением новостей экономики. Я все еще тестирую формат и пытаюсь быть смешной (хотя смешной пока получилось быть только в названии) и непринужденной, но на идеал я тут точно пока не претендую. Я 2 года поглядываю на похожие каналы и очень хочу делать свой, но пока я прям вот совсем только тестирую

Подписывайтесь :)
👍7🎉3
Forwarded from Tatyana Cherkashina
Традиционный подарок к началу академического сезона и нового университетского учебного года: опубликованы микроданные и коудбуки 33-й волны Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ за 2024 год.
🎉14
Всё меняется. Совсем недавно сделать хотя бы базовый литобзор по теме исследования, погрузиться в новую область знания требовало много времени. Сейчас приходит время AI-агентов, способных выполнять базовые исследовательские задачи, которые раньше занимали недели, за минуты. Хорошо это или плохо - вопрос отдельного порядка, одно можно сказать точно - это текущие реалии. Подробнее об изменениях в области применения ИИ в экономических исследованиях в статье Anton Korinek — «AI Agents for Economic Research» (NBER Working Paper №34202, сентябрь 2025).

Статья посвящена использованию AI-агентов — автономных систем на базе больших языковых моделей (LLM), которые могут:
- планировать исследования,
- собирать и анализировать данные,
- писать и отлаживать код,
- выполнять сложные многошаговые исследовательские задачи.

Некоторые направления использования AI-агентов в экономических исследованиях:

I. Deep Research Agents (
Google Gemini, OpenAI, Claude, Perplexity)
Используют мультиагентную архитектуру. Могут: анализировать сотни источников, делать структурированные обзоры литературы, собирать статистику и визуализировать результаты. Время подготовки отчёта: от 5 до 30 минут. Недостатки: иногда приводят некорректные ссылки, плохо отбирают ключевые публикации по новым темам.

II. Coding Agents (Claude Code, Cursor, ChatGPT Agents)
Позволяют создавать эконометрические инструменты без знания Python или R. Реализуют концепцию “vibe coding” — написание и отладка кода на основе описания задачи обычным языком. Подход позволяет строить сложные инструменты анализа данных за несколько минут.

III. Автоматизация рабочих процессов
AI-агенты могут: выполнять регрессионный анализ и строить графики (OLS, VAR, ML-модели); интегрироваться с базами данных (FRED, IMF, World Bank); создавать отчёты по макроэкономическим показателям за минуты; готовить презентации и статьи с цитированием источников.

______________________
Ключевые рекомендации для исследователей от автора статьи:
1. Использовать Deep Research Agents для ускоренного обзора литературы и поиска данных.
2. Применять Coding Agents для автоматизации анализа, моделирования и визуализации.
3. Разрабатывать собственных агентов с помощью LangGraph или LangChain.
4. Всегда проверять результаты и проводить верификацию источников.
5. Комбинировать несколько AI-провайдеров, чтобы снизить стоимость и повысить надёжность.

@evidencespace
👍14🤔5👎31👨‍💻1
J-PAL совместно с MIT стартует свой курс по оценке социальных программ. Наши подписчики оставляли замечательный отзыв о курсах J-PAL здесь. Теперь у вас снова есть возможность пройти бесплатный курс в этом потоке. Регистрация здесь.

@evidencespace
🔥72👍1
Forwarded from Reliable ML
Causal Inference Workshop #1

Всем привет! Мы запускаем серию воркшопов по анализу причинно-следственных связей (causal inference).

Формат - академическая пара, онлайн, будем разбирать по одной теме за раз.
Каждое занятие будет разбирать одну практическую тему,
Первое занятие - 27.10.2025 с 12:00 до 14:00 мск.
Тема: "Введение в Causal Inference. Причинно-следственные связи без А/Б тестов. Ортогонализация"
Разберем базовые понятия Causal Inference, несколько примеров "как делать не надо" и одну простую технику, как можно делать.
У участников останутся ноутбуки с примерами и инструкциями, можно будет задать свои вопросы.

Занятия бесплатные. Записи в открытом доступе не будет. Технического ограничения на размер группы нет, но в слишком большой группе никто не успеет ничего спросить, поэтому в какой-то момент набор закроем.

Чтобы записаться, пишите в комментариях к этому посту - зачем вам изучать Causal Inference. Будем добавлять в закрытый канал воркшопа.

Ваш @Reliable ML

#reliable_ml #causal_inference #workshop
🔥10🎉54
📚Всего пару лет назад мы радовались тому, что по теме причинного вывода начали появляться современные и доступные книги, а теперь наступил новый этап – их авторы выпускают переработанные издания с учётом последних трендов и новых методов

📗 Летом 2025 года увидело свет второе издание книги «The Effect» Ника Хантингтон-Кляйна – одной из самых популярных и доступных по эконометрике и анализу причинно-следственных связей.
В книге появилась новая глава про partial identification, обновились разделы по современным эмпирическим методам, а навигация и практические примеры стали ещё удобнее
🔗 Последняя версия книги
🔗 Видеоуроки к книге

Обзоры первого издания книги делали авторы каналов This is Data и H0H1: про HR-аналитику – рекомендуем и их ревью, и каналы в целом, они отличные!

Кроме того, напомним, что в начале этого года было обновление книги «Causal Inference: What If» Джеймса Робинса и Мигеля Эрнана. А также напоминаем о нашем посте-путеводителе по книгам в сфере причинного вывода

Успехов в учёбе и исследованиях!

#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥6👍1
👎 Как «накрутить» связь между переменными, не подделывая данные?

В своем исследовании Кфир Элиаз, Ран Шпиглер и Яир Вайс (Eliaz, Spiegler, Weiss, 2021) задаются простым, но фундаментальным вопросом:
Насколько сильно может быть искажена оценка корреляции между переменными, если модель, используемая для интерпретации данных, является ошибочной, но при этом проходит тест на корректность?


😢 Почему это важно?
🟤Модели – основа решений: научных, политических, экономических. Ошибки в модели могут приводить к ложным выводам и дорогостоящим последствиям (Piccione, Rubinstein, 2003; Eyster, Piccione, 2013)
🟤Манипуляции нарративами: политики и медиа могут использовать ложные причинные объяснения для искажения реальности и влияния на общественное мнение (Eliaz, Spiegler, 2018)
🟤Стимулы к преувеличению: учёные заинтересованы в демонстрации «сильных» результатов, что подталкивает к оппортунистическому выбору структуры модели (Eyster, Rabin, 2005)
🟤Когнитивные искажения: люди плохо распознают каузальные ошибки и легко верят правдоподобно выглядящим моделям (Spiegler, 2020)
Формальные основы этих искажений: ограниченная рациональность (Piccione, Rubinstein, 2003; Jehiel, 2005), «проклятые убеждения» (cursed beliefs) (Eyster, Rabin, 2005), конкурирующие нарративы и модели (Eliaz, Spiegler, 2018; Montiel Olea et al., 2018)

😢 Базовая постановка задачи
🟤У вас есть реальные, «чистые» данные по многим переменным
🟤Вы не фальсифицируете данные
🟤Но вы можете выбирать какие переменные включать в модель, и как связать их между собой
Цель: убедить аудиторию, что две переменные тесно связаны, даже если на самом деле они независимы
Ограничение: модель должна сохранять предельные распределения (marginal distributions) – модель не должна искажать распределение каждой переменной по отдельности

Суть в том, что даже неспециалист может заметить явные манипуляции в вашей модели, например, если она утверждает, что средний доход равен $200 000, когда в данных – $30 000 (такое ограничение называется Undistorted Marginals Constraint). Но при этом зависимости между переменными (корреляции, причинные связи) – уже не так просто проверить. И именно тут начинается «читерство»

😢 Как работает «обман»?
🟤Исследователь строит направленный ациклический граф (DAG) – стандарт в байесовских сетях и в теории причинности (Pearl, 2009; Koller, Friedman, 2009)
🟤Он вставляет между интересующими переменными оппортунистически подобранную цепочку медиаторов, усиливающую видимую зависимость между началом и концом цепи

😢 Пример: marker hacking
Представим фармацевтическую компанию, которая хочет доказать, что новое лекарство увеличивает выживаемость. Прямой связи нет, но есть:
🟤Краткосрочные данные о реакции биомаркеров на препарат
🟤Долгосрочные наблюдения о связи биомаркеров с выживаемостью

😢 Она строит модель:
Препарат → Биомаркер → Выживаемость
Если биомаркер подобран правильно, то даже при полном отсутствии реальной связи между препаратом и выживаемостью, модель покажет значимую корреляцию

Это приём называется marker hacking – отсылка к p-hacking, но вместо подгонки p-значений происходит подгонка структуры модели. См. также понятие surrogate paradox в (VanderWeele, 2015)

😢 Главный результат
Даже при нулевой реальной корреляции между переменными, можно построить модель, которая покажет почти идеальную зависимость без манипуляций с данными, с сохранением предельных распределений, с использованием легитимного инструментария

😢 Почему это работает?
В статье данный результат аккуратно выведен тригонометрически:
если между двумя точками (переменными) разместить цепочку «промежуточных» точек (медиаторов) с маленькими отклонениями, итоговая зависимость между краями может казаться сильной

😢 Выводы
🟤Даже «правильная» на вид модель может лгать, если у исследователя есть свобода выбора структуры
🟤Проверка распределений не гарантирует достоверности модели
🟤Чем больше у исследователя переменных (в эпоху Big Data – тысячи), тем легче накрутить корреляции

#канал_обозревает
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍41👎1
Forwarded from CEBDA Events
🌍 iCEBDA Seminar Series — Launching a New Online Networking Platform for Econometrics and Data Analysis

We are delighted to announce the launch of the iCEBDA Seminar Series, a new regular online seminar initiative organized by the Center for Big Data in Economics and Finance (HSE University, Moscow). This series extends the success of the recent iCEBDA-25 Conference into an ongoing digital format, bringing together researchers, students, and practitioners worldwide.

📅 The opening seminar will take place on September 29, 2025:
🔹 Recent Development in Instrument-Free Approaches to Regression Models with Endogenous Regressors
👤 Speaker: Kien C. Tran (University of Lethbridge, Canada)

Over the coming months, the program will feature distinguished scholars from Syracuse University, the University of Liverpool, the University of Birmingham, Brunel University of London, the University of Macau, ITAM (Mexico), and other leading institutions. Topics will range from clustered data inference and panel econometrics to systemic risk measures and change-point detection in time series.

🖥 Format: Online (via Zoom)
💡 Participation: Free, registration required

🔗 Full program and updates: https://economics.hse.ru/bigdata/seminars
👉 Direct registration: https://www.bechair.online/reg/CEBDA_Talks
👍6
🗺 Causal inference и пространственный treatment

На Substack Скотта Каннингема вышла заметка Кайла Баттса (доцент экономики в University of Arkansas). Она посвящена исследованию Майкла Поллманна (доцент экономики в Duke University), «Causal Inference with Spatial Treatments».

Поллманн рассматривает ситуацию, когда treatment «привязан» не к индивиду, а к месту (location). Тогда ключевой вызов - корректно оценить его влияние на соседние объекты. Он предлагает дизайн-базированный подход (design-based inference), где treatment случайно назначается из множества возможных точек-кандидатов, а контрольные единицы (control units) формируются на основе тех локаций, где treatment мог быть реализован, но не был.

Автор критикует стандартную стратегию «внутренний контур vs. внешний контур» (inner vs. outer ring): подход базируется на утверждении, что если бы не treatment, то объекты во внутреннем контуре (близком к объектам «лечения») и внешнем контуре были бы похожи - значит, внешний контур можно использовать как контрольную группу для внутреннего. Поллманн пишет, что «внешние» объекты могут систематически отличаться по пространственным характеристикам. В качестве решения он предлагает учёт пространственной корреляции и использование методов машинного обучения для балансировки по пространственным ковариатам, иными словами - моделирование пространственного распределения.

Эмпирический пример - влияние расположения продуктовых магазинов на трафик к ресторанам в период COVID-19: положительный эффект treatment'а заметен лишь в непосредственной близости и быстро исчезает с расстоянием.

Работа Поллманна предлагает новую методологию анализа пространственных treatment-эффектов.

@evidencespace
🔥121
⚪️⚪️⚪️3 месяца работы и 64 тысячи таблиц спустя — и вы можете скачать набор данных с муниципальной статистикой за 2025 год. Поддержите «Если быть точным», чтобы эти данные были доступны и дальше

Полтора года назад мы выложили датасет с муниципальной статистикой. За это время его скачали 7 тысяч раз. В таком виде этих данных нет больше нигде. Это наш самый востребованный датасет, и чтобы мы могли обновлять его, нам нужна ваша поддержка.

В наборе данных 603 показателя о численности населения, миграции, заработных платах по отраслям, доходах и расходах местных бюджетов, финансовых результатах компаний и других сферах.

Из этих данных, например, видно, что в 2024 году минимум в 594 районах страны больше половины детских садов находились в аварийном состоянии или нуждались в капитальном ремонте. Выше всего эта доля — в Калмыкии, Кабардино-Балкарии, Адыгеи, Курганской и Мурманской областях.

Вот что изменилось в новой версии:

🔸Внесли данные за 2024 и 2025 годы, которые появились в базе Росстата к середине лета этого года.

🔸Добавили 21 новый показатель — например, статистику о наличии и износе строительных машин (бульдозеров, кранов, бурильных установок) по районам. Посмотреть все показатели и скачать таблицы с данными можно здесь.

🔸Поправили ошибки о национальном составе, которые были в исходных данных Росстата.

🔸Обновили стабильные идентификаторы районов, которые учитывают изменения в муниципальной структуре с 2010 года. За прошедший год больше 190 районов изменили свой тип, название и код ОКТМО. Мы учли все такие изменения, чтобы по каждому району можно было смотреть значения показателей за длинный период.

Обработка данных требует ресурсов и времени. Чтобы у нас получилось собирать больше датасетов — поддержите нас. Это можно сделать через Boosty или Patreon.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉98👍5
18–19 сентября в Стэнфорде прошёл семинар NBER Economics of Transformative AI Workshop. Участники обсудили, как новые поколения искусственного интеллекта повлияют на конкуренцию, распределение доходов, инновации и глобальную экономику. Среди тем — рост производительности, регулирование, геоэкономика, а также риски и возможности, связанные с трансформационными эффектами ИИ. Организаторы: Ajay K. Agrawal — профессор Университета Торонто, директор Creative Destruction Lab; Anton Korinek — профессор экономики Университета Виргинии, исследователь NBER, эксперт по ИИ и макроэкономике (писали о его статье в канале здесь); Erik Brynjolfsson — профессор Стэнфорда, директор Digital Economy Lab, один из ведущих исследователей цифровой экономики.

Видео выступлений и материалы доступны на сайте NBER и в открытом плейлисте-YouTube.

@evidencespace
🔥5👍2
Упустили весьма интересный handbook. В декабре 2024 года Всемирная организация здравоохранения представила новое руководство по мониторингу неравенства в сфере здравоохранения. Позиционируется руководство как системный набор методик и инструментов, который помогает переходить от деклараций о справедливости в доступе к здравоохранению к точным измерениям и практическим действиям.

Что внутри?
Концептуальные основы — зачем и как измерять неравенство; связь с ЦУР и глобальной политикой в области здоровья.
Методология — выбор индикаторов, дисагрегация данных (по полу, доходу, образованию, месту жительства), а также методы оценки.
Статистический инструментарий — рекомендации по расчётам в R, Stata и Excel; примеры готовых скриптов для анализа.
Открытые ресурсы — использование HEAT (Health Equity Assessment Toolkit) для анализа и визуализации, организация доступа к открытым репозиториям данных ВОЗ (в том числе к Health Inequality Data Repository (HIDR) — крупнейшему набору данных о неравенстве в здоровье).
Применение — кейсы из разных стран, примеры интеграции мониторинга в системы здравоохранения.

О каких показателях речь?
- охват вакцинацией по группам дохода или регионам;
- доступ к медицинской помощи в сельской и городской местности;
- материнская и детская смертность по уровню образования матери;
- факторы риска (курение, ожирение, питание) в разных социальных группах.

👉 Полный текст доступен онлайн: WHO – Health inequality monitoring (2024)

@evidencespace
👍8🔥43👨‍💻1
Интересное применение GenAI — Research Gap Finder для поиска пробелов в исследовательских областях. В ответ на запрос показывает, где в теме не хватает:
◽️теории (нет актуальной теоретической рамки)
◽️методологии
◽️или эмпирических результатов.

Оговорка - результаты, конечно, стоит верифицировать более детальным обзором литературы. AnswerThis также предлагает как продукты других AI агентов для исследователей, с доступом к 250+ млн статей.

https://answerthis.io/ai/research-gap-finder?fpr=razia75
👍6🔥2
Forwarded from CEBDA Events
📢 The iCEBDA Econometric seminar

Join us on October 13 at 12:00 (Moscow time, online via Zoom) for a research seminar by

🎓 Bogdan Potanin (HSE, Moscow)
Talk: “Double machine learning for causal inference in multivariate sample selection model”

The seminar will present novel Plug-in and Double Machine Learning (DML) estimators for causal effects (ATE, ATET, LATE). The proposed DML estimators are doubly robust and based on efficient influence functions. Simulation evidence shows that ignoring multivariate sample selection leads to significant bias, while the new methods effectively correct it.

🔗 Register here: https://economics.hse.ru/bigdata/seminars
7👍2🔥2