доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
284 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
Натолкнулись на интересную статью Andersen et al. (2023) Disaggregated Economic Accounts (Дезагрегированные экономические счета), в которой представлена новая система дезагрегированных экономических счетов, разбивающая национальные счета Дании на двусторонние потоки между группами потребителей и производителями, а также правительством и внешним миром. Используя различные административные данные (например, транзакции Danske Bank), авторы раскрывают «треугольную» схему торговли («triangular trade» pattern): сельские потребители направляют расходы в городские регионы, городские потребители больше тратят за границей (12% против 8% у сельских), а экспортные доходы преимущественно поступают в сельские регионы из-за расположения в них экспортных производителей.

С помощью калиброванной модели общего равновесия авторы показывают, как структура этих счетов влияет на распространение экономических шоков. Некоторые выводы работы:

- трансферы, дольше циркулирующие в национальной экономике, обеспечивают более высокий мультипликатор благосостояния, особенно в сельских районах;
- снижение экспортных тарифов напрямую выгодно сельским регионам, но общие выгоды, включая косвенные эффекты, больше ощущаются городскими потребителями;
- в целом инструменты фискальной политики результативнее в сельских регионах, так как расходы сельских потребителей дольше циркулируют внутри страны, прежде чем «утекают» за границу.

Авторы утверждают, что такой подход к оценке экономических связей позволяет лучше понимать эффекты от внешних шоков, идентифицировать наиболее уязвимых экономических агентов, а также более точно таргетировать фискальную политику. Кроме этого, работа - хороший бенчмарк того, как можно и нужно транслировать академические результаты в массы: disaggregatedaccounts.com и bfi.uchicago.edu.

@evidencespace
6🔥5👍4
NBER опубликовало сегодня исследование Река Юхаса и коллектива авторов «Measuring Industrial Policy: A Text-Based Approach». О чем оно и почему интересно с точки зрения impact-оценки государственных политик?

Коллеги использовали базу данных Global Trade Alert (GTA) — самый большой в мире сборник описаний торговых и экономических мер, принятых государствами (47283 записи за 2010–2022 годы после очистки данных). В GTA собраны понятные описания на английском языке, которые составлены экспертами. Они включают только проверенные и значимые меры, влияющие на международную торговлю. Река Юхас и команда поставили перед собой задачу, используя базу GTA, разработать метод систематической идентификации и измерения мер промышленной политики среди стран Мира, а именно: классифицировать государственные меры, сформировать показатели активности промышленной политики, предельно точно идентифицировать целевой характер мер (не просто соотнести меру к тарифной политике или видам субсидий, а определить ее таргет).

Решали задачу методами ML в три этапа: ручная разметка для обучения (было размечено 2932 описания (примерно 6% от всей базы), тренировка модели (непосредственно само обучение), имплементация модели на всей выборке и кластеризация данных. В зависимости от года было выделено из GTA 44–63% мер, относящихся к промышленной политике. Точность модели на тестовой выборке достаточно высокая (F1-score 94.1%). Примеры классифицированных политик:

• Бразилия увеличила импортные тарифы на IT и телекоммуникационные товары, чтобы стимулировать инновации и укрепить национальный IT-сектор.
• Китай предоставил государственные займы для развития производства батарей для электромобилей.
• США приняли CHIPS and Science Act 2022 для развития полупроводниковой отрасли и исследований.

По стэку и методам. Использовалась модель BERT (Bidirectional Encoder Representations from Transformers), которая была дообучена для задачи трехклассовой классификации (определяли таргет (промышленная политика), не таргет и условную корзину, где модель не смогла классифицировать текстовые данные). Есть отдельный репо, но без кода - только данные. Но из текста статьи следует, что коллеги использовали инструменты на основе python, в частности Hugging Face (для доступа к предобученной модели BERT), Optuna (для оптимизации гиперпараметров модели), Prodigy (для разметки и аннотации данных).

Эффект мер на текущем этапе не оценивался, но вот некоторые выводы исследования:

1. С 2010-х годов наблюдается устойчивое увеличение разработки и применения мер промышленной политики, стимулирующих различные отрасли.
2. Промышленная политика чаще использует субсидии и меры, ориентированные на экспорт, вместо тарифных и фискальных мер.
3. Имплементация промышленной политики характерна для стран с высоким уровнем дохода, но не для развивающихся стран, что противоречит традиционным представлениям о промышленной политике как инструменте догоняющего развития.
4. Промышленная политика, особенно в странах с высоким доходом, чаще нацелена на сектора, где страна уже имеет конкурентные преимущества в рамках экспорта (отрасли как стартапы остаются за бортом).

Подход интересен тем, что он на практике показывает, как может выглядеть консолидация различных инициатив под вектором того или иного механизма воздействия. Для задач оценки государственной политики в России аналогичные методы могут быть использованы в части выявления на пантеоне текстовых данных документов стратегического планирования региональных мер, резонирующих с федеральной повесткой. При оценках различных политик, например, политики в области повышения благосостояния населения меры на федеральном уровне консолидируются в единые механизмы проще, чем меры регионального характера, которые в силу специфики отечественного госпланирования часто размыты и формально могут быть не связаны с федеральными, однако фактически могут влиять на достижение национальных целей. Методы ML, описанные в статье, могут решать такие задачи консолидации.

@evidencespace
8🔥7👍4
Libraries Scholarly API Cookbook - подборка туториалов Университета Алабамы по работе с API различных веб-сервисов, полезных для исследователей: arXiv, WB, Scopus, NASA, Wiley, OSM и другие.

@evidencespace
👍64👨‍💻2
💊 Интенсивность имеет значение: как оценить эффект, если воздействие имеет разную силу?

Недавно мы обещали рассказать вам, как оценивать эффекты, если воздействие непрерывное -- пришло время этой темы!

Обычно для оценки влияния политик или другого воздействия используется метод разность разностей (Difference-in-Differences, DiD), но он работает хорошо, когда можно разделить наблюдаемые единицы на две группы: тех, кто подвергся воздействию, и тех, кто нет

В реальности же воздействие часто имеет не бинарную, а непрерывную природу — то есть разную интенсивность (dose):
🟤уровень загрязнения воздуха в регионах
🟤доля пациентов с ДМС в больнице
🟤количество символов в посте 😁 и т.д.

Во всех этих случаях вопрос звучит не "было ли воздействие?", а "насколько интенсивным оно было?"

🆕 Не скоро дело делается... Спустя 5 лет эти вопросы снова подняли в своём препринте известные исследователи DiD — Брэнтли Кэллоуэй (Университет Джорджии), Эндрю Гудман-Бейкон (Федеральный резервный банк Миннеаполиса) и Педро Сант'Анна (Университет Эмори) (Callaway et al., 2025)
Авторы переосмысливают классический DiD и показывают, что при непрерывном воздействии привычные методы могут давать некорректные оценки

В чём проблема?
Во многих прикладных работах исследователи используют стандартную модель с фиксированными эффектами (TWFE) и включают переменную интенсивности воздействия, умноженную на бинарную переменную пост-периода. Но такая оценка:
🟤не равна среднему причинному эффекту
🟤не отражает отклик на изменение интенсивности
🟤может быть смещенной из-за гетерогенных эффектов в разных группах и при разных интенсивностях
🟤складывается из эффектов при разных уровнях интенсивности с непрозрачными, иногда отрицательными весами

Авторы показывают, что даже в простой ситуации 2×2 DiD (две группы, два периода), коэффициент TWFE не имеет корректной причинной интерпретации, если интенсивность воздействия варьируется

Что и как нужно оценивать на самом деле?
Авторы вводят два типа причинных эффектов:
🟤Уровневый эффект (Level Effect) — показывает, как изменяется результат при переходе от нулевой интенсивности к заданной
🟤Причинный отклик (Causal Response) — описывает, как результат реагирует на небольшое изменение интенсивности. Это аналог производной или эластичности, но в причинном смысле

Что делать?
🟤Если вы хотите понять, что даёт воздействие при конкретной интенсивности — ищите уровневый эффект
🟤Если хотите знать, как результат реагирует на рост интенсивности — ищите причинный отклик
🟤Если нужно усреднённое значение по всей выборке — считайте агрегаты с корректными весами

Какие нужны предпосылки?
🟤Параллельные претренды (Parallel Trends) - предположение, что без воздействия все группы развивались бы одинаково
→ Позволяет идентифицировать уровневый эффект при заданной интенсивности
🟤Сильные параллельные претренды (Strong Parallel Trends) - предположение, что результат при одинаковой интенсивности развивался бы одинаково у всех групп
→ Необходимо для корректной оценки причинного отклика

Действительно разные результаты? Medicare и капиталоёмкость
🟤Дарон Аджемоглу и Эми Финкельштейн (Acemoglu, Finkelstein, 2008), используя TWFE показали, что после отмены трудовых субсидий по Medicare больницы стали больше инвестировать в капитал
🟤Авторы новой статьи применили свой подход к тем же данным — и получили иные результаты: уровень эффекта оказался на 50% выше, чем в TWFE; причинный отклик был положительным при низкой интенсивности, но негативным при высокой
🟤Это означает, что TWFE не просто занижал эффект, но и менял его знак при попытке оценить маржинальный отклик

🖥 Открытый пакет contdid
Авторы статьи разработали R-пакет contdid. Это пока альфа-версия, но она уже поддерживает непрерывное воздействие, ступенчатое воздействие (staggered adoption), агрегации по интенсивности и времени
🔗 Документация пакета: Github и RD Packages

Заинтересованным в теме предлагаем также заглянуть в препринт (Zhang, 2025), где автор пытается решить похожую задачу с помощью double/debiased machine learning

#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥42
Открыт прием заявок на конкурс исследований

Мы запускаем конкурс научно-практических исследований социального развития в сфере помощи детям и молодым взрослым в ситуации уязвимости 2025.

Принять участие могут государственные и негосударственные НКО, ресурсные и методические центры, образовательные, научные и исследовательские организации, зарегистрированные по форме НКО.

Грантовый фонд конкурса составит 50 млн рублей. Прием заявок стартует 17 июня и продлится до 12.00 по московскому времени 21 июля 2025 года. Результаты конкурса будут объявлены в августе 2025 года.

Особенность конкурса в том, что он призван поддержать научно-практические исследования при условии, что результаты исследований будут в обязательном порядке внедрены в практику и способствовать улучшению жизни целевых групп. При этом важно не только проведение исследований и внедрение результатов на практике, но и распространение информации в открытом доступе, а также мониторинг и оценка влияния результатов исследования.


Узнать больше о конкурсе и подать заявку можно по ссылке.
📊 Позавчера начался NBER Summer Institute — это ежегодная конференция, одно из самых значимых и авторитетных событий в области экономических исследований, собирающее ведущих учёных и экспертов из разных направлений экономики (в этом году конференция содержит более 35 направлений). В этом году она проходит с 7 по 25 июля

Мы хотели бы обратить ваше внимание на две секции, связанные с анализом данных и причинностью (24 июля - save the date) 📅

↔️ Methods Lecture: Uncovering Causal Mechanisms

🟤Mediation Analysis: Identifying Mechanisms Underlying Treatment Effects on Primary Outcomes (Kosuke Imai, Harvard University)
Раскрывает современные методы медиаторного анализа: как оценивать, через какие механизмы интервенции влияют на исход. Ключевой акцент — на идентификационные допущения и анализ чувствительности

🟤Surrogate Indices: Identifying Treatment Effects on Primary Outcomes Using Mediators (Raj Chetty, Harvard University and NBER) [мы писали об этом исследовании тут]
Показывает, как использовать суррогатные переменные и агрегирующие медиаторы для оценки эффектов, когда главные исходы пока не наблюдаемы

Трансляции и записи лекций можно будет посмотреть на YouTube

↔️ Frontier Econometric Methods

🟤Testing Mechanisms (Soonwoo Kwon, Jonathan Roth, Brown University)
Методы эмпирического тестирования механизмов эффектов воздействия: как убедиться, что интервенция действует именно через заявленный канал
Дискутант: Ismael Mourifié, Washington University in St. Louis and NBER

🟤Program Evaluation with Remotely Sensed Outcomes (Ashesh Rambachan, MIT; Rahul Singh, Davide Viviano, Harvard University)
Использование спутниковых данных и данных мобильных операторов в качестве исходов для оценки программ в труднодоступных регионах (экология, агросектор и др.)
Дискутант: Seema Jayachandran, Princeton and NBER

🟤Causal Inference on Outcomes Learned from Text (Iman Modarressi, Cambridge; Jann Spiess, Amar Venugopal, Stanford) [мы писали об этом исследовании тут]
Методы оценки причинного эффекта на текстовые переменные, извлечённые с помощью NLP (например, отзывы, протоколы заседаний и др.)
Дискутант: Jesse M. Shapiro, Harvard and NBER

🟤Identification of Long-Term Treatment Effects via Temporal Links, Observational, and Experimental Data (Filip Obradovic, UCLA)
Предлагается метод для объединения краткосрочных экспериментальных и долгосрочных наблюдаемых данных для оценки эффекта во времени
Дискутант: Susan Athey, Stanford and NBER

🟤Investigating Instruments with Meta-Regressions (Aaron Pancost, UT Austin; Garrett Schaller, Colorado State University)
Новый способ оценки качества инструментов через мета-регрессии, обобщающий информацию из разных исследований
Дискутант: Isaiah Andrews, MIT and NBER

🟤Estimating Demand with Recentered Instruments (Kirill Borusyak, UC Berkeley and NBER; Mauricio Caceres Bravo, Peter Hull, Brown and NBER)
Разработка рецентрированных инструментов для оценки спроса в моделях с дифференцированными продуктами — актуально для IO и маркетинговых исследований
Дискутант: Steven T. Berry, Yale and NBER

#канал_зовёт
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥4🎉3
Opensustain.tech: один из масштабных волонтерских open-source проектов, посвященный устойчивому развитию. Представляет собой каталог более 1000 проектов, связанных с изменением климата, возобновляемой энергетикой, биоразнообразием, природными ресурсами, бедностью и неравенством.

Вот некоторые примеры проектов с открытым исходным кодом:

accessibility: инструмент для расчёта уровней доступности и анализа бедности и неравенства в доступе к услугам, использует предварительно рассчитанную матрицу транспортных затрат и гео-данные (например, расположение рабочих мест, медицинских учреждений и населения). Проект помогает выявлять районы с ограниченным доступом к базовым услугам, что особенно актуально для бедных сообществ. В чем польза: предоставляет данные и алгоритмы для анализа пространственного неравенства, что будет ценно для исследований в области социальной географии и городской политики.

OpenTripPlanner
: мультимодальный планировщик маршрутов, который объединяет данные об общественном транспорте, велосипедных маршрутах, пешеходных путях и сервисах микромобильности (например, bike-sharing). Проект помогает оптимизировать транспортные потоки и снижать углеродный след за счёт продвижения экологичных способов передвижения. В чем польза: предоставляет данные и алгоритмы для анализа транспортной инфраструктуры и моделирования сценариев устойчивых транспортных систем, можно использовать для изучения эффективности общественного транспорта в городах.

EcoSonar: инструмент, помогающий командам разработчиков оценивать экологическое воздействие цифровых технологий на этапе проектирования. Проект продвигает практики экологичного дизайна и доступности, позволяя минимизировать углеродный след программного обеспечения. В чем польза: анализа энергопотребления программных решений и разработки рекомендаций по созданию «зелёного» ПО.

venco.py: инструмент обработки данных, который создаёт профили спроса и гибкости для будущих парков электромобилей. Проект помогает моделировать сценарии использования электромобилей в энергосистемах. В чем польза: анализ интеграции электромобилей в энергосети, оценки их влияния на энергопотребление и разработка стратегий управления нагрузкой.

@evidencespace
🔥7👍41😁1
⚪️⚪️⚪️Хотите знать, выпускники каких вузов и специальностей получают больше? В нашем каталоге для этого есть два уникальных датасета

Почти 70% всех выпускников бакалавриата и специалитета в 2024 году совмещали учебу с работой хотя бы один месяц. Чаще всего — на педагогических, сельскохозяйственных и инженерных направлениях.

Среди очников работу с учебой совмещали 54%. И это заметно влияет на будущее: через год после выпуска шансы найти работу у них выше на 16–19%, а зарплата — в среднем на 14%. Правда, разница между направлениями колоссальна — от 30 тысяч в драматургии до 150 тысяч в аэронавигации.

Данные о зарплатах и работе во время учебы можно найти в наших датасетах — о том, сколько зарабатывают выпускники по учебным заведениям и специальностям. Мы их как раз обновили.

Что нового:

🔺Данные теперь охватывают выпускников 2016–2024 годов.

🔺Добавлены медианные зарплаты и корректировки на уровень цен региона, где выпускник нашел работу.

🔺Появились данные о возрасте выпускников и доле тех, кто совмещал учёбу с работой.

На этих данных мы показали, что гендерный разрыв в зарплатах возникает уже через два года после выпуска и что не только престиж вуза влияет на доход выпускника. А всего у нас собрано 35 датасетов на разные проблемы — посмотреть и скачать их можно здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍4🤔1🎉1
Python Case Studies — «крафтовый» репо с разборами шести кейсов анализа данных на синтаксисе python от Раждипа Чакраборти:

1. DNA Sequencing — исследование биоинформатики: работа с последовательностями ДНК, выявление шаблонов и биологических закономерностей.
2. Linguistic Analysis of Books — анализ лексической вариативности в книгах: частотность, стилистика, различия между авторами.
3. Classification Models — построение предиктивных моделей на табличных данных: отбор признаков и интерпретация.
4. Whisky Flavor Profiles — исследование вкусовых характеристик шотландского виски и предпочтений потребителей (кластеризация по регионам).
5. Bird Migration (GPS) — пространственно-временной анализ маршрутов перелётных птиц.
6. Social Networks — анализ взаимодействий и социальных структур среди жителей деревни.

@evidencespace
9👍5
Недавно VoxDev (платформа Института Всемирного банка, посвященная исследованию экономики развития) опубликовали интересный материал о применении эконометрических методов в экономике. В статье рассматриваются примеры применения различных каузальных методов, некоторые примеры:

1. RCT:
⬇️ Государственное субсидирование среднего образования в Гане продемонстрировало выраженные положительные эффекты, отличающиеся комплексным характером, при этом особенно значительные результаты были зафиксированы в отношении женщин. Подробнее здесь.
⬇️Внедрение децентрализованных систем водоснабжения в сельских районах Индии способствовало существенным улучшениям показателей здоровья домохозяйств, особенно за счёт повышения доступа к чистой питьевой воде и снижения распространённости заболеваний, связанных с её нехваткой. Подробнее здесь.
⬇️ Программа распределения жилья посредством жилищной лотереи в Эфиопии выявила высокий уровень неудовлетворённого спроса на улучшенные жилищные условия среди жителей трущоб, что свидетельствует о значительной потребности в доступном и качественном жилье в уязвимых городских сообществах. Подробнее здесь.

2. Натуральные эксперименты:
⬇️ Отмена программы условных денежных трансфертов в Мексике позволила оценить её влияние на образование и трудовые результаты. Подробнее здесь.
⬇️ Внедрение генетически модифицированной сои в сельском хозяйстве Бразилии позволило эмпирически оценить влияние аграрных инноваций на гендерные различия в трудовой занятости, выявив, в частности, значимые эффекты на трудовые результаты женщин в сельской местности. Подробнее здесь.

3. DID:
⬇️ Скоординированные усилия по обеспечению вакцинации существенно повысили охват детского населения, что, по оценкам, позволило предотвратить около 1,5 миллиона случаев преждевременной смертности, продемонстрировав высокую эффективность международных программ в области профилактического здравоохранения. Подробнее здесь.

4. RDD:
⬇️ Эмпирический анализ воздействия квотирования на трудоустройство лиц с инвалидностью в Бразилии продемонстрировал, что усиленные меры контроля за соблюдением трудового законодательства способствуют увеличению занятости в данной группе, подчёркивая значимость институционального давления в реализации социальной инклюзии на рынке труда. Подробнее здесь.

5. Инструментальные переменные:
⬇️Доступ к 3G широкополосному интернету в Индонезии снизил количество случаев COVID-19 примерно на 45%, что является относительно большим воздействием по сравнению с эффективностью других нехимических интервенций. Районы с более высокими уровнями грамотности и большей способностью к удаленной работе испытали еще более выраженные преимущества. Подробнее здесь.

В статье также есть материалы об образовательных ресурсах VoxDev, включая подкасты и литературу.

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍32
Forwarded from Ну Экон
Interested in using intermediate outcomes to better understand causal mechanisms and predict long-term impacts of interventions? Join Prof. Chetty and Prof. Kosuke Imai at the NBER Methods lectures:

📅 Thursday, 7/24, 3 pm
📍 Cambridge, MA for NBER SI attendees, or virtually ⬇️

https://www.nber.org/conferences/si-2025-methods-lecture-uncovering-causal-mechanisms-mediation-analysis-and-surrogate-indices
8
Causal Inference в реальных задачах индустрии

Привет! На связи Саша Кузнецов, старший аналитик команды Trisigma External в Авито.

Когда разговор заходит о причинно-следственных выводах (Causal Inferense), часто уходят в дебри статистики, не доходя до главного — как это работает в индустрии и зачем это нужно бизнесу.

Алекс Дэнг (ex-Microsoft, один из авторов CUPED и многих других industry-standard техник) написал открытый конспект про causality — «Causal Inference and Its Applications in Online Industry».

• Что внутри

Это не учебник, а набор глав, объясняющих «на пальцах» применение действительно релевантных для задач бизнеса методов и концепций. Также материал покрывает следующие топики:
— корреляции и Парадокс Симпсона;
— рандомизированные эксперементы;
— Propensity Scores;
— SUTVA;
— Causal Graphical Models;
— регрессионные методы;
— А/В-тесты на больших данных;
— диагностика «здоровья» А/В-систем;
— повышение чувствительности метрик.

• Главная мысль

Causality может эффективно применяться не только в академических исследованиях, но и в реальных задачах бизнеса на больших данных и высоконагруженных системах. Конспект дает базу про проектирование, запуск и интерпретацию экспериментов. Поэтому, если ещё остались вопросы, почему SRM — не баг, а симптом, или зачем в CUPED важно корректно задавать ковариты — то вам точно стоит прочитать статью.

• От себя

Это must-read для тех, кто строит эксперименты в проде, особенно если вы хотите верхнеуровнево понять, как устроены платформы уровня Bing, Airbnb или Booking. На мой взгляд, конспект не покрывает важные advanced-топики, как в Causal Inference, так и в A/B — Uplift Modelling, Mixed Models, нестандартные дизайны по типу свичбэка. Всему этому уделено неприлично мало внимания — видимо, автор решил сфокусироваться на базовых понятиях.

🔵Прочитать материал можно тут 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥5
🚀 Летняя школа по анализу данных

Если вы интересуетесь анализом данных, обратите внимание на серию воркшопов от Hertie School Data Science Lab*

Data Science Summer School 2025 – это бесплатные воркшопы по анализу данных и математическим основам
🟤Школа является частью подготовки к программе Master of Data Science for Public Policy в Hertie School, но участвовать могут все желающие
🟤Летняя школа стартует с введения в программирование и математику для data science
🟤Завершается знакомством с современными методами ML и DL – от компьютерного зрения до обработки естественного языка
🟤Можно посетить как отдельные занятия, так и весь курс целиком

🥲Что обещают организаторы?
🟤Однодневные (4 часа) практические воркшопы
🟤Преподаватели – профессора, исследователи, практики отрасли
🟤Сертификат об участии и живой нетворкинг

🥲Как подключиться?
🟤Все занятия пройдут онлайн в Zoom с трансляцией на YouTube
🟤Регистрация по ссылке

🥲Воркшопы школы

😢 Введение в R для анализа данных
4 августа, 10:00 MSK, Sebastian Ramirez Ruiz
Практика основ языка R – от рабочего окружения и функций до работы с tidyverse

😢 Введение в Python для анализа данных
5 августа, 10:00 MSK
Базовый синтаксис, работа с реальными датасетами, основы визуализации и лайфхаки по использованию ИИ для обучения и автоматизации

😢 Математический анализ для анализа данных
6 августа, 10:00 MSK, Ilja Klebanov
Ключевые концепции (градиент, производные, градиентный спуск), без которых невозможны ML и DL

😢 Линейная алгебра для анализа данных
7 августа, 10:00 MSK, Dr. Kristian Rother
Простыми словами о матрицах, векторах, реальных задачах и даже трансформации изображений

😢 Статистика и вероятность для анализа данных
8 августа, 10:00 MSK, Dr. Darina Goldin
О том, как измерять неопределенность, строить выводы из несовершенных данных и методологическую базу для ML и A/B-тестирования

😢 Построение автономных AI-агентов
7 августа, 15:00 MSK, Huy Dang
С нуля о том, что такое AI-агенты – инструменты, которые уже используется для автоматизации процессов, экспериментов и анализа. Создадите своего агента на Python

😢 Экспериментальный дизайн для цифровых медиа исследований
8 августа, 03:00 MSK, Dr. Kevin Munger
О том, как оценить влияние контента и алгоритмов в соцсетях, о дизайне экспериментов для real-world платформ (YouTube, Twitter/X, TikTok) и поведении и аудитории в медиа

❇️Hertie School Data Science Lab – исследовательский и образовательный центр в Берлине, объединяющий data science и социальные науки для решения общественных задач. Лаборатория развивает исследования и обучение в сфере данных и ИИ для принятия обоснованных решений

#канал_зовёт
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2
Forwarded from Рюмочная ИПП
РББО 2.0.1

Мы обновили Российскую базу бухгалтерской отчетности (РББО), а процесс ее создания описали в журнале Scientific Data:

🗓 Добавлены данные за 2024 год для более чем 2,2 млн фирм.

👾 Ошибки в отчетностях за предыдущие годы, исправленные фирмами с этого января, теперь исправлены и у нас.

🔨 Устранен баг, из-за которого в предыдущих версиях мы не досчитались 280+ тыс. наблюдений, реконструированных из отчетностей будущих годов.

🗺 Улучшено геокодирование юридических адресов фирм.

Обо всех изменениях читайте на гитхабе проекта.

Как писали исследователи Google в 2021 г., «все хотят работать с моделями, никто не хочет работать с данными». За работой по производству данных сохраняется репутация грязной, тяжелой, требующей меньшей компетентности, чем моделирование, — короче говоря, менее престижной и важной. Из-за этого качеству данных зачастую уделяется недостаточно времени и внимания, что ведет к каскадам искажений.

Мы прикладываем много усилий для подготовки РББО, но видим, что в ней есть что улучшать, и приглашаем всех заинтересованных присоединяться к этой работе.

Скачать РББО можно на Hugging Face и Zenodo.
🔥112
🆕 Новое практическое руководство по работе с панельными данными

Хотим с вами поделиться отличными материалами для всех, кто работает с панельными данными. Недавно вышло практическое руководство, написанное Яном Дитценом и Янисом Каравиасом, где авторы объясняют, почему классические модели фиксированных эффектов (TWFE), к которым мы привыкли, не всегда отвечают современным задачам

Руководство посвящено описанию более аккуратного моделирования структурной неоднородности данных и зависимостей между наблюдениями, которые часто упускаются в стандартных подходах

📖 В центре внимания
🟤Interactive Fixed Effects (IFE): расширение классической модели фиксированных эффектов, при котором влияние ненаблюдаемых индивидуальных характеристик является как изменяющимся во времени, так и неоднородным между наблюдениями
🟤Grouped Fixed Effects (GFE): метод, предполагающий, что наблюдения можно разбить на конечное число однородных групп, каждая из которых характеризуется своим уникальным эффектом времени
🟤Non-separable Two-Way Fixed Effects (NSTW): обобщение IFE, допускающее нелинейные и более комплексные формы взаимодействия ненаблюдаемых эффектов через неизвестную гладкую функцию

📖 Авторы показывают, как меняются выводы при использовании новых оценок вместо традиционных на реальных эмпирических примерах
🟤Инфляция и экономический рост: анализ панельных данных 74 стран за 1970−2022 годы выявил, что высокая инфляция оказывает значительное отрицательное влияние на рост ВВП, при этом модели NSTW обеспечивают лучшее моделирование скрытых факторов и более надёжные оценки по сравнению с FE и TWFE
🟤Парадокс Фельдштейна-Хориоки (связь сбережений и инвестиций): исследование 98 стран с 1980 по 2019 год с применением IFE, GFE и NSTW-моделей и показало, что традиционные модели переоценивают корреляцию, тогда как современные подходы дают более точные и оценки степени мобильности капитала

🖥 В руководстве не только обсуждаются современные процедуры оценки моделей, но и диагностические тесты, практические рекомендации и ссылки на библиотеки для реализации в Stata и R

#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115🎉5
Forwarded from Ну Экон
Ребята, как вы может быть заметили, у меня появилось немного энергии вести каналы (ну как немного ахха, теперь у меня 4 канала!). Я уже начала по чуть чуть репостить пока тестировала концепт, но теперь хочу заявить официально. Не уверена, что буду вести все каналы сама, может быть со временем добавлю авторов, но пока я одна и концепт такой:

@NUKUDA7 - моя душа и любовь про образование и международные возможности, тут все остается также

@nuecon - канал с вакансиями и полезными материалами в экономике, публичной политике и data science/ai. Наверное, самый узкий из моих каналов, но больше всего про то, чем я сейчас занимаюсь

@nukudarabota - рабочие вакансии

@tetenkaeconomist - канал с обсуждением новостей экономики. Я все еще тестирую формат и пытаюсь быть смешной (хотя смешной пока получилось быть только в названии) и непринужденной, но на идеал я тут точно пока не претендую. Я 2 года поглядываю на похожие каналы и очень хочу делать свой, но пока я прям вот совсем только тестирую

Подписывайтесь :)
👍7🎉3
Forwarded from Tatyana Cherkashina
Традиционный подарок к началу академического сезона и нового университетского учебного года: опубликованы микроданные и коудбуки 33-й волны Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ за 2024 год.
🎉14
Всё меняется. Совсем недавно сделать хотя бы базовый литобзор по теме исследования, погрузиться в новую область знания требовало много времени. Сейчас приходит время AI-агентов, способных выполнять базовые исследовательские задачи, которые раньше занимали недели, за минуты. Хорошо это или плохо - вопрос отдельного порядка, одно можно сказать точно - это текущие реалии. Подробнее об изменениях в области применения ИИ в экономических исследованиях в статье Anton Korinek — «AI Agents for Economic Research» (NBER Working Paper №34202, сентябрь 2025).

Статья посвящена использованию AI-агентов — автономных систем на базе больших языковых моделей (LLM), которые могут:
- планировать исследования,
- собирать и анализировать данные,
- писать и отлаживать код,
- выполнять сложные многошаговые исследовательские задачи.

Некоторые направления использования AI-агентов в экономических исследованиях:

I. Deep Research Agents (
Google Gemini, OpenAI, Claude, Perplexity)
Используют мультиагентную архитектуру. Могут: анализировать сотни источников, делать структурированные обзоры литературы, собирать статистику и визуализировать результаты. Время подготовки отчёта: от 5 до 30 минут. Недостатки: иногда приводят некорректные ссылки, плохо отбирают ключевые публикации по новым темам.

II. Coding Agents (Claude Code, Cursor, ChatGPT Agents)
Позволяют создавать эконометрические инструменты без знания Python или R. Реализуют концепцию “vibe coding” — написание и отладка кода на основе описания задачи обычным языком. Подход позволяет строить сложные инструменты анализа данных за несколько минут.

III. Автоматизация рабочих процессов
AI-агенты могут: выполнять регрессионный анализ и строить графики (OLS, VAR, ML-модели); интегрироваться с базами данных (FRED, IMF, World Bank); создавать отчёты по макроэкономическим показателям за минуты; готовить презентации и статьи с цитированием источников.

______________________
Ключевые рекомендации для исследователей от автора статьи:
1. Использовать Deep Research Agents для ускоренного обзора литературы и поиска данных.
2. Применять Coding Agents для автоматизации анализа, моделирования и визуализации.
3. Разрабатывать собственных агентов с помощью LangGraph или LangChain.
4. Всегда проверять результаты и проводить верификацию источников.
5. Комбинировать несколько AI-провайдеров, чтобы снизить стоимость и повысить надёжность.

@evidencespace
👍14🤔5👎31👨‍💻1
J-PAL совместно с MIT стартует свой курс по оценке социальных программ. Наши подписчики оставляли замечательный отзыв о курсах J-PAL здесь. Теперь у вас снова есть возможность пройти бесплатный курс в этом потоке. Регистрация здесь.

@evidencespace
🔥72👍1
Forwarded from Reliable ML
Causal Inference Workshop #1

Всем привет! Мы запускаем серию воркшопов по анализу причинно-следственных связей (causal inference).

Формат - академическая пара, онлайн, будем разбирать по одной теме за раз.
Каждое занятие будет разбирать одну практическую тему,
Первое занятие - 27.10.2025 с 12:00 до 14:00 мск.
Тема: "Введение в Causal Inference. Причинно-следственные связи без А/Б тестов. Ортогонализация"
Разберем базовые понятия Causal Inference, несколько примеров "как делать не надо" и одну простую технику, как можно делать.
У участников останутся ноутбуки с примерами и инструкциями, можно будет задать свои вопросы.

Занятия бесплатные. Записи в открытом доступе не будет. Технического ограничения на размер группы нет, но в слишком большой группе никто не успеет ничего спросить, поэтому в какой-то момент набор закроем.

Чтобы записаться, пишите в комментариях к этому посту - зачем вам изучать Causal Inference. Будем добавлять в закрытый канал воркшопа.

Ваш @Reliable ML

#reliable_ml #causal_inference #workshop
🔥10🎉54
📚Всего пару лет назад мы радовались тому, что по теме причинного вывода начали появляться современные и доступные книги, а теперь наступил новый этап – их авторы выпускают переработанные издания с учётом последних трендов и новых методов

📗 Летом 2025 года увидело свет второе издание книги «The Effect» Ника Хантингтон-Кляйна – одной из самых популярных и доступных по эконометрике и анализу причинно-следственных связей.
В книге появилась новая глава про partial identification, обновились разделы по современным эмпирическим методам, а навигация и практические примеры стали ещё удобнее
🔗 Последняя версия книги
🔗 Видеоуроки к книге

Обзоры первого издания книги делали авторы каналов This is Data и H0H1: про HR-аналитику – рекомендуем и их ревью, и каналы в целом, они отличные!

Кроме того, напомним, что в начале этого года было обновление книги «Causal Inference: What If» Джеймса Робинса и Мигеля Эрнана. А также напоминаем о нашем посте-путеводителе по книгам в сфере причинного вывода

Успехов в учёбе и исследованиях!

#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥6👍1