Forwarded from Если быть точным
Почти 70% всех выпускников бакалавриата и специалитета в 2024 году совмещали учебу с работой хотя бы один месяц. Чаще всего — на педагогических, сельскохозяйственных и инженерных направлениях.
Среди очников работу с учебой совмещали 54%. И это заметно влияет на будущее: через год после выпуска шансы найти работу у них выше на 16–19%, а зарплата — в среднем на 14%. Правда, разница между направлениями колоссальна — от 30 тысяч в драматургии до 150 тысяч в аэронавигации.
Данные о зарплатах и работе во время учебы можно найти в наших датасетах — о том, сколько зарабатывают выпускники по учебным заведениям и специальностям. Мы их как раз обновили.
Что нового:
На этих данных мы показали, что гендерный разрыв в зарплатах возникает уже через два года после выпуска и что не только престиж вуза влияет на доход выпускника. А всего у нас собрано 35 датасетов на разные проблемы — посмотреть и скачать их можно здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍4🤔1🎉1
Python Case Studies — «крафтовый» репо с разборами шести кейсов анализа данных на синтаксисе python от Раждипа Чакраборти:
1. DNA Sequencing — исследование биоинформатики: работа с последовательностями ДНК, выявление шаблонов и биологических закономерностей.
2. Linguistic Analysis of Books — анализ лексической вариативности в книгах: частотность, стилистика, различия между авторами.
3. Classification Models — построение предиктивных моделей на табличных данных: отбор признаков и интерпретация.
4. Whisky Flavor Profiles — исследование вкусовых характеристик шотландского виски и предпочтений потребителей (кластеризация по регионам).
5. Bird Migration (GPS) — пространственно-временной анализ маршрутов перелётных птиц.
6. Social Networks — анализ взаимодействий и социальных структур среди жителей деревни.
@evidencespace
1. DNA Sequencing — исследование биоинформатики: работа с последовательностями ДНК, выявление шаблонов и биологических закономерностей.
2. Linguistic Analysis of Books — анализ лексической вариативности в книгах: частотность, стилистика, различия между авторами.
3. Classification Models — построение предиктивных моделей на табличных данных: отбор признаков и интерпретация.
4. Whisky Flavor Profiles — исследование вкусовых характеристик шотландского виски и предпочтений потребителей (кластеризация по регионам).
5. Bird Migration (GPS) — пространственно-временной анализ маршрутов перелётных птиц.
6. Social Networks — анализ взаимодействий и социальных структур среди жителей деревни.
@evidencespace
❤9👍5
Недавно VoxDev (платформа Института Всемирного банка, посвященная исследованию экономики развития) опубликовали интересный материал о применении эконометрических методов в экономике. В статье рассматриваются примеры применения различных каузальных методов, некоторые примеры:
1. RCT:
⬇️ Государственное субсидирование среднего образования в Гане продемонстрировало выраженные положительные эффекты, отличающиеся комплексным характером, при этом особенно значительные результаты были зафиксированы в отношении женщин. Подробнее здесь.
⬇️ Внедрение децентрализованных систем водоснабжения в сельских районах Индии способствовало существенным улучшениям показателей здоровья домохозяйств, особенно за счёт повышения доступа к чистой питьевой воде и снижения распространённости заболеваний, связанных с её нехваткой. Подробнее здесь.
⬇️ Программа распределения жилья посредством жилищной лотереи в Эфиопии выявила высокий уровень неудовлетворённого спроса на улучшенные жилищные условия среди жителей трущоб, что свидетельствует о значительной потребности в доступном и качественном жилье в уязвимых городских сообществах. Подробнее здесь.
2. Натуральные эксперименты:
⬇️ Отмена программы условных денежных трансфертов в Мексике позволила оценить её влияние на образование и трудовые результаты. Подробнее здесь.
⬇️ Внедрение генетически модифицированной сои в сельском хозяйстве Бразилии позволило эмпирически оценить влияние аграрных инноваций на гендерные различия в трудовой занятости, выявив, в частности, значимые эффекты на трудовые результаты женщин в сельской местности. Подробнее здесь.
3. DID:
⬇️ Скоординированные усилия по обеспечению вакцинации существенно повысили охват детского населения, что, по оценкам, позволило предотвратить около 1,5 миллиона случаев преждевременной смертности, продемонстрировав высокую эффективность международных программ в области профилактического здравоохранения. Подробнее здесь.
4. RDD:
⬇️ Эмпирический анализ воздействия квотирования на трудоустройство лиц с инвалидностью в Бразилии продемонстрировал, что усиленные меры контроля за соблюдением трудового законодательства способствуют увеличению занятости в данной группе, подчёркивая значимость институционального давления в реализации социальной инклюзии на рынке труда. Подробнее здесь.
5. Инструментальные переменные:
⬇️ Доступ к 3G широкополосному интернету в Индонезии снизил количество случаев COVID-19 примерно на 45%, что является относительно большим воздействием по сравнению с эффективностью других нехимических интервенций. Районы с более высокими уровнями грамотности и большей способностью к удаленной работе испытали еще более выраженные преимущества. Подробнее здесь.
В статье также есть материалы об образовательных ресурсах VoxDev, включая подкасты и литературу.
@evidencespace
1. RCT:
2. Натуральные эксперименты:
3. DID:
4. RDD:
5. Инструментальные переменные:
В статье также есть материалы об образовательных ресурсах VoxDev, включая подкасты и литературу.
@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍3❤2
Forwarded from Ну Экон
Interested in using intermediate outcomes to better understand causal mechanisms and predict long-term impacts of interventions? Join Prof. Chetty and Prof. Kosuke Imai at the NBER Methods lectures:
📅 Thursday, 7/24, 3 pm
📍 Cambridge, MA for NBER SI attendees, or virtually ⬇️
https://www.nber.org/conferences/si-2025-methods-lecture-uncovering-causal-mechanisms-mediation-analysis-and-surrogate-indices
📅 Thursday, 7/24, 3 pm
📍 Cambridge, MA for NBER SI attendees, or virtually ⬇️
https://www.nber.org/conferences/si-2025-methods-lecture-uncovering-causal-mechanisms-mediation-analysis-and-surrogate-indices
NBER
SI 2025 Methods Lecture: Uncovering Causal Mechanisms: Mediation Analysis and Surrogate Indices
❤8
Forwarded from Trisigma — про эксперименты
Causal Inference в реальных задачах индустрии
Привет! На связи Саша Кузнецов, старший аналитик команды Trisigma External в Авито.
Когда разговор заходит о причинно-следственных выводах (Causal Inferense), часто уходят в дебри статистики, не доходя до главного — как это работает в индустрии и зачем это нужно бизнесу.
Алекс Дэнг (ex-Microsoft, один из авторов CUPED и многих других industry-standard техник) написал открытый конспект про causality — «Causal Inference and Its Applications in Online Industry».
• Что внутри
Это не учебник, а набор глав, объясняющих «на пальцах» применение действительно релевантных для задач бизнеса методов и концепций. Также материал покрывает следующие топики:
— корреляции и Парадокс Симпсона;
— рандомизированные эксперементы;
— Propensity Scores;
— SUTVA;
— Causal Graphical Models;
— регрессионные методы;
— А/В-тесты на больших данных;
— диагностика «здоровья» А/В-систем;
— повышение чувствительности метрик.
• Главная мысль
Causality может эффективно применяться не только в академических исследованиях, но и в реальных задачах бизнеса на больших данных и высоконагруженных системах. Конспект дает базу про проектирование, запуск и интерпретацию экспериментов. Поэтому, если ещё остались вопросы, почему SRM — не баг, а симптом, или зачем в CUPED важно корректно задавать ковариты — то вам точно стоит прочитать статью.
• От себя
Это must-read для тех, кто строит эксперименты в проде, особенно если вы хотите верхнеуровнево понять, как устроены платформы уровня Bing, Airbnb или Booking. На мой взгляд, конспект не покрывает важные advanced-топики, как в Causal Inference, так и в A/B — Uplift Modelling, Mixed Models, нестандартные дизайны по типу свичбэка. Всему этому уделено неприлично мало внимания — видимо, автор решил сфокусироваться на базовых понятиях.
🔵 Прочитать материал можно тут 🔵
Привет! На связи Саша Кузнецов, старший аналитик команды Trisigma External в Авито.
Когда разговор заходит о причинно-следственных выводах (Causal Inferense), часто уходят в дебри статистики, не доходя до главного — как это работает в индустрии и зачем это нужно бизнесу.
Алекс Дэнг (ex-Microsoft, один из авторов CUPED и многих других industry-standard техник) написал открытый конспект про causality — «Causal Inference and Its Applications in Online Industry».
• Что внутри
Это не учебник, а набор глав, объясняющих «на пальцах» применение действительно релевантных для задач бизнеса методов и концепций. Также материал покрывает следующие топики:
— корреляции и Парадокс Симпсона;
— рандомизированные эксперементы;
— Propensity Scores;
— SUTVA;
— Causal Graphical Models;
— регрессионные методы;
— А/В-тесты на больших данных;
— диагностика «здоровья» А/В-систем;
— повышение чувствительности метрик.
• Главная мысль
Causality может эффективно применяться не только в академических исследованиях, но и в реальных задачах бизнеса на больших данных и высоконагруженных системах. Конспект дает базу про проектирование, запуск и интерпретацию экспериментов. Поэтому, если ещё остались вопросы, почему SRM — не баг, а симптом, или зачем в CUPED важно корректно задавать ковариты — то вам точно стоит прочитать статью.
• От себя
Это must-read для тех, кто строит эксперименты в проде, особенно если вы хотите верхнеуровнево понять, как устроены платформы уровня Bing, Airbnb или Booking. На мой взгляд, конспект не покрывает важные advanced-топики, как в Causal Inference, так и в A/B — Uplift Modelling, Mixed Models, нестандартные дизайны по типу свичбэка. Всему этому уделено неприлично мало внимания — видимо, автор решил сфокусироваться на базовых понятиях.
Please open Telegram to view this post
VIEW IN TELEGRAM
alexdeng.github.io
Causal Inference and Its Applications in Online Industry
this is a draft book.
❤13🔥5
Forwarded from Канал влияния
Если вы интересуетесь анализом данных, обратите внимание на серию воркшопов от Hertie School Data Science Lab*
Data Science Summer School 2025 – это бесплатные воркшопы по анализу данных и математическим основам
4 августа, 10:00 MSK, Sebastian Ramirez Ruiz
Практика основ языка R – от рабочего окружения и функций до работы с tidyverse
5 августа, 10:00 MSK
Базовый синтаксис, работа с реальными датасетами, основы визуализации и лайфхаки по использованию ИИ для обучения и автоматизации
6 августа, 10:00 MSK, Ilja Klebanov
Ключевые концепции (градиент, производные, градиентный спуск), без которых невозможны ML и DL
7 августа, 10:00 MSK, Dr. Kristian Rother
Простыми словами о матрицах, векторах, реальных задачах и даже трансформации изображений
8 августа, 10:00 MSK, Dr. Darina Goldin
О том, как измерять неопределенность, строить выводы из несовершенных данных и методологическую базу для ML и A/B-тестирования
7 августа, 15:00 MSK, Huy Dang
С нуля о том, что такое AI-агенты – инструменты, которые уже используется для автоматизации процессов, экспериментов и анализа. Создадите своего агента на Python
8 августа, 03:00 MSK, Dr. Kevin Munger
О том, как оценить влияние контента и алгоритмов в соцсетях, о дизайне экспериментов для real-world платформ (YouTube, Twitter/X, TikTok) и поведении и аудитории в медиа
#канал_зовёт
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2
Forwarded from Рюмочная ИПП
РББО 2.0.1
Мы обновили Российскую базу бухгалтерской отчетности (РББО), а процесс ее создания описали в журнале Scientific Data:
🗓 Добавлены данные за 2024 год для более чем 2,2 млн фирм.
👾 Ошибки в отчетностях за предыдущие годы, исправленные фирмами с этого января, теперь исправлены и у нас.
🔨 Устранен баг, из-за которого в предыдущих версиях мы не досчитались 280+ тыс. наблюдений, реконструированных из отчетностей будущих годов.
🗺 Улучшено геокодирование юридических адресов фирм.
Обо всех изменениях читайте на гитхабе проекта.
Как писали исследователи Google в 2021 г., «все хотят работать с моделями, никто не хочет работать с данными». За работой по производству данных сохраняется репутация грязной, тяжелой, требующей меньшей компетентности, чем моделирование, — короче говоря, менее престижной и важной. Из-за этого качеству данных зачастую уделяется недостаточно времени и внимания, что ведет к каскадам искажений.
Мы прикладываем много усилий для подготовки РББО, но видим, что в ней есть что улучшать, и приглашаем всех заинтересованных присоединяться к этой работе.
Скачать РББО можно на Hugging Face и Zenodo.
Мы обновили Российскую базу бухгалтерской отчетности (РББО), а процесс ее создания описали в журнале Scientific Data:
🗓 Добавлены данные за 2024 год для более чем 2,2 млн фирм.
👾 Ошибки в отчетностях за предыдущие годы, исправленные фирмами с этого января, теперь исправлены и у нас.
🔨 Устранен баг, из-за которого в предыдущих версиях мы не досчитались 280+ тыс. наблюдений, реконструированных из отчетностей будущих годов.
🗺 Улучшено геокодирование юридических адресов фирм.
Обо всех изменениях читайте на гитхабе проекта.
Как писали исследователи Google в 2021 г., «все хотят работать с моделями, никто не хочет работать с данными». За работой по производству данных сохраняется репутация грязной, тяжелой, требующей меньшей компетентности, чем моделирование, — короче говоря, менее престижной и важной. Из-за этого качеству данных зачастую уделяется недостаточно времени и внимания, что ведет к каскадам искажений.
Мы прикладываем много усилий для подготовки РББО, но видим, что в ней есть что улучшать, и приглашаем всех заинтересованных присоединяться к этой работе.
Скачать РББО можно на Hugging Face и Zenodo.
Nature
Russian Financial Statements Database: A firm-level collection of the universe of financial statements
Scientific Data - Russian Financial Statements Database: A firm-level collection of the universe of financial statements
🔥11❤2
Forwarded from Канал влияния
Хотим с вами поделиться отличными материалами для всех, кто работает с панельными данными. Недавно вышло практическое руководство, написанное Яном Дитценом и Янисом Каравиасом, где авторы объясняют, почему классические модели фиксированных эффектов (TWFE), к которым мы привыкли, не всегда отвечают современным задачам
Руководство посвящено описанию более аккуратного моделирования структурной неоднородности данных и зависимостей между наблюдениями, которые часто упускаются в стандартных подходах
#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤5🎉5
Forwarded from Ну Экон
Ребята, как вы может быть заметили, у меня появилось немного энергии вести каналы (ну как немного ахха, теперь у меня 4 канала!). Я уже начала по чуть чуть репостить пока тестировала концепт, но теперь хочу заявить официально. Не уверена, что буду вести все каналы сама, может быть со временем добавлю авторов, но пока я одна и концепт такой:
@NUKUDA7 - моя душа и любовь про образование и международные возможности, тут все остается также
@nuecon - канал с вакансиями и полезными материалами в экономике, публичной политике и data science/ai. Наверное, самый узкий из моих каналов, но больше всего про то, чем я сейчас занимаюсь
@nukudarabota - рабочие вакансии
@tetenkaeconomist - канал с обсуждением новостей экономики. Я все еще тестирую формат и пытаюсь быть смешной (хотя смешной пока получилось быть только в названии) и непринужденной, но на идеал я тут точно пока не претендую. Я 2 года поглядываю на похожие каналы и очень хочу делать свой, но пока я прям вот совсем только тестирую
Подписывайтесь :)
@NUKUDA7 - моя душа и любовь про образование и международные возможности, тут все остается также
@nuecon - канал с вакансиями и полезными материалами в экономике, публичной политике и data science/ai. Наверное, самый узкий из моих каналов, но больше всего про то, чем я сейчас занимаюсь
@nukudarabota - рабочие вакансии
@tetenkaeconomist - канал с обсуждением новостей экономики. Я все еще тестирую формат и пытаюсь быть смешной (хотя смешной пока получилось быть только в названии) и непринужденной, но на идеал я тут точно пока не претендую. Я 2 года поглядываю на похожие каналы и очень хочу делать свой, но пока я прям вот совсем только тестирую
Подписывайтесь :)
👍7🎉3
Forwarded from Tatyana Cherkashina
Традиционный подарок к началу академического сезона и нового университетского учебного года: опубликованы микроданные и коудбуки 33-й волны Российского мониторинга экономического положения и здоровья населения (РМЭЗ) НИУ ВШЭ за 2024 год.
www.hse.ru
Данные 33-й волны РМЭЗ НИУ ВШЭ
Опубликованы данные и коудбуки 33-й волны РМЭЗ НИУ ВШЭ (2024 год) семейного и индивидуального уровней.
🎉14
Всё меняется. Совсем недавно сделать хотя бы базовый литобзор по теме исследования, погрузиться в новую область знания требовало много времени. Сейчас приходит время AI-агентов, способных выполнять базовые исследовательские задачи, которые раньше занимали недели, за минуты. Хорошо это или плохо - вопрос отдельного порядка, одно можно сказать точно - это текущие реалии. Подробнее об изменениях в области применения ИИ в экономических исследованиях в статье Anton Korinek — «AI Agents for Economic Research» (NBER Working Paper №34202, сентябрь 2025).
Статья посвящена использованию AI-агентов — автономных систем на базе больших языковых моделей (LLM), которые могут:
- планировать исследования,
- собирать и анализировать данные,
- писать и отлаживать код,
- выполнять сложные многошаговые исследовательские задачи.
Некоторые направления использования AI-агентов в экономических исследованиях:
I. Deep Research Agents (Google Gemini, OpenAI, Claude, Perplexity)
Используют мультиагентную архитектуру. Могут: анализировать сотни источников, делать структурированные обзоры литературы, собирать статистику и визуализировать результаты. Время подготовки отчёта: от 5 до 30 минут. Недостатки: иногда приводят некорректные ссылки, плохо отбирают ключевые публикации по новым темам.
II. Coding Agents (Claude Code, Cursor, ChatGPT Agents)
Позволяют создавать эконометрические инструменты без знания Python или R. Реализуют концепцию “vibe coding” — написание и отладка кода на основе описания задачи обычным языком. Подход позволяет строить сложные инструменты анализа данных за несколько минут.
III. Автоматизация рабочих процессов
AI-агенты могут: выполнять регрессионный анализ и строить графики (OLS, VAR, ML-модели); интегрироваться с базами данных (FRED, IMF, World Bank); создавать отчёты по макроэкономическим показателям за минуты; готовить презентации и статьи с цитированием источников.
______________________
Ключевые рекомендации для исследователей от автора статьи:
1. Использовать Deep Research Agents для ускоренного обзора литературы и поиска данных.
2. Применять Coding Agents для автоматизации анализа, моделирования и визуализации.
3. Разрабатывать собственных агентов с помощью LangGraph или LangChain.
4. Всегда проверять результаты и проводить верификацию источников.
5. Комбинировать несколько AI-провайдеров, чтобы снизить стоимость и повысить надёжность.
@evidencespace
Статья посвящена использованию AI-агентов — автономных систем на базе больших языковых моделей (LLM), которые могут:
- планировать исследования,
- собирать и анализировать данные,
- писать и отлаживать код,
- выполнять сложные многошаговые исследовательские задачи.
Некоторые направления использования AI-агентов в экономических исследованиях:
I. Deep Research Agents (Google Gemini, OpenAI, Claude, Perplexity)
Используют мультиагентную архитектуру. Могут: анализировать сотни источников, делать структурированные обзоры литературы, собирать статистику и визуализировать результаты. Время подготовки отчёта: от 5 до 30 минут. Недостатки: иногда приводят некорректные ссылки, плохо отбирают ключевые публикации по новым темам.
II. Coding Agents (Claude Code, Cursor, ChatGPT Agents)
Позволяют создавать эконометрические инструменты без знания Python или R. Реализуют концепцию “vibe coding” — написание и отладка кода на основе описания задачи обычным языком. Подход позволяет строить сложные инструменты анализа данных за несколько минут.
III. Автоматизация рабочих процессов
AI-агенты могут: выполнять регрессионный анализ и строить графики (OLS, VAR, ML-модели); интегрироваться с базами данных (FRED, IMF, World Bank); создавать отчёты по макроэкономическим показателям за минуты; готовить презентации и статьи с цитированием источников.
______________________
Ключевые рекомендации для исследователей от автора статьи:
1. Использовать Deep Research Agents для ускоренного обзора литературы и поиска данных.
2. Применять Coding Agents для автоматизации анализа, моделирования и визуализации.
3. Разрабатывать собственных агентов с помощью LangGraph или LangChain.
4. Всегда проверять результаты и проводить верификацию источников.
5. Комбинировать несколько AI-провайдеров, чтобы снизить стоимость и повысить надёжность.
@evidencespace
👍14🤔5👎3❤1👨💻1
J-PAL совместно с MIT стартует свой курс по оценке социальных программ. Наши подписчики оставляли замечательный отзыв о курсах J-PAL здесь. Теперь у вас снова есть возможность пройти бесплатный курс в этом потоке. Регистрация здесь.
@evidencespace
@evidencespace
🔥7❤2👍1
Forwarded from Reliable ML
Causal Inference Workshop #1
Всем привет! Мы запускаем серию воркшопов по анализу причинно-следственных связей (causal inference).
Формат - академическая пара, онлайн, будем разбирать по одной теме за раз.
Каждое занятие будет разбирать одну практическую тему,
Первое занятие - 27.10.2025 с 12:00 до 14:00 мск.
Тема: "Введение в Causal Inference. Причинно-следственные связи без А/Б тестов. Ортогонализация"
Разберем базовые понятия Causal Inference, несколько примеров "как делать не надо" и одну простую технику, как можно делать.
У участников останутся ноутбуки с примерами и инструкциями, можно будет задать свои вопросы.
Занятия бесплатные. Записи в открытом доступе не будет. Технического ограничения на размер группы нет, но в слишком большой группе никто не успеет ничего спросить, поэтому в какой-то момент набор закроем.
Чтобы записаться, пишите в комментариях к этому посту - зачем вам изучать Causal Inference. Будем добавлять в закрытый канал воркшопа.
Ваш @Reliable ML
#reliable_ml #causal_inference #workshop
Всем привет! Мы запускаем серию воркшопов по анализу причинно-следственных связей (causal inference).
Формат - академическая пара, онлайн, будем разбирать по одной теме за раз.
Каждое занятие будет разбирать одну практическую тему,
Первое занятие - 27.10.2025 с 12:00 до 14:00 мск.
Тема: "Введение в Causal Inference. Причинно-следственные связи без А/Б тестов. Ортогонализация"
Разберем базовые понятия Causal Inference, несколько примеров "как делать не надо" и одну простую технику, как можно делать.
У участников останутся ноутбуки с примерами и инструкциями, можно будет задать свои вопросы.
Занятия бесплатные. Записи в открытом доступе не будет. Технического ограничения на размер группы нет, но в слишком большой группе никто не успеет ничего спросить, поэтому в какой-то момент набор закроем.
Чтобы записаться, пишите в комментариях к этому посту - зачем вам изучать Causal Inference. Будем добавлять в закрытый канал воркшопа.
Ваш @Reliable ML
#reliable_ml #causal_inference #workshop
🔥10🎉5❤4
Forwarded from Канал влияния
📗 Летом 2025 года увидело свет второе издание книги «The Effect» Ника Хантингтон-Кляйна – одной из самых популярных и доступных по эконометрике и анализу причинно-следственных связей.
В книге появилась новая глава про partial identification, обновились разделы по современным эмпирическим методам, а навигация и практические примеры стали ещё удобнее
🔗 Последняя версия книги
🔗 Видеоуроки к книге
Обзоры первого издания книги делали авторы каналов This is Data и H0H1: про HR-аналитику – рекомендуем и их ревью, и каналы в целом, они отличные!
Кроме того, напомним, что в начале этого года было обновление книги «Causal Inference: What If» Джеймса Робинса и Мигеля Эрнана. А также напоминаем о нашем посте-путеводителе по книгам в сфере причинного вывода
Успехов в учёбе и исследованиях!
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥6👍1
Forwarded from Канал влияния
В своем исследовании Кфир Элиаз, Ран Шпиглер и Яир Вайс (Eliaz, Spiegler, Weiss, 2021) задаются простым, но фундаментальным вопросом:
Насколько сильно может быть искажена оценка корреляции между переменными, если модель, используемая для интерпретации данных, является ошибочной, но при этом проходит тест на корректность?
Формальные основы этих искажений: ограниченная рациональность (Piccione, Rubinstein, 2003; Jehiel, 2005), «проклятые убеждения» (cursed beliefs) (Eyster, Rabin, 2005), конкурирующие нарративы и модели (Eliaz, Spiegler, 2018; Montiel Olea et al., 2018)
Цель: убедить аудиторию, что две переменные тесно связаны, даже если на самом деле они независимы
Ограничение: модель должна сохранять предельные распределения (marginal distributions) – модель не должна искажать распределение каждой переменной по отдельности
Суть в том, что даже неспециалист может заметить явные манипуляции в вашей модели, например, если она утверждает, что средний доход равен $200 000, когда в данных – $30 000 (такое ограничение называется Undistorted Marginals Constraint). Но при этом зависимости между переменными (корреляции, причинные связи) – уже не так просто проверить. И именно тут начинается «читерство»
Представим фармацевтическую компанию, которая хочет доказать, что новое лекарство увеличивает выживаемость. Прямой связи нет, но есть:
Препарат → Биомаркер → Выживаемость
Если биомаркер подобран правильно, то даже при полном отсутствии реальной связи между препаратом и выживаемостью, модель покажет значимую корреляцию
Это приём называется marker hacking – отсылка к p-hacking, но вместо подгонки p-значений происходит подгонка структуры модели. См. также понятие surrogate paradox в (VanderWeele, 2015)
Даже при нулевой реальной корреляции между переменными, можно построить модель, которая покажет почти идеальную зависимость без манипуляций с данными, с сохранением предельных распределений, с использованием легитимного инструментария
В статье данный результат аккуратно выведен тригонометрически:
если между двумя точками (переменными) разместить цепочку «промежуточных» точек (медиаторов) с маленькими отклонениями, итоговая зависимость между краями может казаться сильной
#канал_обозревает
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍4❤1👎1
Forwarded from CEBDA Events
🌍 iCEBDA Seminar Series — Launching a New Online Networking Platform for Econometrics and Data Analysis
We are delighted to announce the launch of the iCEBDA Seminar Series, a new regular online seminar initiative organized by the Center for Big Data in Economics and Finance (HSE University, Moscow). This series extends the success of the recent iCEBDA-25 Conference into an ongoing digital format, bringing together researchers, students, and practitioners worldwide.
📅 The opening seminar will take place on September 29, 2025:
🔹 Recent Development in Instrument-Free Approaches to Regression Models with Endogenous Regressors
👤 Speaker: Kien C. Tran (University of Lethbridge, Canada)
Over the coming months, the program will feature distinguished scholars from Syracuse University, the University of Liverpool, the University of Birmingham, Brunel University of London, the University of Macau, ITAM (Mexico), and other leading institutions. Topics will range from clustered data inference and panel econometrics to systemic risk measures and change-point detection in time series.
🖥 Format: Online (via Zoom)
💡 Participation: Free, registration required
🔗 Full program and updates: https://economics.hse.ru/bigdata/seminars
👉 Direct registration: https://www.bechair.online/reg/CEBDA_Talks
We are delighted to announce the launch of the iCEBDA Seminar Series, a new regular online seminar initiative organized by the Center for Big Data in Economics and Finance (HSE University, Moscow). This series extends the success of the recent iCEBDA-25 Conference into an ongoing digital format, bringing together researchers, students, and practitioners worldwide.
📅 The opening seminar will take place on September 29, 2025:
🔹 Recent Development in Instrument-Free Approaches to Regression Models with Endogenous Regressors
👤 Speaker: Kien C. Tran (University of Lethbridge, Canada)
Over the coming months, the program will feature distinguished scholars from Syracuse University, the University of Liverpool, the University of Birmingham, Brunel University of London, the University of Macau, ITAM (Mexico), and other leading institutions. Topics will range from clustered data inference and panel econometrics to systemic risk measures and change-point detection in time series.
🖥 Format: Online (via Zoom)
💡 Participation: Free, registration required
🔗 Full program and updates: https://economics.hse.ru/bigdata/seminars
👉 Direct registration: https://www.bechair.online/reg/CEBDA_Talks
economics.hse.ru
Семинары по эконометрике и большим данным онлайн
👍6
🗺 Causal inference и пространственный treatment
На Substack Скотта Каннингема вышла заметка Кайла Баттса (доцент экономики в University of Arkansas). Она посвящена исследованию Майкла Поллманна (доцент экономики в Duke University), «Causal Inference with Spatial Treatments».
Поллманн рассматривает ситуацию, когда treatment «привязан» не к индивиду, а к месту (location). Тогда ключевой вызов - корректно оценить его влияние на соседние объекты. Он предлагает дизайн-базированный подход (design-based inference), где treatment случайно назначается из множества возможных точек-кандидатов, а контрольные единицы (control units) формируются на основе тех локаций, где treatment мог быть реализован, но не был.
Автор критикует стандартную стратегию «внутренний контур vs. внешний контур» (inner vs. outer ring): подход базируется на утверждении, что если бы не treatment, то объекты во внутреннем контуре (близком к объектам «лечения») и внешнем контуре были бы похожи - значит, внешний контур можно использовать как контрольную группу для внутреннего. Поллманн пишет, что «внешние» объекты могут систематически отличаться по пространственным характеристикам. В качестве решения он предлагает учёт пространственной корреляции и использование методов машинного обучения для балансировки по пространственным ковариатам, иными словами - моделирование пространственного распределения.
Эмпирический пример - влияние расположения продуктовых магазинов на трафик к ресторанам в период COVID-19: положительный эффект treatment'а заметен лишь в непосредственной близости и быстро исчезает с расстоянием.
Работа Поллманна предлагает новую методологию анализа пространственных treatment-эффектов.
@evidencespace
На Substack Скотта Каннингема вышла заметка Кайла Баттса (доцент экономики в University of Arkansas). Она посвящена исследованию Майкла Поллманна (доцент экономики в Duke University), «Causal Inference with Spatial Treatments».
Поллманн рассматривает ситуацию, когда treatment «привязан» не к индивиду, а к месту (location). Тогда ключевой вызов - корректно оценить его влияние на соседние объекты. Он предлагает дизайн-базированный подход (design-based inference), где treatment случайно назначается из множества возможных точек-кандидатов, а контрольные единицы (control units) формируются на основе тех локаций, где treatment мог быть реализован, но не был.
Автор критикует стандартную стратегию «внутренний контур vs. внешний контур» (inner vs. outer ring): подход базируется на утверждении, что если бы не treatment, то объекты во внутреннем контуре (близком к объектам «лечения») и внешнем контуре были бы похожи - значит, внешний контур можно использовать как контрольную группу для внутреннего. Поллманн пишет, что «внешние» объекты могут систематически отличаться по пространственным характеристикам. В качестве решения он предлагает учёт пространственной корреляции и использование методов машинного обучения для балансировки по пространственным ковариатам, иными словами - моделирование пространственного распределения.
Эмпирический пример - влияние расположения продуктовых магазинов на трафик к ресторанам в период COVID-19: положительный эффект treatment'а заметен лишь в непосредственной близости и быстро исчезает с расстоянием.
Работа Поллманна предлагает новую методологию анализа пространственных treatment-эффектов.
@evidencespace
Substack
Causal Inference with Spatial Treatments
Guest Post by Kyle Butts
🔥12❤1
Forwarded from Если быть точным
Полтора года назад мы выложили датасет с муниципальной статистикой. За это время его скачали 7 тысяч раз. В таком виде этих данных нет больше нигде. Это наш самый востребованный датасет, и чтобы мы могли обновлять его, нам нужна ваша поддержка.
В наборе данных 603 показателя о численности населения, миграции, заработных платах по отраслям, доходах и расходах местных бюджетов, финансовых результатах компаний и других сферах.
Из этих данных, например, видно, что в 2024 году минимум в 594 районах страны больше половины детских садов находились в аварийном состоянии или нуждались в капитальном ремонте. Выше всего эта доля — в Калмыкии, Кабардино-Балкарии, Адыгеи, Курганской и Мурманской областях.
Вот что изменилось в новой версии:
Обработка данных требует ресурсов и времени. Чтобы у нас получилось собирать больше датасетов — поддержите нас. Это можно сделать через Boosty или Patreon.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉9❤8👍5
18–19 сентября в Стэнфорде прошёл семинар NBER Economics of Transformative AI Workshop. Участники обсудили, как новые поколения искусственного интеллекта повлияют на конкуренцию, распределение доходов, инновации и глобальную экономику. Среди тем — рост производительности, регулирование, геоэкономика, а также риски и возможности, связанные с трансформационными эффектами ИИ. Организаторы: Ajay K. Agrawal — профессор Университета Торонто, директор Creative Destruction Lab; Anton Korinek — профессор экономики Университета Виргинии, исследователь NBER, эксперт по ИИ и макроэкономике (писали о его статье в канале здесь); Erik Brynjolfsson — профессор Стэнфорда, директор Digital Economy Lab, один из ведущих исследователей цифровой экономики.
Видео выступлений и материалы доступны на сайте NBER и в открытом плейлисте-YouTube.
@evidencespace
Видео выступлений и материалы доступны на сайте NBER и в открытом плейлисте-YouTube.
@evidencespace
NBER
Economics of Transformative AI Workshop, Fall 2025
🔥5👍2
Упустили весьма интересный handbook. В декабре 2024 года Всемирная организация здравоохранения представила новое руководство по мониторингу неравенства в сфере здравоохранения. Позиционируется руководство как системный набор методик и инструментов, который помогает переходить от деклараций о справедливости в доступе к здравоохранению к точным измерениям и практическим действиям.
Что внутри?
Концептуальные основы — зачем и как измерять неравенство; связь с ЦУР и глобальной политикой в области здоровья.
Методология — выбор индикаторов, дисагрегация данных (по полу, доходу, образованию, месту жительства), а также методы оценки.
Статистический инструментарий — рекомендации по расчётам в R, Stata и Excel; примеры готовых скриптов для анализа.
Открытые ресурсы — использование HEAT (Health Equity Assessment Toolkit) для анализа и визуализации, организация доступа к открытым репозиториям данных ВОЗ (в том числе к Health Inequality Data Repository (HIDR) — крупнейшему набору данных о неравенстве в здоровье).
Применение — кейсы из разных стран, примеры интеграции мониторинга в системы здравоохранения.
О каких показателях речь?
- охват вакцинацией по группам дохода или регионам;
- доступ к медицинской помощи в сельской и городской местности;
- материнская и детская смертность по уровню образования матери;
- факторы риска (курение, ожирение, питание) в разных социальных группах.
👉 Полный текст доступен онлайн: WHO – Health inequality monitoring (2024)
@evidencespace
Что внутри?
Концептуальные основы — зачем и как измерять неравенство; связь с ЦУР и глобальной политикой в области здоровья.
Методология — выбор индикаторов, дисагрегация данных (по полу, доходу, образованию, месту жительства), а также методы оценки.
Статистический инструментарий — рекомендации по расчётам в R, Stata и Excel; примеры готовых скриптов для анализа.
Открытые ресурсы — использование HEAT (Health Equity Assessment Toolkit) для анализа и визуализации, организация доступа к открытым репозиториям данных ВОЗ (в том числе к Health Inequality Data Repository (HIDR) — крупнейшему набору данных о неравенстве в здоровье).
Применение — кейсы из разных стран, примеры интеграции мониторинга в системы здравоохранения.
О каких показателях речь?
- охват вакцинацией по группам дохода или регионам;
- доступ к медицинской помощи в сельской и городской местности;
- материнская и детская смертность по уровню образования матери;
- факторы риска (курение, ожирение, питание) в разных социальных группах.
👉 Полный текст доступен онлайн: WHO – Health inequality monitoring (2024)
@evidencespace
👍8🔥4❤3👨💻1
Forwarded from Путеводитель по доказательной политике
Интересное применение GenAI — Research Gap Finder для поиска пробелов в исследовательских областях. В ответ на запрос показывает, где в теме не хватает:
◽️теории (нет актуальной теоретической рамки)
◽️методологии
◽️или эмпирических результатов.
Оговорка - результаты, конечно, стоит верифицировать более детальным обзором литературы. AnswerThis также предлагает как продукты других AI агентов для исследователей, с доступом к 250+ млн статей.
https://answerthis.io/ai/research-gap-finder?fpr=razia75
◽️теории (нет актуальной теоретической рамки)
◽️методологии
◽️или эмпирических результатов.
Оговорка - результаты, конечно, стоит верифицировать более детальным обзором литературы. AnswerThis также предлагает как продукты других AI агентов для исследователей, с доступом к 250+ млн статей.
https://answerthis.io/ai/research-gap-finder?fpr=razia75
👍6🔥2