доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
🧐 Так, нас становится больше, и мы планируем дальше развивать этот островок иллюзорной стабильности. Расскажите, чем вы сейчас занимаетесь, чтобы нам было проще подбирать интересный контент.
Please open Telegram to view this post
VIEW IN TELEGRAM
Семинар по Causal Inference

🔸 15 ноября (вторник) в 19:30 МСК — на The Online Causal Inference Seminar 🗣 Karthik Rajkumar (LinkedIn) расскажет про результаты масштабного пятилетнего рандомизированного эксперимента на платформе LinkedIn, направленного на оценку влияния слабых связей на трудовую мобильность.

Подключиться к семинару можно по ссылке. Пароль: 386638.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
👍4🔥2
Эффекты от размещения видеокамер на избирательных участках

Мы уже рассматривали использование разрывного дизайна (Regression Discontinuity Design, RDD) в медицинских исследованиях. Сегодня будет пример из политологии. 🗣 Анастасия Файкина (University of California San Diego) в своей job market paper оценила, как размещение видеокамер на избирательных участках во время президентских выборов 2018 года в России повлияло на явку и результаты голосования.

Напомним, что RDD для оценки эффектов использует тот факт, что государство или иной агент устанавливают правило, в соответствии с которым попадание в программу (воздействие) определяется значением переменной участия. В случае с видеокамерами на избирательных участках такая переменная — число избирателей. В 2018 году Центральная избирательная комиссия решила, что камеры должны устанавливаться на тех участках, где число прикрепленных избирателей превышает одну тысячу. Тогда, сравнивая участки слева и справа от этого значения, можно оценить средний локальный эффект воздействия.

Подробнее об интерпретации разрывного дизайна можно прочитать тут.

➡️ Получились следующие результаты: наличие видеонаблюдения на участке в среднем снижает официальную явку на 5,2%, а голосование за действующую власть — на 8,3%. При этом растет явка и результаты кандидата от действующей власти на соседних участках без камер, а эффект проявляется сильнее в сельской местности.

👉 Подписаться на доказательный ⎵ пробел: https://news.1rj.ru/str/evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍3
Тройная разность (The triple difference)

Сегодня поговорим про метод тройной разности (triple difference, TD difference-in-difference-in-differences, DDD).

Предположим, что есть два региона. В первом регионе T (treatment) вводится новая медицинская программа, а во втором регионе C (control) — нет. При этом и в регионе T, и в регионе C есть две группы граждан — A и B. Воздействию новой программы подвергается только группа B в регионе T. Кроме того, как и в стандартном методе DiD, есть два временных периода — Pre (до введения новой программы в регионе T) и Post (после введения новой программы в регионе T).

Цель исследователя — оценить средний эффект от внедрения программы на интересующие полисимейкеров показатели здоровья для подвергшихся воздействию.

➡️ Для этого можно, во-первых, сравнить изменение показателей здоровья в группах A и B только в регионе T (в котором вводится программа). Это обычный метод DiD. Но такая оценка получится смещенной, если в регионе T программа приводит к появлению внешних эффектов, которые действуют на группу A, или если есть разнонаправленные тренды в целевой переменной, которые связаны с характеристиками групп A и B (group-specific trends / shocks).

➡️ Во-вторых, можно сравнить изменение показателей здоровья только в группе B, но для регионов Т и С. Это опять обычный метод DiD. Но оценка получится смещенной, если в регионах T и C сильно различаются внешние экономические условия (state-specific trends / shocks), так, что даже без воздействия показатели здоровья для группы B будут меняться очень по-разному.

➡️ Однако можно предположить, что различия во внешних экономических условиях не повлияют на относительные результаты группы А и группы В в двух регионах, и оценить требуемый эффект. Метод тройной разности позволяет получить несмещенную оценку эффекта, даже если есть location-specific trends (относительно регионов T и C) и partition-specific trends (относительно групп A и B).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍112🔥2🎉1
Что посмотреть про метод тройной разности:

Запись семинара 🗣 Pedro Sant'Anna (Microsoft, Vanderbilt University): тут и про базовую спецификацию, и про ситуации, когда периодов много, объекты подвергаются воздействию неединовременно, а в модели вводятся дополнительные ковариаты. Слайды к семинару доступны по ссылке.

• Статья Olden A., Møen J. (2022). The triple difference estimator. The Econometrics Journal, 25(3).

➡️ Бонус — два исследования 2022 года на российских данных, в которых используется метод тройной разности:

🗣Руслан Кучаков и 🗣Дмитрий Скугаревский из Института проблем правоприменения Европейского университета про оценку эффекта зарплатных субсидий, на которые могли претендовать российские компании малого и среднего бизнеса в период COVID-19

🗣Елена Котырло и 🗣Елена Варшавская из НИУ ВШЭ о влиянии сокращения продолжительности срочной службы в армии с одного до двух лет в 2007-2008 гг. на спрос на высшее образование
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍3👨‍💻1
Open-source библиотека по A/B тестированию от МТС

Big Data МТС вывели в open source библиотеку Ambrosia для проведения A/B тестов и экспериментов. Инструмент позволяет работать с разными этапами жизненного цикла A/B тестирования от дизайна эксперимента до расчета эффекта, также реализованы основные методы ускорения экспериментов.

💻 Репозиторий Github
✔️ Есть несколько туториалов по работе с библиотекой

@evidencespace
👍92
SUNDAY READING LIST: НЕЗНАЧИМЫЕ РЕЗУЛЬТАТЫ

1. Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science, 22(11), 1359–1366. https://doi.org/10.1177/0956797611417632
Показывают, что из-за "гибкости" в сборе и анализе данных исследователь вероятнее получит ложно-положительный, чем ложно-отрицательный результат. Поэтому предлагают простые правила для авторов и рецензентов: заранее определить момент окончания сбора данных, подробно описывать все условия эксперимента, приводить список всех переменных, приводить результаты с исключаемыми наблюдениями и без них и т.д.

2. Benjamin, D.J., Berger, J.O., Johannesson, M. et al. Redefine statistical significance. Nature Human Behaviour 2, 6–10 (2018). https://doi.org/10.1038/s41562-017-0189-z
Предлагают более строгий порог для р-значения, чтобы повысить надёжность результатов.

3. A. Abadie Statistical Non-Significance in Empirical Economics // NBER working paper, 2018
https://www.nber.org/papers/w24403
Абади утверждает, что результаты эмпирического исследования в экономике интересны, если они меняют наши изначальные представления. Например, ожидаемое воздействие большинства мер государственной политики ненулевое. В этом случае незначимые результаты могут изменить наши убеждения, а значит, они не бесполезны.

4. Часто имеет место publication bias — ситуация, когда вероятнее будет опубликован значимый результат. В нескольких областях науки созданы журналы, где публикуются статьи с незначимыми результатами: психология — Journal of Articles in Support of the Null Hypothesis https://www.jasnh.com/, биомедицина — Journal of Negative Results in Biomedicine https://jnrbm.biomedcentral.com/, экология и эволюционная биология — Journal of Negative Results http://www.jnr-eeb.org/index.php/jnr/index

#sundayreadinglist_efmsu
1
🆎 Смотрите, какая круть
🔥1
Forwarded from Reliable ML
Митап ODS Reliable ML по АБ-тестированию и Causal Inference - 17 декабря
Анонсы докладов

Всем привет!

Не всё же читать про АБ-тесты, давайте про них говорить!

17 декабря мы с Димой приглашаем вас на митап по АБ-тестам от канала @Reliable ML и Open Data Science.
В программе 9 докладов от мэтров в этой области. Начнем в 11 утра по Мск, закончим - примерно в 18 (или как пойдет).

Регистрация на митап туть!

Очень хотелось бы, чтобы этот митап получился в формате живого обсуждения сложных и интересных тем, с которыми мы с вами встречаемся на практике. А не просто рассказа докладов. Так что просим начинать готовить вопросы участникам и ваши практические кейсы, связанные с АБ, которыми готовы поделиться.

Программа:

11:00
- Ваагн Минасян, Lead DS @ X5 Tech - Оценки с двойной надёжностью для выявления причинно-следственных связей в бизнесе
11:45 - Дмитрий Васькин, Data Scientist @ Lenta - Synthetic Control для AB тестов на малых размерах выборок
12:30 - Аслан Байрамкулов, Head of Experimental Group @ МТС BigData - Ambrosia - open-source библиотека для быстрой и удобной работы с A/B тестами
13:15 - Артем Ерохин, Lead DS @ X5 Tech - Balancing Methods in Causal Inference
14:30 - Александр Сахнов - Парный, пуассоновский и дикий бутстреп
15:15 - Валерий Бабушкин, VP, Data Science @ Blockchain.com - Метрики: от офлайна до иерархии
16:00 - Максим Кочуров, PyMC Labs - Планирование Байесовских АБ тестов
16:45 - Дмитрий Торшин, Data Scientist @ Lenta - Causal Impact и как его готовить
17:30 - Григорий Чернов, PhD in Economics, University of Tuebingen, ВШЭ - Causal Discovery Methods for Experimental Design

Далее постараемся рассказать подробнее об отдельных докладах!

#анонс #tech #ab_testing
🎉31👍1
Что послушать на ASSA в 2023 году?

Приближаются новогодние праздники, а значит нас снова ждет конференция ASSA от Американской экономической ассоциации. Как и в прошлом году, выбрали секции про доказательную политику и оценку причинно-следственных связей.

6️⃣ января

Causal Inference Methods and Applications in Tech: экстраполяция оценок эффектов от Netflix, платформа проведения ценовых экспериментов от Amazon, оценка долгосрочных эффектов от Microsoft и компромисс между справедливостью и эффективностью на маркетплейсах от Susan Athey.

Adaptive Experimentation and Policy Learning: двурукие гауссовские бандиты при фиксированном бюджете, многорукие бандиты и общие причины (confounding), экспериментальный дизайн при наличии внешних эффектов.

Quasi-Experimental Identification and Estimation: оценка внешних эффектов, выбор валидных инструментальных переменных, анализ чувствительности при эндогенных пропущенных переменных.

Machine Learning and High Dimensional Methods for Causal and Policy Learning: оптимальные алгоритмы для многоруких бандитов, causal inference на зашумленных данных и статистический вывод в ситуации, когда точечные оценки эффекта получить невозможно.

7️⃣ января

Treatment Effects: двухшаговый метод наименьших квадратов и локальный средний эффект воздействия, эффекты воздействия при изучении двусторонних рынков, bunching design, разность в разностях с непрерывным воздействием.

Evidence Use in Policymaking: как в Китае проводят полиси-эксперименты и какие у них ограничения, как полисимейкеры адаптируют свои оценки программ на основе научной экспертизы (полисимейкеры запоминают хорошие результаты и игнорируют плохие), эффекты от обучения чиновников основам эконометрики.

8️⃣ января

Replications in Economics: определение реплицируемости, презентация the Institute for Replication (I4R) и итоги репликации результатов нескольких статей.

@evidencespace
🔥9👍3
Окей, доказательная политика.

Задача приоритизации (выбора одной из нескольких альтернатив) - самая часто встречающаяся задача в госуправлении. Речь может идти о выборе одного из нескольких инвестиционных проектов, программ с наибольшим риском для достижения цели,оптимальных технологий здоровья или нуждающихся в долговременном уходе.

При этом критерий выбора обычно не единственный. Как правило, необходимо рассматривать целый ряд критериев - например, критериев доступности, влияния
на окружающую среду, здоровья населения и т.д. Задача осложняется тем, что критерии часто имеют сложную структуру и могут конфликтовать между собой.

В таких условиях могут помочь мультикритериальные методы - один из классов алгоритмов теории принятия решений. Важно, что мультикритериальные методы могут быть инструментом, который позволяет сделать более
прозрачным процесс выбора критериев и оценки их важности - этот процесс предполагает вовлечение и диалог между заинтересованными сторонами.

Об этом и о двух полезных алгоритмах MCDA (с примерами и тетрадками Python) экспертная записка Счетной палаты.
👍7
Оценка долгосрочных эффектов

Как в индустрии, так и в академии приходится обращать внимание на долгосрочные эффекты от имплементируемых изменений. Например, в онлайн экспериментах кликбейтная вызывающая реклама может приводить в краткосрочном периоде к росту CTR (кликабельности), но в будущем вызовет отток клиентов и снижение прибыли. Многие государственные программы имеют отложенный эффект воздействия.

Основная проблема — результаты оценки для принятия решений нужны здесь и сейчас, а собирать данные долго и дорого. В онлайн-экспериментах увеличение их продолжительности приводит к дополнительным проблемам: потеря пользователей из-за неизбежного удаления куки-файлов, а также смешение тестовой и контрольной групп.

Что можно сделать? Стандартное решение — использование прокси-метрик (driver metrics, surrogate, intermediate short-term outcome), по которым можно предсказать долгосрочный эффект.

Собрали основные статьи про этот и другие подходы с примерами реализации.

@evidencespace
👍4
Forwarded from Reliable ML
Reliable ML AB Testing & Causal Inference Meetup
Видео и презентации докладов

Опубликованы видео и презентации докладов нашего декабрьского митапа по АБ тестам и причинно-следственному анализу.

Все доклады, их описания и презентации можно найти на сайте ODS.ai, а также в плейлисте на YouTube.

Ссылки отдельно по докладам:

- Ваагн Минасян - Оценки с двойной надёжностью для выявления причинно-следственных связей в бизнесе (видео, презентация)

- Дмитрий Васькин - Synthetic Control для AB тестов на малых размерах выборок (видео, презентация)

- Аслан Байрамкулов - Ambrosia - open-source библиотека для быстрой и удобной работы с A/B тестами (видео, презентация)

- Артем Ерохин - Balancing Methods in Causal Inference (видео, презентация)

- Александр Сахнов - Парный, пуассоновский и дикий бутстреп (видео, презентация)

- Валерий Бабушкин - Метрики: от офлайна до иерархии (видео, презентация)

- Григорий Чернов - Causal Discovery Methods for Experimental Design (видео, презентация)

- Дмитрий Торшин - Causal Impact и как его готовить (видео, презентация)

- Максим Кочуров - Планирование Байесовских АБ тестов (видео, презентация)

Ваш @Reliable ML

#tech #ab_testing #causal_inference
👍12👎1
Открытые материалы по байесовости.

Максим Кочуров (выпускник ЭФ 2018, Сколтех 2020, партнёр PyMC Labs) прочитал магистрантам 2 года программы «Анализ данных а экономике» #ЭФМГУ курс «Машинное обучение в бизнесе». Материалы курса теперь в открытом доступе по ссылке: https://ferrine.github.io/pages/practical-bayes

—————————-
Другие материалы преподавателя:
в декабре Максим выступал на Reliable ML AB testing & Causal Inference Meetup с докладом о планировании Байесовских АБ-тестов, видеозапись доступна на канале Open Data Science: https://www.youtube.com/watch?v=1fnXvWwtFss&t=1s
👍5
Краткая история причинного вывода

Отвлечемся немного от математики методов. 🗣Скотт Каннингем опубликовал серию постов про то, как развивалась область causal inference, использующая модель потенциальных исходов:

Часть 1: философские и статистические основания модели потенциальных исходов. Действующие лица:🗣Дэвид Юм, 🗣Джон Стюарт Милль, 🗣Ежи Нейман, 🗣Рональд Фишер и 🗣Дональд Рубин.

Часть 2: переносимся в Принстон и наблюдаем как экономисты пользуются новыми микроданными, которые стали доступны в результате запуска масштабных государственных программ, а заодно изобретают новые методы оценки. Действующие лица: 🗣Орли Ашенфельтер, 🗣Дэвид Кард, 🗣Роберт ЛаЛонд и🗣Алан Крюгер.

Часть 3: про важность нотации и то, как как вернуть доверие методу инструментальных переменных. Действующие лица: 🗣Джошуа Ангрист, 🗣Хидо Имбенс и🗣Дональд Рубин.

Для затравки: 🗣Орли Ашенфельтер рассказывает про то, как придумал разность разностей, чтобы не пугать чиновников регрессионными выкладками:

In fact, that was demonstrated pretty conclusively by Bob Lalonde in his paper and PhD thesis. So that was, for me, that was a great moment. And of course, the difference in differences came about in a very simple way. Here I am running regressions with hundreds of thousands of observations, you know, fixed effects for individuals, fixed effects for time periods, which is a very powerful design. And I'm trying to present this to other people in the labor department and around the government. And you walk in and say the word “regression analysis” and people's eyes glazed over. So I realized after the first time I presented this work that you can't use that word. Well, I started to think, “well, what are we doing here?” And I realized since we had a balanced longitudinal sample, we were just taking a difference and subtracting off a difference. And it was just a difference in differences. I mean, it was a regression. I did it with regressions. I never actually calculated differences except to show people.

@evidencespace
10🔥3🤩1
ТЗ для академии

🗣 Рон Кохави с коллегами опубликовали статью, в которой рассматривают основные узкие места статистической методологии A/B-тестирования. Они призывают академических исследователей активнее сотрудничать с бизнесом, чтобы решать эти проблемы:

• Повышение мощности тестов и оценка небольших эффектов
• Оценка гетерогенных эффектов
• Оценка долгосрочных эффектов (подборка статей про это)
• Учет сетевых эффектов

@evidencespace
👍10
Воркшоп по Difference-in-Differences

Четырехчасовой воркшоп про разность разностей от 🗣Pedro Sant’Anna (Vanderbilt University & Microsoft): от канонической схемы до последних методологических новаций.

🟢 Видео-запись
📔 Материалы

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👏2