доказательный ⎵ пробел – Telegram
доказательный ⎵ пробел
1.26K subscribers
181 photos
1 video
10 files
285 links
Про causal inference, данные для исследований и принятие решений на основе данных.

Чат: @evidence_chat
Download Telegram
🔹 Новая открытая база данных по смертности на основе административных источников. Данных за 2022/2023 годы там, правда, нет.

«Российская база данных краткосрочных колебаний смертности
(РосБКС) Международной лаборатории исследований населения и здоровья НИУ ВШЭ содержит понедельные общие и стандартизованные по возрасту коэффициенты смертности по регионам России и стране в целом за 2000-2021 гг.

Все представленные в РосБКС показатели рассчитаны на основе данных статистики населения, полученных от Федеральной службы государственной статистики. РосБКС ориентирована прежде всего на специалистов, занимающихся профессиональным анализом демографических показателей. Данные представлены в формате *.csv».

@evidencespace
🔥12👍1
#CausalInference #ML #MachineLearning #методы #МашинноеОбучение

Машинное обучение - это про предсказания и классификацию. Статистический причинно-следственный вывод (causal inference) - про количественную оценку эффекта воздействия одной конкретной переменной (например, насколько снизится - и снизится ли вообще - уровень насильственной преступности в уездном городе Ковылкино N, если алкоголь будут продавать до 21, а не до 22 часов). Казалось бы, что у этих задач и методов общего?

Долгое время они действительно развивались параллельно и почти без пересечений. Однако в какой-то момент выяснилось, что впечатляющие вычислительные инструменты ML очень подходят для таких типичных и важных для causal inference вещей, как моделирование конфаундинга (воздействия третьих переменных), гетерогенности эффекта воздействия (то же самое лекарство от головной боли одному человеку поможет, а другому - нет), а также динамических и сетевых (а если все с крыши пойдут прыгать?) контекстов.

Если вам знакомы такие слова, как мэтчинг, обратное взвешивание по вероятности, инструментальные переменные или разрывный дизайн, хотим обратить ваше внимание на новый обзор в Annual Review of Sociology от Дженни Брэнд, Шиань Джоу и Ю Сиэ (сразу просим прощения за потенциально ошибочную транскрипцию), в котором рассказывается, как во всех этих подходах (и других!) можно использовать методы машинного обучения с пользой для себя и для дела.

А если не знакомы, в статье идеи, лежащие в основании соответствующих дизайнов, объясняются просто и доступно - настолько, что вполне можно давать студентам-неэкономистам в качестве введения в проблематику causal inference.

Brand, J. E., Zhou, X., & Xie, Y. (2023). Recent Developments in Causal Inference and Machine Learning. Annual Review of Sociology, 49. https://doi.org/10.1146/annurev-soc-030420-015345

P.S. В качестве бонуса для тех, кто осилил до конца, - ссылка на лекционные слайды курса Кирилла Борусяка по прикладной эконометрике, прочитанного минувшей осенью в Беркли. Тоже много полезного и интересного.
🔥233👏3👍2
Хорошо, когда из одного дисциплинарного колодца видно другой:

DiPrete (2020) has written an Annual Review of Sociology article on the relationship between inequality and mobility that should be read in conjunction with this review. DiPrete gives a sociologist's perspective while paying careful attention to the economics literature. We hope we have shown the same sensitivity to sociological work in writing from an economist's perspective.
10
Forwarded from Tatyana Cherkashina (Tatyana Ch.)
Росстат сделал неожиданный – по нынешним меркам, – но, на мой взгляд, несколько странный сюрприз.

С 2019 проводится ежегодное Выборочное наблюдения состояния здоровья населения (ВНСЗН). По сочетанию в одной анкете сравнительно подробных вопросов о здоровье, полезном и вредном потреблении чего-то внутрь, физической активности и социальном самочувствии и социально-экономических условиях с этим обследованием может сравниться только Российский мониторинг экономического положения и здоровья населения (RLMS), но выборка росстатовского ВНСЗН – 120 тыс. человек во всех регионах страны. И до последнего времени это было одно из немногих обследований населения, микроданные которого Росстат не размещал в открытом доступе. И вот сюрприз: появились микроданные за 2023, причем очень оперативно по сравнению с другими обследованиям – сбор данных был в сентябре 2023. Странность в том, что файл микроданных не содержит привычные переменные, прежде всего коэффициенты взвешивания и типы населенных пунктов по численности населения. Если без второго с этими данными работать можно спокойно, то без взвешивающих коэффициентов – проблематично. По крайней мере, когда хочется что-то сказать с претензией на «репрезентативность всех россиян».

Но кроме микроданных Росстат публикует распределения ответов на некоторые вопросы о состоянии здоровья и самочувствии (как раз по взвешенным данным) по возрастным группам. И я бы с интересом почитала комментарии психологов или близких специалистов о степени тревожности россиян, которая проявляется в этих распределениях. Например, в информационной панели ВНСЗН можно найти цифры за 2019-2021, а в «Итогах наблюдения» за 2023 о том, как взрослые 15 лет и старше отвечали на вопрос «Тревожит ли Вас неопределенность будущего?» из блока о социальном самочувствии. Если в 2023 19,2% выбрали вариант «очень тревожит», а 44,3% «скорее тревожит», – это много? И эта «суммарная» тревожность из-за неопределённости будущего в 63,5% – максимум из четырёх лет, данные за которые опубликованы: в 2019 тревожащихся было 60,4%, в 2020 – 61,5%, в 2021 – 58,04%.
👍91
Весной в Институте проблем правоприменения Европейского университета в Санкт-Петербурге — сразу три интенсива, один из них — по доказательному подходу.

16–17 марта
Эмпирические методы в правовых исследованиях

🔸 Качественные методы
🔸 Как написать и презентовать научный текст
🔸 Количественные методы
🔸 Автоматический анализ текстовых данных

13–14 апреля
Доказательный подход: от практиков практикам

🔸 Методология и практика реализации доказательного подхода
🔸 Оценочное исследование (evaluation research)
🔸 Экспертные интервью в административном контексте
🔸 Возможности и ограничения качественной методологии в доказательном подходе
🔸 Внешние источники данных для оценки эффективности государственных органов
🔸 Данные в принятии управленческих решений

25–26 мая
Экономический анализ права

🔸 Экономический подход к анализу права, прав собственности, судебной власти
🔸 Экономический анализ регулирования: случай отрасли общественного питания
🔸 Tаргетирование проверок
🔸 Плановые v. внеплановые проверки: выбор регулятора

Стоят все три программы одинаково — 15 тысяч рублей.
🔥12👍81👎1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Тот, кто убил — тот и убит.
😢3912👎3😱1
Когда ваши сыновья заинтересовались политикой?

«Олег никогда не интересовался — вплоть до того, как начались все эти уголовные дела. А Алешка — мне кажется, когда мы с ним программу «ВИД» вместе стали смотреть. Он музыкой стал интересоваться: у нас вся квартира оказалась обклеена плакатами (группы) ДДТ. А в программе «ВИД» сначала все было про политику, а потом про музыку — вот Алеша со мной и смотрел — ждал музыки».

Светлая память Алексею Навальному.
😢31👎4
В этом году на «Летней Школе» снова заработает мастерская Дата-журналистики. Ее организует издание «Системный Блокъ». До этого мастерская проводилась в 2019 году — 5 лет назад

В этом году своими знаниями и данными вместе с журналистами Системного Блока поделятся ребята из «Если быть точным» @tochno_st, «Лаборатории университетской прозрачности» @uni_loup, Яндекс-исследований, Инфокультуры, Т-Ж, центра научной коммуникаций ИТМО, института Общей генетики РАН и не только.

В общем, если вы любите сосны и исследования, то можно отлично провести время в июле-августе на «Летней школе» на берегу Волги. В палатке.

Подать заявку на участие можно на странице мастерской (https://letnyayashkola.org/data-jour/) до 20 мая.

🎓Кому будет интересно?

Журналистам, дата-журналистам, студентам и выпускникам медийных и других гуманитарных специальностей, а также программистам, аналитикам данных и визуализаторам, кто готов попробовать себя в новой сфере.

✍🏼 Что будет?

Сначала лекции, а потом практика. Программа состоит из образовательной и проектной части.

В образовательной части мастерской участники узнают, каким данным можно верить и какими источниками пользоваться, как сделать материал интересным, какие бывают виды графиков и как визуализировать данные.

В проектной части вас ждет хакатон: 10 редакций пройдут полный цикл создания медиаматериала на базе подготовленных датасетов. Каждая команда завершит мастерскую с публикацией своего исследования в “Системном Блоке” или у партнеров.

📍Когда и где?

Даты проведения: с 21 июля по 5 августа 2024 года на Волге недалеко от Дубны.
4👨‍💻4🔥2
Роструд раскрыл детальные данные о зарплатах и трудоустройстве выпускников 6,5 тысячи образовательных организаций

Роструд опубликовал результаты Мониторинга трудоустройства выпускников. Это набор данных о доле трудоустроенных выпускников из 6,5 тысячи образовательных организаций и средней зарплате в разрезе 500 специальностей за 2019-2023 годы.

Что можно узнать:

🔺Выпускникам каких образовательных организаций и специальностей на старте карьеры платят больше всего (с разбивкой по регионам и федеральным округам).

🔺Соотношение мужчин и женщин среди выпускников по специальностям в регионах страны.

🔺Разрыв в доле трудоустроенных между женщинами и мужчинами и выпускниками отдельных специальностей.

🔺Разрыв в средних зарплатах между женщинами и мужчинами, выпускниками бакалавриата и магистратуры или отдельных направлений.

Предостережение: интерпретировать данные стоит осторожно, поскольку мониторинг собирает их из информационных систем разных ведомств. Например, средняя зарплата рассчитывается по данным о социальных взносах работодателей, поэтому учитываются только официальные выплаты.

⚫️Если у вас есть вопросы по работе с данными или пожелания по новым наборам для каталога — напишите в чат. Мы постараемся ответить как можно раньше.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉8👍5🔥2
Зачем нужны «бандиты» в госуправлении, как истории про динозавров и кошек связаны с дизайнами экспериментов, а также как не просто оценивать политику, но и эффективно определять ее целевых реципиентов? Об этом и не только вы сможете узнать из прекрасных семейных лекций Сьюзан Эйти и лауреата нобелевской премии по экономике Гвидо Имбенса, которыми нас порадовали последние июльские дни летней школы NBER. Материал очень насыщенный и посвящён передовым экспериментальным методам, которые рассматриваются в качестве инструментов оценки и реализации различного рода политик. Сьюзан Эйти и Гвидо Имбенс показывают как уже успешно применяемые в коммерческом секторе экспериментальные методы можно транспонировать в оценку policy.

🏃🏻‍♀️ «Analysis and Design of Multi-Armed Bandit Experiments and Policy Learning» by Susan Athey
🏃 «Interference and Spillovers in Randomized Experiments» by Guido Imbens

PS: из лекций узнали о существовании github Сьюзан Эйти, она давно ничего не коммитила, но там есть полезные библиотеки для R.

Другие стримы с летней школы NBER

@evidencespace
18👍3👎1
Для всех тех, кто успел посмотреть лекции по экспериментам, выкладываем ссылку на бесплатную книгу по байесовскому анализу данных от Эндрю Гельмана. Книга с историей и, возможно, кто-то, безусловно, знает о ее существовании, но в нашем канале мы ее еще не выкладывали. Поэтому вот: Bayesian Data Analysis. К книге есть отдельный курс. Здесь всё, как вы любите: интерактивный формат, отдельный стэк лекций на aalto, репозитории с кодом на R и python, датасеты, а также задачи для самостоятельного решения. Читаем, смотрим, пишем код, проверяем себя - мы прекрасны! )

@evidencespace
🔥175
〽️ CausalPy - набор библиотек для причинно-следственного анализа на python от проекта PyData Global. Преимущество библиотеки: основные модели causal inference под капотом (Synthetic Control, DiD, RDD и другие), понятное визуальное представление результатов работы моделей. Вики содержит примеры имплементации библиотек. Здесь можно посмотреть пример использования библиотек CausalPy на одном из известных кейсов реализации политики ограничения курения в Калифорнии и ее влияния на продажи сигарет: генерация синтетической Калифорнии с использованием Марковских цепей Монте-Карло никогда не была такой простой 📊.

Также библиотеки, о которых писали ранее:
✔️ DoWhy: особенной функцией является возможность составление направленных ациклических графов, на домашней странице проекта найдете много примеров использования библиотеки на данных (в том числе оценки государственной политики, например, пенсионной).
✔️ EconML: одна из наиболее полных эконометрических библиотек (домашняя страница).
✔️ HypEx: о ней еще не писали, но у нее узкий профиль с фокусом на мэтчинг.

@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥146👨‍💻5
Не удержались)

@evidencespace
😁232👍1🥰1🤩1
Ранее мы уже рассказывали про развитие микросимуляционных моделей с открытым кодом, позволяющих моделировать эффекты от реформ в налоговом администрировании. Такие модели получают развитие, и вслед за Policy Simulation Library (PSL), которая - с последнего нашего упоминания о ней - заапгредилась в части новых библиотек (появились модели оценки поведенческих факторов населения при изменении подоходного налога, макроэкономические оценки общего равновесия, новые python-библиотеки Tax-Brain) к PSL подключился новый проект PolicyEngine, который использует репрезентативные микроданные опросов домохозяйств (US, UK) и позволяет пользователям моделировать системы налогообложения и льгот в США и Великобритании, предоставляя в том числе low-code платформы (подробнее на странице youtube проекта), которые дают возможность разрабатывать индивидуальные реформы налоговых льгот и видеть, как они влияют на население (бюджет домохозяйств, уровень бедности и неравенство).

Проекты, аналогичные PSL, кратно повышают ценность микроданных выборочных опросов населения, позволяя видеть потенциальные эффекты от планируемых реформ, повышая открытость данных и популяризируя культуру доказательной политики. К сожалению, на сегодняшний день такие решения на данных выборочных обследований Росстата имплементированы только в нескольких российских вузах, не являясь при этом открытыми. Зачастую эти решения выступают инструментами монополии на определенного рода экспертизу конкретного вуза. Отсутствует open-source площадка, где научные школы могли бы развивать подходы к микросимулированию налоговых (и не только) реформ в стране. Такая площадка могла бы стать хорошим проектом для организаций из научной отечественной институциональной среды. А солидарность исследовательских школ к подходам, порядку и механикам расчетов микросимуляционных моделей могла бы лечь в основу стандартов оценки реформ на уровне реализации госполитики. «Так поставим перед собою цель — высшее благо, чтобы стремиться к ней изо всех сил и иметь ее в виду в каждом деле, в каждом слове» )

@evidencespace
👍8
На сайтах хранится очень много данных — и часть из них не видна пользователям. Рассказываем, как найти труднодоступную информацию

В 2019 году журналисты и исследователи из США обнаружили, что «умные» дверные звонки со встроенными камерами используются правоохранителями. Сеть таких устройств слежки постоянно растет, охватывая всю страну.

Сеть была раскрыта через данные приложения Ring Neighbors, в котором владельцы «умных» звонков делились с соседями видео- и текстовыми сообщениями об обстановке в районе. Помог им в этом недокументированный API — и другого способа получить такие данные не было.

Дело в том, что информация с любого сайта выводится на экран пользователя через интерфейсы. Один из них — API, своего рода цифровая бюрократия. Отправляете шаблонный запрос и получаете ответ в понятном и заранее определенном формате. Часто API создаются в технических целях и инструкций, как ими пользоваться, разработчики не оставляют — их называют «недокументированными». Если научиться их находить, то можно сильно упростить выгрузку данных, а иногда — даже скачать больше данных, чем видно.

Через недокументированный API Росприроднадзора мы нашли, кто отвечает за выбросы самых опасных веществ от промышленных объектов в России. Правда, через несколько месяцев после публикации ведомство удалило API, а совсем недавно закрыло и весь реестр.

⚫️О том, как без специальных навыков выгрузить много данных, читайте в новой инструкции «Если быть точным». В качестве примера — финансовая отчетность компаний от ФНС.
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍4🔥4👏1🤔1