ПРО ЖОНГЛИРОВАНИЕ МЕТОДОЛОГИЕЙ
Оценили в Если быть точным, какой уровень бедности был бы в 2022 году, если бы его считали по старой методологии. По данным Росстата, он рекордно низкий — 9,8%, такого никогда не было. А по нашим расчетам — около 12%, то есть чуда не случилось.
Практически такую же оценку (11,9%) получили в РАН (доклад, к сожалению, еще в редактуре, но мы с ним познакомились). Если бы не изменение методологии, бедных, которых бедными считает статистика (в жизни все сложнее, но это отдельный разговор), было бы на три миллиона больше.
[1/4]
Продолжение
@evidencespace
Оценили в Если быть точным, какой уровень бедности был бы в 2022 году, если бы его считали по старой методологии. По данным Росстата, он рекордно низкий — 9,8%, такого никогда не было. А по нашим расчетам — около 12%, то есть чуда не случилось.
Практически такую же оценку (11,9%) получили в РАН (доклад, к сожалению, еще в редактуре, но мы с ним познакомились). Если бы не изменение методологии, бедных, которых бедными считает статистика (в жизни все сложнее, но это отдельный разговор), было бы на три миллиона больше.
[1/4]
Продолжение
@evidencespace
👍6🔥3👏1
Как меняли методологию
Раньше Росстат считал бедными тех, у кого 1️⃣ доходы были ниже прожиточного минимума. Прожиточный минимум — это стоимость потребительской корзины. Ее регулярно пересчитывали, исходя из цен на конкретные продукты (42 разных продукта вроде апельсинов, сахара, картошки в невероятных количествах), которые в нее входили, и нормативов потребления. Умножали все на два (с учетом поправочных коэффициентов), чтобы учесть расходы на непродовольственные товары и услуги. И добавляли несколько сот рублей на обязательные платежи для взрослых.
В 2021 году перешли к более «продвинутой» методологии — стали считать 2️⃣ бедными тех, у кого доходы были меньше 44,2% от медианного дохода по стране. Выбор такого странного процента объяснили желанием сохранить сопоставимость данных.
Но почти сразу от использования этого подхода в статистике отказались (для социальной поддержки оставили), и ввели новую «черту бедности» — 3️⃣ «границу бедности». Это опять прожиточный минимум, но на конец 2020 года с поправкой на накопленную общую инфляцию. То есть сейчас не пересчитывают каждый раз стоимость корзины, исходя из роста цен на конкретные продукты, а просто берут фиксированную стоимость корзины, какой она была в четвертом квартале 2020 года, и умножают на индекс потребительских цен, полученный цепным методом. Обоснование — «обеспечение сопоставимости статических рядов».
И в целом это ок. Только вот сопоставимость рядов обеспечить не получилось 😏 Разумнее было бы параллельно считать уровень бедности с использованием старой и новой методологии. Подозреваем, что так и делают, просто публике сообщают о значениях только одного ряда.
[2/4]
Начало
Продолжение
@evidencespace
Раньше Росстат считал бедными тех, у кого 1️⃣ доходы были ниже прожиточного минимума. Прожиточный минимум — это стоимость потребительской корзины. Ее регулярно пересчитывали, исходя из цен на конкретные продукты (42 разных продукта вроде апельсинов, сахара, картошки в невероятных количествах), которые в нее входили, и нормативов потребления. Умножали все на два (с учетом поправочных коэффициентов), чтобы учесть расходы на непродовольственные товары и услуги. И добавляли несколько сот рублей на обязательные платежи для взрослых.
В 2021 году перешли к более «продвинутой» методологии — стали считать 2️⃣ бедными тех, у кого доходы были меньше 44,2% от медианного дохода по стране. Выбор такого странного процента объяснили желанием сохранить сопоставимость данных.
Но почти сразу от использования этого подхода в статистике отказались (для социальной поддержки оставили), и ввели новую «черту бедности» — 3️⃣ «границу бедности». Это опять прожиточный минимум, но на конец 2020 года с поправкой на накопленную общую инфляцию. То есть сейчас не пересчитывают каждый раз стоимость корзины, исходя из роста цен на конкретные продукты, а просто берут фиксированную стоимость корзины, какой она была в четвертом квартале 2020 года, и умножают на индекс потребительских цен, полученный цепным методом. Обоснование — «обеспечение сопоставимости статических рядов».
И в целом это ок. Только вот сопоставимость рядов обеспечить не получилось 😏 Разумнее было бы параллельно считать уровень бедности с использованием старой и новой методологии. Подозреваем, что так и делают, просто публике сообщают о значениях только одного ряда.
[2/4]
Начало
Продолжение
@evidencespace
👍7
Как мы проводили расчеты
Нужно было решить две задачи:
1️⃣ Аккуратно посчитать, какой была бы стоимость корзины в 2022 году. Основная трудность в том, что категории товаров, цены на которые отслеживаются, Росстат меняет. Вообще, у Росстата нет нормальной иерархии в классификаторе категорий товаров. Про это писали Твердые цифры. Например, до 2022 года выделялся Творог, нежирный и Творог, жирный. Последний как раз входил в состав минимальной потребительской корзины. А с 2022 года мы видим в данных Росстата только общую категорию Творог. Тут мы старались использовать консервативные оценки, чтобы случайно не завысить стоимость корзины.
2️⃣ Восстановить распределение доходов, по которому Росстат считает уровень бедности. Это нужно, чтобы ответить на вопрос, ❓какой уровень бедности был бы, если бы Росстат вместо значения границы бедности использовал другое значение (например, на тысячу рублей выше). Росстат с недавних пор стал публиковать значения децилей распределения доходов, но всего распределения мы не знаем. Но его можно восстановить.
Дело в том, что после того, как Росстат получил данные выборочных обследований доходов населения, а также данные макростатистики (макропоказатель среднедушевого денежного дохода), он моделирует распределение доходов населения с помощью теоретического двухпараметрического логнормального распределения.
Так как в этом теоретическом распределении всего два параметра, то зная уровень бедности, границу бедности и величину среднедушевых денежных доходов, которые опубликовал Росстат,🫡 мы можем восстановить среднее и стандартное отклонение этого теоретического распределения. Для этого нужно немного покрутить интегралы. Можно использовать и другие квантили.
🧑🏼💻 Код, с помощью которого можно воспроизвести такие расчеты для любого периода, доступен в репозитории Github.
[3/4]
Начало
Продолжение
@evidencespace
Нужно было решить две задачи:
1️⃣ Аккуратно посчитать, какой была бы стоимость корзины в 2022 году. Основная трудность в том, что категории товаров, цены на которые отслеживаются, Росстат меняет. Вообще, у Росстата нет нормальной иерархии в классификаторе категорий товаров. Про это писали Твердые цифры. Например, до 2022 года выделялся Творог, нежирный и Творог, жирный. Последний как раз входил в состав минимальной потребительской корзины. А с 2022 года мы видим в данных Росстата только общую категорию Творог. Тут мы старались использовать консервативные оценки, чтобы случайно не завысить стоимость корзины.
2️⃣ Восстановить распределение доходов, по которому Росстат считает уровень бедности. Это нужно, чтобы ответить на вопрос, ❓какой уровень бедности был бы, если бы Росстат вместо значения границы бедности использовал другое значение (например, на тысячу рублей выше). Росстат с недавних пор стал публиковать значения децилей распределения доходов, но всего распределения мы не знаем. Но его можно восстановить.
Дело в том, что после того, как Росстат получил данные выборочных обследований доходов населения, а также данные макростатистики (макропоказатель среднедушевого денежного дохода), он моделирует распределение доходов населения с помощью теоретического двухпараметрического логнормального распределения.
Так как в этом теоретическом распределении всего два параметра, то зная уровень бедности, границу бедности и величину среднедушевых денежных доходов, которые опубликовал Росстат,
🧑🏼💻 Код, с помощью которого можно воспроизвести такие расчеты для любого периода, доступен в репозитории Github.
[3/4]
Начало
Продолжение
@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
Несколько ссылок
• Статья с подробными выкладками о том, как восстанавливать параметры теоретического распределения доходов Росстата по опубликованным данным
• Хорошая статья С. Айвазяна и коллег двухтысячного года, в которой тестируются теоретические модели распределения расходов (не доходов, в этом суть). Аргументы могли устареть, но про смешивание распределений рассказывают так же вкусно, как в кулинарном шоу
• Статья Ангуса Дитона, в которой он критикует использование значения среднедушевого дохода из макростатистики для коррекции оценок, полученных на основе данных выборочных обследований
• Стенограмма заседания в Государственной Думе, в которой собран неплохой экскурс в историю расчетов прожиточного минимума с 1992 года
[4/4]
Начало
@evidencespace
• Статья с подробными выкладками о том, как восстанавливать параметры теоретического распределения доходов Росстата по опубликованным данным
• Хорошая статья С. Айвазяна и коллег двухтысячного года, в которой тестируются теоретические модели распределения расходов (не доходов, в этом суть). Аргументы могли устареть, но про смешивание распределений рассказывают так же вкусно, как в кулинарном шоу
• Статья Ангуса Дитона, в которой он критикует использование значения среднедушевого дохода из макростатистики для коррекции оценок, полученных на основе данных выборочных обследований
• Стенограмма заседания в Государственной Думе, в которой собран неплохой экскурс в историю расчетов прожиточного минимума с 1992 года
[4/4]
Начало
@evidencespace
🔥11👍1👏1
Умер Евгений Григорьевич Ясин. Лекции по российской экономике и научный семинар — в памяти навсегда.
😢20❤8
Forwarded from Наука и данные
Research Design in the Social Sciences 👫
🔹Книга Research Design in the Social Sciences: Declaration, Diagnosis, and Redesign (Princeton Univercity Press) by Graeme Blair, Alexander Coppock, and Macartan Humphreys знакомит с новым взглядом на исследовательские проекты в социальных науках. Здесь дизайн исследования характеризуется четырьмя элементами: моделью, запросом, стратегией данных и стратегией ответа. Например, показаны ключевые аналитические особенности наблюдательных и экспериментальных планов, качественных и количественных планов, а также описательных и причинно-следственных планов.
🔹В книге сделана программная реализация идей с помощью библиотеки {DeclareDesign} в
🔹Книга Research Design in the Social Sciences: Declaration, Diagnosis, and Redesign (Princeton Univercity Press) by Graeme Blair, Alexander Coppock, and Macartan Humphreys знакомит с новым взглядом на исследовательские проекты в социальных науках. Здесь дизайн исследования характеризуется четырьмя элементами: моделью, запросом, стратегией данных и стратегией ответа. Например, показаны ключевые аналитические особенности наблюдательных и экспериментальных планов, качественных и количественных планов, а также описательных и причинно-следственных планов.
🔹В книге сделана программная реализация идей с помощью библиотеки {DeclareDesign} в
R. В главе 13 показан последовательно каждый этап процесса работы в коде на практике. Источник может служить учебником для аспирантов и студентов старших курсов.🔥11👍4🤩1
доказательный ⎵ пробел
ПРО ЖОНГЛИРОВАНИЕ МЕТОДОЛОГИЕЙ Оценили в Если быть точным, какой уровень бедности был бы в 2022 году, если бы его считали по старой методологии. По данным Росстата, он рекордно низкий — 9,8%, такого никогда не было. А по нашим расчетам — около 12%, то есть…
А вот и оценки Института экономики РАН, которые подтверждают расчеты. Уровень бедности, рассчитанный по старой методологии, в 2022 оказался существенно выше официального «исторически низкого».
😢6👍3
Чтобы такого не было, учите Git. Лучший бесплатный курс из тех, что видел, — у Хекслета.
@evidencespace
@evidencespace
👍7🔥4😁2
Один шаг и Эмиль Дюркгейм («Правила социологического метода», 1895) придумал бы разность разностей (Difference-in-Differences), но чуть-чуть не докрутил:
«Впрочем, если различные приемы сравнительного метода и применимы в социологии, не все они обладают одинаковой доказательной силой.
По той же причине затруднительным выглядит применение метода совпадения и метода различия. Они предполагают, что сравниваемые случаи либо совпадают, либо различаются всего в одном пункте... Никогда нельзя быть уверенным, что мы не пропустили какое-то исходное обстоятельство, совпадающее со следствием или отличное от него в то же время и в той же степени, что и единственное известное обстоятельство.
Следовательно, такой метод доказательства может породить только предположения, которые сами по себе почти совсем лишены всякого научного характера.
Зато иную картину открывает метод сопутствующих изменений. В самом деле, для доказательной силы здесь не нужно строго исключать все изменения, отличные от сравниваемых. Простой параллелизм значений для двух явлений, если только он установлен по достаточному количеству разнообразных случаев, послужит доказательством существования между ними причинного отношения. Преимущество этого метода заключается в том, что с его помощью причинная связь постигается не извне, как в других методах, а, так сказать, изнутри.
Верно, что законы, выявляемые посредством этого метода, далеко не всегда представляются сразу в форме отношений причинности. Совпадение может зависеть не от того, что одно явление есть причина другого, а от того, что оба они суть следствия одной и той же причины, или от того, что между ними существует третье, промежуточное, но незамеченное явление, которое есть следствие первого и причина второго. Результаты, к которым приводит этот метод, нужно поэтому правильно истолковывать».
А вот Орли Ашенфельтер докрутил. Подробнее про философию причинности можно почитать у Мариуша Мазьярца в The Philosophy of Causality in Economics: Causal Inferences and Policy Proposals.
@evidencespace
«Впрочем, если различные приемы сравнительного метода и применимы в социологии, не все они обладают одинаковой доказательной силой.
По той же причине затруднительным выглядит применение метода совпадения и метода различия. Они предполагают, что сравниваемые случаи либо совпадают, либо различаются всего в одном пункте... Никогда нельзя быть уверенным, что мы не пропустили какое-то исходное обстоятельство, совпадающее со следствием или отличное от него в то же время и в той же степени, что и единственное известное обстоятельство.
Следовательно, такой метод доказательства может породить только предположения, которые сами по себе почти совсем лишены всякого научного характера.
Зато иную картину открывает метод сопутствующих изменений. В самом деле, для доказательной силы здесь не нужно строго исключать все изменения, отличные от сравниваемых. Простой параллелизм значений для двух явлений, если только он установлен по достаточному количеству разнообразных случаев, послужит доказательством существования между ними причинного отношения. Преимущество этого метода заключается в том, что с его помощью причинная связь постигается не извне, как в других методах, а, так сказать, изнутри.
Верно, что законы, выявляемые посредством этого метода, далеко не всегда представляются сразу в форме отношений причинности. Совпадение может зависеть не от того, что одно явление есть причина другого, а от того, что оба они суть следствия одной и той же причины, или от того, что между ними существует третье, промежуточное, но незамеченное явление, которое есть следствие первого и причина второго. Результаты, к которым приводит этот метод, нужно поэтому правильно истолковывать».
А вот Орли Ашенфельтер докрутил. Подробнее про философию причинности можно почитать у Мариуша Мазьярца в The Philosophy of Causality in Economics: Causal Inferences and Policy Proposals.
@evidencespace
👍13🔥6👏2
🔹 Единый кодбук в формате гугл-таблички Российского мониторинга экономического положения и здоровья населения НИУ ВШЭ от @tochno_st. Внутри — вопросы и варианты ответов для 5-31 волн обследования. Можно быстро посмотреть, есть ли нужные для вашего исследования данные, и для каких конкретно волн они доступны.
@evidencespace
@evidencespace
🔥12👍3
Forwarded from Совет молодых учёных ЭФ МГУ (СМУч)
О СОВПАДЕНИЯХ
Сегодня среди еженедельной понедельничной серии препринтоа NBER был опубликован такой
Сегодня среди еженедельной понедельничной серии препринтоа NBER был опубликован такой
👍9
☝️О красивых совпадениях:
NBER: публикует препринт Клаудии Голдин Why Women Won
Нобелевский комитет: вручает нобелевскую премию по экономике Клаудии Голдин
NBER: публикует препринт Клаудии Голдин Why Women Won
Нобелевский комитет: вручает нобелевскую премию по экономике Клаудии Голдин
🔥11🤔4
❤5👍5🥰3😱1
Forwarded from Наука и данные
An R reproducibility toolkit for the practical researcher 🐑
Для практического исследователя важно иметь инструментарий для
Материалы курса кратко, но довольно содержательно с хорошими иллюстрациями показывают, в частности:
✔️ как создать проект
✔️ управлять воспроизводимой средой
✔️ публиковать данные
✔️ отслеживать изменения с помощью
✔️ создавать и публиковать контейнеры
📙 Напомню про книгу Building reproducible analytical pipelines with R by Bruno Rodrigues и сайт по воспроизводимому анализу данных.
Для практического исследователя важно иметь инструментарий для
R-воспроизводимых вычислений. Курс от Elio Campitelli и Paola Corrales, который проводился 9-12 октября 2023 г., нацелен на то, чтобы понять как организовать проект, ускорить совместную работу и максимизировать ее воспроизводимость, используя существующие инструменты экосистемы R, такие как RMarkdown, renv и другие, контроль версий и рабочие среды. Материалы курса кратко, но довольно содержательно с хорошими иллюстрациями показывают, в частности:
✔️ как создать проект
R✔️ управлять воспроизводимой средой
✔️ публиковать данные
✔️ отслеживать изменения с помощью
Git✔️ создавать и публиковать контейнеры
📙 Напомню про книгу Building reproducible analytical pipelines with R by Bruno Rodrigues и сайт по воспроизводимому анализу данных.
👍5❤2
Forwarded from Наука и данные
Telling Stories with Data 🔥
▪️ Книга Telling Stories with Data призвана помочь исследователям работать с данными, включая сбор данных (например, с использованием
▪️ В книге приводятся примеры на основе социальных, культурных и экономических данных используя разнообразные методы, в частности, разведочный анализ данных, поиск причинно-следственных связей, регрессионный анализ. Книга пошагово подробно показывает все аспекты работы с данными и имеет хорошие отзывы.
Автор - Rohan Alexander создал несколько курсов на основе книги для бакалавриата, магистратуры и профессионального обучения. Книга недавно издана и доступна в печатном виде.
▪️ Книга Telling Stories with Data призвана помочь исследователям работать с данными, включая сбор данных (например, с использованием
API и частично структурированных данных, таких как JSON и XML), очистку данных, документирование и моделирование на основе воспроизводимых рабочих процессов.▪️ В книге приводятся примеры на основе социальных, культурных и экономических данных используя разнообразные методы, в частности, разведочный анализ данных, поиск причинно-следственных связей, регрессионный анализ. Книга пошагово подробно показывает все аспекты работы с данными и имеет хорошие отзывы.
Автор - Rohan Alexander создал несколько курсов на основе книги для бакалавриата, магистратуры и профессионального обучения. Книга недавно издана и доступна в печатном виде.
❤8
Издательство ДМК Пресс незаметно перевело и выпустило одну из лучших вводных книжек по анализу и интерпретации данных — Thinking Clearly with Data: A Guide to Quantitative Reasoning and Analysis (Статистика без подвоха: Методы критического анализа данных и причинного вывода). На английском языке она вышла два года назад. Ее авторы — Энтони Фаулер и Итан Буэно де Мескита из Университета Чикаго.
И это не просто еще одна книжка по статистике. Впервые на русском языке (есть, правда, небольшая глава в Дружелюбной эконометрике Филиппа Картаева) появился учебник, в котором простым и понятным языком авторы рассказывают про основные методы причинно-следственного вывода — вся третья часть про это:
• Глава 9. Почему корреляция и причинно-следственная связь не одно и то же
• Глава 10. Выявление и ограничение искажающих факторов
• Глава 11. Рандомизированные эксперименты
• Глава 12. Модели разрывной регрессии
• Глава 13. Метод разности различий
• Глава 14. Механизмы причинно-следственных связей
Конечно, есть и про базовые методы статистики (Части 1, 2) и про принятие решений на основе данных (Часть 4). Вот что писал Константин Сонин по поводу английской версии книжки в 2021 году:
💻 а еще в канал возвращается чат
@evidencespace
И это не просто еще одна книжка по статистике. Впервые на русском языке (есть, правда, небольшая глава в Дружелюбной эконометрике Филиппа Картаева) появился учебник, в котором простым и понятным языком авторы рассказывают про основные методы причинно-следственного вывода — вся третья часть про это:
• Глава 9. Почему корреляция и причинно-следственная связь не одно и то же
• Глава 10. Выявление и ограничение искажающих факторов
• Глава 11. Рандомизированные эксперименты
• Глава 12. Модели разрывной регрессии
• Глава 13. Метод разности различий
• Глава 14. Механизмы причинно-следственных связей
Конечно, есть и про базовые методы статистики (Части 1, 2) и про принятие решений на основе данных (Часть 4). Вот что писал Константин Сонин по поводу английской версии книжки в 2021 году:
Вот ещё одно. Эта книга мне кажется идеальным учебником для курса по работе с данными — на первом курсе. Российское образование отстаёт, и очень сильно, в преподавании анализа данных — прежде всего для тех, кто на этом не специализируется. У нас по-прежнему базовая статистика требует до этого теорвера, с вероятностным пространством и функциями распределения, а ведь это — совсем не, что нужно. Можно — вот книжка прекрасный пример — говорить об интересном и сложном, без аксиом независимости и интегрирования функции плотности.В прекрасной России будущего любой государственный служащий, который захочет занять позицию выше средней, будет сдавать экзамен по этой книжке (можно начинать готовиться 👨🏫).
@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍3❤2
Forwarded from Наука и данные
Causal Inference in R 💡
Книга Causal Inference in R (Malcolm Barrett, Lucy D’Agostino McGowan, Travis Gerke) предназначена как для академических исследователей, так и для специалистов по обработке данных и позволит разобраться с причинно-следственным анализом с помощью
Авторы ведут свой блог и создали ряд соответствующих библиотек на основе {
Еще две книги с элементами кода на
🔹Causal Inference. The Mixtape by Scott Cunningham
🔹The Effect: An Introduction to Research Design and Causality by Nick Huntington-Klein
Отмечу аналогичные книги написанные на
🔹Causal Inference for The Brave and True
🔹Causal Inference and Discovery in Python
Книга Causal Inference in R (Malcolm Barrett, Lucy D’Agostino McGowan, Travis Gerke) предназначена как для академических исследователей, так и для специалистов по обработке данных и позволит разобраться с причинно-следственным анализом с помощью
R. Авторы ведут свой блог и создали ряд соответствующих библиотек на основе {
tidyverse}. Здесь же содержатся материалы практического семинара Causal Inference in R Workshop.Еще две книги с элементами кода на
R, Stata и Python также являются введением в предметную область опираясь на эконометрику:🔹Causal Inference. The Mixtape by Scott Cunningham
🔹The Effect: An Introduction to Research Design and Causality by Nick Huntington-Klein
Отмечу аналогичные книги написанные на
Python 🐍:🔹Causal Inference for The Brave and True
🔹Causal Inference and Discovery in Python
👍14❤3🔥2