Forwarded from Наука и данные
Typst 🖊️
На первый взгляд
В
Typst - это новый онлайн-редактор для набора текста на основе Markdown-разметки с открытым исходным кодом и использованием скриптовых команд. Typst предлагает совместную работу в облаке, возможность вставлять LaTeX-формулы, но делать это несколько проще, чем в LaTeX. Интерес представляет наличие шаблонов (пока их пять, но, думаю, что со временем будет больше). На первый взгляд
Typst похож на упрощенную версию Overleaf + Google Docs. Также, можно установить CLI.В
Quarto v1.4 уже включили поддержку Typst.👍4👎3
Еще одна фишка Typst — совместное редактирование, будет удобно, если появится больше шаблонов.
👍1
Ещё два с половиной месяца назад премьер-министр сообщил о переходе к новой модели госуправления — «на основе достоверных данных». Вроде бы тут надо что-то сказать (ведь «госуправление на данных» так созвучно доказательной политике). Но я так и не придумал, что. Вместо этого — загадка:
Внимание, вопрос! Что скрывается за кодами R1 и R2 на картинке? Подсказка: по данным премьер-министра, «средний уровень достижения показателей по нацпроектам — 98,95%».
Внимание, вопрос! Что скрывается за кодами R1 и R2 на картинке? Подсказка: по данным премьер-министра, «средний уровень достижения показателей по нацпроектам — 98,95%».
До 20 июля есть время подать документы в магистратуру экономфака МГУ на программы «Анализ данных в экономике» или «Экономическая политика».
Зачем? А вы посмотрите, что ждёт магистрантов
🔷 Совместная с факультетом ВМК МГУ программа «Анализ данных в экономике» это:
• Адаптационный курс по экономической теории / вероятностным моделям — смотря что нужно подтянуть
• Программирование, основы алгоритмов и анализ данных в Python и R
• Много машинного обучения, анализа данных и эконометрики
• Микро- и макро- и экспериментальная экономика
• Сетевые модели в экономике, имитационное моделирование, анализ данных в демографии, эмпирические отраслевые рынки, SQL, макроэконометрика, анализ текстовых данных и еще много интересного.
🔷 А программа «Экономическая политика»:
• Использование данных в экономической политике
• Общественный выбор, экономическая политика и практика государственного управления
• Экономика общественного сектора
• Экономическая политика и развитие человеческого потенциала
• Денежно-кредитная и бюджетно-налоговая политика
• Регулирование отраслевых рынков и конкурентная политика
• Социальная политика
Плюс возможность участвовать в проекте "Интегрированная аспирантура".
Узнайте подробности о приёме-2023.
Зачем? А вы посмотрите, что ждёт магистрантов
🔷 Совместная с факультетом ВМК МГУ программа «Анализ данных в экономике» это:
• Адаптационный курс по экономической теории / вероятностным моделям — смотря что нужно подтянуть
• Программирование, основы алгоритмов и анализ данных в Python и R
• Много машинного обучения, анализа данных и эконометрики
• Микро- и макро- и экспериментальная экономика
• Сетевые модели в экономике, имитационное моделирование, анализ данных в демографии, эмпирические отраслевые рынки, SQL, макроэконометрика, анализ текстовых данных и еще много интересного.
🔷 А программа «Экономическая политика»:
• Использование данных в экономической политике
• Общественный выбор, экономическая политика и практика государственного управления
• Экономика общественного сектора
• Экономическая политика и развитие человеческого потенциала
• Денежно-кредитная и бюджетно-налоговая политика
• Регулирование отраслевых рынков и конкурентная политика
• Социальная политика
Плюс возможность участвовать в проекте "Интегрированная аспирантура".
Узнайте подробности о приёме-2023.
www.econ.msu.ru
Поступление
Про поступление
👍8
🔹 Хороший проект, стоит поддержать. Обещают наборы данных в удобном формате.
Forwarded from Если быть точным
Мы перезапускаем «Если быть точным»! Рассказываем, что нас ждет и как вы можете помочь
Нас часто спрашивают: когда вы начнете выкладывать дата-сеты, по которым делаете свои исследования? Так вот, совсем скоро! Но для этого нам нужна ваша помощь.
Мы накопили огромное количество кропотливо очищенных табличек практически по любой социальной проблеме в России. Но сейчас нам некуда их выкладывать – на сайте нет подходящего раздела, а у нас не хватает ресурсов, чтобы его разработать.
Мы верим, что добыча и сохранение открытых данных (иногда кажется, что это исчезающий вид) – это очень важное и полезное дело, особенно в наше время. Если вы хоть раз работали с государственной статистикой, то знаете, что удобное представление данных может сэкономить часы рутинной работы.
Возможность за пару кликов найти нужный показатель и скачать исходные данные в разбивке по регионам и годам – это тот результат, к которому мы стремимся.
Если тоже считаете такой проект важным, поддержите нас регулярным пожертвованием на Boosty (рубли) или Patreon (валюта).
Будет очень полезно, а более подробно о наших планах мы расскажем позже.
Нас часто спрашивают: когда вы начнете выкладывать дата-сеты, по которым делаете свои исследования? Так вот, совсем скоро! Но для этого нам нужна ваша помощь.
Мы накопили огромное количество кропотливо очищенных табличек практически по любой социальной проблеме в России. Но сейчас нам некуда их выкладывать – на сайте нет подходящего раздела, а у нас не хватает ресурсов, чтобы его разработать.
Мы верим, что добыча и сохранение открытых данных (иногда кажется, что это исчезающий вид) – это очень важное и полезное дело, особенно в наше время. Если вы хоть раз работали с государственной статистикой, то знаете, что удобное представление данных может сэкономить часы рутинной работы.
Возможность за пару кликов найти нужный показатель и скачать исходные данные в разбивке по регионам и годам – это тот результат, к которому мы стремимся.
Если тоже считаете такой проект важным, поддержите нас регулярным пожертвованием на Boosty (рубли) или Patreon (валюта).
Будет очень полезно, а более подробно о наших планах мы расскажем позже.
❤10🔥2👍1🤔1
Forwarded from ЦенСИБ (ex-ЛССИ)
Небольшой туториал по графическим диагностикам для статистического причинно-следственного вывода с использованием мер склонности (propensity scores) от Люси д’Агостино МакГовэн. Будет полезным для интересующихся темой как с концептуальной точки зрения (например, для понимания разницы между АТЕ и АТТ, если у вас эта тема вызывает затруднения), так и в плане освоения кода: примеры реализованы с помощью пакета {halfmoon} - перспективной альтернативы {cobalt} более известному набору средств для проверки баланса по ковариатам между группами воздействия и контроля.
#matching #weighting #balance #halfmoon #cobalt #causalInference
#matching #weighting #balance #halfmoon #cobalt #causalInference
r-causal.github.io
Causal Inference in R - Visual Diagnostic Tools for Causal Inference
❤5🎉2🥰1👨💻1
Forwarded from Если быть точным
В России больше двух тысяч федеральных судов. Они публикуют полезные данные, но их почти невозможно собрать вручную. Теперь для этого есть парсер «Если быть точным»
Месяц назад мы анонсировали, что начнем делать статистику более доступной. Сегодня мы хотим рассказать о первых результатах — открытом инструменте, с помощью которого можно найти и выгрузить судебные дела по любой статье.
Официальный агрегатор судебных дел ГАС РФ «Правосудие» у большинства журналистов и исследователей ассоциируется только с одним чувством — болью. Навигация сложная, сайт работает медленно или вовсе отключается на несколько дней. Мы нашли способ, как этого избежать.
Что мы сделали?
Скрипт, который выгружает данные с сайтов российских судов. За пару кликов можно найти информацию по статьям уголовного, гражданского и административного кодексов из 2230 судов.
Зачем мы это сделали?
Судебная статистика – очень ценный материал для исследований. Но сайты судов устроены очень по-разному, поэтому собрать полные данные — непростая задача. Парсер с ней справляется, хотя не всегда быстро – это зависит от пропускной способности самих сайтов. Писать код не требуется, у парсера есть готовый пользовательский интерфейс.
По каким параметрам можно искать дела?
◼️ Период, за который нужно сформировать выгрузку.
◼️ Регионы и уровень суда: окружной, региональный, гарнизонный и отдельно – Мосгорсуд.
◼️ Статья, дела по которой интересуют. Это может быть уголовное, административное или гражданское судопроизводство.
◼️ Текст, который встречается в судебном решении (если оно было опубликовано).
Для наглядности мы записали видеоинструкцию. А если у вас появятся другие вопросы, то напишите нам.
Что будет дальше? Открытые данные в России становятся все менее доступными, поэтому нам приходится искать альтернативные решения. Мы продолжим делать это, но для этого нам нужна ваша помощь.
Чтобы мы могли делать больше таких проектов, оформите регулярное пожертвование «Если быть точным» на Boosty (рубли) или Patreon (валюта).
Месяц назад мы анонсировали, что начнем делать статистику более доступной. Сегодня мы хотим рассказать о первых результатах — открытом инструменте, с помощью которого можно найти и выгрузить судебные дела по любой статье.
Официальный агрегатор судебных дел ГАС РФ «Правосудие» у большинства журналистов и исследователей ассоциируется только с одним чувством — болью. Навигация сложная, сайт работает медленно или вовсе отключается на несколько дней. Мы нашли способ, как этого избежать.
Что мы сделали?
Скрипт, который выгружает данные с сайтов российских судов. За пару кликов можно найти информацию по статьям уголовного, гражданского и административного кодексов из 2230 судов.
Зачем мы это сделали?
Судебная статистика – очень ценный материал для исследований. Но сайты судов устроены очень по-разному, поэтому собрать полные данные — непростая задача. Парсер с ней справляется, хотя не всегда быстро – это зависит от пропускной способности самих сайтов. Писать код не требуется, у парсера есть готовый пользовательский интерфейс.
По каким параметрам можно искать дела?
◼️ Период, за который нужно сформировать выгрузку.
◼️ Регионы и уровень суда: окружной, региональный, гарнизонный и отдельно – Мосгорсуд.
◼️ Статья, дела по которой интересуют. Это может быть уголовное, административное или гражданское судопроизводство.
◼️ Текст, который встречается в судебном решении (если оно было опубликовано).
Для наглядности мы записали видеоинструкцию. А если у вас появятся другие вопросы, то напишите нам.
Что будет дальше? Открытые данные в России становятся все менее доступными, поэтому нам приходится искать альтернативные решения. Мы продолжим делать это, но для этого нам нужна ваша помощь.
Чтобы мы могли делать больше таких проектов, оформите регулярное пожертвование «Если быть точным» на Boosty (рубли) или Patreon (валюта).
❤7🔥4
👉 Новый день — новые данные. Почти полмиллиона объектов, загрязняющих окружающую среду. Внутри датасета — конкретные загрязняющие вещества, масса выбросов в воздух и сбросов в воду по каждому веществу. Хорошо, когда госорган оставляет на своём сайте недокументированное API 😇.
P.S. Есть довольно много (хотя в таких данных это неизбежно) неправдоподобных значений, с которыми нужно работать аккуратно.
P.S. Есть довольно много (хотя в таких данных это неизбежно) неправдоподобных значений, с которыми нужно работать аккуратно.
🔥4
Forwarded from Reveal the Data
🏭 Объекты загрязнения и города
Ребята из «Если быть точным» подготовили исследование и данные про объекты загрязнения на основе данных Росприроднадзора.
Я сделал небольшой виз на их основе, где наложил объекты загрязнения 1-ого класса (самые опасные) на населённые пункты с более чем 1000 жителей. Получилось интересно — есть заметные паттерны, когда объекты накладываются на города, а когда они находятся в безлюдных местах. А еще сразу выделяются промышленные центры.
🔗 Почитать исследование
🔗 Посмотреть данные и описание
П.С. В данных явно есть ошибки и выбросы, ребята тоже отмечают это в статье, будьте осторожны.
#ссылка
Ребята из «Если быть точным» подготовили исследование и данные про объекты загрязнения на основе данных Росприроднадзора.
Я сделал небольшой виз на их основе, где наложил объекты загрязнения 1-ого класса (самые опасные) на населённые пункты с более чем 1000 жителей. Получилось интересно — есть заметные паттерны, когда объекты накладываются на города, а когда они находятся в безлюдных местах. А еще сразу выделяются промышленные центры.
🔗 Почитать исследование
🔗 Посмотреть данные и описание
П.С. В данных явно есть ошибки и выбросы, ребята тоже отмечают это в статье, будьте осторожны.
#ссылка
❤6👍2🔥1
21 сентября в Нью-Йорке пройдет The Causal AI Conference. Среди заявленных спикеров — Guido Imbens (Stanford University), Pedro Sant’Anna (Emory University) и представители крупных технологических компаний. Подробной программы пока что нет. Организаторы обещают прямую трансляцию.
👍11❤3
🗣 Александра Прокопенко из Берлинского центра Карнеги в разговоре с Владиславом Гориным по поводу фальсификации статистики Росстатом:
«Есть большое количество зарубежных наблюдателей и исследователей, которые пушат в публичном пространстве тему, что российским данным нельзя доверять, что российская власть занимается фальсификациями данных. Это не так. Могут быть вопросы по методологии, и они есть. Есть вопросы по скорости сбора данных. Есть вопросы не по методологии, а по процедуре, как Росстат это делает. Не самым оптимальным образом. Некоторые данные поступают поздно, бывают не полными. Большая дисциплинарная дискуссия на этот счет есть. Но вот такого, например, чтобы произвели пять станков, а в статистику попал один, прямо намеренные фальсификации, исследователи и экономисты власти на этом не ловили. Я не согласна с зарубежными и некоторыми российскими наблюдателями, что этими данными пользоваться нельзя. Нет, можно, просто вы не умеете».
Это хороший тезис. Причин для обоснованной критики Росстата достаточно. А на уровне экспертной дискуссии стоит разводить обвинения в жонглировании методологией и обвинения в прямых подлогах.
@evidencespace
«Есть большое количество зарубежных наблюдателей и исследователей, которые пушат в публичном пространстве тему, что российским данным нельзя доверять, что российская власть занимается фальсификациями данных. Это не так. Могут быть вопросы по методологии, и они есть. Есть вопросы по скорости сбора данных. Есть вопросы не по методологии, а по процедуре, как Росстат это делает. Не самым оптимальным образом. Некоторые данные поступают поздно, бывают не полными. Большая дисциплинарная дискуссия на этот счет есть. Но вот такого, например, чтобы произвели пять станков, а в статистику попал один, прямо намеренные фальсификации, исследователи и экономисты власти на этом не ловили. Я не согласна с зарубежными и некоторыми российскими наблюдателями, что этими данными пользоваться нельзя. Нет, можно, просто вы не умеете».
Это хороший тезис. Причин для обоснованной критики Росстата достаточно. А на уровне экспертной дискуссии стоит разводить обвинения в жонглировании методологией и обвинения в прямых подлогах.
@evidencespace
👍10👎1
ПРО ЖОНГЛИРОВАНИЕ МЕТОДОЛОГИЕЙ
Оценили в Если быть точным, какой уровень бедности был бы в 2022 году, если бы его считали по старой методологии. По данным Росстата, он рекордно низкий — 9,8%, такого никогда не было. А по нашим расчетам — около 12%, то есть чуда не случилось.
Практически такую же оценку (11,9%) получили в РАН (доклад, к сожалению, еще в редактуре, но мы с ним познакомились). Если бы не изменение методологии, бедных, которых бедными считает статистика (в жизни все сложнее, но это отдельный разговор), было бы на три миллиона больше.
[1/4]
Продолжение
@evidencespace
Оценили в Если быть точным, какой уровень бедности был бы в 2022 году, если бы его считали по старой методологии. По данным Росстата, он рекордно низкий — 9,8%, такого никогда не было. А по нашим расчетам — около 12%, то есть чуда не случилось.
Практически такую же оценку (11,9%) получили в РАН (доклад, к сожалению, еще в редактуре, но мы с ним познакомились). Если бы не изменение методологии, бедных, которых бедными считает статистика (в жизни все сложнее, но это отдельный разговор), было бы на три миллиона больше.
[1/4]
Продолжение
@evidencespace
👍6🔥3👏1
Как меняли методологию
Раньше Росстат считал бедными тех, у кого 1️⃣ доходы были ниже прожиточного минимума. Прожиточный минимум — это стоимость потребительской корзины. Ее регулярно пересчитывали, исходя из цен на конкретные продукты (42 разных продукта вроде апельсинов, сахара, картошки в невероятных количествах), которые в нее входили, и нормативов потребления. Умножали все на два (с учетом поправочных коэффициентов), чтобы учесть расходы на непродовольственные товары и услуги. И добавляли несколько сот рублей на обязательные платежи для взрослых.
В 2021 году перешли к более «продвинутой» методологии — стали считать 2️⃣ бедными тех, у кого доходы были меньше 44,2% от медианного дохода по стране. Выбор такого странного процента объяснили желанием сохранить сопоставимость данных.
Но почти сразу от использования этого подхода в статистике отказались (для социальной поддержки оставили), и ввели новую «черту бедности» — 3️⃣ «границу бедности». Это опять прожиточный минимум, но на конец 2020 года с поправкой на накопленную общую инфляцию. То есть сейчас не пересчитывают каждый раз стоимость корзины, исходя из роста цен на конкретные продукты, а просто берут фиксированную стоимость корзины, какой она была в четвертом квартале 2020 года, и умножают на индекс потребительских цен, полученный цепным методом. Обоснование — «обеспечение сопоставимости статических рядов».
И в целом это ок. Только вот сопоставимость рядов обеспечить не получилось 😏 Разумнее было бы параллельно считать уровень бедности с использованием старой и новой методологии. Подозреваем, что так и делают, просто публике сообщают о значениях только одного ряда.
[2/4]
Начало
Продолжение
@evidencespace
Раньше Росстат считал бедными тех, у кого 1️⃣ доходы были ниже прожиточного минимума. Прожиточный минимум — это стоимость потребительской корзины. Ее регулярно пересчитывали, исходя из цен на конкретные продукты (42 разных продукта вроде апельсинов, сахара, картошки в невероятных количествах), которые в нее входили, и нормативов потребления. Умножали все на два (с учетом поправочных коэффициентов), чтобы учесть расходы на непродовольственные товары и услуги. И добавляли несколько сот рублей на обязательные платежи для взрослых.
В 2021 году перешли к более «продвинутой» методологии — стали считать 2️⃣ бедными тех, у кого доходы были меньше 44,2% от медианного дохода по стране. Выбор такого странного процента объяснили желанием сохранить сопоставимость данных.
Но почти сразу от использования этого подхода в статистике отказались (для социальной поддержки оставили), и ввели новую «черту бедности» — 3️⃣ «границу бедности». Это опять прожиточный минимум, но на конец 2020 года с поправкой на накопленную общую инфляцию. То есть сейчас не пересчитывают каждый раз стоимость корзины, исходя из роста цен на конкретные продукты, а просто берут фиксированную стоимость корзины, какой она была в четвертом квартале 2020 года, и умножают на индекс потребительских цен, полученный цепным методом. Обоснование — «обеспечение сопоставимости статических рядов».
И в целом это ок. Только вот сопоставимость рядов обеспечить не получилось 😏 Разумнее было бы параллельно считать уровень бедности с использованием старой и новой методологии. Подозреваем, что так и делают, просто публике сообщают о значениях только одного ряда.
[2/4]
Начало
Продолжение
@evidencespace
👍7
Как мы проводили расчеты
Нужно было решить две задачи:
1️⃣ Аккуратно посчитать, какой была бы стоимость корзины в 2022 году. Основная трудность в том, что категории товаров, цены на которые отслеживаются, Росстат меняет. Вообще, у Росстата нет нормальной иерархии в классификаторе категорий товаров. Про это писали Твердые цифры. Например, до 2022 года выделялся Творог, нежирный и Творог, жирный. Последний как раз входил в состав минимальной потребительской корзины. А с 2022 года мы видим в данных Росстата только общую категорию Творог. Тут мы старались использовать консервативные оценки, чтобы случайно не завысить стоимость корзины.
2️⃣ Восстановить распределение доходов, по которому Росстат считает уровень бедности. Это нужно, чтобы ответить на вопрос, ❓какой уровень бедности был бы, если бы Росстат вместо значения границы бедности использовал другое значение (например, на тысячу рублей выше). Росстат с недавних пор стал публиковать значения децилей распределения доходов, но всего распределения мы не знаем. Но его можно восстановить.
Дело в том, что после того, как Росстат получил данные выборочных обследований доходов населения, а также данные макростатистики (макропоказатель среднедушевого денежного дохода), он моделирует распределение доходов населения с помощью теоретического двухпараметрического логнормального распределения.
Так как в этом теоретическом распределении всего два параметра, то зная уровень бедности, границу бедности и величину среднедушевых денежных доходов, которые опубликовал Росстат,🫡 мы можем восстановить среднее и стандартное отклонение этого теоретического распределения. Для этого нужно немного покрутить интегралы. Можно использовать и другие квантили.
🧑🏼💻 Код, с помощью которого можно воспроизвести такие расчеты для любого периода, доступен в репозитории Github.
[3/4]
Начало
Продолжение
@evidencespace
Нужно было решить две задачи:
1️⃣ Аккуратно посчитать, какой была бы стоимость корзины в 2022 году. Основная трудность в том, что категории товаров, цены на которые отслеживаются, Росстат меняет. Вообще, у Росстата нет нормальной иерархии в классификаторе категорий товаров. Про это писали Твердые цифры. Например, до 2022 года выделялся Творог, нежирный и Творог, жирный. Последний как раз входил в состав минимальной потребительской корзины. А с 2022 года мы видим в данных Росстата только общую категорию Творог. Тут мы старались использовать консервативные оценки, чтобы случайно не завысить стоимость корзины.
2️⃣ Восстановить распределение доходов, по которому Росстат считает уровень бедности. Это нужно, чтобы ответить на вопрос, ❓какой уровень бедности был бы, если бы Росстат вместо значения границы бедности использовал другое значение (например, на тысячу рублей выше). Росстат с недавних пор стал публиковать значения децилей распределения доходов, но всего распределения мы не знаем. Но его можно восстановить.
Дело в том, что после того, как Росстат получил данные выборочных обследований доходов населения, а также данные макростатистики (макропоказатель среднедушевого денежного дохода), он моделирует распределение доходов населения с помощью теоретического двухпараметрического логнормального распределения.
Так как в этом теоретическом распределении всего два параметра, то зная уровень бедности, границу бедности и величину среднедушевых денежных доходов, которые опубликовал Росстат,
🧑🏼💻 Код, с помощью которого можно воспроизвести такие расчеты для любого периода, доступен в репозитории Github.
[3/4]
Начало
Продолжение
@evidencespace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8