О чем эта таблица?
Посмотрите на переверстанную таблицу; какого она типа? в ней указаны какие-то проценты, но проценты чего в структуре чего?
Может, это таблица сопряженности 4×3, а проценты — это доля респондентов в конкретной ячейке от всех опрошенных?
Или это таблица в которой сделали conditioning по строкам: проценты в ячейках — это доля респондентов от тех, кому была предложена конкретная формулировка?
Лично я на этом подзавис. Разгадка проста: строчка со 100% строго говоря избыточна, но она несет важную информацию об устройстве самой таблицы. Можно и без нее, но придется потратить время и заняться сложением чисел в строчках, а потом еще и дурное послевкусие сомнений и неуверенности остается: я все правильно посчитал? я правильно разгадал, что хотел сказать автор?
Как быть? Оставить столбец "Всего" с построчными суммами. Для лучшей читаемости отделить его от тела таблицы отступом побольше, мб 100% печатать не жирным шрифтом, а обычным. Кому надо, те сразу поймут, что в таблице оценки условных вероятностей. При этом засчет отделения столбик не будет путать остальных.
🧵 6/7
Посмотрите на переверстанную таблицу; какого она типа? в ней указаны какие-то проценты, но проценты чего в структуре чего?
Может, это таблица сопряженности 4×3, а проценты — это доля респондентов в конкретной ячейке от всех опрошенных?
Или это таблица в которой сделали conditioning по строкам: проценты в ячейках — это доля респондентов от тех, кому была предложена конкретная формулировка?
Лично я на этом подзавис. Разгадка проста: строчка со 100% строго говоря избыточна, но она несет важную информацию об устройстве самой таблицы. Можно и без нее, но придется потратить время и заняться сложением чисел в строчках, а потом еще и дурное послевкусие сомнений и неуверенности остается: я все правильно посчитал? я правильно разгадал, что хотел сказать автор?
Как быть? Оставить столбец "Всего" с построчными суммами. Для лучшей читаемости отделить его от тела таблицы отступом побольше, мб 100% печатать не жирным шрифтом, а обычным. Кому надо, те сразу поймут, что в таблице оценки условных вероятностей. При этом засчет отделения столбик не будет путать остальных.
🧵 6/7
Вместо заключения
"Избыточность" и "шум" в глазу смотрящего
Что дизайнеру избыточная строка, то статистику важная опора, облегчающая жизнь и понимание. Где дизайнер видит упрощение для пользователя и подсветку главной мысли, там исследователь видит тенденциозность и предвзятость.
Суслик, скорее всего, есть. Хоть вы его и не видите.
Хороший дизайн — это когда на вопрос "почему так" есть ответ. Если дизайнер не понимает, что хотел сказать автор, и не видит ответа на вопрос "почему и зачем", то это не значит, что этого ответа нет и не предполагается. Более того, если сам автор таблички не может ответить на этот вопрос внятно и говорит что-то типа "все так делают и я тоже", то это тоже не значит, что этого ответа нет. Просто автор таблички может быть не статистиком, а человеком, который делает, как статистики.
Контекст и его понимание роляют
Если брать еще шире, то переверстки таблиц в вакууме — сегодняшней таблицы, таблицы про выбросы химотходов на курсе Ильи Бирмана или таблица про сварщиков из разбора Миши Капанаги — это упражнение для студентов и дизайнерский междусобойчик, а не реальная ситуация. Потому что если вы не знаете откуда и зачем эта таблица, кто ей будет пользоваться, в каких условиях и на какие вопросы она должна отвечать,
если вы не понимаете прикладную область (domain-specific knowledge, он самый), то с ненулевой вероятностью при переверстке потеряется информация и появится шум.
Никто не знает ваши данные лучше вас
Если вам не нравится, как верстак составил табличку, вам перестало быть понятно, что в ней, у вас есть несогласия — возможно, стоит послать верстака / дизайнера лесом. Потому что у дизайнеров другой анамнез и решают они другие задачи.
Сходите на канал к Михаилу, читайте Илью Бирмана, развивайте насмотренность. Но прежде всего думайте своей головой.
🧵 7/7
"Избыточность" и "шум" в глазу смотрящего
Что дизайнеру избыточная строка, то статистику важная опора, облегчающая жизнь и понимание. Где дизайнер видит упрощение для пользователя и подсветку главной мысли, там исследователь видит тенденциозность и предвзятость.
Суслик, скорее всего, есть. Хоть вы его и не видите.
Хороший дизайн — это когда на вопрос "почему так" есть ответ. Если дизайнер не понимает, что хотел сказать автор, и не видит ответа на вопрос "почему и зачем", то это не значит, что этого ответа нет и не предполагается. Более того, если сам автор таблички не может ответить на этот вопрос внятно и говорит что-то типа "все так делают и я тоже", то это тоже не значит, что этого ответа нет. Просто автор таблички может быть не статистиком, а человеком, который делает, как статистики.
Контекст и его понимание роляют
Если брать еще шире, то переверстки таблиц в вакууме — сегодняшней таблицы, таблицы про выбросы химотходов на курсе Ильи Бирмана или таблица про сварщиков из разбора Миши Капанаги — это упражнение для студентов и дизайнерский междусобойчик, а не реальная ситуация. Потому что если вы не знаете откуда и зачем эта таблица, кто ей будет пользоваться, в каких условиях и на какие вопросы она должна отвечать,
если вы не понимаете прикладную область (domain-specific knowledge, он самый), то с ненулевой вероятностью при переверстке потеряется информация и появится шум.
Никто не знает ваши данные лучше вас
Если вам не нравится, как верстак составил табличку, вам перестало быть понятно, что в ней, у вас есть несогласия — возможно, стоит послать верстака / дизайнера лесом. Потому что у дизайнеров другой анамнез и решают они другие задачи.
Сходите на канал к Михаилу, читайте Илью Бирмана, развивайте насмотренность. Но прежде всего думайте своей головой.
🧵 7/7
👍1🔥1
душно про дату
Нарушение конвенций Табличка относится к интервенционному исследованию: респондентам предлагают разные формулировки (treatment / независимая переменная), а потом сравнивают их реакцию (response / зависимая переменная). В той литературе, с которой сталкивался…
Всяко лыко в строку. Вот тут Илья говорит, что привычка — важная штука, и не стоит ломать ожидания пользователя при пересборке таблички.
YouTube
На курсе: дизайн универсальных таблиц с непредсказуемым содержимым
Участник курса спрашивает о том, как подходить к дизайну таблиц для всяких админок и внутренних сервисов, где содержимое в общем случае может быть каким угодно. Я отвечаю в двух частях. Во-первых о том, что нет причин считать таблицы «для админки» особенными…
Про ковариацию альтернативных случайных величин
Рубрика #очевидное_невероятное.
Пусть есть случайные явления А и B.
Первую строчку на картинке можно прочитать так: явления независимы тогда и только тогда, когда вероятность их одновременного наступления равна произведению вероятностей каждого явления по отдельности; это мы знаем с курсов введения в теорвер.
Если нам захочется померять зависимость событий, мы можем, например, перенести левую часть равенства в правую, так мы получим "индекс зависимости". Оказывается, что ковариация индикаторов явлений — это и есть этот самый индекс зависимости (вторая строчка на пикче)!
1. Для независимых событий индекс равен нулю — по определению независимости. Заметим, что "некоррелированные" события всегда независимы.
2. Если индекс положительный, то события позитивно коррелируют; одновременное наступление событий случается чаще, чем при независимости событий, мы с Тамарой ходим парой.
3. Если индекс отрицательный, то наоборот, события имеют склонность "избегать друг друга" и происходить по отдельности, но не вместе.
Это все можно дальше увязывать с интеракциями между категориальными переменными в бинарной регрессии, таблицами сопряженности и анализом Пирсоновских остатков в таблицах сопряженности.
Это же рассуждение проливает свет на устройство хи-квадрат статистики и объясняет, почему хи-квадрат -- это действительно аналог корреляционного анализа для дискретных величин.
А еще оно, возможно, позволит сконструировать что-то типа коэффициента зависимости для дискретных величин (и получится что-то близкое к хи-квадрат статистике).
Вторая строка снизошла на меня вот прям сегодня. Админ не тормоз, он очень-очень медленный газ.
Рубрика #очевидное_невероятное.
Пусть есть случайные явления А и B.
Первую строчку на картинке можно прочитать так: явления независимы тогда и только тогда, когда вероятность их одновременного наступления равна произведению вероятностей каждого явления по отдельности; это мы знаем с курсов введения в теорвер.
Если нам захочется померять зависимость событий, мы можем, например, перенести левую часть равенства в правую, так мы получим "индекс зависимости". Оказывается, что ковариация индикаторов явлений — это и есть этот самый индекс зависимости (вторая строчка на пикче)!
1. Для независимых событий индекс равен нулю — по определению независимости. Заметим, что "некоррелированные" события всегда независимы.
2. Если индекс положительный, то события позитивно коррелируют; одновременное наступление событий случается чаще, чем при независимости событий, мы с Тамарой ходим парой.
3. Если индекс отрицательный, то наоборот, события имеют склонность "избегать друг друга" и происходить по отдельности, но не вместе.
Это все можно дальше увязывать с интеракциями между категориальными переменными в бинарной регрессии, таблицами сопряженности и анализом Пирсоновских остатков в таблицах сопряженности.
Это же рассуждение проливает свет на устройство хи-квадрат статистики и объясняет, почему хи-квадрат -- это действительно аналог корреляционного анализа для дискретных величин.
А еще оно, возможно, позволит сконструировать что-то типа коэффициента зависимости для дискретных величин (и получится что-то близкое к хи-квадрат статистике).
Вторая строка снизошла на меня вот прям сегодня. Админ не тормоз, он очень-очень медленный газ.
👍5
Про проценты, процентные пункты и аффинные преобразования
Рубрика #очевидное_невероятное.
На днях статью, для которой я делал статанализ, приняли в публикацию. По такому случаю покажу #бэкстейдж и поделюсь закулисными деталями.
Преамбула
Гликированный гемоглобин (HbA1c) — показатель, который любят диабетологи. Глюкоза образует устойчивое соединение с гемоглобином (гликирует его, duh) в эритроцитах, а скорость протекания этой реакции зависит от концентрации глюкозы в крови. Эритроциты живут примерно 120 дней, в итоге HbA1c отражает что-то типа среднего уровня гликемии на протяжении последних трех-четырех месяцев. То есть имеем интегральную метрику, которая еще и менее волатильна, чем просто уровень сахара в крови.
Подстава состоит в том, что разные конфессии меряют HbA1c в разных единицах: в Чехии, например, принято выражать его в ммоль/моль, поэтому весь анализ делали именно в миллимолях на моль. Существуют еще две шкалы, в которых гликогемоглобин выражают в процентах: IFCC и DCCT.
Амбула
Конечно же рецензенты попросили продублировать все результаты и в шкале DCCT. Формула для перевода из ммоль/моль в проценты DCCT приведена на картинке к посту. С переводом самих измерений все понятно. Трудности начинаются, когда мы хотим пересчитать эффекты из ммоль/моль.
Так в одной из групп HbA1c снижался на −2,2 ммоль/моль за три месяца. Если мы пересчитаем этот эффект по формуле, то получим, что за три месяца гликогемоглобин вырос на 1,9 единиц DCCT.
Подвох в том, что формула перевода содержит свободный член: это аффинное, а не линейное отображение. Поэтому для перевода дельт, разниц и эффектов нужно отбросить 2,15 и оставить только линейную часть. Похожие приколы можно встретить при переводе температуры между градусами Кельвина, Цельсия и Фаренгейта.
На сладкое
Рассуждения выше — еще одна причина, почему не надо путать проценты (percents, %) и процентные пункты (percentage points, %pt., п.п.). Гликированный гемоглобин по шкале DCCT выражается в процентах. Разности, эффекты и дельты по шкале DCCT выражаются в процентных пунктах.
В нашем примере снижение −2,2 ммоль/моль за визит эквивалентно снижению на −0,2 п.п. по шкале DCCT.
Рубрика #очевидное_невероятное.
На днях статью, для которой я делал статанализ, приняли в публикацию. По такому случаю покажу #бэкстейдж и поделюсь закулисными деталями.
Преамбула
Гликированный гемоглобин (HbA1c) — показатель, который любят диабетологи. Глюкоза образует устойчивое соединение с гемоглобином (гликирует его, duh) в эритроцитах, а скорость протекания этой реакции зависит от концентрации глюкозы в крови. Эритроциты живут примерно 120 дней, в итоге HbA1c отражает что-то типа среднего уровня гликемии на протяжении последних трех-четырех месяцев. То есть имеем интегральную метрику, которая еще и менее волатильна, чем просто уровень сахара в крови.
Подстава состоит в том, что разные конфессии меряют HbA1c в разных единицах: в Чехии, например, принято выражать его в ммоль/моль, поэтому весь анализ делали именно в миллимолях на моль. Существуют еще две шкалы, в которых гликогемоглобин выражают в процентах: IFCC и DCCT.
Амбула
Конечно же рецензенты попросили продублировать все результаты и в шкале DCCT. Формула для перевода из ммоль/моль в проценты DCCT приведена на картинке к посту. С переводом самих измерений все понятно. Трудности начинаются, когда мы хотим пересчитать эффекты из ммоль/моль.
Так в одной из групп HbA1c снижался на −2,2 ммоль/моль за три месяца. Если мы пересчитаем этот эффект по формуле, то получим, что за три месяца гликогемоглобин вырос на 1,9 единиц DCCT.
Подвох в том, что формула перевода содержит свободный член: это аффинное, а не линейное отображение. Поэтому для перевода дельт, разниц и эффектов нужно отбросить 2,15 и оставить только линейную часть. Похожие приколы можно встретить при переводе температуры между градусами Кельвина, Цельсия и Фаренгейта.
На сладкое
Рассуждения выше — еще одна причина, почему не надо путать проценты (percents, %) и процентные пункты (percentage points, %pt., п.п.). Гликированный гемоглобин по шкале DCCT выражается в процентах. Разности, эффекты и дельты по шкале DCCT выражаются в процентных пунктах.
В нашем примере снижение −2,2 ммоль/моль за визит эквивалентно снижению на −0,2 п.п. по шкале DCCT.
👍2
душно про дату
Про проценты, процентные пункты и аффинные преобразования Рубрика #очевидное_невероятное. На днях статью, для которой я делал статанализ, приняли в публикацию. По такому случаю покажу #бэкстейдж и поделюсь закулисными деталями. Преамбула Гликированный гемоглобин…
А вот и статья подъехала. До середины марта доступ по ссылке бесплатно, несказанная щедрость от Эльзевира.
Подводки к статье у Даниэль Наварро читаются как тексты Лавкрафта: наивные оптимистичные людишки сталкиваются с холодным бездушным нечеловечным хаосом реального мира.
...embittered old data analyst whose heart has shrivelled into a dark ball of data cynisim...
Real world data are horrible.
...embittered old data analyst whose heart has shrivelled into a dark ball of data cynisim...
Real world data are horrible.
Прервем молчание в эфире радостной вестью: у меня вышла очередная статья. На самом деле, первая (ну ок, первая с половиной), которую я писал. Пролежала больше года в редакции, но в итоге вышла.
О чем статья: в Чехии наблюдение за диабетиками осуществляется только в специализированных центрах, их всего 16 в стране. Раз в три месяца дети с диабетом должны приходить на осмотр и многие пациенты проводят кучу времени в поездках.
Мы провели рандомизированное non-inferiority исследование, в котором задались вопросом: можно ли заменить очные консультации перепиской со специалистом. Скидываете доктору телеметрию со своего глюкозного сенсора за последние две недели, он в ответочку присылает свои рекомендации.
Оказалось, что да, так делать можно, показатели в среднем не снижаются, зато экономится куча времени.
Ссылочка на статью, там всего пять страниц.
О чем статья: в Чехии наблюдение за диабетиками осуществляется только в специализированных центрах, их всего 16 в стране. Раз в три месяца дети с диабетом должны приходить на осмотр и многие пациенты проводят кучу времени в поездках.
Мы провели рандомизированное non-inferiority исследование, в котором задались вопросом: можно ли заменить очные консультации перепиской со специалистом. Скидываете доктору телеметрию со своего глюкозного сенсора за последние две недели, он в ответочку присылает свои рекомендации.
Оказалось, что да, так делать можно, показатели в среднем не снижаются, зато экономится куча времени.
Ссылочка на статью, там всего пять страниц.
🔥4
Продолжаем ярмарку тщеславия #бэкстейдж
Свеженькая публикация в форме letter'а. Изначально была в виде труЪ статьи, но после пары реджектов ужалась до письма. Обидно, я там такую красоту наводил в табличках из приложений.
Никакой сложной статистики, просто игра в бирюльки.
Для меня самым интересным было вот что: этот день настал, у меня нашелся повод применить contrast sum параметризацию. Исследователя интересовало, есть ли какие-то странные регионы, которые необычно настроены по отношению к профилактике. Я решил, что мы можем это операционализировать через contrast sum. Интерсепт соответствует какому-то суррогатному "среднему" региону, а эффекты регионов можно интерпретировать как то, насколько они отличаются от "среднего" региона. В итоге похоже, что Африка необычно сильно интересуется скринингом и профилактикой DM.
Свеженькая публикация в форме letter'а. Изначально была в виде труЪ статьи, но после пары реджектов ужалась до письма. Обидно, я там такую красоту наводил в табличках из приложений.
Никакой сложной статистики, просто игра в бирюльки.
Для меня самым интересным было вот что: этот день настал, у меня нашелся повод применить contrast sum параметризацию. Исследователя интересовало, есть ли какие-то странные регионы, которые необычно настроены по отношению к профилактике. Я решил, что мы можем это операционализировать через contrast sum. Интерсепт соответствует какому-то суррогатному "среднему" региону, а эффекты регионов можно интерпретировать как то, насколько они отличаются от "среднего" региона. В итоге похоже, что Африка необычно сильно интересуется скринингом и профилактикой DM.
Wiley Online Library
<em>Diabetic Medicine</em> | Diabetes UK Journal | Wiley Online Library
Click on the article noscript to read more.
🔥2
Админа к публикациям побуждают три вещи:
* #ярмарка_тщеславия, ака опубликованные статьи;
* объяснения, почему в интернете кто-то неправ;
* очередной экзамен, в процессе подготовки и сдачи которого снизошли откровения.
Экзамен я сдал, пришла пора писать об откровениях.
Для разогрева положу сюда коротенькую лекцию Виктора Вахштайна, которая имеет прямое отношение к биостату. При этом, увы, про эти вещи в биостате обычно не говорят / говорят иначе и не так явно.
* #ярмарка_тщеславия, ака опубликованные статьи;
* объяснения, почему в интернете кто-то неправ;
* очередной экзамен, в процессе подготовки и сдачи которого снизошли откровения.
Экзамен я сдал, пришла пора писать об откровениях.
Для разогрева положу сюда коротенькую лекцию Виктора Вахштайна, которая имеет прямое отношение к биостату. При этом, увы, про эти вещи в биостате обычно не говорят / говорят иначе и не так явно.
postnauka.org
Социологическая операционализация — все самое интересное на ПостНауке
Социолог Виктор Вахштайн о переводе концептов в операнты, смещении релевантности и теории рационального выбора
👍2
Озарения про регрессию
В статистике обычную линейную регрессию методом наименьших квадратов (ordinary least squares regression) можно рассматривать в трех разных сеттингах. В двух из них делаются допущения о распределении регрессоров, о чем почему-то обычно не говорят. Давайте пройдемся по каждому из сеттингов и посмотрим, на что там стоит обратить внимание.
Пусть Y вектор респонсов, X -- матрица случайных (это важно!) регрессоров. В каждом случае мы предполагаем, что модель специфицирована правильно, количество наблюдений n больше количества параметров p и модель полного ранга. Формула для оценки параметров приведена на картинке; заметим, что оценки у нас линейны в Y.
В статистике обычную линейную регрессию методом наименьших квадратов (ordinary least squares regression) можно рассматривать в трех разных сеттингах. В двух из них делаются допущения о распределении регрессоров, о чем почему-то обычно не говорят. Давайте пройдемся по каждому из сеттингов и посмотрим, на что там стоит обратить внимание.
Пусть Y вектор респонсов, X -- матрица случайных (это важно!) регрессоров. В каждом случае мы предполагаем, что модель специфицирована правильно, количество наблюдений n больше количества параметров p и модель полного ранга. Формула для оценки параметров приведена на картинке; заметим, что оценки у нас линейны в Y.
I. Регрессия для нормального респонса
Итак, пусть условное распределение Y при данном X нормально и наши наблюдения условно при данном X независимы -- первая строка на картинке. Тогда условное распределение оценок коэффициентов тоже нормальное, оценки несмещенные и состоятельные.
Что важно:
1. Мы не налагаем вообще никаких ограничений на распределение регрессоров. В том числе, мы не требуем, чтобы (Yi, Xi) были iid, мы ограничились только условной независимостью.
2. Зато условное распределение респонса должно быть нормальным и никак иначе. Наверное, мы можем сказать что это условно параметрическая модель. Условно -- потому что мы обусловливаем иксами. Параметрическая -- потому что мы предполагаем, что (условное) распределение игреков принадлежит параметрическому семейству и полностью описывается (условным) матожиданием и (условной же) остаточной дисперсией.
3. Тесты в такой модели точные (в противовес асимптотическим) -- т.е. работают и на малых выборках.
4. Статвывод проводится условно при данных регрессорах. Посчитать маргинальную дисперсию оценок не получится -- для этого нужно выинтегрировать иксы, а мы не знаем их распределения.
5. Благодаря тому, что мы обуславливаем иксами, они могут быть как случайными, так и заранее заданными / константными (designed industrial experiments, вам привет).
Четвертый пункт мозголомный, как его интерпретировать философски я пока не очень понимаю. Если вдруг кто-то в курсе -- пишите в комментариях.
Еще раз заметим, что мы здесь работаем условно (conditionally) при данных регрессорах. В этой модели OLS оценка -- это оценка методом условного максимального правдоподобия. Для метода максимального правдоподобия мы не задаем совместное распределение Y и X, мы определяем условное распределение игреков при данных иксах.
Сравните также, например, с тестом Фишера, непараметрическим бутстрепом, перестановочными тестами, регрессией Кокса или условной логистической регрессией. Техника обуславливания данными (всеми или частью) -- продуктивная штука.
Итак, пусть условное распределение Y при данном X нормально и наши наблюдения условно при данном X независимы -- первая строка на картинке. Тогда условное распределение оценок коэффициентов тоже нормальное, оценки несмещенные и состоятельные.
Что важно:
1. Мы не налагаем вообще никаких ограничений на распределение регрессоров. В том числе, мы не требуем, чтобы (Yi, Xi) были iid, мы ограничились только условной независимостью.
2. Зато условное распределение респонса должно быть нормальным и никак иначе. Наверное, мы можем сказать что это условно параметрическая модель. Условно -- потому что мы обусловливаем иксами. Параметрическая -- потому что мы предполагаем, что (условное) распределение игреков принадлежит параметрическому семейству и полностью описывается (условным) матожиданием и (условной же) остаточной дисперсией.
3. Тесты в такой модели точные (в противовес асимптотическим) -- т.е. работают и на малых выборках.
4. Статвывод проводится условно при данных регрессорах. Посчитать маргинальную дисперсию оценок не получится -- для этого нужно выинтегрировать иксы, а мы не знаем их распределения.
5. Благодаря тому, что мы обуславливаем иксами, они могут быть как случайными, так и заранее заданными / константными (designed industrial experiments, вам привет).
Четвертый пункт мозголомный, как его интерпретировать философски я пока не очень понимаю. Если вдруг кто-то в курсе -- пишите в комментариях.
Еще раз заметим, что мы здесь работаем условно (conditionally) при данных регрессорах. В этой модели OLS оценка -- это оценка методом условного максимального правдоподобия. Для метода максимального правдоподобия мы не задаем совместное распределение Y и X, мы определяем условное распределение игреков при данных иксах.
Сравните также, например, с тестом Фишера, непараметрическим бутстрепом, перестановочными тестами, регрессией Кокса или условной логистической регрессией. Техника обуславливания данными (всеми или частью) -- продуктивная штука.
👍1
II. Гомоскедастическая регрессия
Пусть (Y_i, X_i) iid. Специфицируем условное матожидание и дисперсию игреков при данных иксах. Заметим, что мы не предполагаем нормальность игреков — ни условную, ни маргинальную. Получается полупараметрическая модель. Полупараметрическая — потому что мы предполагаем, что два момента специфицированы правильно, но не опираемся на нормальность или какое-то другое параметрическое семейство (как в случае нормальной или пуассонской регрессии).
Можно показать, что OLS оценки бет в такой модели состоятельны и асимптотически нормальны (с помощью теории Z-оценок и pseudo-score статистик; пишите в комментах, если хотите про это подробнее почитать.) Однако здесь мы вынуждены предполагать, что у регрессоров существует матрица вторых моментов, которая невырождена и конечна (вторая строка на пикче).
Что тут важно:
1. В отличие от нормальной регрессии, мы налагаем ограничения на распределение регрессоров. Это допущение скорее технического характера (мы всегда можем сказать, что рассматриваем только иксы в интервале от a до b, что обеспечит соблюдение второй строки), бат стил.
2. Тесты в такой модели асимптотические — нам нужно достаточное количество наблюдений, они не работают для малых выборок.
3. Статвывод в такой модели можно проводить как условно при данных регрессорах, так и маргинально: вторая строка с картинки и независимость наблюдений гарантируют, что результаты совпадут.
Пусть (Y_i, X_i) iid. Специфицируем условное матожидание и дисперсию игреков при данных иксах. Заметим, что мы не предполагаем нормальность игреков — ни условную, ни маргинальную. Получается полупараметрическая модель. Полупараметрическая — потому что мы предполагаем, что два момента специфицированы правильно, но не опираемся на нормальность или какое-то другое параметрическое семейство (как в случае нормальной или пуассонской регрессии).
Можно показать, что OLS оценки бет в такой модели состоятельны и асимптотически нормальны (с помощью теории Z-оценок и pseudo-score статистик; пишите в комментах, если хотите про это подробнее почитать.) Однако здесь мы вынуждены предполагать, что у регрессоров существует матрица вторых моментов, которая невырождена и конечна (вторая строка на пикче).
Что тут важно:
1. В отличие от нормальной регрессии, мы налагаем ограничения на распределение регрессоров. Это допущение скорее технического характера (мы всегда можем сказать, что рассматриваем только иксы в интервале от a до b, что обеспечит соблюдение второй строки), бат стил.
2. Тесты в такой модели асимптотические — нам нужно достаточное количество наблюдений, они не работают для малых выборок.
3. Статвывод в такой модели можно проводить как условно при данных регрессорах, так и маргинально: вторая строка с картинки и независимость наблюдений гарантируют, что результаты совпадут.
Диаграммы Лексиса - полезный инструмент для того, чтобы поразбираться с анализом цензурированных данных (ака анализом дожития) и демографией в частности.
Плюс здесь какие-то ну очень красивые визуализации, хочется распечатать на открытки.
#dataviz
Плюс здесь какие-то ну очень красивые визуализации, хочется распечатать на открытки.
#dataviz
Forwarded from настенька и графики
Как войны и образ жизни влияют на мужскую и женскую смертность
Здесь такой интересный тип графика – диаграмма Лексиса (или сетка Лексиса). По горизонтали – временной период, по вертикали – возраст. Так получается, что полоска
- по горизонтали – люди разных лет рождения, но одинакового возраста – сверстники
- по диагонали – люди, родившиеся в одинаковый период времени – ровесники
- по вертикали – люди, живущие в конкретный период времени – современники
Более темный синий цвет означат, что смертность мужчин была выше, красный – выше смертность женщин.
И посмотрите как четко видны крупные конфликты, как Первая мировая война, Вторая мировая война, Гражданская война в Испании (1936-1939 гг.), Гражданская война в Финляндии (1918 г.). Такие четкие вертикальный полосы демонстрируют сильное превышение смертности среди мужчин, особенно среди призывников младших возрастов.
Здесь такой интересный тип графика – диаграмма Лексиса (или сетка Лексиса). По горизонтали – временной период, по вертикали – возраст. Так получается, что полоска
- по горизонтали – люди разных лет рождения, но одинакового возраста – сверстники
- по диагонали – люди, родившиеся в одинаковый период времени – ровесники
- по вертикали – люди, живущие в конкретный период времени – современники
Более темный синий цвет означат, что смертность мужчин была выше, красный – выше смертность женщин.
И посмотрите как четко видны крупные конфликты, как Первая мировая война, Вторая мировая война, Гражданская война в Испании (1936-1939 гг.), Гражданская война в Финляндии (1918 г.). Такие четкие вертикальный полосы демонстрируют сильное превышение смертности среди мужчин, особенно среди призывников младших возрастов.