Про проценты, процентные пункты и аффинные преобразования
Рубрика #очевидное_невероятное.
На днях статью, для которой я делал статанализ, приняли в публикацию. По такому случаю покажу #бэкстейдж и поделюсь закулисными деталями.
Преамбула
Гликированный гемоглобин (HbA1c) — показатель, который любят диабетологи. Глюкоза образует устойчивое соединение с гемоглобином (гликирует его, duh) в эритроцитах, а скорость протекания этой реакции зависит от концентрации глюкозы в крови. Эритроциты живут примерно 120 дней, в итоге HbA1c отражает что-то типа среднего уровня гликемии на протяжении последних трех-четырех месяцев. То есть имеем интегральную метрику, которая еще и менее волатильна, чем просто уровень сахара в крови.
Подстава состоит в том, что разные конфессии меряют HbA1c в разных единицах: в Чехии, например, принято выражать его в ммоль/моль, поэтому весь анализ делали именно в миллимолях на моль. Существуют еще две шкалы, в которых гликогемоглобин выражают в процентах: IFCC и DCCT.
Амбула
Конечно же рецензенты попросили продублировать все результаты и в шкале DCCT. Формула для перевода из ммоль/моль в проценты DCCT приведена на картинке к посту. С переводом самих измерений все понятно. Трудности начинаются, когда мы хотим пересчитать эффекты из ммоль/моль.
Так в одной из групп HbA1c снижался на −2,2 ммоль/моль за три месяца. Если мы пересчитаем этот эффект по формуле, то получим, что за три месяца гликогемоглобин вырос на 1,9 единиц DCCT.
Подвох в том, что формула перевода содержит свободный член: это аффинное, а не линейное отображение. Поэтому для перевода дельт, разниц и эффектов нужно отбросить 2,15 и оставить только линейную часть. Похожие приколы можно встретить при переводе температуры между градусами Кельвина, Цельсия и Фаренгейта.
На сладкое
Рассуждения выше — еще одна причина, почему не надо путать проценты (percents, %) и процентные пункты (percentage points, %pt., п.п.). Гликированный гемоглобин по шкале DCCT выражается в процентах. Разности, эффекты и дельты по шкале DCCT выражаются в процентных пунктах.
В нашем примере снижение −2,2 ммоль/моль за визит эквивалентно снижению на −0,2 п.п. по шкале DCCT.
Рубрика #очевидное_невероятное.
На днях статью, для которой я делал статанализ, приняли в публикацию. По такому случаю покажу #бэкстейдж и поделюсь закулисными деталями.
Преамбула
Гликированный гемоглобин (HbA1c) — показатель, который любят диабетологи. Глюкоза образует устойчивое соединение с гемоглобином (гликирует его, duh) в эритроцитах, а скорость протекания этой реакции зависит от концентрации глюкозы в крови. Эритроциты живут примерно 120 дней, в итоге HbA1c отражает что-то типа среднего уровня гликемии на протяжении последних трех-четырех месяцев. То есть имеем интегральную метрику, которая еще и менее волатильна, чем просто уровень сахара в крови.
Подстава состоит в том, что разные конфессии меряют HbA1c в разных единицах: в Чехии, например, принято выражать его в ммоль/моль, поэтому весь анализ делали именно в миллимолях на моль. Существуют еще две шкалы, в которых гликогемоглобин выражают в процентах: IFCC и DCCT.
Амбула
Конечно же рецензенты попросили продублировать все результаты и в шкале DCCT. Формула для перевода из ммоль/моль в проценты DCCT приведена на картинке к посту. С переводом самих измерений все понятно. Трудности начинаются, когда мы хотим пересчитать эффекты из ммоль/моль.
Так в одной из групп HbA1c снижался на −2,2 ммоль/моль за три месяца. Если мы пересчитаем этот эффект по формуле, то получим, что за три месяца гликогемоглобин вырос на 1,9 единиц DCCT.
Подвох в том, что формула перевода содержит свободный член: это аффинное, а не линейное отображение. Поэтому для перевода дельт, разниц и эффектов нужно отбросить 2,15 и оставить только линейную часть. Похожие приколы можно встретить при переводе температуры между градусами Кельвина, Цельсия и Фаренгейта.
На сладкое
Рассуждения выше — еще одна причина, почему не надо путать проценты (percents, %) и процентные пункты (percentage points, %pt., п.п.). Гликированный гемоглобин по шкале DCCT выражается в процентах. Разности, эффекты и дельты по шкале DCCT выражаются в процентных пунктах.
В нашем примере снижение −2,2 ммоль/моль за визит эквивалентно снижению на −0,2 п.п. по шкале DCCT.
👍2
душно про дату
Про проценты, процентные пункты и аффинные преобразования Рубрика #очевидное_невероятное. На днях статью, для которой я делал статанализ, приняли в публикацию. По такому случаю покажу #бэкстейдж и поделюсь закулисными деталями. Преамбула Гликированный гемоглобин…
А вот и статья подъехала. До середины марта доступ по ссылке бесплатно, несказанная щедрость от Эльзевира.
Подводки к статье у Даниэль Наварро читаются как тексты Лавкрафта: наивные оптимистичные людишки сталкиваются с холодным бездушным нечеловечным хаосом реального мира.
...embittered old data analyst whose heart has shrivelled into a dark ball of data cynisim...
Real world data are horrible.
...embittered old data analyst whose heart has shrivelled into a dark ball of data cynisim...
Real world data are horrible.
Прервем молчание в эфире радостной вестью: у меня вышла очередная статья. На самом деле, первая (ну ок, первая с половиной), которую я писал. Пролежала больше года в редакции, но в итоге вышла.
О чем статья: в Чехии наблюдение за диабетиками осуществляется только в специализированных центрах, их всего 16 в стране. Раз в три месяца дети с диабетом должны приходить на осмотр и многие пациенты проводят кучу времени в поездках.
Мы провели рандомизированное non-inferiority исследование, в котором задались вопросом: можно ли заменить очные консультации перепиской со специалистом. Скидываете доктору телеметрию со своего глюкозного сенсора за последние две недели, он в ответочку присылает свои рекомендации.
Оказалось, что да, так делать можно, показатели в среднем не снижаются, зато экономится куча времени.
Ссылочка на статью, там всего пять страниц.
О чем статья: в Чехии наблюдение за диабетиками осуществляется только в специализированных центрах, их всего 16 в стране. Раз в три месяца дети с диабетом должны приходить на осмотр и многие пациенты проводят кучу времени в поездках.
Мы провели рандомизированное non-inferiority исследование, в котором задались вопросом: можно ли заменить очные консультации перепиской со специалистом. Скидываете доктору телеметрию со своего глюкозного сенсора за последние две недели, он в ответочку присылает свои рекомендации.
Оказалось, что да, так делать можно, показатели в среднем не снижаются, зато экономится куча времени.
Ссылочка на статью, там всего пять страниц.
🔥4
Продолжаем ярмарку тщеславия #бэкстейдж
Свеженькая публикация в форме letter'а. Изначально была в виде труЪ статьи, но после пары реджектов ужалась до письма. Обидно, я там такую красоту наводил в табличках из приложений.
Никакой сложной статистики, просто игра в бирюльки.
Для меня самым интересным было вот что: этот день настал, у меня нашелся повод применить contrast sum параметризацию. Исследователя интересовало, есть ли какие-то странные регионы, которые необычно настроены по отношению к профилактике. Я решил, что мы можем это операционализировать через contrast sum. Интерсепт соответствует какому-то суррогатному "среднему" региону, а эффекты регионов можно интерпретировать как то, насколько они отличаются от "среднего" региона. В итоге похоже, что Африка необычно сильно интересуется скринингом и профилактикой DM.
Свеженькая публикация в форме letter'а. Изначально была в виде труЪ статьи, но после пары реджектов ужалась до письма. Обидно, я там такую красоту наводил в табличках из приложений.
Никакой сложной статистики, просто игра в бирюльки.
Для меня самым интересным было вот что: этот день настал, у меня нашелся повод применить contrast sum параметризацию. Исследователя интересовало, есть ли какие-то странные регионы, которые необычно настроены по отношению к профилактике. Я решил, что мы можем это операционализировать через contrast sum. Интерсепт соответствует какому-то суррогатному "среднему" региону, а эффекты регионов можно интерпретировать как то, насколько они отличаются от "среднего" региона. В итоге похоже, что Африка необычно сильно интересуется скринингом и профилактикой DM.
Wiley Online Library
<em>Diabetic Medicine</em> | Diabetes UK Journal | Wiley Online Library
Click on the article noscript to read more.
🔥2
Админа к публикациям побуждают три вещи:
* #ярмарка_тщеславия, ака опубликованные статьи;
* объяснения, почему в интернете кто-то неправ;
* очередной экзамен, в процессе подготовки и сдачи которого снизошли откровения.
Экзамен я сдал, пришла пора писать об откровениях.
Для разогрева положу сюда коротенькую лекцию Виктора Вахштайна, которая имеет прямое отношение к биостату. При этом, увы, про эти вещи в биостате обычно не говорят / говорят иначе и не так явно.
* #ярмарка_тщеславия, ака опубликованные статьи;
* объяснения, почему в интернете кто-то неправ;
* очередной экзамен, в процессе подготовки и сдачи которого снизошли откровения.
Экзамен я сдал, пришла пора писать об откровениях.
Для разогрева положу сюда коротенькую лекцию Виктора Вахштайна, которая имеет прямое отношение к биостату. При этом, увы, про эти вещи в биостате обычно не говорят / говорят иначе и не так явно.
postnauka.org
Социологическая операционализация — все самое интересное на ПостНауке
Социолог Виктор Вахштайн о переводе концептов в операнты, смещении релевантности и теории рационального выбора
👍2
Озарения про регрессию
В статистике обычную линейную регрессию методом наименьших квадратов (ordinary least squares regression) можно рассматривать в трех разных сеттингах. В двух из них делаются допущения о распределении регрессоров, о чем почему-то обычно не говорят. Давайте пройдемся по каждому из сеттингов и посмотрим, на что там стоит обратить внимание.
Пусть Y вектор респонсов, X -- матрица случайных (это важно!) регрессоров. В каждом случае мы предполагаем, что модель специфицирована правильно, количество наблюдений n больше количества параметров p и модель полного ранга. Формула для оценки параметров приведена на картинке; заметим, что оценки у нас линейны в Y.
В статистике обычную линейную регрессию методом наименьших квадратов (ordinary least squares regression) можно рассматривать в трех разных сеттингах. В двух из них делаются допущения о распределении регрессоров, о чем почему-то обычно не говорят. Давайте пройдемся по каждому из сеттингов и посмотрим, на что там стоит обратить внимание.
Пусть Y вектор респонсов, X -- матрица случайных (это важно!) регрессоров. В каждом случае мы предполагаем, что модель специфицирована правильно, количество наблюдений n больше количества параметров p и модель полного ранга. Формула для оценки параметров приведена на картинке; заметим, что оценки у нас линейны в Y.
I. Регрессия для нормального респонса
Итак, пусть условное распределение Y при данном X нормально и наши наблюдения условно при данном X независимы -- первая строка на картинке. Тогда условное распределение оценок коэффициентов тоже нормальное, оценки несмещенные и состоятельные.
Что важно:
1. Мы не налагаем вообще никаких ограничений на распределение регрессоров. В том числе, мы не требуем, чтобы (Yi, Xi) были iid, мы ограничились только условной независимостью.
2. Зато условное распределение респонса должно быть нормальным и никак иначе. Наверное, мы можем сказать что это условно параметрическая модель. Условно -- потому что мы обусловливаем иксами. Параметрическая -- потому что мы предполагаем, что (условное) распределение игреков принадлежит параметрическому семейству и полностью описывается (условным) матожиданием и (условной же) остаточной дисперсией.
3. Тесты в такой модели точные (в противовес асимптотическим) -- т.е. работают и на малых выборках.
4. Статвывод проводится условно при данных регрессорах. Посчитать маргинальную дисперсию оценок не получится -- для этого нужно выинтегрировать иксы, а мы не знаем их распределения.
5. Благодаря тому, что мы обуславливаем иксами, они могут быть как случайными, так и заранее заданными / константными (designed industrial experiments, вам привет).
Четвертый пункт мозголомный, как его интерпретировать философски я пока не очень понимаю. Если вдруг кто-то в курсе -- пишите в комментариях.
Еще раз заметим, что мы здесь работаем условно (conditionally) при данных регрессорах. В этой модели OLS оценка -- это оценка методом условного максимального правдоподобия. Для метода максимального правдоподобия мы не задаем совместное распределение Y и X, мы определяем условное распределение игреков при данных иксах.
Сравните также, например, с тестом Фишера, непараметрическим бутстрепом, перестановочными тестами, регрессией Кокса или условной логистической регрессией. Техника обуславливания данными (всеми или частью) -- продуктивная штука.
Итак, пусть условное распределение Y при данном X нормально и наши наблюдения условно при данном X независимы -- первая строка на картинке. Тогда условное распределение оценок коэффициентов тоже нормальное, оценки несмещенные и состоятельные.
Что важно:
1. Мы не налагаем вообще никаких ограничений на распределение регрессоров. В том числе, мы не требуем, чтобы (Yi, Xi) были iid, мы ограничились только условной независимостью.
2. Зато условное распределение респонса должно быть нормальным и никак иначе. Наверное, мы можем сказать что это условно параметрическая модель. Условно -- потому что мы обусловливаем иксами. Параметрическая -- потому что мы предполагаем, что (условное) распределение игреков принадлежит параметрическому семейству и полностью описывается (условным) матожиданием и (условной же) остаточной дисперсией.
3. Тесты в такой модели точные (в противовес асимптотическим) -- т.е. работают и на малых выборках.
4. Статвывод проводится условно при данных регрессорах. Посчитать маргинальную дисперсию оценок не получится -- для этого нужно выинтегрировать иксы, а мы не знаем их распределения.
5. Благодаря тому, что мы обуславливаем иксами, они могут быть как случайными, так и заранее заданными / константными (designed industrial experiments, вам привет).
Четвертый пункт мозголомный, как его интерпретировать философски я пока не очень понимаю. Если вдруг кто-то в курсе -- пишите в комментариях.
Еще раз заметим, что мы здесь работаем условно (conditionally) при данных регрессорах. В этой модели OLS оценка -- это оценка методом условного максимального правдоподобия. Для метода максимального правдоподобия мы не задаем совместное распределение Y и X, мы определяем условное распределение игреков при данных иксах.
Сравните также, например, с тестом Фишера, непараметрическим бутстрепом, перестановочными тестами, регрессией Кокса или условной логистической регрессией. Техника обуславливания данными (всеми или частью) -- продуктивная штука.
👍1
II. Гомоскедастическая регрессия
Пусть (Y_i, X_i) iid. Специфицируем условное матожидание и дисперсию игреков при данных иксах. Заметим, что мы не предполагаем нормальность игреков — ни условную, ни маргинальную. Получается полупараметрическая модель. Полупараметрическая — потому что мы предполагаем, что два момента специфицированы правильно, но не опираемся на нормальность или какое-то другое параметрическое семейство (как в случае нормальной или пуассонской регрессии).
Можно показать, что OLS оценки бет в такой модели состоятельны и асимптотически нормальны (с помощью теории Z-оценок и pseudo-score статистик; пишите в комментах, если хотите про это подробнее почитать.) Однако здесь мы вынуждены предполагать, что у регрессоров существует матрица вторых моментов, которая невырождена и конечна (вторая строка на пикче).
Что тут важно:
1. В отличие от нормальной регрессии, мы налагаем ограничения на распределение регрессоров. Это допущение скорее технического характера (мы всегда можем сказать, что рассматриваем только иксы в интервале от a до b, что обеспечит соблюдение второй строки), бат стил.
2. Тесты в такой модели асимптотические — нам нужно достаточное количество наблюдений, они не работают для малых выборок.
3. Статвывод в такой модели можно проводить как условно при данных регрессорах, так и маргинально: вторая строка с картинки и независимость наблюдений гарантируют, что результаты совпадут.
Пусть (Y_i, X_i) iid. Специфицируем условное матожидание и дисперсию игреков при данных иксах. Заметим, что мы не предполагаем нормальность игреков — ни условную, ни маргинальную. Получается полупараметрическая модель. Полупараметрическая — потому что мы предполагаем, что два момента специфицированы правильно, но не опираемся на нормальность или какое-то другое параметрическое семейство (как в случае нормальной или пуассонской регрессии).
Можно показать, что OLS оценки бет в такой модели состоятельны и асимптотически нормальны (с помощью теории Z-оценок и pseudo-score статистик; пишите в комментах, если хотите про это подробнее почитать.) Однако здесь мы вынуждены предполагать, что у регрессоров существует матрица вторых моментов, которая невырождена и конечна (вторая строка на пикче).
Что тут важно:
1. В отличие от нормальной регрессии, мы налагаем ограничения на распределение регрессоров. Это допущение скорее технического характера (мы всегда можем сказать, что рассматриваем только иксы в интервале от a до b, что обеспечит соблюдение второй строки), бат стил.
2. Тесты в такой модели асимптотические — нам нужно достаточное количество наблюдений, они не работают для малых выборок.
3. Статвывод в такой модели можно проводить как условно при данных регрессорах, так и маргинально: вторая строка с картинки и независимость наблюдений гарантируют, что результаты совпадут.
Диаграммы Лексиса - полезный инструмент для того, чтобы поразбираться с анализом цензурированных данных (ака анализом дожития) и демографией в частности.
Плюс здесь какие-то ну очень красивые визуализации, хочется распечатать на открытки.
#dataviz
Плюс здесь какие-то ну очень красивые визуализации, хочется распечатать на открытки.
#dataviz
Forwarded from настенька и графики
Как войны и образ жизни влияют на мужскую и женскую смертность
Здесь такой интересный тип графика – диаграмма Лексиса (или сетка Лексиса). По горизонтали – временной период, по вертикали – возраст. Так получается, что полоска
- по горизонтали – люди разных лет рождения, но одинакового возраста – сверстники
- по диагонали – люди, родившиеся в одинаковый период времени – ровесники
- по вертикали – люди, живущие в конкретный период времени – современники
Более темный синий цвет означат, что смертность мужчин была выше, красный – выше смертность женщин.
И посмотрите как четко видны крупные конфликты, как Первая мировая война, Вторая мировая война, Гражданская война в Испании (1936-1939 гг.), Гражданская война в Финляндии (1918 г.). Такие четкие вертикальный полосы демонстрируют сильное превышение смертности среди мужчин, особенно среди призывников младших возрастов.
Здесь такой интересный тип графика – диаграмма Лексиса (или сетка Лексиса). По горизонтали – временной период, по вертикали – возраст. Так получается, что полоска
- по горизонтали – люди разных лет рождения, но одинакового возраста – сверстники
- по диагонали – люди, родившиеся в одинаковый период времени – ровесники
- по вертикали – люди, живущие в конкретный период времени – современники
Более темный синий цвет означат, что смертность мужчин была выше, красный – выше смертность женщин.
И посмотрите как четко видны крупные конфликты, как Первая мировая война, Вторая мировая война, Гражданская война в Испании (1936-1939 гг.), Гражданская война в Финляндии (1918 г.). Такие четкие вертикальный полосы демонстрируют сильное превышение смертности среди мужчин, особенно среди призывников младших возрастов.
Прервем молчание красивым графиком про ИМТ взрослого населения в США отсюда.
Что мне нравится на пикче: все.
Начнем с главного.
1. Мы видим двумерную гистограмму совместного распределения роста и веса; частота каждой клеточки передается ее размером.
2. ИМТ — это детерминистическая функция роста и веса; на основе него выделяют степени ожирения / дистрофии. Эти классы показаны тонкой пунктирной линией и дополнительно выделены цветом.
Пройдемся по деталям.
1. Отдельные квадратики перекрывают друг друга. Это не мешает восприятию и придает изюминку и ритм. У графика словно появляется материальное / физическое измерение, какая-то тактильность; как будто он составлен из карточек.
2. Обратите внимание, как показано разбиение на степени ожирения / дистрофии. Общий тон задают тоненькие линии; "карточки" нарисованы поверх линий, поэтому введена дополнительная цветовая кодировка.
3. Палитра офигенная: негромкая, не выжигает глаза, устойчива ко всем видам дальтонизма и переводу в ЧБ вид (чекал вот тут). Нормальный ИМТ закодирован белым — это же гениально.
4. На графике нет отдельной легенды: она вынесена в свободное место наверху и совмещена с информацией о том, какая часть взрослой популяции приходится на каждый класс ИМТ.
5. Очень читаемые и одновременно ненавязчивые оси. При этом помимо оси X (вес) и Y (рост) у нас появляется третья ось: класс ИМТ. Обратите внимание, как органично включены единицы измерения в подписи на осях.
6. Оценим рубленый моноширинный шрифт для самого графика. Главная мысль напечатана на самом графике шрифтом с засечками.
7. На графике указан источник данных.
Крч, вах-вах, очень хорошо, Nathan Yau (автор графика) — виртуоз, хочу такой постер. (Иллюстрация сделана в R и потом допилена в Adobe Illustrator).
#dataviz
Что мне нравится на пикче: все.
Начнем с главного.
1. Мы видим двумерную гистограмму совместного распределения роста и веса; частота каждой клеточки передается ее размером.
2. ИМТ — это детерминистическая функция роста и веса; на основе него выделяют степени ожирения / дистрофии. Эти классы показаны тонкой пунктирной линией и дополнительно выделены цветом.
Пройдемся по деталям.
1. Отдельные квадратики перекрывают друг друга. Это не мешает восприятию и придает изюминку и ритм. У графика словно появляется материальное / физическое измерение, какая-то тактильность; как будто он составлен из карточек.
2. Обратите внимание, как показано разбиение на степени ожирения / дистрофии. Общий тон задают тоненькие линии; "карточки" нарисованы поверх линий, поэтому введена дополнительная цветовая кодировка.
3. Палитра офигенная: негромкая, не выжигает глаза, устойчива ко всем видам дальтонизма и переводу в ЧБ вид (чекал вот тут). Нормальный ИМТ закодирован белым — это же гениально.
4. На графике нет отдельной легенды: она вынесена в свободное место наверху и совмещена с информацией о том, какая часть взрослой популяции приходится на каждый класс ИМТ.
5. Очень читаемые и одновременно ненавязчивые оси. При этом помимо оси X (вес) и Y (рост) у нас появляется третья ось: класс ИМТ. Обратите внимание, как органично включены единицы измерения в подписи на осях.
6. Оценим рубленый моноширинный шрифт для самого графика. Главная мысль напечатана на самом графике шрифтом с засечками.
7. На графике указан источник данных.
Крч, вах-вах, очень хорошо, Nathan Yau (автор графика) — виртуоз, хочу такой постер. (Иллюстрация сделана в R и потом допилена в Adobe Illustrator).
#dataviz
🔥3👍1
душно про дату
Продолжаем ярмарку тщеславия #бэкстейдж Свеженькая публикация в форме letter'а. Изначально была в виде труЪ статьи, но после пары реджектов ужалась до письма. Обидно, я там такую красоту наводил в табличках из приложений. Никакой сложной статистики, просто…
Контент про матстат будет попозже, пока продолжим разговор про датавиз и обратим свой взор на таблицы. Почему-то исследователи забивают болт на оформление и верстку табличек; иногда создается ощущение, что к публикации их прикладывают для галочки. Не надо так.
Рассмотрим на примере таблицы из публикации про скрининг диабета. Увы, в процессе переписывания статьи в формат письма таблички были отброшены и в самой публикации вы их не увидите; покажу их вам на бутлегерских правах. На рис. 1 вы видите таблицу в том виде, в котором она была в черновике рукописи статьи. На рис. 2 вы видите мой вариант переверстки. Давайте пройдемся по тому, что я поменял и почему.
Субстантивно:
* Таблица содержит статистику ответов на один из вопросов анкеты (таких табличек в приложениях к статье было много). В шапку таблицы я добавил номер вопроса, чтобы было легче ориентироваться (Question 10).
* Добавил структуру в организацию строчек.
Глобально ответа всего два: либо программы скрининга нет и разговаривать не о чем, либо программа скрининга есть, и тут начинаются нюансы: на уровне федеральном или местном, бесплатно для пациента или же на возмездной основе. В изначальной таблице все эти ответы представлены как равноправные; в моей версии я попытался отразить их иерархию и структуру.
Что по деталям.
* Боковик (первый столбик) выровнял по левому краю.
* Прографку (содержимое таблички) выравнял по разрядам, чтобы числа было проще сравнивать.
* Курсивом выделил ключевые слова ответа. Первый уровень (да / нет) заверстал капсом (YES / NO).
* Поправил дефисы на короткие тире (вы все еще путаете типографские черточки? тогда мы идем к вам! про английскую типографику можно почитать здесь и вот тут).
* Убрал ненужные границы клеток.
Все манипуляции проводил в обычном MS Word.
#бэкстейдж #tables
Рассмотрим на примере таблицы из публикации про скрининг диабета. Увы, в процессе переписывания статьи в формат письма таблички были отброшены и в самой публикации вы их не увидите; покажу их вам на бутлегерских правах. На рис. 1 вы видите таблицу в том виде, в котором она была в черновике рукописи статьи. На рис. 2 вы видите мой вариант переверстки. Давайте пройдемся по тому, что я поменял и почему.
Субстантивно:
* Таблица содержит статистику ответов на один из вопросов анкеты (таких табличек в приложениях к статье было много). В шапку таблицы я добавил номер вопроса, чтобы было легче ориентироваться (Question 10).
* Добавил структуру в организацию строчек.
Глобально ответа всего два: либо программы скрининга нет и разговаривать не о чем, либо программа скрининга есть, и тут начинаются нюансы: на уровне федеральном или местном, бесплатно для пациента или же на возмездной основе. В изначальной таблице все эти ответы представлены как равноправные; в моей версии я попытался отразить их иерархию и структуру.
Что по деталям.
* Боковик (первый столбик) выровнял по левому краю.
* Прографку (содержимое таблички) выравнял по разрядам, чтобы числа было проще сравнивать.
* Курсивом выделил ключевые слова ответа. Первый уровень (да / нет) заверстал капсом (YES / NO).
* Поправил дефисы на короткие тире (вы все еще путаете типографские черточки? тогда мы идем к вам! про английскую типографику можно почитать здесь и вот тут).
* Убрал ненужные границы клеток.
Все манипуляции проводил в обычном MS Word.
#бэкстейдж #tables
👍4
Разговор про выбросы часто выглядит чрезвычайно куцо.
* "Выбросы — это точечки и звездочки на босксплоте."
* "Регрессия / t-тест плохо переваривают выбросы, поэтому их нужно удалять."
* "Если в данных есть выбросы, то нужно использовать непараметрику / ранговые подходы."
И прочее, и прочее.
Редко звучит мысль о том, что не надо просто так удалять выбросы, а стоит задуматься над тем, почему и откуда они взялись в ваших данных, являются ли они органичной частью даты или же это ошибки, хотим ли мы их моделировать, или для нас они экстраординарное явление, которое учитывать в нашей модели мы не хотим. Мысль, что для выбросов стоит предложить вероятностную модель и работать с ними в рамках нее, звучит еще реже.
Теперь слайды.
На Рис. 1 сверху представлена гистограмма некоторой величины X, жирной красной линией отмечено среднее, тоненькими +- SD. Снизу пририсован боксплот: он настолько вырожден, что видно только десять выбросов.
Если мы занимаемся физикой или биомедициной и это наши измерения, то вполне может быть так, что вот эти десять аутлайеров — это какая-то ерунда. Кабель плохо воткнули или при переносе данных кто-то опечатался нулем. В таком случае исключение этих аутлайеров — вполне логичный шаг, который даст нам картинку на Рис. 2.
Посмотрим на это с другой стороны: вы — бузинес, а X — это ваши продажи (отдельные чеки). Действуем так же, как и в прошлый раз, да ведь? Ну хз. На эти ~5% чеков в сумме приходится 60 миллионов выручки, в то время как остальные 200 чеков обеспечивают всего 20 миллионов. Случайность ли это? Или осознанная бизнес-модель, когда реальную выручку вам генерит всего пара крупных контрактов, а все остальное — это скорее маркетинг? Если последнее, то применение ранговых критериев и тем более исключение выбросов сыграет с вами злую шутку.
Наблюдения становятся для нас аутлайерами не потому, что какая-то статистическая процедура пометила их звездочкой. Как мы помним, любой статвывод делается в некоторой вероятностной модели. Поэтому было бы здорово, если бы аналитики явно описывали эту модель, а затем задумывались, подходит ли она под их ситуацию. Выбросами наблюдения становятся только в контексте, и что для одной задачи шум и data contamination, то для другой задачи — норма и совершенно ожидаемое наблюдение.
Больше про работу с выбросами можно узнать вот тут; советую прочитать хотя бы раздел 1.1, он хорошо описывает проблематику.
#statistics
* "Выбросы — это точечки и звездочки на босксплоте."
* "Регрессия / t-тест плохо переваривают выбросы, поэтому их нужно удалять."
* "Если в данных есть выбросы, то нужно использовать непараметрику / ранговые подходы."
И прочее, и прочее.
Редко звучит мысль о том, что не надо просто так удалять выбросы, а стоит задуматься над тем, почему и откуда они взялись в ваших данных, являются ли они органичной частью даты или же это ошибки, хотим ли мы их моделировать, или для нас они экстраординарное явление, которое учитывать в нашей модели мы не хотим. Мысль, что для выбросов стоит предложить вероятностную модель и работать с ними в рамках нее, звучит еще реже.
Теперь слайды.
На Рис. 1 сверху представлена гистограмма некоторой величины X, жирной красной линией отмечено среднее, тоненькими +- SD. Снизу пририсован боксплот: он настолько вырожден, что видно только десять выбросов.
Если мы занимаемся физикой или биомедициной и это наши измерения, то вполне может быть так, что вот эти десять аутлайеров — это какая-то ерунда. Кабель плохо воткнули или при переносе данных кто-то опечатался нулем. В таком случае исключение этих аутлайеров — вполне логичный шаг, который даст нам картинку на Рис. 2.
Посмотрим на это с другой стороны: вы — бузинес, а X — это ваши продажи (отдельные чеки). Действуем так же, как и в прошлый раз, да ведь? Ну хз. На эти ~5% чеков в сумме приходится 60 миллионов выручки, в то время как остальные 200 чеков обеспечивают всего 20 миллионов. Случайность ли это? Или осознанная бизнес-модель, когда реальную выручку вам генерит всего пара крупных контрактов, а все остальное — это скорее маркетинг? Если последнее, то применение ранговых критериев и тем более исключение выбросов сыграет с вами злую шутку.
Наблюдения становятся для нас аутлайерами не потому, что какая-то статистическая процедура пометила их звездочкой. Как мы помним, любой статвывод делается в некоторой вероятностной модели. Поэтому было бы здорово, если бы аналитики явно описывали эту модель, а затем задумывались, подходит ли она под их ситуацию. Выбросами наблюдения становятся только в контексте, и что для одной задачи шум и data contamination, то для другой задачи — норма и совершенно ожидаемое наблюдение.
Больше про работу с выбросами можно узнать вот тут; советую прочитать хотя бы раздел 1.1, он хорошо описывает проблематику.
#statistics
👍12🔥9❤4
Вот здесь человек наук хорошо описал, почему сделать грамотную иллюстрацию - это не просто три строчки из ггплота. Собственно, тот же Тафти не просто так ест свой хлеб и пишет книжки и научные статьи (у Тафти кстати в анамнезе матстат и эпидемиология). Похожие соображения касаются и таблиц.
По этой причине мне кажется очень полезным следить за тем, что пишут и говорят дизайнеры, верстальщики и редактора. Если хотя бы изредка применять на практике штуки, про которые пишут дизайнеры, то качество текстов вырастает на порядок, я гарантирую это.
#dataviz
По этой причине мне кажется очень полезным следить за тем, что пишут и говорят дизайнеры, верстальщики и редактора. Если хотя бы изредка применять на практике штуки, про которые пишут дизайнеры, то качество текстов вырастает на порядок, я гарантирую это.
#dataviz
👍5🔥1