душно про дату – Telegram
душно про дату
929 subscribers
23 photos
2 files
39 links
Матстат и около него. В интернете кто-то не прав.
Download Telegram
Про оформление отчетов

Меня тут студенты спрашивали про то, до какого знака округлять и как оформлять таблички и чиселка в тексте. Собрал сколько-то источников с пояснениями, выложу и сюда тоже (да, я помню, что обещал про проверки на нормальность, к середине января распинаю проекты, закончится семестр и сяду писать текст =).

Вообще, это не то чтобы какие-то устоявшиеся правила, это скорее вопрос дизайна, верстки, типографики и стандартов принятых в журнале. У физиков есть какие-то там свои конвенции, но попытка их применить в биомедицинском журнале достаточно часто вызывает непонимание рецензентов (например, у физиков принято среднее и sd округлять до разного количества знаков; биомедикам такое не заходит). Поэтому вместо жестких рекомендаций посоветую штуки, которые можно почитать, чтобы понять, чем руководствоваться при принятии решений (то есть, как можно уточнить правило "верстайте хорошо, а плохо не верстайте"). Начнем с двух статей; в обоих случаях советую почитать также статьи из библиографии, которые они упоминают.

1. Rudiments of Numeracy, Ehrenberg, 1977 — задает самую базовую рамку для верстки таблиц. Очень советую всем, хорошо написано, вынес оттуда много важного, а еще там очень красиво и минималистично. Рекомендасьон.
2. A Case for Simple Tables, Martin Koschat, 2005 — похожий текст, но поновее. На мой вкус, труба пониже, дым пожиже.

Из более объемных текстов можно посмотреть в сторону книжек Tufte; начните с The visual display of quantitative information, 2nd ed., 2007. Там про графики и иллюстрации вообще, но есть и про таблички. Автора люто-бешено котируют ребята из Бюро Горбунова и дизайнеры вообще.

Из более фастфудного: можно погулять по каналу и блогу Ильи Бирмана, он часто пишет про представление информации и таблички. В качестве стартовой точки можете взять вот этот список коротких видосиков с его курса про интерфейс и представление информации, минимум треть из них релевантна и для нас, пишущих и верстающих отчетики.

Есть специальный канал табличный дизайн, там прицельно про это пишут. У них же есть табличный курс, я фоново имею в плане на него сходить, когда будет время и настроение. Я про них писал в первом посте на канале.

Ну и можете погуглить всякие стайлгайды, госты и руководства для инженеров, физиков и верстальщиков, там наверняка этот вопрос будет освещен и нормирован.

А еще 31.12 активной жизни канала исполнился год. Ура и вау, то ли еще будет! 🙏

#dataviz #tables #writing
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥54
Про p-hacking

Несу вам отличный пост датаколады про p-hacking и не только. Ребята разбирают статью про ментовской беспредел полицейское насилие и что с ней может быть не так.
Первое предложение из поста:
A forthcoming paper in the Quarterly Journal of Economics (QJE), "A Cognitive View of Policing" (htm), reports results from a field experiment showing that teaching police officers to "consider different ways of interpreting situations they encounter" led to "reductions in use of force, [and] discretionary arrests" (abstract).


Вынесу еще мысль, которая мне понравилась:
This, obviously, is also defensible. 100s of choices are defensible. That's how p-hacking works. We cherry pick among defensible specifications. That's why good researchers with good intentions p-hack, it seems reasonable when you are doing it. I think these are excellent researchers with excellent intentions, and I think they p-hacked. I am not saying they are cheaters, I am saying they are human.


Читать вот здесь, тыц.

#statistics
🔥31👍1
душно про дату
Про оформление отчетов Меня тут студенты спрашивали про то, до какого знака округлять и как оформлять таблички и чиселка в тексте. Собрал сколько-то источников с пояснениями, выложу и сюда тоже (да, я помню, что обещал про проверки на нормальность, к середине…
Оформление отчетов. Единицы измерения

А вот тут можно почитать про то, как правильно на письме оформлять единицы измерения всех возможных вкусов и форм. Сам текст классный, список литературы тоже огонь. А еще в этой же серии Справочник есть другие статьи, достойные внимания: про кавычки, математические шрифты и скобки, например. Инджой.

#writing
👍32🔥1
Смотрите, какой предок хитмапа из 1994 года. Очень красиво и лаконично.

Из статьи Regression towards the mean, Bland and Altman.

#dataviz
🔥9👍2
Вдогонку из той же статьи комбо из рубрик Классики внятно пишут и Автор не тормоз, но медленный газ

1. Наконец-то внятная интерпретация того, что такое корреляция Пирсона. Само соотношение я видел 100500 раз, но до меня никогда не доходило, что именно оно значит (автор если что написал диплом про коэффициенты корреляции). Просто 🤯
Заметим, что d Коэна тоже лежат где-то рядышком.

2. Красивое типографическое. Смотрите, как интересно они верстают десятичные дроби: используют точку посередине строки, а не запятую или обычную точку.
🔥6👍3
Материалы по теорверу и матстату от одноименной кафедры матфиза Карлова университета

По просьбам трудящихся выкладываю список основных материалов от моей кафедры, по которым учился в том числе и я. Все материалы академичны и математичны, с определениями, теоремами и доказательствами, поэтому как вводные тексты для нематематиков, наверное, подойдут не очень. Напротив, люди с техническим бекграундом или каким-то опытом в матстате могут сильно продвинуться, опираясь на эти тексты.

Что важно: это не постоянные ссылки. Курсы живут и развиваются, расширяются, переписываются и редактируются, объединяются и разделяются. Поэтому если вас заинтересовал конкретный материал, лучше скачайте файлик. Если вдруг какая-то ссылка умерла, вы можете потыкать меня в личку или в комментарии и я попробую это дело поправить.
👍84
Математическая статистика, 1 / 2

Матстат 1. Текст логически делится на две части. Сначала идет небольшое повторение теорвера и введение в теорию матстата: что такое выборка, что такое параметр, что такое оценка параметра, какие бывают общие подходы к построению оценок параметров (методы моментов и максимального правдоподобия, эмпирические оценки), что такое гипотезы и какие есть подходы к их тестированию. Во второй части разбирают классические тесты для всяких разных сеттингов: одновыборочные, парные и двувыборочные Колмогоров-Смирнов, т-тест, Вилкоксон (очень советую подробно прочитать секцию 6.4, посвященную двувыборочному Вилкоксону, он же Манн-Уитни). Целая глава посвящена тестам для бинарных категориальных данных (это те, которые "да-нет"). Многовыборочные тесты (анова, таблицы сопряженности) тоже рассматриваются, но не настолько подробно.

Матстат 2. В два раза короче, чем матстат 1 и вольно развивает повествование, начатое в первой части матстата 1. Абстрактная теория матстата: теория несмещенных точечных оценок и их эффективность, граница Рао-Крамера и достаточные статистики. Теория максимального правдоподобия, профильное правдоподобие. Теория статистистических тестов, теорема Неймана-Пирсона, тесты на основе правдоподобия, в том числе тесты с мешающими параметрами.
🔥17
Математическая статистика, 2 / 2

Матстат 3. Обобщает, развивает и углубляет предыдущие два курса и наваливает нового материала. Повторение дельта-метода, углубление метода максимального правдоподобия (обычное, профильное, условное, маргинальное правдоподобия). Теория M- и Z-оценок (в том числе, как обобщение метода максимального правдоподобия, псевдо- и квазиправдоподобия). Квантильная регрессия. EM-алгоритм. Текст завершается короткой главкой про пропущенные наблюдения. В этом тексте хорошо расставлены ссылки на "настоящую литературу", всякие классические книжки.

Матстат 4. Раньше матстат 3 и матстат 4 были вместе одним предметом, потом их разделили. В этой части рассматриваем метод Монте-Карло, бутстреп (параметрический и непараметрический). Дальше в меню ядерные методы оценки плотности. Заканчивается все ядерной регрессией, включая оценку условной дисперсии.

Робастная статистика. Этот курс тоже отпочковался от совместного курса матстата 3+4. Весь текст посвящен выбросам и как работать с данными, которые их содержат, робастным оценкам и их свойствам. Я уже ссылался на него, когда писал про выбросы. Очень советую прочитать хотя бы секцию 1.1, чтобы иметь общее представление о выбросах и о том, с какой стороны к этому снаряду можно подходить.
🔥112👍2
Воспользуюсь служебным положением (привет-привет всем новеньким!) и позову вас на лекцию, которую завтра читает Женя Бакин. Это первая из трех лекций, попробуем с коллегами осветить и обсудить моменты в статистике, которые часто понимаются неправильно. Будут и ссылки на источники, которые можно использовать для самообразования или в спорах с рецензентами и коллегами. Я там тоже участвую на правах ветерана бурных обсуждений проверок на нормальность, но первые две лекции тоже классные.

Приходите, будем рады вас видеть!
17🔥13👍6
Про смещение и несмещенность

Вчера завершился первый цикл открытых лекций про статмифы. По следам дискуссии с коллегами зафиксирую наблюдения про очередную терминологическую путаницу.

Часть 1. Введение.

Итак, мы помним, что в процессе статвывода мы фокусируемся на некотором эстиманде или параметре распределения, который нас интересует. Эстиманд иногда еще называют истинным значением параметра в генеральной совокупности. Эстиманды могут быть разные: среднее/матожидание, медиана, дисперсия, отношение шансов и т. д.

Поскольку нам недоступна вся генеральная совокупность, значение эстиманда нам неизвестно, и мы делаем выборку, на основе которой пытаемся оценить значение эстиманда. Формула или процедура, которая на основе выборки производит оценку значения эстиманда, называется (точечным) эстиматором ([point] estimator), оценщиком или просто (точечной) оценкой. Результат такого расчета по-русски тоже называется (точечной) оценкой, а в английском для этого есть термин (point) estimate.

Например, я пронаблюдал три значения: 4, 8, 16. Если я хочу оценить матожидание (среднее) распределения из которого произошли наблюдения, я могу использовать формулу среднего арифметического — это мой эстиматор. Конкретный результат (4 + 8 + 16) / 3 = 9 1/3 — это точечная оценка матожидания.
👍117🔥5
Часть 2. Матстат и состоятельность оценок.

Интуитивно мы ожидаем, что чем больше объем выборки, тем ближе должна быть оценка к истинному значению эстиманда. Собственно, именно это и делает оценку оценкой, а не просто вумной формулой. Это ключевое архиважное свойство эстиматора — с увеличением выборки производить оценки, которые стремятся к эстиманду — называется состоятельность (или консистентность, consistency). Состоятельность оценки не является самоочевидной и должна доказываться математически.

Если это свойство не выполняется, мы говорим, что эстиматор несостоятелен (inconsistent). Несостоятельные эстиматоры на практике бессмысленны: они не оценивают интересующий нас эстиманд, неважно, насколько большую выборку мы возьмем.
👍86🔥4
Часть 3. Матстат и несмещенные оценки.

Заметим также, что поскольку на вход эстиматору подается случайная выборка (т. е. случайные величины), посчитанная точечная оценка тоже является случайной величиной (на другой выборке она была бы другой). Это значит, что для нашей оценки имеет смысл разговаривать, например, о ее матожидании. Более того, было бы здорово, если бы матожидание оценки было равно эстиманду. Такое свойство называется несмещенностью точечной оценки (unbiased estimators). Несмещенность оценки можно интерпретировать как то, что, в среднем, мы находимся около истинного значения эстиманда; эстиматор не привносит систематических искажений.

Существует целое ответвление статистики, которое занимается исключительно несмещенными оценками и их свойствами. Эстиматоры, которые не выполняют свойство несмещенности, в рамках этой области называют "не несмещенными" (not unbiased) или просто говорят о смещенных оценках / эстиматорах (biased estimators). Также в рамках этой области говорят о "смещении эстиматора" (estimator's bias): разности между матожиданием оценки и истинным значением эстиманда. Смещение может стремиться к нулю при растущей выборке (тогда мы говорим про асимптотически несмещенные эстиматоры), а может и нет.

Важно понимать, что свойство несмещенности (в том смысле, который я описал выше) является милым, но вторичным. Могут быть оценки несмещенные, но при этом несостоятельные: на практике они бессмысленны. Напротив, смещенная (в смысле, который я привел выше), но состоятельная оценка практически осмысленна и некоторые эстиматоры, которые мы применяем на практике, именно такие. Бывают даже состоятельные эстиматоры, которые при этом не являются несмещенными даже асимптотически (т.е. оценка сходится к эстиманду, а ее матожидание нет, ха!).
12👍5🔥4
Подведем промежуточный итог. В генеральной совокупности у нас есть эстиманд, который мы ощупываем на основе выборки с помощью эстиматора. Ключевое свойство эстиматора — состоятельность: при увеличении объема выборки состоятельные эстиматоры выдают оценки, которые приближаются к эстиманду. Без этого свойства машинка не едет, можно расходиться.
Второе свойство, милое, но не необходимое — это несмещенность эстиматора.
(Не)состоятельность и (не)смещенность эстиматора могут комбинироваться в любых сочетаниях.
8👍6🔥3
Часть 4. Смещения и байасы в эпидемиологии и биомедицине.

Проблемы начинаются, когда матстат сталкивается с биомедом. Вы все наверняка слышали про смещение оценок (bias), которое сильно не нравится людям в биомеде. Про то, что конфаундинг (спутывающие факторы) может смещать наши оценки, делая их biased. Про смещенные выборки и прочее такое. И что это плохо, потому что никакие большие выборки от этого не спасают и не лечат его, буууууу!

Подстава в том, что люди в эпидемиологии и биомеде называют байасом не то, что под этим понимают статистики. То, что медики и эпидемиологи называют смещенными / байаснутыми оценками, в классической статистике называют несостоятельностью.

Дайте этой мысли настояться, оцените ее иронию.

Чтобы совсем всех запутать, состоятельность и несмещенность может быть не только у точечных эстиматоров, но еще и статистических тестов, например. А еще доверительные интервалы тоже могут быть (не)состоятельными. Но это совсем другая история.
14🔥6👍3
Про неопределенность (1/4)

Наткнулся на вот такую презентацию, там много разного красивого, есть над чем подумать, рекомендасьон. Тем не менее, сам материал будет читаться легче, если мы проведем в своей голове разницу между неопределенностями алеаторной и эпистемической. Если понять эту разницу, то сразу исчезнет путаница между доверительным и предсказательным интервалами, а также стандартной ошибкой и стандартным отклонением.

Слайд номер 48: на картинке зелеными точечками изображены сами измерения (видимо, это jitter plot), а также среднее и пачка разных интервалов. Давайте посмотрим на них поближе.
🔥53👍1
🔥63👍2
Про неопределенность (2/4). Эпистемическая неопределенность.

Начнем с доверительных интервалов. Мы помним, что статистика — это инструмент индуктивного вывода: имея на руках выборку, мы пытаемся что-то сказать о параметре в генеральной совокупности, которая нам недоступна целиком. Соответственно, с процессом статистического вывода и формирования представлений о параметре сопряжена некоторая неопределенность.

Пример: представим, что нас интересует среднее (наш эстиманд) в генеральной совокупности; вся ГС нам недоступна, поэтому мы набираем выборку, считаем среднее арифметическое (наш эстиматор) и ДИ к нему. Огрубляя, ширину ДИ можно рассматривать как погрешность сложного многосоставного
процесса измерения средней в ГС.

Интуитивно понятно, что чем шире ДИ, тем больше неопределенность нашего вывода (= выше погрешность). Тем не менее, если мы будем увеличивать объем выборки, интервалы будут сужаться, стремясь схлопнуться в точку. То есть, набирая больше данных, мы снижаем неопределенность. Таким образом, в этом примере речь идет о неопределенности, которая связана с нашим недостатком знаний об изучаемом параметре, и эта неопределенность уменьшается при увеличении выборки (= получении дополнительной информации), поэтому такая неопределенность называется эпистемической (ну или неопределенностью, связанной со статвыводом).

Доверительные интервалы (и их ширина), а также стандартная ошибка (SE) описывают как раз эпистемическую неопределенность (заметим, что в большинстве случаев ширина ДИ — это SE, умноженная на некоторую константу).
🔥8👍42
Про неопределенности (3/4). Алеаторная неопределенность.

Теперь задумаемся: как себя ведет SD при увеличении объема выборки? Нетрудно заметить, что с увеличением выборки (при некоторых технических допущениях, которые нас сейчас не очень волнуют) SD сходится к конкретному числу: стандартному отклонению в генеральной совокупности. То есть, ширина интервала mean +- SD не сходится к нулю. Заметим также, что теорема Чебышёва нам гарантирует, что в интервал типа mean +- 2*SD измерения попадают с вероятностью 75%. Иными словами, каждое следующее измерение с вероятностью 75% попадет в такой интервал. То есть такой интервал не описывает среднее или наши представления о нем, он описывает поведение членов генеральной совокупности, или в некотором смысле предсказывает их поведение.

Просуммируем: интервалы типа mean +- SD не схлапываются в точку с ростом выборки (т.е. мы не можем избавиться от этой неопределенности увеличивая объем выборки, получая информацию из новых наблюдений). Такой тип неопределенности называется алеаторная или предсказательная неопределенность.

Название происходит от латинского alea — азартные игры. Действительно, бросая игральную кость вновь и вновь, вы не приближаетесь к тому, чтобы предсказать сколько очков выпадет в следующем раунде. Эта неопределенность не происходит из вашего незнания о поведении кости, а является неотъемлемым свойством игральной кости.
🔥9👍21
Про неопределенность (4/4). Итого.

1. Есть эпистемическая неопределенность, которая связана с попыткой сказать что-то о параметере распределения и происходит из ограниченности нашего знания. Эпистемическая неопределенность описывается с помощью SE или ДИ и уменьшается с ростом выборки.

2. Алеаторная неопределенность является органичным свойством генеральной совокупности (или, шире, механизма производства данных), описывает вариабельность или изменчивость поведения отдельных элементов ГС и не уменьшается с простым увеличением объема выборки. Описывается с помощью SD, дисперсии или, например, IQR.

3. Отображать неопределенность на графиках и репортировать в тексте — это отличная идея, так и надо.

4. Важно однако правильно выбирать тип неопределенности, который вы хотите репортировать: алеаторный или эпистемический, и подбирать соответствующие инструменты.
Обычно в Таблице 1 и секции с описанием данных имеет смысл репортировать алеаторную неопределенность, поэтому мы там видим боксплоты, SD, IQR.
В части, посвященной статвыводу, важно репортировать неопределенность этого статвывода, поэтому там мы часто видим ДИ и, опционально SE для наших оценок.
🔥16👍51