душно про дату – Telegram
душно про дату
929 subscribers
23 photos
2 files
39 links
Матстат и около него. В интернете кто-то не прав.
Download Telegram
душно про дату
Подъехала запись стрима с Юрой Борзило. Штуки, которые упоминались: 1. Магистерская программа по теорверу и матстату, вот тут можете почитать учебный план. 2. ТГ-канал Института биоинформатики. Как раз заканчивается набор на полугодовую программу по биостату.…
Вышесказанное, в принципе, касается и академии в ее расширенном понимании. Шлак в книгах "статистика для биологов/лингвистов/врачей" тоже бывает, вплоть до полного непонимания метода, пример тут. Узкоспециальные для данной области приколы в наличии. Коллектив людей типа "был семестр матстата в унике" — дано по умолчанию. Поэтому подход с приглашением гостевого статистика, который будет ревьюить ваши подходы и коучить сотрудников вашей лабы тоже вполне себе работоспособен, со всеми плюшками в виде роста внутренней экспертизы вашей лабы в среднесрочной перспективе и скачкообразным ростом качества вашей работы практически с первых часов работы со статистиком. Пример такого сотрудничества обсуждали на стриме.

Видимо, #хозяйке_на_заметку
👍4🔥3
Понедельник день тяжёлый, поэтому несу вам два факта на порассуждать. Можете считать, что это статистические коаны.

1. У большинства людей количество конечностей выше среднего.

2. Большинство водителей утверждают, что они водят лучше среднего.

Почему первое - это просто факт, а второе нам продают как когнитивное искажение?
🔥10🤔3
Из комментариев, с привкусом дискретной математики и теории графов.
Forwarded from Evgeny Bakin
Вкину ещё теоремку из теории графов: Ваши сексуальные партнёры, скорее всего, имели в среднем больше сексуальных партнёров, чем Вы.
👍1
factor_analysis_slavenko.html
129.4 KB
Про факторный анализ

Отвечал на вопрос в личке, напишу и тут, очень коротко.

Надо различать анализ главных компонент (principal component analysis, PCA) и факторный анализ (factor analysis, FA). PCA иногда называют факторным анализом, особенно почему-то в социальных науках, но они совсем про разное. PCA вращает облако точек так, чтобы новые координаты были самыми подходящими в каком-то смысле. Факторный анализ же — это модель, которая пытается описать корреляции показателей с помощью латентных (скрытых) переменных.

PCA прост, как топор. ФА гораздо более красивая и сложная штука, и его надо уметь правильно готовить; просто насыпать дату в софт и получить решение можно, но с шансами это будет шляпа. Кроме того, ФА не имеет однозначного решения, его аутпут надо еще постобработать подходящим способом (выбор подходящей ротации). К сожалению, по моим ощущениям, людей, которые реально умеют работать с ФА, мало.

Про ФА есть симпатичная статья на вики.

Также прикладываю короткую презентацию-введение в суть ФА, которую когда-то готовил для семинара. Возможно, она кому-то сэкономит силы и время в попытках разобраться, что же такое этот ваш факторный анализ и как его приспособить в хозяйстве.

UPD: добавлю, что умение готовить FA в весомой степени лежит не в математике метода, а в понимании предметной области: чтобы применять факторный анализ как положено, вы должны очень хорошо понимать, какие такие скрытые переменные вы ищете и почему они должны быть в вашей дате.
17👍6
душно про дату
Понедельник день тяжёлый, поэтому несу вам два факта на порассуждать. Можете считать, что это статистические коаны. 1. У большинства людей количество конечностей выше среднего. 2. Большинство водителей утверждают, что они водят лучше среднего. Почему первое…
Давайте обсудим.

У большинства из нас две руки и две ноги, но есть не очень большой процент людей, у которых конечностей меньше. В итоге распределение случайной величины "количество конечностей у случайно выбранного человека" дискретно, сильно скошено, мода и медиана равны четырем, матожидание чуть меньше четырех. Почти у всех людей количество конечностей выше среднего, если считать, что под "средним" понимается матожидание. Если же считать, что под средним понимается медиана, то все равно выходит, что у подавляющего большинства медианное количество конечностей.

Факт, что большинство водителей считают, что они водят "лучше среднего" часто подают как пример когнитивных искажений: мол, очевидно, что большинство не может водить лучше среднего, duh. Как показывает пример с конечностями — не очевидно.
👍11🔥9🤔43😁2
Читал заметку про System Design (как проектировать большие программные комплексы: фейсбук, гуглопочта, твиттер и т.д.) и наткнулся на две интересные мысли.

Не только среднее
Свою лекцию про проверки на нормальность я начинал с небольшого экскурса в философию прикладной статистики: разделение научного вывода и статистического и всякое такое. В числе прочего я говорил, что выбор интересующего нас параметра (эстиманда) продиктован той предметной задачей, которую мы решаем, и приводил примеры из медицины и страхового дела. Вот вам еще один пример, что но матожиданием и медианой едиными:
For user-facing metrics like time per-request, you also need to watch the p95 and p99 (i.e. how slow your slowest requests are). Even one or two very slow requests are scary, because they’re disproportionately from your largest and most important users. If you’re just looking at averages, it’s easy to miss the fact that some users are finding your service unusable.


Рутинная статистика
Про работу системного архитектора автор пишет вот что:
The main point I’m trying to make is what I said at the start of this post: good system design is not about clever tricks, it’s about knowing how to use boring, well-tested components in the right place. I’m not a plumber, but I imagine good plumbing is similar: if you’re doing something too exciting, you’re probably going to end up with crap all over yourself. [...] There are very, very few areas where you want to do the kind of system design you could talk about at a conference. They do exist! I have seen hand-rolled data structures make features possible that wouldn’t have been possible otherwise. But I’ve only seen that happen once or twice in ten years. I see boring system design every single day.


Думаю, это очень классно описывает работу прикладного статистика: мы из готовых кусочков должны правильно собрать скучную, рабочую машинку. Никаких вау-эффектов у нас почти никогда не бывает: все наши инструменты почти всегда берутся из пыльных книжек, изданных в прошлом веке. Если в выбранном мною решении статистической задачи происходит какая-то феерия и убермодные пакеты с перьями и стразами, то я стараюсь притормозить и задаться библейским вопросом.

P.S.: Ух ты как вас много тут собралось! Рад всех видеть. Если хотите, расскажите в комментах, что вас привело в мой канал и как прошло ваше лето.
👍17🔥93
Обсервационные данные

На днях в биостатере расчехлили свои колоды таро статистические тесты в обсуждении смертей кандидатов AfD. В процессе обсуждения вспомнили про кейс Люсии де Берк (и по касательной от нее закон Медоу и историю Кэтлин Фолбигг, но это другая история). Один из участников обсуждения написал очень классное, хочу поделиться и с вами:
Буквально вчера на RSS Conference на одной из секций выступали статистики, привлеченные по этим процессам стороной защиты. В случае с детьми одним из важных заключений со стороны защиты было: реальное событие и регистрация этого события - разные вещи, а связь со сменами медсестры привязывалась именно к регистрации события.


Здесь хорошо видно, почему карта не есть местность, записи в базах данных страховых компаний и ЕМИАС не то чтобы обязаны соотносится с реальностью, особенно в условиях, когда медкарты пишутся для товарища майора. Также отсюда видно, что хрустальные технооптимистические мечты типа "нужно просто собрать БД пожирнее, а дальше искин нам решит все проблемы" тоже разбиваются о суровый гранит правила garbage in, garbage out и особенностей работы бюрократических систем.

Ну и в целом это камень в огород концепции "объективных данных, беспристрастно описывающих реальность", но об этом в другой раз.
👍121
Прервем молчание вот такой подборкой на почитать. На сам канал Максима тоже подписывайтесь, там редко (ещё реже, чем здесь), но метко.
Stat_Sem_Matvei_Slavenko.pdf
244 KB
Двухфазовые процедуры Штайна и sequential analysis

Тут в одном из чатиков речь зашла про адаптивные процедуры статвывода. В классике у нас есть какая-то выборка объемом N и мы на ее основе проводим тест или строим ДИ. В этом подходе мы можем контролировать вероятность ошибки первого рода (ложноположительно отвергнутые нулевые гипотезы и вероятность ненакрытия истинного значения параметра). Контролировать вероятность ошибки второго рода мы не можем; собственно, поэтому мы не можем принять нулевую гипотезу, только не отклонить; также это значит, что мы не можем контролировать ширину ДИ при заданной вероятности покрытия.

В классике с надстройкой мы можем сделать power analysis и рассчитать объем выборки заранее так, чтобы контролировать как вероятность ошибки первого рода, так и мощность нашей процедуры. На практике все не так просто, но это все равно развитие идеи.

Следующим шагом вперед становятся адаптивные дизайны и последовательные (sequential) процедуры. Их идея состоит в том, что мы по мере набора выборки смотрим на наши данные специальным хитровыдуманным образом так, чтобы иметь возможность продлить исследование, если, например, дисперсия оказалась выше, чем мы планировали; или наоборот, остановить исследование, если все и так уже понятно: тритмент супер-пупер эффективный или наоборот, фуфлыжный и ловить там нечего (futility).

Одним из первых шагов в сторону адаптивных дизайнов является процедура Штайна. Прикладываю к посту презенташку, которую я делал в свое время на семинар. Первая часть посвящена доказательству того, что и на елку влезть, и на автобусе покататься не выйдет: действительно, нельзя при конкретном N в общем случае построить ДИ (или провести тест), с заданной вероятностью покрытия и длиной.
Во второй части разибраются процедуры Штайна: двухшаговые процедуры, которые на основе пилотной + основной фаз позволяют контролировать и то, и другое.
Ну и само собой самое интересное — это библиография.

Инджой.
6🔥175👍3
С наступающим Новым годом!

У нас приятное с полезным: сегодня др канала и канун Нового года. Поэтому давайте прервем молчание и подведем итоги.

Мой уходящий 2025 был очень занятым. Это был первый год в статусе работающего на полную ставку, и работы было много и разной, порой даже слишком много. Часть этой работы оказалась марафонским забегом на долгую дистанцию, с таким я работать только учусь; иногда казалось, что это бочки Данаид и конца и края этой синей яме не будет, это было угнетающе. С другой стороны, работа принесла и свои плоды: сразу несколько проектов вышли на завершающие стадии. Статья, которую пилили полтора года, принята к публикации. Еще одна статья, которую пилю с 2022 года, наконец приняла форму финального манускрипта.

Это был первый год не в статусе студента. На самом деле, в моей голове я закрываю не 2025 год, а период с сентября 2024, когда у меня были госы и защита магистерской. Хотя я уже и не студент, получалось много учиться и соморазвиваться. Мне кажется, за эти полтора года я узнал много нового, научился куче вещей и вообще вырос над собой как понятие.

В новом году сосредоточусь на том, чтобы текучки было меньше и оставалось больше времени на вдумчивое чтение, изучение классных и интересных штук, а также отдых и пинание балды (не забывайте, что это — неотъемлемая часть исследований и обучения; без отдыха и ничегонеделания учиться получается плохо). А еще буду писать в канал почаще — идей-то много, но (удивительное рядом), складывать из букв тексты — это сложная работа.

Дорогие подписчики, желаю вам счастья, здоровья, удачи, успехов личных и профессиональных, а еще тепла и поддержки. Пусть новый год будет лучше и добрее. Спасибо вам, что приходите, читаете, делитесь с друзьями-коллегами и пишете комментарии. Меня так радует, что моя писанина привлекает чье-то внимание!

С праздником!
38🔥8👍2