Ebm_base – Telegram
Ebm_base
3.73K subscribers
507 photos
11 videos
27 files
254 links
Альтернативное, дополнительное, неэкологичное пространство для рассказов о доказательной медицине, статистике, эпидемиологии и прочим ужасам 👀

Клоун, автор и организатор журнального клуба @Nik_Burlov

База: https://instagram.com/ebm_base
Download Telegram
Эт прям хорошо 😂😂😂 я столкнулся с этим спустя лишь 4 года после начала погружения в статистику (видимо они были не очень продуктивными)
Forwarded from Борзило (Юрий Борзило)
😁19
Недавно с Лешей Титовым (да-да, тот самый) обсуждали параметрические и непараметрические тесты для 2-х выборок. И несколько сообщений спустя это привело с симуляциям. И некоторым интересным наблюдениям.

Начнем!

Первая симуляция (А)

1. Создаются 2 выборки по 100 наблюдений, каждая из нормального распределения с характеристиками (mean = 1, sd = 1). Т.е. в них верна нулевая гипотеза (Н0) о равенстве средних (mean1 = mean2) и такая же гипотеза о равенстве рангов
2. Из каждой берем случаный значения с повторами (бутстреп-выборки), рассчитываем на ней значение р для t-теста (параметрический) и теста Mann-Whitney (непараметрический)
3. суммируем сколько раз получили отклонений Н0
4. Повторяем 50 раз

Что видим? В целом ни по одному из тестов не отмечается сильного отклонения от уровня в 5% (размер ощибки 1 рода). Но это логично)

Вторая симуляция (В)

1. Те же 2 выборки по 100 наблюдений, но теперь постепенно увеличиваемся разницу между средними в популяции. А значит при MD = 0 Н0 еще верна, а дальше не верна.
2-4 так же

Что видим? Тут получается мы наблюдаем как меняется мощность каждого теста. И что интересно, она растет одинаково у каждого из них.

Можно сделать первое предположении на основе симуляций.
При нормальном распределении данных в популяции (также одинаковой дисперсии и отсутсвии проблем в выборочных данных) независимо от верности Н0 оба теста имеют схожие характеристики.
6👍2
А теперь начнем вносить изменения.

Первое, что я попробовал, это случаной вносить выбросы в обе группы (увеличивается случайное значение в 3 раза), количество этих выбросов увеличивается от 1% до 50% (правда если их 50% можно ли это считать еще выбросами)

На графике А. Н0 остается верной (mean1 = mean2). Как видим t-тест остается достаточно устойчивым, т.е. несильно увеличивается количество false-positive. А MW наиборот начинает чаще отклонять, но к 40-50% выбросам словно возвращается (но это к вопросу выборки с 50% «выбросов»)

График В. Я решил добавлять лишь 2% выбросов с такой же силой как выше (в 3 раза). Наверное так бывает не всегда, но я надеюсь, что более сильные выбросы или более частые исследователям получается идентифицировать и исправить (ведь так?). Так. В итоге намечается небольшой рост мощности MW, но глобально они пока до сих пор похожи.

Предположение. Случайные выбросы в обоих группах при верной Н0 не являются противопоказанием к применению t-теста, если сравниваем средние. А при неверной Н0 характеристики тестов схожие.
а тут творится… веселуха))

Здесь я сотворил какой-то абсурд (на мой взгляд) 😁

График А. 2 выборки идентичны, но в одну вносятся выбросы с силой 3 и их количество увеличивается как в предыдущей. И… это создает логичную, но мутную ситуацию. Видимо в какой-то момент (около 10% выбросов) Н0 перестает быть верной в изначальном условии (или не перестает, а мешают смоделированные кривые руки), поэтому оба теста начинают ее отклонять все сильнее. На 40% отклонений скорее всего это уже две разные выборки.
Здесь интересное наблюдение, что MW начинает находить этот абсурд раньше, чем t-тест (или слишком рано). В общем есть еще над чем поиграть подумать.

График В. К абсурду с выбросами в одной выборке добавляется, что Н0 точно не верна. Тут опять MW показывает тенеденцию чуть лучше отклонять Н0, но не критично.

Предположение. Надо знакомиться с данными до использования тестов, вдруг найдете криворукие выбросы, которые вам сильно сместили среднее в одной группе.
👍42
а здесь все те же самые симуляции, как и описанные прежде, но с одним изменением!

Тут данные взяты из популяции с экспоненциальным распределением признака, т.е. распределение не соответсвует нормальному.

И тут уже на 1 и 2 рисунке можно увидеть новый интересный момент.
MW чаще отклоняет Н0 (Expected value1 = Expected value2), которая верна. Но зато быстрее обнаруживает ситуации, когда она неверна.
И случайные выбросы в двух выборках эту картину не меняют.

А вот на 3 рисунке мы четко начинаем видеть, что MW начинает лучше видеть разницу. Особенно на графике A. Где граница уже «неверности» Н0 из-за выбросов в одной группе? Не находит ли он различия слишком рано? Или мб t-тест находит слишком поздно?

В общем вопросов прибавилось))

Но! Важный поинт: даже при распределении, не соответсвующем нормальному, t-тест остается достаточно устойчивым при верной Н0, но слабее в сравнении с MW при неверной Н0.
А в каком мире живем на самом деле, мы не знаем 🤷‍♂️

Надеюсь это поможет понять, что «простые» статистические тесты не так просты, как кажутся

А вообще надо изучать свои данные (EDA), изучать предположения о данных в популяции (распределение, механизм генерации), проверять на ошибки, формулировать гипотезы заранее и подбирать тесты с учетом всех вышеизложенных факторов

А не потому что на схемке нарисована стрелочка.
👍2
Это, конечно, не идеальные симуляции (в дипломе и в должности откуда-то же «хирург» написано). Но это попытки поизучать даже такие «простые» вещи глубже, чем пишут в книгах или рассказывают на курсах. А там пишут в некоторых не совсем корректные вещи (а ведь с этих книг другие начинают изучать статистику)
Симуляция симуляции рознь 🫠

Матвей в коментариях предложил, что вместо бутстреп генерации выборок, можно использовать метод Монте-Карло (ведь я сам задаю параметры популяции и верность гипотез)

Ну и я по-быстрому повторил для экспоненциального распределения симуляцию, где увеличивается разница мат.ожиданий, т.е. Н0 неверна

И получил картину наоборот 🤔 Теперь t-тест даже при распределении, не соответствующему нормальному, ловит лучше

Чему верить? А фиг его знает теперь 😅
Мне видимо не надо верить 🥲

Матвей и другие коллеги, ваше мнение как никогда важно!)
2🥰2
условия одинаковые (экспоненциальное распределение в популяции). Разница в методе сэмплинга (подписаны)

Забавно… Я себе не доверяю, поэтому думаю, что я где-то скриворучил (скорее всего в бустрепе MW) и поэтому выдает такую штуку

Если я действительно ошибся в нем… То и в остальных симуляциях значит тоже 😐🔫

В общем, как я и говорил, не верьте мне… Буду перепроверять и разбираться…
Похоже реально где-то в бутстрепе MW дело
Вот на МС вообще другие результаты
1. Выбросы в 10 раз в каждую выборку (по Х частота выбросов)
2. Выборсы в 1,5 раза только в одну выборку

Распределение экспоненциальное, размер выборок увеличил до 1000
Если вы все это осилили прочитать и не потерять голову, то можно было заметить пару вещей

- Ошибаться и признавать это, не стыдно и даже можно публично
- В статистике много нюансов (даже в проверке "простых" тестов)
- Не нужно верить первому же сообщению, надо сомневаться и перепроверять (других и даже самого себя)

P.S. смешно как сразу человек 10 отвалилось от канала
14🤝7🔥2
Я как-то уже выкладывал это сообщением, но думаю можно повторить снова

Мои ресурсы:

Ютуб-канал журнального клуба (там в основном некоторые лекции и открытые заседания)

https://youtube.com/@journalclubebm_base2526

Чат-флудилка блога в ТГ (не знаю кому он может понадобиться, но вдруг кто-то очень хочет общаться со мной в беседе 🤷‍♂)

https://news.1rj.ru/str/+zM0W7uxBpcA1MmVi

Основной канал (там все от самых основ, площадка признана сами знаете чем)
https://instagram.com/ebm_base

Группа ВК журнального клуба (там сейчас новый админ и возрождение группы, пытаемся сделать интересно и вспомнить базу)

https://vk.com/jcmma

В общем, welcome (да, я занимаюсь переносом/переходом аудитории и мне не стыдно)
11👍1
Походу я что-то делают не так, раз за 5 лет, так и не научился читать исследования без сомнений
😁23🫡2👍1
А вам слабо стать таким гением за 18 часов? 😶