Ebm_base
Поступают вопросы «Когда уже со мной свяжутся?! Вдруг меня потеряют?» Отвечаю: 1) Если до вас дошло письмо, то значит связь с вами есть (вас не потеряют + вы указывали другие контакты) 2) У нас не огромная компания/коллектив, чтобы делать все в один день (а…
С вами начали связываться, кто прошел в 3 этап
Ищите на почте, в соц сетях и других контактах, которые вы указывали
Ищите на почте, в соц сетях и других контактах, которые вы указывали
🔥5❤2
Эт прям хорошо 😂😂😂 я столкнулся с этим спустя лишь 4 года после начала погружения в статистику (видимо они были не очень продуктивными)
Недавно с Лешей Титовым (да-да, тот самый) обсуждали параметрические и непараметрические тесты для 2-х выборок. И несколько сообщений спустя это привело с симуляциям. И некоторым интересным наблюдениям.
Начнем!
Первая симуляция (А)
1. Создаются 2 выборки по 100 наблюдений, каждая из нормального распределения с характеристиками (mean = 1, sd = 1). Т.е. в них верна нулевая гипотеза (Н0) о равенстве средних (mean1 = mean2) и такая же гипотеза о равенстве рангов
2. Из каждой берем случаный значения с повторами (бутстреп-выборки), рассчитываем на ней значение р для t-теста (параметрический) и теста Mann-Whitney (непараметрический)
3. суммируем сколько раз получили отклонений Н0
4. Повторяем 50 раз
Что видим? В целом ни по одному из тестов не отмечается сильного отклонения от уровня в 5% (размер ощибки 1 рода). Но это логично)
Вторая симуляция (В)
1. Те же 2 выборки по 100 наблюдений, но теперь постепенно увеличиваемся разницу между средними в популяции. А значит при MD = 0 Н0 еще верна, а дальше не верна.
2-4 так же
Что видим? Тут получается мы наблюдаем как меняется мощность каждого теста. И что интересно, она растет одинаково у каждого из них.
Можно сделать первое предположении на основе симуляций.
При нормальном распределении данных в популяции (также одинаковой дисперсии и отсутсвии проблем в выборочных данных) независимо от верности Н0 оба теста имеют схожие характеристики.
Начнем!
Первая симуляция (А)
1. Создаются 2 выборки по 100 наблюдений, каждая из нормального распределения с характеристиками (mean = 1, sd = 1). Т.е. в них верна нулевая гипотеза (Н0) о равенстве средних (mean1 = mean2) и такая же гипотеза о равенстве рангов
2. Из каждой берем случаный значения с повторами (бутстреп-выборки), рассчитываем на ней значение р для t-теста (параметрический) и теста Mann-Whitney (непараметрический)
3. суммируем сколько раз получили отклонений Н0
4. Повторяем 50 раз
Что видим? В целом ни по одному из тестов не отмечается сильного отклонения от уровня в 5% (размер ощибки 1 рода). Но это логично)
Вторая симуляция (В)
1. Те же 2 выборки по 100 наблюдений, но теперь постепенно увеличиваемся разницу между средними в популяции. А значит при MD = 0 Н0 еще верна, а дальше не верна.
2-4 так же
Что видим? Тут получается мы наблюдаем как меняется мощность каждого теста. И что интересно, она растет одинаково у каждого из них.
Можно сделать первое предположении на основе симуляций.
При нормальном распределении данных в популяции (также одинаковой дисперсии и отсутсвии проблем в выборочных данных) независимо от верности Н0 оба теста имеют схожие характеристики.
❤6👍2
А теперь начнем вносить изменения.
Первое, что я попробовал, это случаной вносить выбросы в обе группы (увеличивается случайное значение в 3 раза), количество этих выбросов увеличивается от 1% до 50% (правда если их 50% можно ли это считать еще выбросами)
На графике А. Н0 остается верной (mean1 = mean2). Как видим t-тест остается достаточно устойчивым, т.е. несильно увеличивается количество false-positive. А MW наиборот начинает чаще отклонять, но к 40-50% выбросам словно возвращается (но это к вопросу выборки с 50% «выбросов»)
График В. Я решил добавлять лишь 2% выбросов с такой же силой как выше (в 3 раза). Наверное так бывает не всегда, но я надеюсь, что более сильные выбросы или более частые исследователям получается идентифицировать и исправить (ведь так?). Так. В итоге намечается небольшой рост мощности MW, но глобально они пока до сих пор похожи.
Предположение. Случайные выбросы в обоих группах при верной Н0 не являются противопоказанием к применению t-теста, если сравниваем средние. А при неверной Н0 характеристики тестов схожие.
Первое, что я попробовал, это случаной вносить выбросы в обе группы (увеличивается случайное значение в 3 раза), количество этих выбросов увеличивается от 1% до 50% (правда если их 50% можно ли это считать еще выбросами)
На графике А. Н0 остается верной (mean1 = mean2). Как видим t-тест остается достаточно устойчивым, т.е. несильно увеличивается количество false-positive. А MW наиборот начинает чаще отклонять, но к 40-50% выбросам словно возвращается (но это к вопросу выборки с 50% «выбросов»)
График В. Я решил добавлять лишь 2% выбросов с такой же силой как выше (в 3 раза). Наверное так бывает не всегда, но я надеюсь, что более сильные выбросы или более частые исследователям получается идентифицировать и исправить (ведь так?). Так. В итоге намечается небольшой рост мощности MW, но глобально они пока до сих пор похожи.
Предположение. Случайные выбросы в обоих группах при верной Н0 не являются противопоказанием к применению t-теста, если сравниваем средние. А при неверной Н0 характеристики тестов схожие.
а тут творится… веселуха))
Здесь я сотворил какой-то абсурд (на мой взгляд) 😁
График А. 2 выборки идентичны, но в одну вносятся выбросы с силой 3 и их количество увеличивается как в предыдущей. И… это создает логичную, но мутную ситуацию. Видимо в какой-то момент (около 10% выбросов) Н0 перестает быть верной в изначальном условии (или не перестает, а мешают смоделированные кривые руки), поэтому оба теста начинают ее отклонять все сильнее. На 40% отклонений скорее всего это уже две разные выборки.
Здесь интересное наблюдение, что MW начинает находить этот абсурд раньше, чем t-тест (или слишком рано). В общем есть еще над чемпоиграть подумать.
График В. К абсурду с выбросами в одной выборке добавляется, что Н0 точно не верна. Тут опять MW показывает тенеденцию чуть лучше отклонять Н0, но не критично.
Предположение. Надо знакомиться с данными до использования тестов, вдруг найдете криворукие выбросы, которые вам сильно сместили среднее в одной группе.
Здесь я сотворил какой-то абсурд (на мой взгляд) 😁
График А. 2 выборки идентичны, но в одну вносятся выбросы с силой 3 и их количество увеличивается как в предыдущей. И… это создает логичную, но мутную ситуацию. Видимо в какой-то момент (около 10% выбросов) Н0 перестает быть верной в изначальном условии (или не перестает, а мешают смоделированные кривые руки), поэтому оба теста начинают ее отклонять все сильнее. На 40% отклонений скорее всего это уже две разные выборки.
Здесь интересное наблюдение, что MW начинает находить этот абсурд раньше, чем t-тест (или слишком рано). В общем есть еще над чем
График В. К абсурду с выбросами в одной выборке добавляется, что Н0 точно не верна. Тут опять MW показывает тенеденцию чуть лучше отклонять Н0, но не критично.
Предположение. Надо знакомиться с данными до использования тестов, вдруг найдете криворукие выбросы, которые вам сильно сместили среднее в одной группе.
👍4❤2
а здесь все те же самые симуляции, как и описанные прежде, но с одним изменением!
Тут данные взяты из популяции с экспоненциальным распределением признака, т.е. распределение не соответсвует нормальному.
И тут уже на 1 и 2 рисунке можно увидеть новый интересный момент.
MW чаще отклоняет Н0 (Expected value1 = Expected value2), которая верна. Но зато быстрее обнаруживает ситуации, когда она неверна.
И случайные выбросы в двух выборках эту картину не меняют.
А вот на 3 рисунке мы четко начинаем видеть, что MW начинает лучше видеть разницу. Особенно на графике A. Где граница уже «неверности» Н0 из-за выбросов в одной группе? Не находит ли он различия слишком рано? Или мб t-тест находит слишком поздно?
В общем вопросов прибавилось))
Но! Важный поинт: даже при распределении, не соответсвующем нормальному, t-тест остается достаточно устойчивым при верной Н0, но слабее в сравнении с MW при неверной Н0.
А в каком мире живем на самом деле, мы не знаем 🤷♂️
Надеюсь это поможет понять, что «простые» статистические тесты не так просты, как кажутся
А вообще надо изучать свои данные (EDA), изучать предположения о данных в популяции (распределение, механизм генерации), проверять на ошибки, формулировать гипотезы заранее и подбирать тесты с учетом всех вышеизложенных факторов
А не потому что на схемке нарисована стрелочка.
Тут данные взяты из популяции с экспоненциальным распределением признака, т.е. распределение не соответсвует нормальному.
И тут уже на 1 и 2 рисунке можно увидеть новый интересный момент.
MW чаще отклоняет Н0 (Expected value1 = Expected value2), которая верна. Но зато быстрее обнаруживает ситуации, когда она неверна.
И случайные выбросы в двух выборках эту картину не меняют.
А вот на 3 рисунке мы четко начинаем видеть, что MW начинает лучше видеть разницу. Особенно на графике A. Где граница уже «неверности» Н0 из-за выбросов в одной группе? Не находит ли он различия слишком рано? Или мб t-тест находит слишком поздно?
В общем вопросов прибавилось))
Но! Важный поинт: даже при распределении, не соответсвующем нормальному, t-тест остается достаточно устойчивым при верной Н0, но слабее в сравнении с MW при неверной Н0.
А в каком мире живем на самом деле, мы не знаем 🤷♂️
Надеюсь это поможет понять, что «простые» статистические тесты не так просты, как кажутся
А вообще надо изучать свои данные (EDA), изучать предположения о данных в популяции (распределение, механизм генерации), проверять на ошибки, формулировать гипотезы заранее и подбирать тесты с учетом всех вышеизложенных факторов
А не потому что на схемке нарисована стрелочка.
👍2
Это, конечно, не идеальные симуляции (в дипломе и в должности откуда-то же «хирург» написано). Но это попытки поизучать даже такие «простые» вещи глубже, чем пишут в книгах или рассказывают на курсах. А там пишут в некоторых не совсем корректные вещи (а ведь с этих книг другие начинают изучать статистику)
Симуляция симуляции рознь 🫠
Матвей в коментариях предложил, что вместо бутстреп генерации выборок, можно использовать метод Монте-Карло (ведь я сам задаю параметры популяции и верность гипотез)
Ну и я по-быстрому повторил для экспоненциального распределения симуляцию, где увеличивается разница мат.ожиданий, т.е. Н0 неверна
И получил картину наоборот 🤔 Теперь t-тест даже при распределении, не соответствующему нормальному, ловит лучше
Чему верить? А фиг его знает теперь 😅
Мне видимо не надо верить 🥲
Матвей и другие коллеги, ваше мнение как никогда важно!)
Матвей в коментариях предложил, что вместо бутстреп генерации выборок, можно использовать метод Монте-Карло (ведь я сам задаю параметры популяции и верность гипотез)
Ну и я по-быстрому повторил для экспоненциального распределения симуляцию, где увеличивается разница мат.ожиданий, т.е. Н0 неверна
И получил картину наоборот 🤔 Теперь t-тест даже при распределении, не соответствующему нормальному, ловит лучше
Чему верить? А фиг его знает теперь 😅
Мне видимо не надо верить 🥲
Матвей и другие коллеги, ваше мнение как никогда важно!)
❤2🥰2
условия одинаковые (экспоненциальное распределение в популяции). Разница в методе сэмплинга (подписаны)
Забавно… Я себе не доверяю, поэтому думаю, что я где-то скриворучил (скорее всего в бустрепе MW) и поэтому выдает такую штуку
Если я действительно ошибся в нем… То и в остальных симуляциях значит тоже 😐🔫
В общем, как я и говорил, не верьте мне… Буду перепроверять и разбираться…
Забавно… Я себе не доверяю, поэтому думаю, что я где-то скриворучил (скорее всего в бустрепе MW) и поэтому выдает такую штуку
Если я действительно ошибся в нем… То и в остальных симуляциях значит тоже 😐🔫
В общем, как я и говорил, не верьте мне… Буду перепроверять и разбираться…
Похоже реально где-то в бутстрепе MW дело
Вот на МС вообще другие результаты
1. Выбросы в 10 раз в каждую выборку (по Х частота выбросов)
2. Выборсы в 1,5 раза только в одну выборку
Распределение экспоненциальное, размер выборок увеличил до 1000
Вот на МС вообще другие результаты
1. Выбросы в 10 раз в каждую выборку (по Х частота выбросов)
2. Выборсы в 1,5 раза только в одну выборку
Распределение экспоненциальное, размер выборок увеличил до 1000
Если вы все это осилили прочитать и не потерять голову, то можно было заметить пару вещей
- Ошибаться и признавать это, не стыдно и даже можно публично
- В статистике много нюансов (даже в проверке "простых" тестов)
- Не нужно верить первому же сообщению, надо сомневаться и перепроверять (других и даже самого себя)
P.S. смешно как сразу человек 10 отвалилось от канала
- Ошибаться и признавать это, не стыдно и даже можно публично
- В статистике много нюансов (даже в проверке "простых" тестов)
- Не нужно верить первому же сообщению, надо сомневаться и перепроверять (других и даже самого себя)
P.S. смешно как сразу человек 10 отвалилось от канала
❤14🤝7🔥2
Я как-то уже выкладывал это сообщением, но думаю можно повторить снова
Мои ресурсы:
Ютуб-канал журнального клуба (там в основном некоторые лекции и открытые заседания)
https://youtube.com/@journalclubebm_base2526
Чат-флудилка блога в ТГ (не знаю кому он может понадобиться, но вдруг кто-то очень хочет общаться со мной в беседе 🤷♂)
https://news.1rj.ru/str/+zM0W7uxBpcA1MmVi
Основной канал (там все от самых основ, площадка признана сами знаете чем)
https://instagram.com/ebm_base
Группа ВК журнального клуба (там сейчас новый админ и возрождение группы, пытаемся сделать интересно и вспомнить базу)
https://vk.com/jcmma
В общем, welcome (да, я занимаюсь переносом/переходом аудитории и мне не стыдно)
Мои ресурсы:
Ютуб-канал журнального клуба (там в основном некоторые лекции и открытые заседания)
https://youtube.com/@journalclubebm_base2526
Чат-флудилка блога в ТГ (не знаю кому он может понадобиться, но вдруг кто-то очень хочет общаться со мной в беседе 🤷♂)
https://news.1rj.ru/str/+zM0W7uxBpcA1MmVi
Основной канал (там все от самых основ, площадка признана сами знаете чем)
https://instagram.com/ebm_base
Группа ВК журнального клуба (там сейчас новый админ и возрождение группы, пытаемся сделать интересно и вспомнить базу)
https://vk.com/jcmma
В общем, welcome (да, я занимаюсь переносом/переходом аудитории и мне не стыдно)
YouTube
Journal club Ebm_base
Канал журнального клуба "Base of evidence-based medicine", на котором можно найти открытые заседания, лекции, стримы и многое другое, что происходит в жизни нашего клуба!
❤11👍1