Декомпозиция эргодичности Ч. 1: Определение эргодичности
Из всех щелей, из которых торчат уши парадокса Симпсона, ecological fallacy и лонгитудных исследований, в продуктовый дискурс проникает понятие эргодичности
Кто-то считает это явление полезной ментальный моделью – с чем мне трудно не согласиться, кто-то призывает перестраивать структуру продуктовой аналитики, чтобы она была способна адресовать этот феномен, а особенно впечатлительные аналитики не перестают спорить о том, что какой-нибудь автор материала по анализу временных рядов забыл учесть эргодичность на 39 слайде своей презентации.
Однако, всерьез этот феномен беспокоит коллег, занимающихся медицинскими исследованиями: вот уже несколько лет подряд в q1-журналах выходят статьи о том, что злоупотребление допущением об эргодичности может инвалидировать большое количество исследований или даже клинических рекомендаций.
В этом посте хотелось бы воспользоваться уникальным временным окном и обсудить феномен эргодичности с разных точек зрения, пока он не успел превратился в еще один баззворд.
Поэтому я постараюсь дать определение эргодичности, рассказать о том почему этот феномен вызывает настороженность в life sciences и, наконец, спроецировать его на управление продуктом.
Мыслить в терминах эргодичности весьма просто: явление или процесс называются эргодическими, если среднее временного ряда (time average, within-subject average) совпадает со средним вертикального среза множества временных рядов (ensemble average, between-subjects average, group average)
Пара интуитивных примеров:
1️⃣ Если среднее (математическое ожидание) единичного броска 100 различных игральных костей будет совпадать со средним 100 последовательных бросков одной игральной кости, то к процессу можно применить эргодическую теорему.
2️⃣ Или вот такой биомедицинский пример: если средняя концентрация некого белка в крови у единственного пациента на дистанции 100 последовательных измерений совпадает со средней концентрацией этого белка у 100 различных пациентов на дистанции единственного измерения, то концентрация белка соответствует эргодическому процессу.
(Тем, кто знаком с основными понятиями эконометрики проще вспомнить про лонгитудные (панельные) данные – где по горизонтали данные временных рядов, а по вертикали – кросс-секционные – те самые ensembles)
✝️ На основе этих примеров сразу хочется выделить главное следствие, которое делает этот концепт настолько мощным: при условии наличия эргодичности, можно делать выводы, как о целой совокупности на основе продолжительного исследования единственного субъекта, так и напротив – делать выводы о единственном субъекте, основываясь на группе наблюдений
Представьте, что не нужно тестировать препарат на тысячах пациентов, а достаточно взять одного и лечить его на протяжение какого-то времени и после сделать достоверный вывод о том, что эффективность лечения будет равнозначной и для всей популяции пациентов!
Или представьте обратный пример: некоторая терапия, которая продемонстрировала свою эффективность на группе пациентов будет также эффективна для каждого конкретного пациента, который получит это же назначение (на этом концепте, во многом, построена современная доказательная медицина)
К сожалению, в подавляющем большинстве случаев это не так.
Из всех щелей, из которых торчат уши парадокса Симпсона, ecological fallacy и лонгитудных исследований, в продуктовый дискурс проникает понятие эргодичности
Кто-то считает это явление полезной ментальный моделью – с чем мне трудно не согласиться, кто-то призывает перестраивать структуру продуктовой аналитики, чтобы она была способна адресовать этот феномен, а особенно впечатлительные аналитики не перестают спорить о том, что какой-нибудь автор материала по анализу временных рядов забыл учесть эргодичность на 39 слайде своей презентации.
Однако, всерьез этот феномен беспокоит коллег, занимающихся медицинскими исследованиями: вот уже несколько лет подряд в q1-журналах выходят статьи о том, что злоупотребление допущением об эргодичности может инвалидировать большое количество исследований или даже клинических рекомендаций.
В этом посте хотелось бы воспользоваться уникальным временным окном и обсудить феномен эргодичности с разных точек зрения, пока он не успел превратился в еще один баззворд.
Поэтому я постараюсь дать определение эргодичности, рассказать о том почему этот феномен вызывает настороженность в life sciences и, наконец, спроецировать его на управление продуктом.
Мыслить в терминах эргодичности весьма просто: явление или процесс называются эргодическими, если среднее временного ряда (time average, within-subject average) совпадает со средним вертикального среза множества временных рядов (ensemble average, between-subjects average, group average)
Пара интуитивных примеров:
1️⃣ Если среднее (математическое ожидание) единичного броска 100 различных игральных костей будет совпадать со средним 100 последовательных бросков одной игральной кости, то к процессу можно применить эргодическую теорему.
2️⃣ Или вот такой биомедицинский пример: если средняя концентрация некого белка в крови у единственного пациента на дистанции 100 последовательных измерений совпадает со средней концентрацией этого белка у 100 различных пациентов на дистанции единственного измерения, то концентрация белка соответствует эргодическому процессу.
(Тем, кто знаком с основными понятиями эконометрики проще вспомнить про лонгитудные (панельные) данные – где по горизонтали данные временных рядов, а по вертикали – кросс-секционные – те самые ensembles)
Представьте, что не нужно тестировать препарат на тысячах пациентов, а достаточно взять одного и лечить его на протяжение какого-то времени и после сделать достоверный вывод о том, что эффективность лечения будет равнозначной и для всей популяции пациентов!
Или представьте обратный пример: некоторая терапия, которая продемонстрировала свою эффективность на группе пациентов будет также эффективна для каждого конкретного пациента, который получит это же назначение (на этом концепте, во многом, построена современная доказательная медицина)
К сожалению, в подавляющем большинстве случаев это не так.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Декомпозиция эргодичности Ч. 2: Чуть более формальное определение
С математической точки зрения, при достаточно больших T — точек для одного субъекта по времени, среднее временного ряда (within-subject) приравнивается к среднему единичных измерений (between-subjects), аналогично, при достаточно больших n (количеству дискретных субъектов в группе)
Это хорошо иллюстрирует картинка из лекции Ole Peters
😡 Опасный поворот: размер выборки не влияет на наличие или отсутствия эргодичности – она либо есть, либо ее нет, но выборка и увеличение количества дата-поинтов способствуют тому, чтобы этот феномен увидеть, если он есть (и более того, результирующее значение будет точнее описывать центральную тенденцию, как временного ряда, так и группы)
В статье "What ergodicity means for you" Hunter et al (Developmental Cognitive Neuroscience 68 (2024)) пишет:
Необходимым и достаточным условием для соблюдения этого тождества является стационарность процесса (притом в строгом смысле)
Также некоторые исследователи указывают на гомогенность (предположение о том, что все субъекты независимы и одинаково распределены) субъектов исследования, как на необходимое, но недостаточное условие (особенно для "нематематических" применений эргодичности)
"What ergodicity means for you" Hunter et al (Developmental Cognitive Neuroscience 68 (2024))
NB! Тут стоит сделать еще одну крайне важную остановку: как и в медицине, так и в продукте, стационарные процессы встречаются крайне редко.
С математической точки зрения, при достаточно больших T — точек для одного субъекта по времени, среднее временного ряда (within-subject) приравнивается к среднему единичных измерений (between-subjects), аналогично, при достаточно больших n (количеству дискретных субъектов в группе)
Это хорошо иллюстрирует картинка из лекции Ole Peters
В статье "What ergodicity means for you" Hunter et al (Developmental Cognitive Neuroscience 68 (2024)) пишет:
Although sample size does not force within-person and between–person processes to resemble one another, it does influence our ability to statistically infer that these two differ or that one person differs from another.
Необходимым и достаточным условием для соблюдения этого тождества является стационарность процесса (притом в строгом смысле)
Также некоторые исследователи указывают на гомогенность (предположение о том, что все субъекты независимы и одинаково распределены) субъектов исследования, как на необходимое, но недостаточное условие (особенно для "нематематических" применений эргодичности)
"What ergodicity means for you" Hunter et al (Developmental Cognitive Neuroscience 68 (2024))
Ergodicity only applies to identical processes: all people
must have all of the same parameters. Moreover, even if all people do
share all the same parameters, the process may still be non-ergodic.
Homogeneity is too weak a condition. Everyone could be the same, and
yet the phenomena of interest may still not be ergodic.
NB! Тут стоит сделать еще одну крайне важную остановку: как и в медицине, так и в продукте, стационарные процессы встречаются крайне редко.
Please open Telegram to view this post
VIEW IN TELEGRAM
Декомпозиция эргодичности Ч. 3: Не-эргодичность
Безусловно, учитывая те преимущества, которые дает наличие эргодичности, было бы здорово видеть заранее применима ли она к отдельным процессам или нет.
К сожалению, способа проспективно оценить это не существует (насколько я знаю). Но, существуют способы сделать это post-hoc, проанализировав имеющиеся данные.
"What ergodicity means for you" Hunter et al (Developmental Cognitive Neuroscience 68 (2024))
Fisher et al. "Lack of group-to-individual generalizability is a threat to human subjects research"
Однако, в реальности, скорее проще принять эвристику, что априори, мы работаем с неэргодичными процессами в подавляющем большинстве случаев.
На этом месте я хотел бы сделать рекап двух самых важных мыслей предыдущих постов:
✝️ При наличии эргодичности, мы можем обобщать результаты от одного субъекта (пользователя, пациента, etc) к группе и наоборот
✝️ Эргодичность не появится с ростом выборки, потому что ее наличие определяют более глубокие стохастические характеристики
Третий и наиважнейший вывод кажется тривиальным:
✝️ При отсутствии эргодичности, обобщения от одного субъекта к группе не будут корректными (за исключение случайных совпадений величин), какой бы большой ни была выборка
Важность этого пункта состоит в том, что он позволяет нам смотреть на неэргодичные процессы, как на феномены некорректного обобщения, вроде парадокса Симпсона (или его общего случая – ecological fallacy)
Fisher et al. "Lack of group-to-individual generalizability is a threat to human subjects research"
😡 Опасный поворот: нужно понимать, что проблема обощения некоторого процесса существует только тогда, когда мы делаем вывод о равенстве средних этого процесса, при условии неэргодичности этого процесса: если исследователь коммуницирует данные по группе и не утверждает, что они тождественны и для отдельного субъекта (или наоборот) – этой проблемы не существует
Безусловно, учитывая те преимущества, которые дает наличие эргодичности, было бы здорово видеть заранее применима ли она к отдельным процессам или нет.
К сожалению, способа проспективно оценить это не существует (насколько я знаю). Но, существуют способы сделать это post-hoc, проанализировав имеющиеся данные.
"What ergodicity means for you" Hunter et al (Developmental Cognitive Neuroscience 68 (2024))
we cannot know a priori whether or not a process is ergodic; we cannot test the data for ergodicity. However, we can analyze repeated measures data on multiple individuals and use the ergodic theorem to determine that a process of interest is not ergodic.
Fisher et al. "Lack of group-to-individual generalizability is a threat to human subjects research"
Quite simply, comparisons of the first and second moments (mean and variance) of intraindividual and interindividual distributions can inform us about the accuracy of generalizations between groups and individuals.
Однако, в реальности, скорее проще принять эвристику, что априори, мы работаем с неэргодичными процессами в подавляющем большинстве случаев.
На этом месте я хотел бы сделать рекап двух самых важных мыслей предыдущих постов:
Третий и наиважнейший вывод кажется тривиальным:
Важность этого пункта состоит в том, что он позволяет нам смотреть на неэргодичные процессы, как на феномены некорректного обобщения, вроде парадокса Симпсона (или его общего случая – ecological fallacy)
Fisher et al. "Lack of group-to-individual generalizability is a threat to human subjects research"
An intuitive example is provided by Hamaker (14), who describes the correlation between typing speed and typos. At the group level, the correlation is negative, as experienced typists are both faster and more proficient. However, within individuals, the correlation is positive — the faster a given individual types, the greater the number of mistakes she or he will make relative to their own performance at slower speeds. Thus, the aggregation of the data produces an example of Simpson’s paradox, and we would commit an ecological fallacy by concluding that the relationship observed at the group level represents any of the individuals in the group.
Please open Telegram to view this post
VIEW IN TELEGRAM
Очень классный пример неэргодического процесса на примере CRT (controlled randomized trial, или A/B-теста на продуктовом):
На картинке пустые кружочки и треугольники – субъекты исследования, разбитые на контрольные и тестовые группы соответственно, на обведенным красным панелях видно то, как могут выглядеть различные траектории отдельных субъектов и как эти траектории могут расходиться со средним по группе (закрашеные треугольники)
На картинке пустые кружочки и треугольники – субъекты исследования, разбитые на контрольные и тестовые группы соответственно, на обведенным красным панелях видно то, как могут выглядеть различные траектории отдельных субъектов и как эти траектории могут расходиться со средним по группе (закрашеные треугольники)
Более общая (и наглядная) картинка встречалась в лекции Ole Peters: на ней также говорится о том, что тренд среднего по группе сильно преувеличивает успех (это может быть "средним по больнице", но далеко не всегда на практике применимо к отдельному субъекту)
✝️ Просто представьте, что некоторый препарат в среднем эффективен в 70% случаев по группе, но когда вы, как пациент, обращаетесь за назначением, то вероятность того, что он будет эффективен именно для вас, может развиватья по совершенно случайно траектории: это может быть и 20% и 50% и даже 0%!
Именно по этой причине, медицинские исследователи бьют тревогу: очень часто дизайн клинических исследований подразумевает вывод на основе разницы средних значений групп, что ограничивает возможность прогнозировать результат лечения для каждого отдельного пациента.
Именно по этой причине, медицинские исследователи бьют тревогу: очень часто дизайн клинических исследований подразумевает вывод на основе разницы средних значений групп, что ограничивает возможность прогнозировать результат лечения для каждого отдельного пациента.
Please open Telegram to view this post
VIEW IN TELEGRAM
Декомпозиция эргодичности Ч. 4: Часть, которую можно читать вместо всех остальных и кайфовать
Fisher et al. "Lack of group-to-individual generalizability is a threat to human subjects research"
Рекап:
1️⃣ Эргодичность – это когда среднее множества измерений на уровне одного юнита = среднему единственного измерения множества юнитов и наоборот => можно делать корректные выводы от пользователя к группе и vice versa
2️⃣ Эргодичность не появляется просто при накоплении наблюдений (увеличении выборки)
3️⃣ Не менее важным являтся понимание и отсутствия эргодичности в процессе: в этом случае обобщающие выводы приводят к некорректной интерпретации результов исследования так как метрики могут иметь совершенно разные тренды на уровне группы и на уровне отдельного пользователя (см. ecological fallacy, парадокс Симпсона)
4️⃣ Если даже процесс неэргодичен, использование усредненных метрик по группе, или усредненных на уровне отдельных юнитов – это ок, если мы не делаем выводов о том, что они тождественны
5️⃣ В продукте, как и в природе, эргодические процессы практически не встречаются. Почти все продуктовые метрики неэргодичны.
В то время как проблема обобщения от группы к одному субъекту сильно сказывается на мире клинических исследований и доказательной медицины, влияние эргодичности, а скорее ее отсутствия, на управление продуктом кажется мне не таким существенным по двум причинам:
✝️ В продукте нам важно не столько получить достовреное значение метрики, сколько получить достоверный сигнал. На картинке выше, напротив "Relevant to the collective" стоит знак вопроса и он там полностью уместен – такое понятие как "группа" или "общность" пользователей – крайне странный юнит для анализа. Его сложно пощупать и также сложно интерпретировать, более того, среднее группы имеет тенденцию быть излишне оптимистичным. Однако, если эта сущность помогает продакту увидеть сигнал, который отражает реальность, пусть и несколько искаженную, то почему бы с этим не работать?
Например, если LTV по новой когорте вырос в несколько раз, куда проще скоммуницировать этот рост, как рост LTV пользователей в целом и каждого пользователя одновременно, а не пытаться объяснить своему CPO, что динамика LTV подчиняется случайному стохастическому процессу и варьируется от 150% до -150% для отдельных пользователей в когорте.
✝️ Продуктовый процесс – это управление ограниченным кусочком реальности (продуктом) вокруг пользователя, но никак не изменение пользователя ради продукта. Когда мы красим кнопки, добавляем фичи – это попытки подстроиться под пользователя, но не поменять его. Этот процесс, во многом, противоположнен тому, который существует в медицине, где взаимодействие с пациентом направлено на то, чтобы его вылечить – изменить его текущее состояние.
Конкретные пользователи безусловно важны, так же важен и их персональный успех, но продукт не должен, да и не может воздейстовать на каждого пользователя, гарантируя ему успех, наоборот, он должен подстраиваться под нужды тех групп, кому он несет ценность, чтобы уже сами пользователи успешно взаимодействовали с ним
Fisher et al. "Lack of group-to-individual generalizability is a threat to human subjects research"
The consequences of neglecting ergodic theory in social, behavioral, and medical fields may have substantial epistemic and practical consequences. In the absence of quantitative examination at the individual level, the consequences could range from zero if we are lucky to find one of the few ergodic processes in nature (19), to catastrophic if a process is quite nonergodic. In clinical research, diagnostic tests may be systematically biased and our classification systems may be at least partially invalid.
Рекап:
1️⃣ Эргодичность – это когда среднее множества измерений на уровне одного юнита = среднему единственного измерения множества юнитов и наоборот => можно делать корректные выводы от пользователя к группе и vice versa
2️⃣ Эргодичность не появляется просто при накоплении наблюдений (увеличении выборки)
3️⃣ Не менее важным являтся понимание и отсутствия эргодичности в процессе: в этом случае обобщающие выводы приводят к некорректной интерпретации результов исследования так как метрики могут иметь совершенно разные тренды на уровне группы и на уровне отдельного пользователя (см. ecological fallacy, парадокс Симпсона)
4️⃣ Если даже процесс неэргодичен, использование усредненных метрик по группе, или усредненных на уровне отдельных юнитов – это ок, если мы не делаем выводов о том, что они тождественны
5️⃣ В продукте, как и в природе, эргодические процессы практически не встречаются. Почти все продуктовые метрики неэргодичны.
В то время как проблема обобщения от группы к одному субъекту сильно сказывается на мире клинических исследований и доказательной медицины, влияние эргодичности, а скорее ее отсутствия, на управление продуктом кажется мне не таким существенным по двум причинам:
Например, если LTV по новой когорте вырос в несколько раз, куда проще скоммуницировать этот рост, как рост LTV пользователей в целом и каждого пользователя одновременно, а не пытаться объяснить своему CPO, что динамика LTV подчиняется случайному стохастическому процессу и варьируется от 150% до -150% для отдельных пользователей в когорте.
Конкретные пользователи безусловно важны, так же важен и их персональный успех, но продукт не должен, да и не может воздейстовать на каждого пользователя, гарантируя ему успех, наоборот, он должен подстраиваться под нужды тех групп, кому он несет ценность, чтобы уже сами пользователи успешно взаимодействовали с ним
Please open Telegram to view this post
VIEW IN TELEGRAM
На какой вопрос отвечает наука или почему тучка плачет?
Вопрос “почему тучка плачет?” Может показаться наивным для обывателя и совершенно некорректным для исследователя, который хочет разобраться в причинах этого явления.
Зачастую, чтобы прийти к правильным выводам, мало находить правильные ответы, нужно еще и задавать правильные вопросы. Казалось бы: исследуя какое-то явление, как ту же плачущую тучку, мы хотим дать объяснение этому феномену, выстроив такую цепочку рассуждений где механизм A предшествует механизму B предшествует механизму C. Что же тогда не так с вопросом о плачущей тучке? Дело в том, что когда мы выстраиваем цепочку A->B->C мы отвечаем не на вопрос “ПОЧЕМУ?”, а на вопрос “КАК?”
Систематическое непонимание разницы между этими вопросами приводит к неправильному пониманию предмета исследований и к некорректным выводам.
В чудесной статье медицинского сообщества Medach “Анатомия и физиология клинического исследования”, авторы выделяют два основных подхода к формализации клинических исследований:
1. Исследовательский вопрос
2. Гипотезу
Оба подхода не взаимоисключающие и даже дополняющие друг друга: исследовательский вопрос понимается шире, чем гипотеза, и оба подхода предполагают ответ на вопрос "КАК?", однако, в некоторых сферах существует тренд на использование чего-то одного: если формальные науки, чаще опираются на гипотезы, то в soft sciences, чаще предпочитают формулировать исследовательские вопросы. Сама концепция гипотезы также ближе и к нашей IT-индустрии
Гипотеза – это предположение о причинно-следственной связи (causality) между зависимой и независимой переменными (например зависимой переменной – осадками и независимой – временем года). Более того, гипотеза формулируется так, что подразумевается эксперимент, который может ее опровергнуть. Формально выражаясь, гипотезы – некоторые фальсифицируемые предположения о причинно-следственных связях. Если гипотезу теоретически невозможно опровергнуть опытным путем, то это не более чем милая идея, догадка, досужее предположение.
Когда мы отвечаем на вопрос “КАК?”, мы трансформируем наблюдаемые факты в исследовательские вопросы, затем в гипотезы и ставим эксперименты.
Для иллюстрации того, как формулируются гипотезы и исследовательские вопросы на практике, я приведу картинку из уже упомянутой статьи.
Теперь задумайтесь на секунду: можно ли поставить такой эксперимент, чтобы опровергнуть ответ на вопрос “ПОЧЕМУ?” (e.g. тучка плачет)?
Конечно же нет: ведь в самом вопросе “ПОЧЕМУ?” подразумевается однозначный ответ, который может быть совершенно произвольным (например: так карты легли, судьба такая, день такой), а не предположение о механизмах развития феномена, более того, сама суть вопроса предполагает рациональный умысел: как будто кто-то или что-то заставило тучку плакать (сделало небо голубым, а зайцев ушастыми). Следовательно, возможный ответ будет скорее опираться на какую-то систему верований и убеждений, а не на наблюдаемые причины и следствия, что невозможно вписать в рамки эксперимента
Чтобы дальше развить интуицию о разнице между этими вопросами я приведу несколько примеров:
✝️ Теория эволюции отвечает на вопрос КАК произошли виды, но не ПОЧЕМУ они произошли
✝️ Теория относительность отвечает на вопрос КАК связаны время и пространство, но не ПОЧЕМУ они связаны
✝️ Или в математике мы знаем КАК вычислить константы вроде ❤️ и 📝 , но не знаем ПОЧЕМУ, черт возьми, именно эти константы
Кстати, самые пытливые читатели могут поразмышлять на такую тему: если задать вопрос “ПОЧЕМУ?” 5 раз, трансформируется ли он из “ПОЧЕМУ?” в вопрос “КАК?” )))
В качестве заключения:
и вопрос "почему?" и вопрос "как?" одинаково уместны, но почти никогда не взаимозаменяемы. Наука не отвечает на вопрос "почему?", однако, это не значит, что ответа на этот вопрос не существует.
А, и чуть не забыл: тучка плачет потому что ей грустно
#философия_науки #product_management #it
“Religion is a culture of faith; science is a culture of doubt” – Richard Phillips Feynman
Вопрос “почему тучка плачет?” Может показаться наивным для обывателя и совершенно некорректным для исследователя, который хочет разобраться в причинах этого явления.
Зачастую, чтобы прийти к правильным выводам, мало находить правильные ответы, нужно еще и задавать правильные вопросы. Казалось бы: исследуя какое-то явление, как ту же плачущую тучку, мы хотим дать объяснение этому феномену, выстроив такую цепочку рассуждений где механизм A предшествует механизму B предшествует механизму C. Что же тогда не так с вопросом о плачущей тучке? Дело в том, что когда мы выстраиваем цепочку A->B->C мы отвечаем не на вопрос “ПОЧЕМУ?”, а на вопрос “КАК?”
Систематическое непонимание разницы между этими вопросами приводит к неправильному пониманию предмета исследований и к некорректным выводам.
В чудесной статье медицинского сообщества Medach “Анатомия и физиология клинического исследования”, авторы выделяют два основных подхода к формализации клинических исследований:
1. Исследовательский вопрос
2. Гипотезу
Оба подхода не взаимоисключающие и даже дополняющие друг друга: исследовательский вопрос понимается шире, чем гипотеза, и оба подхода предполагают ответ на вопрос "КАК?", однако, в некоторых сферах существует тренд на использование чего-то одного: если формальные науки, чаще опираются на гипотезы, то в soft sciences, чаще предпочитают формулировать исследовательские вопросы. Сама концепция гипотезы также ближе и к нашей IT-индустрии
Гипотеза – это предположение о причинно-следственной связи (causality) между зависимой и независимой переменными (например зависимой переменной – осадками и независимой – временем года). Более того, гипотеза формулируется так, что подразумевается эксперимент, который может ее опровергнуть. Формально выражаясь, гипотезы – некоторые фальсифицируемые предположения о причинно-следственных связях. Если гипотезу теоретически невозможно опровергнуть опытным путем, то это не более чем милая идея, догадка, досужее предположение.
Когда мы отвечаем на вопрос “КАК?”, мы трансформируем наблюдаемые факты в исследовательские вопросы, затем в гипотезы и ставим эксперименты.
Для иллюстрации того, как формулируются гипотезы и исследовательские вопросы на практике, я приведу картинку из уже упомянутой статьи.
Теперь задумайтесь на секунду: можно ли поставить такой эксперимент, чтобы опровергнуть ответ на вопрос “ПОЧЕМУ?” (e.g. тучка плачет)?
Конечно же нет: ведь в самом вопросе “ПОЧЕМУ?” подразумевается однозначный ответ, который может быть совершенно произвольным (например: так карты легли, судьба такая, день такой), а не предположение о механизмах развития феномена, более того, сама суть вопроса предполагает рациональный умысел: как будто кто-то или что-то заставило тучку плакать (сделало небо голубым, а зайцев ушастыми). Следовательно, возможный ответ будет скорее опираться на какую-то систему верований и убеждений, а не на наблюдаемые причины и следствия, что невозможно вписать в рамки эксперимента
Чтобы дальше развить интуицию о разнице между этими вопросами я приведу несколько примеров:
Кстати, самые пытливые читатели могут поразмышлять на такую тему: если задать вопрос “ПОЧЕМУ?” 5 раз, трансформируется ли он из “ПОЧЕМУ?” в вопрос “КАК?” )))
В качестве заключения:
и вопрос "почему?" и вопрос "как?" одинаково уместны, но почти никогда не взаимозаменяемы. Наука не отвечает на вопрос "почему?", однако, это не значит, что ответа на этот вопрос не существует.
А, и чуть не забыл: тучка плачет потому что ей грустно
#философия_науки #product_management #it
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
This media is not supported in your browser
VIEW IN TELEGRAM
В качестве иллюстрации к посту очень хорошо подходит отрывок из Южного Парка, где Стен задает очень правильный вопрос
❤4
https://www.youtube.com/watch?v=VDlnuO96p58&t=57s
Я думаю, каждый кто изучал статистику встречался с таким непонятным концептом, как degrees of freedom (df, уровни свободы)
Даже в хороших учебниках пишут о том, как использовать degreees of freedom в расчетах, но саму суть всегда обходят стороной и пишут что-то вроде: "Объяснение этого концепта довольно сложное и глубоко математическое". И как бы я ни пытался, никогда не мог найти то самое "сложное и глубоко математическое" объяснение
И вот вчера я совершенно случайно наткнулся на видео, в котором суть явления наглядно демонстриурется через линейную алгебру
К сожалению, пока вышло только две части из обещанных десяти, но даже они формируют очень хорошую интуицию о том, как это работает
Настоящий hidden gem математического ютуба
#statistics #статистика #it
Я думаю, каждый кто изучал статистику встречался с таким непонятным концептом, как degrees of freedom (df, уровни свободы)
Даже в хороших учебниках пишут о том, как использовать degreees of freedom в расчетах, но саму суть всегда обходят стороной и пишут что-то вроде: "Объяснение этого концепта довольно сложное и глубоко математическое". И как бы я ни пытался, никогда не мог найти то самое "сложное и глубоко математическое" объяснение
И вот вчера я совершенно случайно наткнулся на видео, в котором суть явления наглядно демонстриурется через линейную алгебру
К сожалению, пока вышло только две части из обещанных десяти, но даже они формируют очень хорошую интуицию о том, как это работает
Настоящий hidden gem математического ютуба
#statistics #статистика #it
YouTube
Degrees of Freedom, Actually Explained - The Geometry of Statistics | Ch. 1 (#SoME4)
The most confusing concept in statistics must be degrees of freedom. Students everywhere leave their introductory stats courses totally bewildered about what degrees of freedom means, and why it seems to show up all over the place, such as in the t, chi-square…
❤2
Если это красиво – значит это правильно. Или почему не нужно оценивать UI/UX через ROI
Недавно после одной дискуссии на работе я задался вопросом о том, что такое красота. И я вывел для себя определение, которое мне показалось весьма универсальным: «Красота – это то, в чем можно увидеть идею»
Притом идею в самом широком смысле слова: это может быть как идея продевать нитку снизу иголки, или идея объединить пять констант математики в одном уравнении, или нужно быть совсем слепым, чтобы не увидеть идею, которую вынашивала эволюция миллионы лет, чтобы воплотить ее в моей кошке. Некоторые идеи лежат на поверхности, некоторые не так очевидны, но когда ты их видишь, ты понимаешь, что это красиво.
Вообще, rags and bones продукта – это технологии и пользовательские опыты, которые вокруг них строятся и одно без другого не существует. Поэтому фичу можно представить как точку, образованную пересечением этих двух линий. Технологии отвечают за бизнес-логику сценариев, которые мы хотим реализовать. Пользовательские опыты – это рельсы, которые максимально эффективно ведут пользователя к результату.
Про эффективность можно думать по-разному: например с точки зрения перформанса – измерить конверсии по шагам ключевых воронок или с точки зрения простоты – опираться на UX-метрики вроде Task success, Time on task, SUM
Я предпочитаю думать об эффективности как об идее, которая будет очевидна для любого пользователя, а следовательно будет и красивой
Некоторые изменения в дизайне просто должны быть сделаны и это почти невозможно связать с ROI (Return on Investments): например, чтобы проделанную работу заметили, ну или вот этот слайдер в приложении Drinkit явно не проектировался исключительно из соображений ROI. В целом, любая инициатива изменения UI/UX, которая помогает пользователям увидеть идею во взаимодействии с продуктом – более чем валидная мотивация, будь то внедрение знакомого паттерна или графическое улучшение UI
✝️ UI/UX – это система, а система должна работать всегда, а не в моменте, поэтому бинарный (сработало или нет) подход к дизайну — это прямой путь к созданию опыта «вопреки» или в лучшем случае, оптимизированного, но безыдейного продукта вроде Zoom
Можно также думать, что ROI усилий, направленных на UX эмерджентен, то есть не является прямой суммой отдельных улучшений UI/UX и не выводим из результатов отдельных инициатив
Метрики юзабилити важны для того, чтобы продуктовая команда могла оценить масштаб проблем и вовремя задаться HMW (How might we?) вопросом относительно простоты использования продукта, но чаще всего, они очень плохие регрессоры для ROI/NSM и других верхнеуровневых показателей, потому что меняя какую-то часть флоу, чаще всего, вы меняете сразу несколько компонентов, что добавляет шума, также изменения могут касаться только отдельного сегмента пользователей и/или ваших изменений может просто оказаться недостаточно в большой схеме вещей
Поэтому стоит помнить, что почти всегда ROI можно надежно атрибутировать только к комплексным изменениям фичей или к новым фичам – когда вы затрагиваете и вертикаль пользовательского опыта и технологическую горизонталь, притом однозначно выделить влияние отдельного компонента редко представляется возможным
Вообще, этот взгляд на оценку UX не может быть универсальной практической рекомендацией, потому что красота, как умение видеть и создавать идеи в дизайне – очень вариативна, но чем опытнее и насмотреннее команда, тем чаще будут возникать внутренние AHA-моменты, когда открывается что-то красивое. Если у вашей команды есть консенсус относительно красоты идеи флоу, то это конечно не повод к немедленной имплементаци, но очень полезная интуиция того, что скорее всего, ваше решение будет также и простым и с хорошим перформансом.
#product_management #it #UI #UX #design #дизайн
Недавно после одной дискуссии на работе я задался вопросом о том, что такое красота. И я вывел для себя определение, которое мне показалось весьма универсальным: «Красота – это то, в чем можно увидеть идею»
Притом идею в самом широком смысле слова: это может быть как идея продевать нитку снизу иголки, или идея объединить пять констант математики в одном уравнении, или нужно быть совсем слепым, чтобы не увидеть идею, которую вынашивала эволюция миллионы лет, чтобы воплотить ее в моей кошке. Некоторые идеи лежат на поверхности, некоторые не так очевидны, но когда ты их видишь, ты понимаешь, что это красиво.
Вообще, rags and bones продукта – это технологии и пользовательские опыты, которые вокруг них строятся и одно без другого не существует. Поэтому фичу можно представить как точку, образованную пересечением этих двух линий. Технологии отвечают за бизнес-логику сценариев, которые мы хотим реализовать. Пользовательские опыты – это рельсы, которые максимально эффективно ведут пользователя к результату.
Про эффективность можно думать по-разному: например с точки зрения перформанса – измерить конверсии по шагам ключевых воронок или с точки зрения простоты – опираться на UX-метрики вроде Task success, Time on task, SUM
Я предпочитаю думать об эффективности как об идее, которая будет очевидна для любого пользователя, а следовательно будет и красивой
Некоторые изменения в дизайне просто должны быть сделаны и это почти невозможно связать с ROI (Return on Investments): например, чтобы проделанную работу заметили, ну или вот этот слайдер в приложении Drinkit явно не проектировался исключительно из соображений ROI. В целом, любая инициатива изменения UI/UX, которая помогает пользователям увидеть идею во взаимодействии с продуктом – более чем валидная мотивация, будь то внедрение знакомого паттерна или графическое улучшение UI
Можно также думать, что ROI усилий, направленных на UX эмерджентен, то есть не является прямой суммой отдельных улучшений UI/UX и не выводим из результатов отдельных инициатив
Метрики юзабилити важны для того, чтобы продуктовая команда могла оценить масштаб проблем и вовремя задаться HMW (How might we?) вопросом относительно простоты использования продукта, но чаще всего, они очень плохие регрессоры для ROI/NSM и других верхнеуровневых показателей, потому что меняя какую-то часть флоу, чаще всего, вы меняете сразу несколько компонентов, что добавляет шума, также изменения могут касаться только отдельного сегмента пользователей и/или ваших изменений может просто оказаться недостаточно в большой схеме вещей
Поэтому стоит помнить, что почти всегда ROI можно надежно атрибутировать только к комплексным изменениям фичей или к новым фичам – когда вы затрагиваете и вертикаль пользовательского опыта и технологическую горизонталь, притом однозначно выделить влияние отдельного компонента редко представляется возможным
Вообще, этот взгляд на оценку UX не может быть универсальной практической рекомендацией, потому что красота, как умение видеть и создавать идеи в дизайне – очень вариативна, но чем опытнее и насмотреннее команда, тем чаще будут возникать внутренние AHA-моменты, когда открывается что-то красивое. Если у вашей команды есть консенсус относительно красоты идеи флоу, то это конечно не повод к немедленной имплементаци, но очень полезная интуиция того, что скорее всего, ваше решение будет также и простым и с хорошим перформансом.
#product_management #it #UI #UX #design #дизайн
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🌚3
Не люби µ1-µ2≠0– обманут, не люби α-values – обманут, не люби p-values – обманут, а из всех вин, самое пьянящее на свете – инференционная статистика
Я некоторое время не писал в канал – от части из-за проблем со здоровьем, от части из-за некоторого кризиса тем: совершенно не хотелось писать о чем-то тривиальном. В итоге, мотивацию подарил пост из другого уважаемого канала с обзором на серию критических заявлений об A/B тестах
Я не буду пересказывать пост (это хороший материал, прочитайте его сами), более того, не буду цитировать оригинальные посты, но также рекомендую к прочтению.
Вместо этого я попробую в нескольких частях расширить понимание того, как формуется правильный статистический вывод
Не люби µ1-µ2≠0 – обманут
Статистические гипотезы – это формальная постановка задачи статистического исследования и крайне непрозрачный концепт для интерпретации
Исторически, существовало два подхода к проверке статистических гипотез: метод значимости Фишера (Fisher’s significance testing) и метод проверки гипотез Неймана-Пирсона (Neyman-Pearson’s hypothesis testing framework)
Обзор всех различий в этих методологиях – обширная тема, и сейчас же я остановлюсь на одном единственном различии: интерпретации нулевой гипотезы.
Тестирование статистической гипотезы подразумевает исключительно проверку консервативного утверждения, нулевой гипотезы – допущение о том, что различий между некоторым параметром выборок нет: например разница средних равна нулю: µ1-µ2=0
Нулевая гипотеза в понимании Фишера – математический концепт, теоретическое распределение некоторой случайно величины (например среднего). В парадигме Фишера такое распределение не может быть ложным, не может быть фальсифицируемым – это некоторый 100%-правдивый факт относительно которого мы делаем выводы об «удивительности» экспериментальных данных. Если данные достаточно «удивительны», мы можем сделать заключение об убедительности доказательств простив нулевой гипотезы (обратите внимание – не «принять»), в противном случае уместно заявить о том, что мы «failed to reject the null» – такая хитрая словестная конструкция с двойным отрицанием, лишний раз напоминает то, что you can't prove a negative – почти невозможно доказать то, чего нет
Нулевая гипотеза в понимании Неймана-Пирсона – это одно из двух взаимоисключающих утверждений (второе – это альтернативная гипотеза, которую фреймворк Фишера подразумевает только имплицитно) любое из которых должно быть однозначно принято. Математически, нулевая (или основная, H (main)) гипотеза в этом случае – такое же теоретическое распределение, но философски, мы принимаем его не просто за численный референс, а за валидную модель реального мира, которую мы хотим отвергать как можно реже, в связи с чем, авторы впервые ввели известные всем α и β параметры, а также MDE.
Спустя время, оба фреймворка слилсь в один, чему очень противились все три автора и что очень сильно запутало понимание статистики всеми, кто ее касается. То определение стат. гипотез, которое сейчас можно встретить в непрофильных учебниках по статистике или популярной публицистике уже сильно искажено и упрощено, что неизбежно ведет к неправильным интерпретациям и трактовкам.
✝️ Поэтому, как бы мы не думали о нулевых гипотезах, важно понимать одно: «опровержение» (sic!) нулевой гипотезы не говорит о том, что мы получили новое знание и/или что мы однозначно уверены в нем. Оно даже не гарантирует того, что наша альтернативная гипотеза однозначно верна.
Мы, всего лишь, оцениваем полученные данные.
✝️ Верно и обратное: если наши данные говорят в пользу нулевой гипотезы – это не значит, что альтернативная гипотеза не верна.
Недостаток доказательств не является доказательством отсутствия эффекта, также как контурная карта по географии не говорит об отсутствии на местности гор, рек и озер.
#статистика #ab_тесты #product_management #pvalue #гипотезы
Я некоторое время не писал в канал – от части из-за проблем со здоровьем, от части из-за некоторого кризиса тем: совершенно не хотелось писать о чем-то тривиальном. В итоге, мотивацию подарил пост из другого уважаемого канала с обзором на серию критических заявлений об A/B тестах
Я не буду пересказывать пост (это хороший материал, прочитайте его сами), более того, не буду цитировать оригинальные посты, но также рекомендую к прочтению.
Вместо этого я попробую в нескольких частях расширить понимание того, как формуется правильный статистический вывод
Не люби µ1-µ2≠0 – обманут
Статистические гипотезы – это формальная постановка задачи статистического исследования и крайне непрозрачный концепт для интерпретации
Исторически, существовало два подхода к проверке статистических гипотез: метод значимости Фишера (Fisher’s significance testing) и метод проверки гипотез Неймана-Пирсона (Neyman-Pearson’s hypothesis testing framework)
Обзор всех различий в этих методологиях – обширная тема, и сейчас же я остановлюсь на одном единственном различии: интерпретации нулевой гипотезы.
Тестирование статистической гипотезы подразумевает исключительно проверку консервативного утверждения, нулевой гипотезы – допущение о том, что различий между некоторым параметром выборок нет: например разница средних равна нулю: µ1-µ2=0
Нулевая гипотеза в понимании Фишера – математический концепт, теоретическое распределение некоторой случайно величины (например среднего). В парадигме Фишера такое распределение не может быть ложным, не может быть фальсифицируемым – это некоторый 100%-правдивый факт относительно которого мы делаем выводы об «удивительности» экспериментальных данных. Если данные достаточно «удивительны», мы можем сделать заключение об убедительности доказательств простив нулевой гипотезы (обратите внимание – не «принять»), в противном случае уместно заявить о том, что мы «failed to reject the null» – такая хитрая словестная конструкция с двойным отрицанием, лишний раз напоминает то, что you can't prove a negative – почти невозможно доказать то, чего нет
Нулевая гипотеза в понимании Неймана-Пирсона – это одно из двух взаимоисключающих утверждений (второе – это альтернативная гипотеза, которую фреймворк Фишера подразумевает только имплицитно) любое из которых должно быть однозначно принято. Математически, нулевая (или основная, H (main)) гипотеза в этом случае – такое же теоретическое распределение, но философски, мы принимаем его не просто за численный референс, а за валидную модель реального мира, которую мы хотим отвергать как можно реже, в связи с чем, авторы впервые ввели известные всем α и β параметры, а также MDE.
Спустя время, оба фреймворка слилсь в один, чему очень противились все три автора и что очень сильно запутало понимание статистики всеми, кто ее касается. То определение стат. гипотез, которое сейчас можно встретить в непрофильных учебниках по статистике или популярной публицистике уже сильно искажено и упрощено, что неизбежно ведет к неправильным интерпретациям и трактовкам.
Мы, всего лишь, оцениваем полученные данные.
Недостаток доказательств не является доказательством отсутствия эффекта, также как контурная карта по географии не говорит об отсутствии на местности гор, рек и озер.
#статистика #ab_тесты #product_management #pvalue #гипотезы
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Быть продактом! (быть, а не казаться)
Клемент против A/B-тестов
Уже полгода наблюдаю, как Алан Клемент (да-да, тот самый) пытается разбудить англоязычный LinkedIn на тему сплит-тестов и, в целом, использования фриквентистской статистики для принятия решений.
Попытка объяснить русскоязычным…
Уже полгода наблюдаю, как Алан Клемент (да-да, тот самый) пытается разбудить англоязычный LinkedIn на тему сплит-тестов и, в целом, использования фриквентистской статистики для принятия решений.
Попытка объяснить русскоязычным…
❤10🌚2🤡1
Что общего у теста на беременность и двигателя бесконечной невероятности Дугласа Адамса?
Представьте, что мы провели A/B тест (n=1000, H0: µ1-µ2=0, H1: µ1-µ2≠0) и посчитали t-статистику: t = 2.
✝️ Интерпретация Фишера: для t=2, df=999, p-valuе = 0.04577 => слабые доказательства простив H0
p-value здесь – выражение непрерывной статистической значимости: чем p-value меньше – тем экспериментальные данные «удивительнее».
Как мы помним, в парадигме Фишера нулевая гипотеза – 100%-верная модель, а масштаб отличий от нее имеет разную градацию удивительности в соответствии с величиной этих различий (исходя из этого и происходит классическое определение: «вероятность получить такие же или более экстремальные значения, при условии, что нулевая гипотеза верна»)
Концептуально, проводя эксперимент, мы хотим получить абсурдно маленькую вероятность того, что наш результат объясняется нулевой моделью.
Мне нравится думать про p-value как о двигателе бесконечной невероятности из «Автостопом по галактике»: в книге Дугласа Адамса, мгновенно оказаться на другом краю вселенной возможно, просто крайне маловероятно (удивительно) – именно эту вероятность и использовал двигатель Золотого Сердца
Хотя, такой двигатель и остается уделом фантастики, статистика умеет находить абсурдно маленькие p-values – это задача воспроизводимости и грамотной постановки экспериментов
В итоге, этот метод дает нам количественную оценку доказательств против H0, которую сам Фишер определял, как просто точку данных, которая не содержит информации о том насколько мы правы, и имеет смысл только как материал для мета-анализа подобных экспериментов
✝️ Интерпретация Неймана-Пирсона: при t=2, α = 5, df=999; 2>1.962 (критическое значение для α=5) => принимается H1
Про фреймворк Неймана-Пирсона можно думать как про тест на беременность: есть значения hCG для беременных и не беременных: 1-α – это диапазон концентрации hCG у не беременных (доверительный интервал), а 1-ß – это диапазон концентрации hCG у беременных. Если концентрация hCG у пациентки попадает в интервал 1-α, она не беременна и наоборот. Попадание в области а и ß соответствует ошибкам первого (False-Positive) и второго рода (False-Negative)
Тест помогает ответить на вопрос: «Учитывая концентрацию hCG у пациентки, беременна она (H1) или нет (H0)»?
NB! проводя тест в продукте, мы не знаем какое распределение у H1, но в случае с тестом на беременность аналитическая работа уже проведена: мы доподлинно знаем распределения H0 и H1 и смотрим в какое попадает результат пациентки и это именно тот сценарий, для которого тест Неймана-Пирсона и был изначально разработан!
Фактически – этот подход решает задачу бинарной классификации, где α и ß – являются константами помогающими контролировать ошибки первого и второго рода на большой дистанции экспериментов и не говорят о реальном количестве ошибочных выводов и не гарантируют истинность выбранной гипотезы – мы просто соглашаемся с правилом выбора.
Я надеюсь, что я смог донести фундаментальные различия этих двух подходов, однако, нечто общее у теста на беременность и двигателя бесконечной невероятности, к сожалению, все же нашлось, но об этом я расскажу в следующем посте
#статистика #ab_тесты #product_management #pvalue #гипотезы
Представьте, что мы провели A/B тест (n=1000, H0: µ1-µ2=0, H1: µ1-µ2≠0) и посчитали t-статистику: t = 2.
p-value здесь – выражение непрерывной статистической значимости: чем p-value меньше – тем экспериментальные данные «удивительнее».
Как мы помним, в парадигме Фишера нулевая гипотеза – 100%-верная модель, а масштаб отличий от нее имеет разную градацию удивительности в соответствии с величиной этих различий (исходя из этого и происходит классическое определение: «вероятность получить такие же или более экстремальные значения, при условии, что нулевая гипотеза верна»)
Концептуально, проводя эксперимент, мы хотим получить абсурдно маленькую вероятность того, что наш результат объясняется нулевой моделью.
Мне нравится думать про p-value как о двигателе бесконечной невероятности из «Автостопом по галактике»: в книге Дугласа Адамса, мгновенно оказаться на другом краю вселенной возможно, просто крайне маловероятно (удивительно) – именно эту вероятность и использовал двигатель Золотого Сердца
Хотя, такой двигатель и остается уделом фантастики, статистика умеет находить абсурдно маленькие p-values – это задача воспроизводимости и грамотной постановки экспериментов
В итоге, этот метод дает нам количественную оценку доказательств против H0, которую сам Фишер определял, как просто точку данных, которая не содержит информации о том насколько мы правы, и имеет смысл только как материал для мета-анализа подобных экспериментов
Про фреймворк Неймана-Пирсона можно думать как про тест на беременность: есть значения hCG для беременных и не беременных: 1-α – это диапазон концентрации hCG у не беременных (доверительный интервал), а 1-ß – это диапазон концентрации hCG у беременных. Если концентрация hCG у пациентки попадает в интервал 1-α, она не беременна и наоборот. Попадание в области а и ß соответствует ошибкам первого (False-Positive) и второго рода (False-Negative)
Тест помогает ответить на вопрос: «Учитывая концентрацию hCG у пациентки, беременна она (H1) или нет (H0)»?
NB! проводя тест в продукте, мы не знаем какое распределение у H1, но в случае с тестом на беременность аналитическая работа уже проведена: мы доподлинно знаем распределения H0 и H1 и смотрим в какое попадает результат пациентки и это именно тот сценарий, для которого тест Неймана-Пирсона и был изначально разработан!
Фактически – этот подход решает задачу бинарной классификации, где α и ß – являются константами помогающими контролировать ошибки первого и второго рода на большой дистанции экспериментов и не говорят о реальном количестве ошибочных выводов и не гарантируют истинность выбранной гипотезы – мы просто соглашаемся с правилом выбора.
Without hoping to know whether each separate hypothesis is true or false, we may search for rules to govern our behavior with regard to them – Neyman and Pearson
Я надеюсь, что я смог донести фундаментальные различия этих двух подходов, однако, нечто общее у теста на беременность и двигателя бесконечной невероятности, к сожалению, все же нашлось, но об этом я расскажу в следующем посте
#статистика #ab_тесты #product_management #pvalue #гипотезы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🌚1
Самое явное приложения метода Неймана-Пирсона — это создания правила принятия решения: у нас есть два распределения некоторого белка, оба известны, среднее распределения у здоровых (H0) — 35, у больных (H1) — 50
Доверительный интервал H0 (1-alpha) = 35 ± 3.29
Доверительный интервал H1 (1-beta) = 50 ± 7.5
Области Alpha и Beta – слепые пятна:
Есть здоровые с концентрацией белка >38.29 (это и есть alpha — предположим, что таких 5% в популяции) – мы их будем классифицировать как больных (FP, Type 1 error)
Но есть больные с концентрацией белка <38.29 (это beta — в нашем случае, таких 20%) — мы их будем классифицировать как здоровых (FN, Type 2 error)
Если не менять ничего другого, то изменения в alpha (наша линия cutoff) повлекут изменения в beta: например если мы считаем, что лучше признавать здоровых больными, мы увеличим alpha (тем самым, уменьшив beta), или наоборот
Когда пациент покупает тест в аптеке, в зависимости от концентрации белка, тест покажет "Болен" или "Здоров".
Проводя онлайн-тесты, мы используем этот метод иначе: нам известны параметры распредление H0, мы экспертно задаем cutoff (alpha) – с конкретным числовым выражением (например, процент конверсии sic!), но мы не знаем распределение H1: для этого нужно собрать достаточное количество наблюдений (достаточность которого определяется анализом мощности с выбранным MDE, alpha, beta). В этом случае, мы не оцениваем каждого пользователя по отдельности, как в примере выше: мы сравниваем то, насколько распределения различны между A и B. Если среднее значение выборочного распредления группы B больше нашего cutoff, мы принимаем H1, в противном случае – H0 и оставляем вариант A
Но смысл очень похож для обоих приложений фреймворка: есть конкретное пороговое значение, которое устанавливает правило, стандарт для принятия решения
Доверительный интервал H0 (1-alpha) = 35 ± 3.29
Доверительный интервал H1 (1-beta) = 50 ± 7.5
Области Alpha и Beta – слепые пятна:
Есть здоровые с концентрацией белка >38.29 (это и есть alpha — предположим, что таких 5% в популяции) – мы их будем классифицировать как больных (FP, Type 1 error)
Но есть больные с концентрацией белка <38.29 (это beta — в нашем случае, таких 20%) — мы их будем классифицировать как здоровых (FN, Type 2 error)
Если не менять ничего другого, то изменения в alpha (наша линия cutoff) повлекут изменения в beta: например если мы считаем, что лучше признавать здоровых больными, мы увеличим alpha (тем самым, уменьшив beta), или наоборот
Когда пациент покупает тест в аптеке, в зависимости от концентрации белка, тест покажет "Болен" или "Здоров".
Проводя онлайн-тесты, мы используем этот метод иначе: нам известны параметры распредление H0, мы экспертно задаем cutoff (alpha) – с конкретным числовым выражением (например, процент конверсии sic!), но мы не знаем распределение H1: для этого нужно собрать достаточное количество наблюдений (достаточность которого определяется анализом мощности с выбранным MDE, alpha, beta). В этом случае, мы не оцениваем каждого пользователя по отдельности, как в примере выше: мы сравниваем то, насколько распределения различны между A и B. Если среднее значение выборочного распредления группы B больше нашего cutoff, мы принимаем H1, в противном случае – H0 и оставляем вариант A
Но смысл очень похож для обоих приложений фреймворка: есть конкретное пороговое значение, которое устанавливает правило, стандарт для принятия решения
❤3
Не могу не поделиться своим самым любимым примером Фишеровского ризонинга:
Есть два дельфина: Базз и Дорис, между ними находится стенка. Дорис видит лампочку, которую не видит Базз. Когда лампочка мигает, Базз должен нажать на правую кнопку, а когда горит постоянно – левую.
После 16 опытов, Базз выбрал правильную кнопку 15 раз из 16. Значит ли это, что дельфины умеют общаться? Или Базз просто самый везучий дельфин в мире?
Так как у этого опыта всего два исхода – "угадал" или "не угадал", можно смоделировать нулевую гипотезу (то, что Баззу просто повезло) простой серией бросков монетки: провести ~200 опытов по 16 бросков в каждом (после 126 кликов и у меня устал палец и только после этого я заметил, что количество опытов можно задать через отдельное поле🤷♂️ )
В результате этих опытов мы получим распредление вероятностей, из которого следует то, что вероятность получить 15 (орлов) из 16 попыток примерно равна тысячной процента!
Это и есть p-value: уровень удивительности доказательств против H0 (вероятность получить такие или более экстримальные значения, при условии, что нулевая гипотеза верна)
Есть два дельфина: Базз и Дорис, между ними находится стенка. Дорис видит лампочку, которую не видит Базз. Когда лампочка мигает, Базз должен нажать на правую кнопку, а когда горит постоянно – левую.
После 16 опытов, Базз выбрал правильную кнопку 15 раз из 16. Значит ли это, что дельфины умеют общаться? Или Базз просто самый везучий дельфин в мире?
Так как у этого опыта всего два исхода – "угадал" или "не угадал", можно смоделировать нулевую гипотезу (то, что Баззу просто повезло) простой серией бросков монетки: провести ~200 опытов по 16 бросков в каждом (после 126 кликов и у меня устал палец и только после этого я заметил, что количество опытов можно задать через отдельное поле
В результате этих опытов мы получим распредление вероятностей, из которого следует то, что вероятность получить 15 (орлов) из 16 попыток примерно равна тысячной процента!
Это и есть p-value: уровень удивительности доказательств против H0 (вероятность получить такие или более экстримальные значения, при условии, что нулевая гипотеза верна)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9
Не люби α-values – обманут, не люби p-values – обманут
Отвечаю на вопрос, который я задал в предыдущем посте:
NHST (Null Hypothesis Significance Testing) – метод, который объединил две методологии, которые совершенно несовместимы, как философски, так и логически
Каждый раз, когда вы слышите про тестирование статистических гипотез, с большой вероятностью, вы слышите именно про NHST
Интерпретация NHST: при t=2, α = 5, df=999; p-vale(0.04577)<α(0.05) => принимается H1
Практические предпосылки этого смешения более чем понятны: бизнес, как и любая экспериментально-практическая деятельность хочет получить простой ответ на сложный вопрос: что лучше – A или B? Кошки или собаки? Аянами Рэй или Аска?
И NHST дает иллюзию ответа на этот вопрос: в качестве результата мы получаем бинарный ответ – «да» или «нет», а еще и p-value, как показатель статистической значимости.
Попытка усидеть на двух стульях неизбежно влечет за собой противоречия:
✝️ Первое противоречие – трактовка выводов:
Метод Неймана-Пирсона – механическая процедура, которая порождает однозначный бинарный ответ, метод Фишера подразумевает непрерывную градацию статистической значимости.
В нашем примере мы отклонили H0, приняв H1 с p-value = 0.04577 (p<α).
И хотя мы в точности следовали процедуре, с точки зрения убедительности доказательств, нет никакой разницы между p=0.04577 или например p=0.06 – это значения одинаковых порядков, которые трактуются как одинаково слабые свидетельства против H0.
Формальное соблюдение неравенства p<α в этом случае не играет роли: статистическая значимость – не бинарный вывод, это градиент убедительности.
✝️ Второе противоречие – несовместность нулевых гипотез:
Сравнение α и p-value – исключительно механическое правило принятия решения, сами значения друг с другом никак не связаны по смыслу.
Мы называем α вероятностью ошибки первого рода только потому, что оно соответствует значениям реальных данных, которые находятся в двух или трех стандартных отклонениях от среднего – это все «самые»: самые низкие, самые высокие, самые умные или самые глупые. Мы предполагаем, что распределение альтернативной гипотезы может располагаться внахлест относительно распределения H0, поэтому мы рискуем 5%/ 1% ложноположительных выводов на большой дистанцией измерений.
В свою очередь, p-value ничего не «знает» про α: p-value из мира, где нулевая гипотеза всегда верна и непогрешима
✝️ Третье (хоть и не-противоречие) – завышенные ожидания:
Тестируя статистически гипотезы сложно не испытывать соблазн увидеть в результатах больше, чем эти результаты могут сказать.
Бизнес хочет знать: «верна ли выбранная гипотеза, действительно ли A лучше B?» И кажется, что ответ так близок! Ужасно сложное определение p-value про такие же или более экстремальные значения… схлопывается до «вероятность того, что нулевая гипотеза верна».
И вот мы получили p=0.04577, значит ли это, что нулевая гипотеза верна с вероятностью 4%? Теорема Байеса говорит, что реальная, эмпирическая вероятность ошибки первого рода значительно больше – как минимум 20%!
Если попробовать записать это формально, то: p-value = P(наблюдаемый эффект|H0 верна), вероятность того, что нулевая гипотеза верна – P(H0 верна|наблюдаемый эффект) – даже не вдумываясь в эту запись, несложно понять, что такое определение переворачивает направление условности
Так как фриквентистская статистика не может привязать вероятности к гипотезам (распределениям), а только к случайным переменным, чтобы оценить вероятности того, насколько нулевая гипотеза может быть верна, мы вынуждены применить теорему Байеса.
Авторы одной статьи рассчитали разные значения p-value и вероятности отклонить истинную нулевую гипотезу:
При p=0.05 – 23% (но чаще ближе к 50%!!!)
При p=0.01 – 7% (но чаще ближе к 15%!!)
При p=0.001 ~ 1%
Эта запись очень хорошо иллюстрирует тот самый «градиент убедительности»
Тест не дает нам оценку "верности наших гипотез": мы оперируем лишь категориями правдоподобия и убедительности
#статистика #ab_тесты #product_management #pvalue #гипотезы
Отвечаю на вопрос, который я задал в предыдущем посте:
NHST (Null Hypothesis Significance Testing) – метод, который объединил две методологии, которые совершенно несовместимы, как философски, так и логически
Каждый раз, когда вы слышите про тестирование статистических гипотез, с большой вероятностью, вы слышите именно про NHST
Интерпретация NHST: при t=2, α = 5, df=999; p-vale(0.04577)<α(0.05) => принимается H1
Практические предпосылки этого смешения более чем понятны: бизнес, как и любая экспериментально-практическая деятельность хочет получить простой ответ на сложный вопрос: что лучше – A или B? Кошки или собаки? Аянами Рэй или Аска?
И NHST дает иллюзию ответа на этот вопрос: в качестве результата мы получаем бинарный ответ – «да» или «нет», а еще и p-value, как показатель статистической значимости.
Попытка усидеть на двух стульях неизбежно влечет за собой противоречия:
Метод Неймана-Пирсона – механическая процедура, которая порождает однозначный бинарный ответ, метод Фишера подразумевает непрерывную градацию статистической значимости.
В нашем примере мы отклонили H0, приняв H1 с p-value = 0.04577 (p<α).
И хотя мы в точности следовали процедуре, с точки зрения убедительности доказательств, нет никакой разницы между p=0.04577 или например p=0.06 – это значения одинаковых порядков, которые трактуются как одинаково слабые свидетельства против H0.
Формальное соблюдение неравенства p<α в этом случае не играет роли: статистическая значимость – не бинарный вывод, это градиент убедительности.
Сравнение α и p-value – исключительно механическое правило принятия решения, сами значения друг с другом никак не связаны по смыслу.
Мы называем α вероятностью ошибки первого рода только потому, что оно соответствует значениям реальных данных, которые находятся в двух или трех стандартных отклонениях от среднего – это все «самые»: самые низкие, самые высокие, самые умные или самые глупые. Мы предполагаем, что распределение альтернативной гипотезы может располагаться внахлест относительно распределения H0, поэтому мы рискуем 5%/ 1% ложноположительных выводов на большой дистанцией измерений.
В свою очередь, p-value ничего не «знает» про α: p-value из мира, где нулевая гипотеза всегда верна и непогрешима
Тестируя статистически гипотезы сложно не испытывать соблазн увидеть в результатах больше, чем эти результаты могут сказать.
Бизнес хочет знать: «верна ли выбранная гипотеза, действительно ли A лучше B?» И кажется, что ответ так близок! Ужасно сложное определение p-value про такие же или более экстремальные значения… схлопывается до «вероятность того, что нулевая гипотеза верна».
И вот мы получили p=0.04577, значит ли это, что нулевая гипотеза верна с вероятностью 4%? Теорема Байеса говорит, что реальная, эмпирическая вероятность ошибки первого рода значительно больше – как минимум 20%!
Если попробовать записать это формально, то: p-value = P(наблюдаемый эффект|H0 верна), вероятность того, что нулевая гипотеза верна – P(H0 верна|наблюдаемый эффект) – даже не вдумываясь в эту запись, несложно понять, что такое определение переворачивает направление условности
Так как фриквентистская статистика не может привязать вероятности к гипотезам (распределениям), а только к случайным переменным, чтобы оценить вероятности того, насколько нулевая гипотеза может быть верна, мы вынуждены применить теорему Байеса.
Авторы одной статьи рассчитали разные значения p-value и вероятности отклонить истинную нулевую гипотезу:
При p=0.05 – 23% (но чаще ближе к 50%!!!)
При p=0.01 – 7% (но чаще ближе к 15%!!)
При p=0.001 ~ 1%
Эта запись очень хорошо иллюстрирует тот самый «градиент убедительности»
Тест не дает нам оценку "верности наших гипотез": мы оперируем лишь категориями правдоподобия и убедительности
#статистика #ab_тесты #product_management #pvalue #гипотезы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Depeche Prod
Не люби α-values – обманут, не люби p-values – обманут Отвечаю на вопрос, который я задал в предыдущем посте: NHST (Null Hypothesis Significance Testing) – метод, который объединил две методологии, которые совершенно несовместимы, как философски, так и логически…
Из всех вин, самое пьянящее на свете – инференционная статистика
В предыдущем посте я писал о том, что p-value – это градиент убедительности доказательств против нулевой гипотезы. Его величина прямо коррелирует с байесовской эмпирической вероятностью того, что нулевая гипотеза верна – грубо говоря, чем меньше p-value, тем мы уверенне в том, что A на самом деле лучше B. В этом посте я расскажу про три способа применения этого принципа на практике:
✝️ Наивный
Некоторые исследователи предлагают принять пороговое значение для p-value, равное не конвенциональным 0.05 или 0.01, а 0.005 или 0.001
Таким образом, фирма будет игнорировать большую часть результатов экспериментов и/или будет вынуждена повышать их мощность. В любом случае, стоимость эксперимента возрастет кратно, а жесткая стандартизация будет отсекать часть валидных гипотез из-за формального несоответствия стандарту поэтому метод сложно назвать оптимальным.
✝️ Простой, но сложный
A/B эксперименты очень часто проводятся в медицине: почти любой препарат, который выходит на рынок должен подтвердить свою эффективность в рандомизированных клинических испытаниях.
Традиционно, клиническое исследование включает три фазы тестирования на пациентах. Таким образом, один препарат последовательно тестируется, как минимум, три раза еще до того, как попадет в аптеки.
Это хорошо иллюстрирует идею воспроизводимости. Помните, я писал, что Фишер считал p-value не более чем точкой данных для мета-анализа?
Когда мы воспроизводим один эксперимент несколько раз, можно думать, что мы перемножаем значения p-value:
Репликация 1: p-value = 0.05
Репликация 2: p-value = 0.055
Репликация 3: p-value = 0.04
Итоговое p-value = 0.05 x 0.055 x 0.04 = 0.0001
Сама концепция воспроизводимости проста и лежит в основе научного метода. Реплицируемость также помогает избежать необходимости в строгих пороговых значениях p-value. Но в индустрии почти каждая фирма, которая проводит A/B тесты игнорирует этот важнейший принцип – делать один и тот же A/B тест дорого и долго, и бизнес редко когда готов ждать
✝️ Сложный, но простой
До сих пор я рассмотрел формальные процедуры, которые могут сделать вывод более точным. Однако, хороших продактов беспокоит не только проблема выбора между вариантом A и B, а еще и каузальность. Добавляя новый вариант баннера/кнопки/формочки мы не просто хотим понять какой вариант прокрашивает метрику, а проверить в контролируемых условиях наше объяснение того, почему альтернативный вариант может отличаться.
В биостатистике известны критерии каузальности Хила, где стат. значимость (p-value) рассматривается необходимым, но недостаточным критерием наравне с восьмью другими. Другой критерий – Plausibility, как раз про объяснение: исследователя должна существовать внятная гипотеза, которая описывает причину и следствие, еще один – Coherence, про согласованность с общепринятыми фактами.
Вспомните высказывание Карла Сагана: «Экстраординарные заявления требуют экстраординарных доказательств». Хорошая объясняющая модель помогает задавать рамки «экстраординарности» и оценивать достаточный уровень доказательств, который можно интерпретировать как величину p-value
И если я, как продакт, могу объяснить результат, если я контролирую все другие причины, которые могут на этот результат повлиять, результат не противоречит здравому смыслу и т.д., я могу обойтись и без p-value = 0.00001 и с большой вероятностью, буду прав
#статистика #ab_тесты #product_management #pvalue #гипотезы
В предыдущем посте я писал о том, что p-value – это градиент убедительности доказательств против нулевой гипотезы. Его величина прямо коррелирует с байесовской эмпирической вероятностью того, что нулевая гипотеза верна – грубо говоря, чем меньше p-value, тем мы уверенне в том, что A на самом деле лучше B. В этом посте я расскажу про три способа применения этого принципа на практике:
Некоторые исследователи предлагают принять пороговое значение для p-value, равное не конвенциональным 0.05 или 0.01, а 0.005 или 0.001
Таким образом, фирма будет игнорировать большую часть результатов экспериментов и/или будет вынуждена повышать их мощность. В любом случае, стоимость эксперимента возрастет кратно, а жесткая стандартизация будет отсекать часть валидных гипотез из-за формального несоответствия стандарту поэтому метод сложно назвать оптимальным.
A/B эксперименты очень часто проводятся в медицине: почти любой препарат, который выходит на рынок должен подтвердить свою эффективность в рандомизированных клинических испытаниях.
Традиционно, клиническое исследование включает три фазы тестирования на пациентах. Таким образом, один препарат последовательно тестируется, как минимум, три раза еще до того, как попадет в аптеки.
Это хорошо иллюстрирует идею воспроизводимости. Помните, я писал, что Фишер считал p-value не более чем точкой данных для мета-анализа?
Когда мы воспроизводим один эксперимент несколько раз, можно думать, что мы перемножаем значения p-value:
Репликация 1: p-value = 0.05
Репликация 2: p-value = 0.055
Репликация 3: p-value = 0.04
Итоговое p-value = 0.05 x 0.055 x 0.04 = 0.0001
Сама концепция воспроизводимости проста и лежит в основе научного метода. Реплицируемость также помогает избежать необходимости в строгих пороговых значениях p-value. Но в индустрии почти каждая фирма, которая проводит A/B тесты игнорирует этот важнейший принцип – делать один и тот же A/B тест дорого и долго, и бизнес редко когда готов ждать
До сих пор я рассмотрел формальные процедуры, которые могут сделать вывод более точным. Однако, хороших продактов беспокоит не только проблема выбора между вариантом A и B, а еще и каузальность. Добавляя новый вариант баннера/кнопки/формочки мы не просто хотим понять какой вариант прокрашивает метрику, а проверить в контролируемых условиях наше объяснение того, почему альтернативный вариант может отличаться.
В биостатистике известны критерии каузальности Хила, где стат. значимость (p-value) рассматривается необходимым, но недостаточным критерием наравне с восьмью другими. Другой критерий – Plausibility, как раз про объяснение: исследователя должна существовать внятная гипотеза, которая описывает причину и следствие, еще один – Coherence, про согласованность с общепринятыми фактами.
Вспомните высказывание Карла Сагана: «Экстраординарные заявления требуют экстраординарных доказательств». Хорошая объясняющая модель помогает задавать рамки «экстраординарности» и оценивать достаточный уровень доказательств, который можно интерпретировать как величину p-value
И если я, как продакт, могу объяснить результат, если я контролирую все другие причины, которые могут на этот результат повлиять, результат не противоречит здравому смыслу и т.д., я могу обойтись и без p-value = 0.00001 и с большой вероятностью, буду прав
#статистика #ab_тесты #product_management #pvalue #гипотезы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🌚1