NEW BOT Телеграм, страница

Depeche Prod

Очень классный пример неэргодического процесса на примере CRT (controlled randomized trial, или A/B-теста на продуктовом):
На картинке пустые кружочки и треугольники – субъекты исследования, разбитые на контрольные и тестовые группы соответственно, на обведенным красным панелях видно то, как могут выглядеть различные траектории отдельных субъектов и как эти траектории могут расходиться со средним по группе (закрашеные треугольники)

172 viewsedited 01:22

Depeche Prod

Более общая (и наглядная) картинка встречалась в лекции Ole Peters: на ней также говорится о том, что тренд среднего по группе сильно преувеличивает успех (это может быть "средним по больнице", но далеко не всегда на практике применимо к отдельному субъекту)

✝️

Просто представьте, что некоторый препарат в среднем эффективен в 70% случаев по группе, но когда вы, как пациент, обращаетесь за назначением, то вероятность того, что он будет эффективен именно для вас, может развиватья по совершенно случайно траектории: это может быть и 20% и 50% и даже 0%!

Именно по этой причине, медицинские исследователи бьют тревогу: очень часто дизайн клинических исследований подразумевает вывод на основе разницы средних значений групп, что ограничивает возможность прогнозировать результат лечения для каждого отдельного пациента.

Please open Telegram to view this post

VIEW IN TELEGRAM

194 viewsedited 01:26

Depeche Prod

Декомпозиция эргодичности Ч. 4: Часть, которую можно читать вместо всех остальных и кайфовать

Fisher et al. "Lack of group-to-individual generalizability is a threat to human subjects research"

The consequences of neglecting ergodic theory in social, behavioral, and medical fields may have substantial epistemic and practical consequences. In the absence of quantitative examination at the individual level, the consequences could range from zero if we are lucky to find one of the few ergodic processes in nature (19), to catastrophic if a process is quite nonergodic. In clinical research, diagnostic tests may be systematically biased and our classification systems may be at least partially invalid.

Рекап:
1️⃣ Эргодичность – это когда среднее множества измерений на уровне одного юнита = среднему единственного измерения множества юнитов и наоборот => можно делать корректные выводы от пользователя к группе и vice versa
2️⃣ Эргодичность не появляется просто при накоплении наблюдений (увеличении выборки)
3️⃣ Не менее важным являтся понимание и отсутствия эргодичности в процессе: в этом случае обобщающие выводы приводят к некорректной интерпретации результов исследования так как метрики могут иметь совершенно разные тренды на уровне группы и на уровне отдельного пользователя (см. ecological fallacy, парадокс Симпсона)
4️⃣ Если даже процесс неэргодичен, использование усредненных метрик по группе, или усредненных на уровне отдельных юнитов – это ок, если мы не делаем выводов о том, что они тождественны
5️⃣ В продукте, как и в природе, эргодические процессы практически не встречаются. Почти все продуктовые метрики неэргодичны.

В то время как проблема обобщения от группы к одному субъекту сильно сказывается на мире клинических исследований и доказательной медицины, влияние эргодичности, а скорее ее отсутствия, на управление продуктом кажется мне не таким существенным по двум причинам:

✝️В продукте нам важно не столько получить достовреное значение метрики, сколько получить достоверный сигнал. На картинке выше, напротив "Relevant to the collective" стоит знак вопроса и он там полностью уместен – такое понятие как "группа" или "общность" пользователей – крайне странный юнит для анализа. Его сложно пощупать и также сложно интерпретировать, более того, среднее группы имеет тенденцию быть излишне оптимистичным. Однако, если эта сущность помогает продакту увидеть сигнал, который отражает реальность, пусть и несколько искаженную, то почему бы с этим не работать?
Например, если LTV по новой когорте вырос в несколько раз, куда проще скоммуницировать этот рост, как рост LTV пользователей в целом и каждого пользователя одновременно, а не пытаться объяснить своему CPO, что динамика LTV подчиняется случайному стохастическому процессу и варьируется от 150% до -150% для отдельных пользователей в когорте.

✝️Продуктовый процесс – это управление ограниченным кусочком реальности (продуктом) вокруг пользователя, но никак не изменение пользователя ради продукта. Когда мы красим кнопки, добавляем фичи – это попытки подстроиться под пользователя, но не поменять его. Этот процесс, во многом, противоположнен тому, который существует в медицине, где взаимодействие с пациентом направлено на то, чтобы его вылечить – изменить его текущее состояние.
Конкретные пользователи безусловно важны, так же важен и их персональный успех, но продукт не должен, да и не может воздейстовать на каждого пользователя, гарантируя ему успех, наоборот, он должен подстраиваться под нужды тех групп, кому он несет ценность, чтобы уже сами пользователи успешно взаимодействовали с ним

Please open Telegram to view this post

VIEW IN TELEGRAM

243 viewsedited 01:53

Depeche Prod

На какой вопрос отвечает наука или почему тучка плачет?

“Religion is a culture of faith; science is a culture of doubt” – Richard Phillips Feynman

Вопрос “почему тучка плачет?” Может показаться наивным для обывателя и совершенно некорректным для исследователя, который хочет разобраться в причинах этого явления.

Зачастую, чтобы прийти к правильным выводам, мало находить правильные ответы, нужно еще и задавать правильные вопросы. Казалось бы: исследуя какое-то явление, как ту же плачущую тучку, мы хотим дать объяснение этому феномену, выстроив такую цепочку рассуждений где механизм A предшествует механизму B предшествует механизму C. Что же тогда не так с вопросом о плачущей тучке? Дело в том, что когда мы выстраиваем цепочку A->B->C мы отвечаем не на вопрос “ПОЧЕМУ?”, а на вопрос “КАК?”

Систематическое непонимание разницы между этими вопросами приводит к неправильному пониманию предмета исследований и к некорректным выводам.

В чудесной статье медицинского сообщества Medach “Анатомия и физиология клинического исследования”, авторы выделяют два основных подхода к формализации клинических исследований:

1. Исследовательский вопрос
2. Гипотезу

Оба подхода не взаимоисключающие и даже дополняющие друг друга: исследовательский вопрос понимается шире, чем гипотеза, и оба подхода предполагают ответ на вопрос "КАК?", однако, в некоторых сферах существует тренд на использование чего-то одного: если формальные науки, чаще опираются на гипотезы, то в soft sciences, чаще предпочитают формулировать исследовательские вопросы. Сама концепция гипотезы также ближе и к нашей IT-индустрии

Гипотеза – это предположение о причинно-следственной связи (causality) между зависимой и независимой переменными (например зависимой переменной – осадками и независимой – временем года). Более того, гипотеза формулируется так, что подразумевается эксперимент, который может ее опровергнуть. Формально выражаясь, гипотезы – некоторые фальсифицируемые предположения о причинно-следственных связях. Если гипотезу теоретически невозможно опровергнуть опытным путем, то это не более чем милая идея, догадка, досужее предположение.
Когда мы отвечаем на вопрос “КАК?”, мы трансформируем наблюдаемые факты в исследовательские вопросы, затем в гипотезы и ставим эксперименты.

Для иллюстрации того, как формулируются гипотезы и исследовательские вопросы на практике, я приведу картинку из уже упомянутой статьи.

Теперь задумайтесь на секунду: можно ли поставить такой эксперимент, чтобы опровергнуть ответ на вопрос “ПОЧЕМУ?” (e.g. тучка плачет)?
Конечно же нет: ведь в самом вопросе “ПОЧЕМУ?” подразумевается однозначный ответ, который может быть совершенно произвольным (например: так карты легли, судьба такая, день такой), а не предположение о механизмах развития феномена, более того, сама суть вопроса предполагает рациональный умысел: как будто кто-то или что-то заставило тучку плакать (сделало небо голубым, а зайцев ушастыми). Следовательно, возможный ответ будет скорее опираться на какую-то систему верований и убеждений, а не на наблюдаемые причины и следствия, что невозможно вписать в рамки эксперимента

Чтобы дальше развить интуицию о разнице между этими вопросами я приведу несколько примеров:

✝️Теория эволюции отвечает на вопрос КАК произошли виды, но не ПОЧЕМУ они произошли
✝️Теория относительность отвечает на вопрос КАК связаны время и пространство, но не ПОЧЕМУ они связаны
✝️Или в математике мы знаем КАК вычислить константы вроде ❤️ и 📝, но не знаем ПОЧЕМУ, черт возьми, именно эти константы

Кстати, самые пытливые читатели могут поразмышлять на такую тему: если задать вопрос “ПОЧЕМУ?” 5 раз, трансформируется ли он из “ПОЧЕМУ?” в вопрос “КАК?” )))

В качестве заключения:
и вопрос "почему?" и вопрос "как?" одинаково уместны, но почти никогда не взаимозаменяемы. Наука не отвечает на вопрос "почему?", однако, это не значит, что ответа на этот вопрос не существует.

А, и чуть не забыл: тучка плачет потому что ей грустно

#философия_науки #product_management #it

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

291 viewsedited 06:37

Depeche Prod

0:44

This media is not supported in your browser

VIEW IN TELEGRAM

В качестве иллюстрации к посту очень хорошо подходит отрывок из Южного Парка, где Стен задает очень правильный вопрос

❤4

280 views07:03

Depeche Prod

https://www.youtube.com/watch?v=VDlnuO96p58&t=57s

Я думаю, каждый кто изучал статистику встречался с таким непонятным концептом, как degrees of freedom (df, уровни свободы)
Даже в хороших учебниках пишут о том, как использовать degreees of freedom в расчетах, но саму суть всегда обходят стороной и пишут что-то вроде: "Объяснение этого концепта довольно сложное и глубоко математическое". И как бы я ни пытался, никогда не мог найти то самое "сложное и глубоко математическое" объяснение
И вот вчера я совершенно случайно наткнулся на видео, в котором суть явления наглядно демонстриурется через линейную алгебру
К сожалению, пока вышло только две части из обещанных десяти, но даже они формируют очень хорошую интуицию о том, как это работает

Настоящий hidden gem математического ютуба

#statistics #статистика #it

YouTube

Degrees of Freedom, Actually Explained - The Geometry of Statistics | Ch. 1 (#SoME4)

The most confusing concept in statistics must be degrees of freedom. Students everywhere leave their introductory stats courses totally bewildered about what degrees of freedom means, and why it seems to show up all over the place, such as in the t, chi-square…

❤2

333 viewsedited 08:50

Depeche Prod

Если это красиво – значит это правильно. Или почему не нужно оценивать UI/UX через ROI

Недавно после одной дискуссии на работе я задался вопросом о том, что такое красота. И я вывел для себя определение, которое мне показалось весьма универсальным: «Красота – это то, в чем можно увидеть идею»
Притом идею в самом широком смысле слова: это может быть как идея продевать нитку снизу иголки, или идея объединить пять констант математики в одном уравнении, или нужно быть совсем слепым, чтобы не увидеть идею, которую вынашивала эволюция миллионы лет, чтобы воплотить ее в моей кошке. Некоторые идеи лежат на поверхности, некоторые не так очевидны, но когда ты их видишь, ты понимаешь, что это красиво.

Вообще, rags and bones продукта – это технологии и пользовательские опыты, которые вокруг них строятся и одно без другого не существует. Поэтому фичу можно представить как точку, образованную пересечением этих двух линий. Технологии отвечают за бизнес-логику сценариев, которые мы хотим реализовать. Пользовательские опыты – это рельсы, которые максимально эффективно ведут пользователя к результату.

Про эффективность можно думать по-разному: например с точки зрения перформанса – измерить конверсии по шагам ключевых воронок или с точки зрения простоты – опираться на UX-метрики вроде Task success, Time on task, SUM
Я предпочитаю думать об эффективности как об идее, которая будет очевидна для любого пользователя, а следовательно будет и красивой

Некоторые изменения в дизайне просто должны быть сделаны и это почти невозможно связать с ROI (Return on Investments): например, чтобы проделанную работу заметили, ну или вот этот слайдер в приложении Drinkit явно не проектировался исключительно из соображений ROI. В целом, любая инициатива изменения UI/UX, которая помогает пользователям увидеть идею во взаимодействии с продуктом – более чем валидная мотивация, будь то внедрение знакомого паттерна или графическое улучшение UI

✝️UI/UX – это система, а система должна работать всегда, а не в моменте, поэтому бинарный (сработало или нет) подход к дизайну — это прямой путь к созданию опыта «вопреки» или в лучшем случае, оптимизированного, но безыдейного продукта вроде Zoom

Можно также думать, что ROI усилий, направленных на UX эмерджентен, то есть не является прямой суммой отдельных улучшений UI/UX и не выводим из результатов отдельных инициатив
Метрики юзабилити важны для того, чтобы продуктовая команда могла оценить масштаб проблем и вовремя задаться HMW (How might we?) вопросом относительно простоты использования продукта, но чаще всего, они очень плохие регрессоры для ROI/NSM и других верхнеуровневых показателей, потому что меняя какую-то часть флоу, чаще всего, вы меняете сразу несколько компонентов, что добавляет шума, также изменения могут касаться только отдельного сегмента пользователей и/или ваших изменений может просто оказаться недостаточно в большой схеме вещей

Поэтому стоит помнить, что почти всегда ROI можно надежно атрибутировать только к комплексным изменениям фичей или к новым фичам – когда вы затрагиваете и вертикаль пользовательского опыта и технологическую горизонталь, притом однозначно выделить влияние отдельного компонента редко представляется возможным

Вообще, этот взгляд на оценку UX не может быть универсальной практической рекомендацией, потому что красота, как умение видеть и создавать идеи в дизайне – очень вариативна, но чем опытнее и насмотреннее команда, тем чаще будут возникать внутренние AHA-моменты, когда открывается что-то красивое. Если у вашей команды есть консенсус относительно красоты идеи флоу, то это конечно не повод к немедленной имплементаци, но очень полезная интуиция того, что скорее всего, ваше решение будет также и простым и с хорошим перформансом.

#product_management #it #UI #UX #design #дизайн

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🌚3

396 viewsedited 09:31

Depeche Prod

❤1

402 views09:31

Depeche Prod

Не люби µ1-µ2≠0– обманут, не люби α-values – обманут, не люби p-values – обманут, а из всех вин, самое пьянящее на свете – инференционная статистика

Я некоторое время не писал в канал – от части из-за проблем со здоровьем, от части из-за некоторого кризиса тем: совершенно не хотелось писать о чем-то тривиальном. В итоге, мотивацию подарил пост из другого уважаемого канала с обзором на серию критических заявлений об A/B тестах

Я не буду пересказывать пост (это хороший материал, прочитайте его сами), более того, не буду цитировать оригинальные посты, но также рекомендую к прочтению.
Вместо этого я попробую в нескольких частях расширить понимание того, как формуется правильный статистический вывод

Не люби µ1-µ2≠0 – обманут

Статистические гипотезы – это формальная постановка задачи статистического исследования и крайне непрозрачный концепт для интерпретации
Исторически, существовало два подхода к проверке статистических гипотез: метод значимости Фишера (Fisher’s significance testing) и метод проверки гипотез Неймана-Пирсона (Neyman-Pearson’s hypothesis testing framework)
Обзор всех различий в этих методологиях – обширная тема, и сейчас же я остановлюсь на одном единственном различии: интерпретации нулевой гипотезы.
Тестирование статистической гипотезы подразумевает исключительно проверку консервативного утверждения, нулевой гипотезы – допущение о том, что различий между некоторым параметром выборок нет: например разница средних равна нулю: µ1-µ2=0

Нулевая гипотеза в понимании Фишера – математический концепт, теоретическое распределение некоторой случайно величины (например среднего). В парадигме Фишера такое распределение не может быть ложным, не может быть фальсифицируемым – это некоторый 100%-правдивый факт относительно которого мы делаем выводы об «удивительности» экспериментальных данных. Если данные достаточно «удивительны», мы можем сделать заключение об убедительности доказательств простив нулевой гипотезы (обратите внимание – не «принять»), в противном случае уместно заявить о том, что мы «failed to reject the null» – такая хитрая словестная конструкция с двойным отрицанием, лишний раз напоминает то, что you can't prove a negative – почти невозможно доказать то, чего нет

Нулевая гипотеза в понимании Неймана-Пирсона – это одно из двух взаимоисключающих утверждений (второе – это альтернативная гипотеза, которую фреймворк Фишера подразумевает только имплицитно) любое из которых должно быть однозначно принято. Математически, нулевая (или основная, H (main)) гипотеза в этом случае – такое же теоретическое распределение, но философски, мы принимаем его не просто за численный референс, а за валидную модель реального мира, которую мы хотим отвергать как можно реже, в связи с чем, авторы впервые ввели известные всем α и β параметры, а также MDE.

Спустя время, оба фреймворка слилсь в один, чему очень противились все три автора и что очень сильно запутало понимание статистики всеми, кто ее касается. То определение стат. гипотез, которое сейчас можно встретить в непрофильных учебниках по статистике или популярной публицистике уже сильно искажено и упрощено, что неизбежно ведет к неправильным интерпретациям и трактовкам.

✝️

Поэтому, как бы мы не думали о нулевых гипотезах, важно понимать одно: «опровержение» (sic!) нулевой гипотезы не говорит о том, что мы получили новое знание и/или что мы однозначно уверены в нем. Оно даже не гарантирует того, что наша альтернативная гипотеза однозначно верна.
Мы, всего лишь, оцениваем полученные данные.

✝️Верно и обратное: если наши данные говорят в пользу нулевой гипотезы – это не значит, что альтернативная гипотеза не верна.
Недостаток доказательств не является доказательством отсутствия эффекта, также как контурная карта по географии не говорит об отсутствии на местности гор, рек и озер.

#статистика #ab_тесты #product_management #pvalue #гипотезы

Please open Telegram to view this post

VIEW IN TELEGRAM

Быть продактом! (быть, а не казаться)

Клемент против A/B-тестов

Уже полгода наблюдаю, как Алан Клемент (да-да, тот самый) пытается разбудить англоязычный LinkedIn на тему сплит-тестов и, в целом, использования фриквентистской статистики для принятия решений.

Попытка объяснить русскоязычным…

❤10🌚2🤡1

415 viewsedited 07:38

Depeche Prod

И это хороший паттерн мышления для статистика

❤5

205 views07:38

Depeche Prod

Что общего у теста на беременность и двигателя бесконечной невероятности Дугласа Адамса?

Представьте, что мы провели A/B тест (n=1000, H0: µ1-µ2=0, H1: µ1-µ2≠0) и посчитали t-статистику: t = 2.

✝️Интерпретация Фишера: для t=2, df=999, p-valuе = 0.04577 => слабые доказательства простив H0

p-value здесь – выражение непрерывной статистической значимости: чем p-value меньше – тем экспериментальные данные «удивительнее».
Как мы помним, в парадигме Фишера нулевая гипотеза – 100%-верная модель, а масштаб отличий от нее имеет разную градацию удивительности в соответствии с величиной этих различий (исходя из этого и происходит классическое определение: «вероятность получить такие же или более экстремальные значения, при условии, что нулевая гипотеза верна»)
Концептуально, проводя эксперимент, мы хотим получить абсурдно маленькую вероятность того, что наш результат объясняется нулевой моделью.
Мне нравится думать про p-value как о двигателе бесконечной невероятности из «Автостопом по галактике»: в книге Дугласа Адамса, мгновенно оказаться на другом краю вселенной возможно, просто крайне маловероятно (удивительно) – именно эту вероятность и использовал двигатель Золотого Сердца
Хотя, такой двигатель и остается уделом фантастики, статистика умеет находить абсурдно маленькие p-values – это задача воспроизводимости и грамотной постановки экспериментов
В итоге, этот метод дает нам количественную оценку доказательств против H0, которую сам Фишер определял, как просто точку данных, которая не содержит информации о том насколько мы правы, и имеет смысл только как материал для мета-анализа подобных экспериментов

✝️Интерпретация Неймана-Пирсона: при t=2, α = 5, df=999; 2>1.962 (критическое значение для α=5) => принимается H1

Про фреймворк Неймана-Пирсона можно думать как про тест на беременность: есть значения hCG для беременных и не беременных: 1-α – это диапазон концентрации hCG у не беременных (доверительный интервал), а 1-ß – это диапазон концентрации hCG у беременных. Если концентрация hCG у пациентки попадает в интервал 1-α, она не беременна и наоборот. Попадание в области а и ß соответствует ошибкам первого (False-Positive) и второго рода (False-Negative)
Тест помогает ответить на вопрос: «Учитывая концентрацию hCG у пациентки, беременна она (H1) или нет (H0)»?
NB! проводя тест в продукте, мы не знаем какое распределение у H1, но в случае с тестом на беременность аналитическая работа уже проведена: мы доподлинно знаем распределения H0 и H1 и смотрим в какое попадает результат пациентки и это именно тот сценарий, для которого тест Неймана-Пирсона и был изначально разработан!
Фактически – этот подход решает задачу бинарной классификации, где α и ß – являются константами помогающими контролировать ошибки первого и второго рода на большой дистанции экспериментов и не говорят о реальном количестве ошибочных выводов и не гарантируют истинность выбранной гипотезы – мы просто соглашаемся с правилом выбора.

Without hoping to know whether each separate hypothesis is true or false, we may search for rules to govern our behavior with regard to them – Neyman and Pearson

Я надеюсь, что я смог донести фундаментальные различия этих двух подходов, однако, нечто общее у теста на беременность и двигателя бесконечной невероятности, к сожалению, все же нашлось, но об этом я расскажу в следующем посте

#статистика #ab_тесты #product_management #pvalue #гипотезы

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🌚1

134 viewsedited 06:29

Depeche Prod

Самое явное приложения метода Неймана-Пирсона — это создания правила принятия решения: у нас есть два распределения некоторого белка, оба известны, среднее распределения у здоровых (H0) — 35, у больных (H1) — 50
Доверительный интервал H0 (1-alpha) = 35 ± 3.29
Доверительный интервал H1 (1-beta) = 50 ± 7.5

Области Alpha и Beta – слепые пятна:
Есть здоровые с концентрацией белка >38.29 (это и есть alpha — предположим, что таких 5% в популяции) – мы их будем классифицировать как больных (FP, Type 1 error)
Но есть больные с концентрацией белка <38.29 (это beta — в нашем случае, таких 20%) — мы их будем классифицировать как здоровых (FN, Type 2 error)

Если не менять ничего другого, то изменения в alpha (наша линия cutoff) повлекут изменения в beta: например если мы считаем, что лучше признавать здоровых больными, мы увеличим alpha (тем самым, уменьшив beta), или наоборот

Когда пациент покупает тест в аптеке, в зависимости от концентрации белка, тест покажет "Болен" или "Здоров".

Проводя онлайн-тесты, мы используем этот метод иначе: нам известны параметры распредление H0, мы экспертно задаем cutoff (alpha) – с конкретным числовым выражением (например, процент конверсии sic!), но мы не знаем распределение H1: для этого нужно собрать достаточное количество наблюдений (достаточность которого определяется анализом мощности с выбранным MDE, alpha, beta). В этом случае, мы не оцениваем каждого пользователя по отдельности, как в примере выше: мы сравниваем то, насколько распределения различны между A и B. Если среднее значение выборочного распредления группы B больше нашего cutoff, мы принимаем H1, в противном случае – H0 и оставляем вариант A
Но смысл очень похож для обоих приложений фреймворка: есть конкретное пороговое значение, которое устанавливает правило, стандарт для принятия решения

❤3

127 viewsedited 10:36

Depeche Prod

Не могу не поделиться своим самым любимым примером Фишеровского ризонинга:

Есть два дельфина: Базз и Дорис, между ними находится стенка. Дорис видит лампочку, которую не видит Базз. Когда лампочка мигает, Базз должен нажать на правую кнопку, а когда горит постоянно – левую.
После 16 опытов, Базз выбрал правильную кнопку 15 раз из 16. Значит ли это, что дельфины умеют общаться? Или Базз просто самый везучий дельфин в мире?

Так как у этого опыта всего два исхода – "угадал" или "не угадал", можно смоделировать нулевую гипотезу (то, что Баззу просто повезло) простой серией бросков монетки: провести ~200 опытов по 16 бросков в каждом (после 126 кликов и у меня устал палец и только после этого я заметил, что количество опытов можно задать через отдельное поле 🤷‍♂️ )
В результате этих опытов мы получим распредление вероятностей, из которого следует то, что вероятность получить 15 (орлов) из 16 попыток примерно равна тысячной процента!
Это и есть p-value: уровень удивительности доказательств против H0 (вероятность получить такие или более экстримальные значения, при условии, что нулевая гипотеза верна)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9

119 views06:20

Depeche Prod

Не люби α-values – обманут, не люби p-values – обманут

Отвечаю на вопрос, который я задал в предыдущем посте:
NHST (Null Hypothesis Significance Testing) – метод, который объединил две методологии, которые совершенно несовместимы, как философски, так и логически
Каждый раз, когда вы слышите про тестирование статистических гипотез, с большой вероятностью, вы слышите именно про NHST

Интерпретация NHST: при t=2, α = 5, df=999; p-vale(0.04577)<α(0.05) => принимается H1

Практические предпосылки этого смешения более чем понятны: бизнес, как и любая экспериментально-практическая деятельность хочет получить простой ответ на сложный вопрос: что лучше – A или B? Кошки или собаки? Аянами Рэй или Аска?
И NHST дает иллюзию ответа на этот вопрос: в качестве результата мы получаем бинарный ответ – «да» или «нет», а еще и p-value, как показатель статистической значимости.

Попытка усидеть на двух стульях неизбежно влечет за собой противоречия:

✝️Первое противоречие – трактовка выводов:
Метод Неймана-Пирсона – механическая процедура, которая порождает однозначный бинарный ответ, метод Фишера подразумевает непрерывную градацию статистической значимости.
В нашем примере мы отклонили H0, приняв H1 с p-value = 0.04577 (p<α).
И хотя мы в точности следовали процедуре, с точки зрения убедительности доказательств, нет никакой разницы между p=0.04577 или например p=0.06 – это значения одинаковых порядков, которые трактуются как одинаково слабые свидетельства против H0.
Формальное соблюдение неравенства p<α в этом случае не играет роли: статистическая значимость – не бинарный вывод, это градиент убедительности.

✝️Второе противоречие – несовместность нулевых гипотез:
Сравнение α и p-value – исключительно механическое правило принятия решения, сами значения друг с другом никак не связаны по смыслу.
Мы называем α вероятностью ошибки первого рода только потому, что оно соответствует значениям реальных данных, которые находятся в двух или трех стандартных отклонениях от среднего – это все «самые»: самые низкие, самые высокие, самые умные или самые глупые. Мы предполагаем, что распределение альтернативной гипотезы может располагаться внахлест относительно распределения H0, поэтому мы рискуем 5%/ 1% ложноположительных выводов на большой дистанцией измерений.
В свою очередь, p-value ничего не «знает» про α: p-value из мира, где нулевая гипотеза всегда верна и непогрешима

✝️Третье (хоть и не-противоречие) – завышенные ожидания:
Тестируя статистически гипотезы сложно не испытывать соблазн увидеть в результатах больше, чем эти результаты могут сказать.
Бизнес хочет знать: «верна ли выбранная гипотеза, действительно ли A лучше B?» И кажется, что ответ так близок! Ужасно сложное определение p-value про такие же или более экстремальные значения… схлопывается до «вероятность того, что нулевая гипотеза верна».
И вот мы получили p=0.04577, значит ли это, что нулевая гипотеза верна с вероятностью 4%? Теорема Байеса говорит, что реальная, эмпирическая вероятность ошибки первого рода значительно больше – как минимум 20%!
Если попробовать записать это формально, то: p-value = P(наблюдаемый эффект|H0 верна), вероятность того, что нулевая гипотеза верна – P(H0 верна|наблюдаемый эффект) – даже не вдумываясь в эту запись, несложно понять, что такое определение переворачивает направление условности
Так как фриквентистская статистика не может привязать вероятности к гипотезам (распределениям), а только к случайным переменным, чтобы оценить вероятности того, насколько нулевая гипотеза может быть верна, мы вынуждены применить теорему Байеса.
Авторы одной статьи рассчитали разные значения p-value и вероятности отклонить истинную нулевую гипотезу:

При p=0.05 – 23% (но чаще ближе к 50%!!!)
При p=0.01 – 7% (но чаще ближе к 15%!!)
При p=0.001 ~ 1%

Эта запись очень хорошо иллюстрирует тот самый «градиент убедительности»
Тест не дает нам оценку "верности наших гипотез": мы оперируем лишь категориями правдоподобия и убедительности

#статистика #ab_тесты #product_management #pvalue #гипотезы

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

144 viewsedited 09:47

Depeche Prod

Не люби α-values – обманут, не люби p-values – обманут Отвечаю на вопрос, который я задал в предыдущем посте: NHST (Null Hypothesis Significance Testing) – метод, который объединил две методологии, которые совершенно несовместимы, как философски, так и логически…

Из всех вин, самое пьянящее на свете – инференционная статистика

В предыдущем посте я писал о том, что p-value – это градиент убедительности доказательств против нулевой гипотезы. Его величина прямо коррелирует с байесовской эмпирической вероятностью того, что нулевая гипотеза верна – грубо говоря, чем меньше p-value, тем мы уверенне в том, что A на самом деле лучше B. В этом посте я расскажу про три способа применения этого принципа на практике:

✝️ Наивный

Некоторые исследователи предлагают принять пороговое значение для p-value, равное не конвенциональным 0.05 или 0.01, а 0.005 или 0.001
Таким образом, фирма будет игнорировать большую часть результатов экспериментов и/или будет вынуждена повышать их мощность. В любом случае, стоимость эксперимента возрастет кратно, а жесткая стандартизация будет отсекать часть валидных гипотез из-за формального несоответствия стандарту поэтому метод сложно назвать оптимальным.

✝️ Простой, но сложный

A/B эксперименты очень часто проводятся в медицине: почти любой препарат, который выходит на рынок должен подтвердить свою эффективность в рандомизированных клинических испытаниях.
Традиционно, клиническое исследование включает три фазы тестирования на пациентах. Таким образом, один препарат последовательно тестируется, как минимум, три раза еще до того, как попадет в аптеки.
Это хорошо иллюстрирует идею воспроизводимости. Помните, я писал, что Фишер считал p-value не более чем точкой данных для мета-анализа?
Когда мы воспроизводим один эксперимент несколько раз, можно думать, что мы перемножаем значения p-value:

Репликация 1: p-value = 0.05
Репликация 2: p-value = 0.055
Репликация 3: p-value = 0.04

Итоговое p-value = 0.05 x 0.055 x 0.04 = 0.0001

Сама концепция воспроизводимости проста и лежит в основе научного метода. Реплицируемость также помогает избежать необходимости в строгих пороговых значениях p-value. Но в индустрии почти каждая фирма, которая проводит A/B тесты игнорирует этот важнейший принцип – делать один и тот же A/B тест дорого и долго, и бизнес редко когда готов ждать

✝️ Сложный, но простой

До сих пор я рассмотрел формальные процедуры, которые могут сделать вывод более точным. Однако, хороших продактов беспокоит не только проблема выбора между вариантом A и B, а еще и каузальность. Добавляя новый вариант баннера/кнопки/формочки мы не просто хотим понять какой вариант прокрашивает метрику, а проверить в контролируемых условиях наше объяснение того, почему альтернативный вариант может отличаться.

В биостатистике известны критерии каузальности Хила, где стат. значимость (p-value) рассматривается необходимым, но недостаточным критерием наравне с восьмью другими. Другой критерий – Plausibility, как раз про объяснение: исследователя должна существовать внятная гипотеза, которая описывает причину и следствие, еще один – Coherence, про согласованность с общепринятыми фактами.
Вспомните высказывание Карла Сагана: «Экстраординарные заявления требуют экстраординарных доказательств». Хорошая объясняющая модель помогает задавать рамки «экстраординарности» и оценивать достаточный уровень доказательств, который можно интерпретировать как величину p-value
И если я, как продакт, могу объяснить результат, если я контролирую все другие причины, которые могут на этот результат повлиять, результат не противоречит здравому смыслу и т.д., я могу обойтись и без p-value = 0.00001 и с большой вероятностью, буду прав

#статистика #ab_тесты #product_management #pvalue #гипотезы

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🌚1

98 viewsedited 06:42

Depeche Prod

Enshitification и пограничные пользователи продукта

У BMW есть интересная технология лазерных фар – Laser Light. Идея лазерных источников света не нова, но из-за дороговизны, эта технология крайне редко добираются до пользователей. Энтузиасты были в восторге от этих фар: иметь в своей машине не простую фару, а уникальный оптический прибор с высокой эффективностью — это роскошь. Однако, год назад, BMW прекратили их производство.

История с Laser Light — хорошая иллюстрация процесса «enshitifcation»: ухудшения продукта с ростом его популярности.

Если у продукта есть пользователи, которые им пользуются, есть и все те, которым продукт безразличен. Третья категория пользователей, находится на пересечении первых двух — пограничные пользователи (marginal users). Они находятся на границе заинтересованности в продукте — это те, чье внимание вы едва-едва смогли удержать.
Именно на конвертации пограничных пользователей в активных и строится стратегия роста очень многих продуктов: сперва вы делаете продукт для энтузиастов, и ваши пограничные пользователи не сильно от них отличаются, но спустя несколько итераций роста, вы уже делаете продукт для всех

Если вы, как и я, интуитивно понимали это, но не могли это сформулировать, то посмотрите статью, про которую не говорил только ленивый: The Tyranny of the Marginal User

Портрет пограничного пользователя:

Назовём его (пограничного пользователя) Марл. … Как только Марл открывает ваше приложение, у вас есть примерно 1,3 секунды, чтобы привлечь его внимание ярким изображением или цепляющим заголовком, иначе он вернётся в TikTok и больше никогда не откроет ваше приложение.

Марл совершенно нетерпим к сложности пользовательского интерфейса. Насколько можно судить, у него работает только один большой палец, и единственное, что он может делать, — это повторяющиеся, словно зомби, движения вверх.

- - - - - - -

Почти всё популярное потребительское ПО тяготеет к минимальному участию пользователя, бесконечно прокручиваемым лентам новостей и бесполезному контенту. Даже жемчужина интернета, сам Google Search, деградировал настолько, что стал непригоден для сложных запросов. Reddit и Craigslist остаются невероятно полезными и ценными именно потому, что они застыли во времени.

Ни BMW, ни та фирма над продуктом которой вы сейчас работаете, не могут позволить себе выпускать один и тот же автомобиль или заморозить ту трушную версию SaaS, которую так полюбили первые пользователи: у бизнеса всегда существуют обязательства, как и страх стать второй Nokia. Более того, очень сложно рационализировать такой стазис и бизнесовая прагматичность всегда берет верх над идеализмом

Пограничному пользователю не нужны лазерные фары, а вот мультимедия или автоматизация парковки — очень даже. Поэтому, средства от Laser Light будут перераспределены на более приоритные «фичи»
В цифровых продуктах мы пытаемся распределить другой ресурс — внимание пользователя:

…Вы могли бы подумать, чтобы сделать всё более удобным для Марла … Горстка пикселей, занимаемых вашей маленькой кнопкой, заменила пиксели, содержащие броский заголовок или милую картинку щенка. Марл устраивает истерику и переходит в TikTok, больше не возвращаясь в ваше приложение. Ваша фича снижает количество активных пользователей в день (DAU) в A/B-тесте. На заседании комитета по запуску фичи вы бормочете что-то об «участии пользователя», в то время как ваш VP смотрит на вас с жалостью и презрением. Ваша фича не релизится. Вы не получаете повышения. Ваша жена уходит от вас. Вероятно, к Марлу.

На этом я остановлюсь и предложу прочитать статью самостоятельно — это отличное эссе, как по форме, так и по содержанию.

#product_management #it #пользователи

Substack

The Tyranny of the Marginal User

why consumer software gets worse, not better, over time

❤9

109 views09:02

Depeche Prod

Построить unit-экономику, вырастить ретеншн и посадить дерево метрик

У всех бывает, но не у всех проходит.

Любой продакт использовал RICE, любой пытался переписывать требования в формате Job Stories, и уж наверняка, мучал своих пользователей «проблемными» или «решенческими» интервью, иногда совмещая оба подхода сразу!
В списке продуктовых клише особняком стоит любовь к построению деревьев метрик. Дерево метрик — это стандарт. Без дерева метрик от вашего приложения будут отваливаться кнопки и сыпаться прямо на столы и в карманы пользователей, а backend перепишется с C# на 1С.
И не родился еще такой продакт, который смог бы подтвердить обратное — деревья метрик рисуют абсолютно все.

Я не планирую развенчивать концепцию дерева метрик — однако хочу показать границы, в которых эта модель работает хорошо и в которых требует более глубокого понимания своей природы.

Я предлагаю думать про дерево метрик так:

— Это иерархическая модель метрик продукта
— Это Path Model каузального взаимодействия метрик продукта

Иерархическую модель метрик не всегда просто построить, но всегда просто интерпретировать. Если вы договорились об NSM, OMTM и ключевых драйверах их роста — вы уже получили простой ответ на сложный вопрос: что для вашего продукта важно.

Однако, редко кто довольствуется формулой «Метрика 1 важнее, чем Метрика 2». Бизнесу интересно другое: «Если Метрика 2 увеличится на 5% то как увеличится Метрика 1?» или еще интереснее: «Если Метрика 6 увеличится на 5% то как увеличится Метрика 1?»

В этом случае нам пригодится концепт Path model — это статистический инструмент, который позволяет схематически изобразить независимые и зависимые переменные. Если мы построили дерево метрик, значит, мы уже знаем наши зависимые и независимые переменные, их осталось только определить. Принято говорить, что зависимые переменные «объясняются» независимыми.

Простой пример: Метрика Revenue (sic!) «объясняется», например, количеством заказов и средним чеком, а количество заказов — числом пользователей и конверсией. Revenue, количество заказов и конверсия — зависимые переменные. Число пользователей, средний чек — независимые: принять их за данность и не «объяснять» — это вопрос выбора исследователя и гранулярности модели.

✝️Зависимая переменная, не может быть исчерпывающе «объяснена». Сколько бы факторов вы не выбрали чтобы объяснить Revenue, ваши прогнозы всегда будут содержать ошибку — некоторый объем необъясненной дисперсии, в том числе из-за фактора случайности.

Следовательно, чем длиннее цепочка зависимых переменных, тем выше пропорция необъясненной дисперсии ближе к концу цепочки => выше ошибка ваших прогнозов. Если вы строите комплесный продукт и пытаетесь понять, как на NSM отразится метрика, которая находится на несколько уровней ниже — какой бы высокой или низкой ни была эта величина в реальности, модель дерева метрик даст вам не больше, чем дала бы простая догадка.

✝️Даже если вы идеально определили каузальный порядок ваших метрик, дерево метрик подразумевает линейную зависимость переменных — многие процессы в продукте нелинейны. Каждый шаг цепочки содержит ошибку, чем дальше от NSM — тем выше эта ошибка.

Rule of thumb — если хотите использовать дерево метрик, как предсказательную модель, то не уходите дальше, чем на 2-3 уровня вниз. Естественно, это очень ограничивает использование этой модели, как способа количественно оценить приоритеты продукта.

Иллюстрации в следующем посте

#product_management #it #метрики #metrics

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

89 viewsedited 06:37

Depeche Prod

Представьте, что есть дерево метрик от метрики A до метрики M, рассмотрим пограничные значения:

Левый верхний квадрант: предсказанная А при изменении метрики B — точки настоящих значений A находятся очень близко к прямой (предсказанная A), низкий уровень дисперсии, высокая надежность предсказания

Нижний правый квадрант: предсказанная A при изменении метрики M — точки реальных значений A находятся едва ли не по всей площади графика, высокий уровень дисперсии, низкий уровень надежности предсказания

❤3

92 views06:38

Depeche Prod

Построить unit-экономику, вырастить ретеншн и посадить дерево метрик У всех бывает, но не у всех проходит. Любой продакт использовал RICE, любой пытался переписывать требования в формате Job Stories, и уж наверняка, мучал своих пользователей «проблемными»…

Сколько я не вычитывал текст, все же, в него закралась ошибка: в паре мест я перепутал независимые и зависимые переменные, текст уже скорректировал, однако приношу извинения, если кого-то запутал

🌚1

88 views12:44

About

Blog

Apps

Platform