NEW BOT Телеграм, страница

Forwarded from Kantor.AI (Victor Kantor)

Статзначимость в А/В тестах (часть 2/3)

Как проверяют гипотезы с помощью статистики

Рассмотрим простой пример: мы с другом 10 раз сыграли в шахматы, и он 10 раз победил, какова вероятность такого исхода, если мы с ним играем одинаково хорошо?

Если мы одинаково хороши, шанс выиграть у каждого 0.5, значит мой шанс проиграть все 10 игр был 0.5 в степени 10, т.е. около 0.001. Выглядит как не очень вероятное событие, придется признать, что друг все-таки играет лучше. Ровно так же мы будем делать и при проверке того, что между группами А и В в А/В тесте есть статзначимые различия.

Как работает проверка статзначимости в А/В

Работает это так: предположим, что у нас есть какое-то нововведение (новое оформление, новый интерфейс, новый алгоритм рекомендаций), и мы проводим А/В тест. А вот эффекта от нововведения нет и различия между группами на самом деле нет. Это в статистике называется «нулевой гипотезой» — тем, что мы в А/В тесте в идеале хотим отвергнуть.

Предположив, что нулевая гипотеза выполняется (статистически различия между группами нет), мы можем оценить, с какой вероятностью p можно увидеть разность показателей в группах больше, чем Y (тысяч долларов выручки, например). Как это сделать? Например, взять наши данные, много раз случайно разбить их на две группы и посмотреть, в каком проценте случаев различие между группами окажется больше Y. За счет случайности разбиений, даже если эффект в вашем разбиении на группы А и В был, в новых группах его не будет (т.к. пользователи случайно перемешаются), и можно считать это хорошей оценкой вероятности p.

Если вероятность p оказалась очень маленькой, значит разница в группах все-таки существенная.

И что, всегда делать несколько тысяч случайных разбиений?

Приведенный выше пример с моделированием А/А тестов — это лишь один из используемых на практике стат.критериев — перестановочный тест (с некоторыми оговорками, но не будем сейчас вдаваться в детали). По многим показателям этот стат.критерий не самый удобный, но зато очень просто иллюстрирует концепцию проверки гипотез.

В жизни же во многих случаях можно обойтись без численного моделирования и применить какие-то параметрические стат.тесты (те, в которых распределение величины Y, если нулевая гипотеза верна, выписывается явно формулой). Например, если мы считаем, что наша величина Y имеет нормальное распределение, то можно без численных экспериментов обойтись формулами для нормального распределения. На самом деле, не совсем, надо хотя бы проверить, что распределение правда нормальное, но на этом тоже не будем останавливаться.

Главное — получить распределение Y, при условии нулевой гипотезы. Численно, либо по формуле в рамках каких-то предположений. В нашем примере с шахматами тоже использовался параметрический тест — биномиальный.

Как понять, что вероятность p «мала» и что такое p-value?

Величина p в статистике называется p-value. Перед проведением любого А/В теста фиксируют уровень значимости, например 5%, и отвергают нулевую гипотезу только если p-value оказывается меньше уровня значимости. Т.е. мы допускаем вероятность 5% сказать, что эффект есть, когда его на самом деле нет. А/В тесты, к сожалению, вещь вероятностная, поэтому «точного» ответа на вопрос «есть ли эффект» не дают, только могут подтвердить его на каком-то уровне значимости. Само p-value в русской литературе называют достигаемым уровнем значимости (не путать с уровнем значимости выше — он был порогом, с которым сравниваем p-value).

381 viewsАлексей Никушин, 20:33

Интернет-аналитика // Алексей Никушин

Forwarded from Kantor.AI (Victor Kantor)

Статзначимость в А/В тестах: дополнительные вопросы (часть 3/3)

Я слышал, что p-value — это не вероятность нулевой гипотезы, что это значит?

Все верно, это известная бородатая ошибка при интерпретации p-value. P-value — это не вероятность нулевой гипотезы, а вероятность увидеть в тесте такой же «эффект» или больше, при условии справедливости нулевой гипотезы (т.е. когда эффекта на самом деле нет). От этого можно перейти к вероятности нулевой гипотезы, при условии наблюдаемого эффекта по теореме Байеса, если вдруг вы будете знать все нужные для формулы вероятности, но нужды в этом нет.

А еще я слышал, что нулевую гипотезу нельзя принять, о чем это?

В А/В тесте мы хотим отвергнуть нулевую гипотезу, посмотрев на фактические данные. Но можем не отвергнуть. Подтвердить нулевую гипотезу не можем: если нам не хватает свидетельств против чего-то, это еще не значит, что это что-то верно 🙂

Бытовая иллюстрация:
Старушка на лавочке у подъезда выбирает, как поприветствовать Васю. В качестве нулевой гипотезы она принимает утверждение, что Вася обычный парень. А в качестве альтернативы — что Вася наркоман. Чтобы выбрать доброжелательное или агрессивное приветствие, она оценивает, насколько Вася плохо выглядит сегодня. Если «еще терпимо», то заключает, что свидетельств против нулевой гипотезы не хватает и нужно приветствовать доброжелательно. В этом случае она, однако, не может быть уверена, что Вася не наркоман, т.е. принять нулевую гипотезу. Но как вдумчивая и образованная пожилая женщина, не спешит с выводами и собирает данные.

Везде выше постоянно говорилось о каком-то статистическом различии между результатами в группах А/В, которое либо есть, либо нет. А что это значит?

Вот здесь мы вступаем на территорию более сложных формулировок. Если объяснять это не на бытовом уровне, то вы сами выбираете смысл «статистического различия» при формулировке нулевой гипотезы и альтернативы. Например, если мы сравниваем средние чеки в группах А и В, то под «статистически неразличимыми» результатами мы можем иметь ввиду одинаковое матожидание среднего чека в группе А и в группе В. Это будет нулевой гипотезой. Альтернативой — различные матожидания. Есть критерии, которые в качестве нулевой гипотезы рассматривают совпадение медиан распределений или просто совпадение распределений.

А еще слышал что-то про множественную проверку гипотез? Это о чем?

Это о том, что если вы проверяете одновременно несколько гипотез на уровне значимости, скажем, 5% каждая (например, оцениваете эффект сразу и на средний чек, и на конверсию в покупку, и на конверсию в переход на страницу товара), то шанс ложного срабатывания теста хотя бы для одной гипотезы будет уже не 5%, а существенно больше. Есть разные способы учитывать этот эффект.

369 viewsАлексей Никушин, 20:33

Интернет-аналитика // Алексей Никушин

Одно из лучших (на мой взгляд) объяснений природы А/B-тестов от Вити Кантора @kantor_ai ⬆️

8.09K viewsАлексей Никушин, 20:34

Интернет-аналитика // Алексей Никушин

Агентство Wealth-X Analytics опубликовало отчет о богатстве россиян.

По итогам 2019-го года Россия стоит на 4 месте в мире по количеству миллиардеров. У нас 293 000 человека с крупным чистым доходом (>$1 млн) и 5 500 со сверхкрупным чистым доходом (от $30 млн). Последние составляют всего 2% населения и владеют 50% богатств страны, причем чаще, чем богачи других стран, выбирают ликвидные активы и недвижимость.

В Москве и Санкт-Петербурге сосредоточена треть богатств страны. В Москве 27% людей со сверхкрупным чистым доходом имеют доход более $100 млн, что ставит Москву на 7-е место среди городов всего мира по этому показателю.

Четверть богатств России сосредоточена в финансовом и банковском секторах, 10.6% в энергетике, 6.6% в недвижимости, 5.9% в НКО.

@internetanalytics

14.1K viewsАлексей Никушин, 09:44

Интернет-аналитика // Алексей Никушин

Wealth-X_The-Wealthy-in-Russia_2020.pdf

203 KB

Отчёт о распределении богатства россиян. @internetanalytics

10.2K viewsАлексей Никушин, 09:44

Интернет-аналитика // Алексей Никушин

AsiaAIagenda.pdf

582.9 KB

8.24K viewsАлексей Никушин, 06:18

Интернет-аналитика // Алексей Никушин

MIT Tech Review опросил ⬆️ об использовании AI технологий 1 000 руководителей высшего звена крупных компаний мира в начале этого года. Аналитики предполагают, что страны Азиатско-Тихоокеанского региона готовы стать лидерами планеты в этой области. Лидерство может быть достигнуто благодаря раннему формированию в этом регионе mobile first рынков, наличию большого количества квалифицированных кадров и стимулирующей позиции правительств. Так, в бюджет одной Южной Кореи на 2020 год было заложено 4 млрд долларов на развитие технологий AI.

В 2017-м году только у 56% респондентов из Азии в компании были внедрены технологии AI, в 2019-м технологии применяются уже у 96%, а в других регионах в среднем только у 85%.
Чаще всего AI используют в IT менеджменте, обслуживании клиентов и R&D, но аналитики прогнозируют выход направления маркетинга на первое место к 2022-му году.

54% опрошенных считают, что главная ценность технологий AI - в экономии средств и повышении операционной эффективности. 60% опрошенных из разных стран утверждают, что ROI от внедрения AI соответствовал ожиданиям, а для 37% ROI превзошел ожидания. В Азиатско-Тихоокеанском регионе ROI был выше ожиданий в 46% случаев.

Консультанты McKinsey посчитали, что компании ассоциации АSEАN могли увеличить прибыль на 897 млрд долларов, если бы активнее пользовались технологиями ML.

Азиатско-Тихоокеанский регион стоит на первом месте по использованию AI для персонализации продуктов и расчета ценовой политики, что логично при лидерстве региона в e-commerce. E-com в регионе вырос на 25% за 2019-й год и достиг 2.3 трлн долларов.

@internetanalytics

7.51K viewsАлексей Никушин, 06:19

Интернет-аналитика // Алексей Никушин

Иллюстрации к опросу MIT об использовании технологий искусственного интеллекта

6.59K viewsАлексей Никушин, 06:19

Интернет-аналитика // Алексей Никушин

FunCorp заявили, что согласно внутренним данным и данным их партнеров - 27 крупных рекламных сетей, рынок мобильной рекламы упал на 50% за время пандемии. Спад идет в основном в high и mid tier advertising.

В самом FunCorp прибыль упала на 40-50% несмотря на рост аудитории.

COO компании утверждает, что не видел такого резкого падения на рынке рекламы в последние 10 лет. Возможно, рекламные сети ждет даже банкротство без поддержки крупных компаний, которые также переживают нелегкие времена.

Источник:
https://venturebeat.com/2020/04/20/funcorp-mobile-ad-revenues-fell-50-during-march-as-the-pandemic-grew/

@internetanalytics

8.15K viewsАлексей Никушин, 06:21

Интернет-аналитика // Алексей Никушин

Мне сегодня 30 лет. В какой-то степени это важная дата и веха и полагается что-то написать по этому поводу. Но сложно подобрать слова, когда действительно есть, что сказать. Постараюсь написать что-то такое, чтобы перечитать лет через 10 или 20 и постараться не разочароваться в написанном.

Итак, мне 30 и у меня всё хорошо. Я люблю себя, свою жизнь и мне нравится то, что со мной происходит. Я прекратил есть себя столовой ложкой, когда что-то идет не так. Случается всякое. Последние годы получается жить по своим правилам: делать или не делать что-то потому что есть желание делать или не делать. Идти к своим целям, не быть удобным, не оправдываться за свой выбор, свои мечты, свои интересы. Отвык создавать что-то для того, чтобы мне платили; хочу привыкнуть к тому, чтобы платили за то, что я что-то создаю. Радуюсь возможности учиться на ошибках и удачах других, анализирую и пробиваю дорогу к предсказуемому результату. Так полюбившаяся мне теория игр говорит о том, что приступать к игре нужно только в том случае, если уверен в победе.

В 2020-ом я стал взрослым. Увы, это происходит в те моменты, когда первый раз хоронишь молодого знакомого человека, когда впервые понимаешь, что есть люди на 15-20 лет младше тебя и они уже интересные собеседники и им нужна твоя поддержка. Ты находишься среди этих событий и не знаешь, как так получилось. Это происходит, когда смотришь в серое февральское небо и чувствуешь себя Болконским под Аустерлицем. Нужно что-то оставить после себя и нести абсолютную ответственность за свою жизнь и жизнь близких. И да, будучи счастливым, не страшно ни жить, ни умирать. Бояться глупо. Рискуя своей жизнью, понимаешь, что карьера никчемна.

Эта весна пришлась на самоизоляцию и карантин. Коронавирус разобщил и разозлил людей, став, по сути, религией. Кто-то верит в него, кто-то не верит - каждый находит для себя доказательства правоты. Как говорил Анри Пуанкаре, "есть две одинаково удобные позиции: либо верить во все, либо во всем сомневаться; то и другое избавляет от необходимости думать." Это все это выпало на наши судьбы не просто так и только от нас зависит, какими мы будем после 2020-го. Это шанс. Шанс сделать то, на что никогда не хватало времени. Теперь причин для отговорок нет и делать нужно то, чего ты не можешь не делать.

Впервые за десять лет в этот день пасмурно и облачно. Но все мы знаем, что "в бурю лишь крепче руки и парус поможет и киль. Гораздо трудней не свихнуться со скуки и выдержать полный штиль".

Лет 7 назад я придумал, что напишу в этот день что-то типа "3:0 в мою пользу". Что ж, пока что 1:1. Есть причины двигаться дальше.

Этот же пост в Facebook

@a_nikushin

12.2K viewsАлексей Никушин, 09:52

Интернет-аналитика // Алексей Никушин

Ждём интервью @durov_russia у @yurydud.

Паша выложил пост, в котором ссылается на только что созданный канал Юры. Совпадение?

Да и у Паши много новостей про TON, годовщину блокировки и DAU 400M.

Было бы интересно

15.3K viewsАлексей Никушин, 18:06

Интернет-аналитика // Алексей Никушин

Итак, онлайн, который сейчас внепроникающий и всем доступный дает свои плоды. Многие верно поняли, что онлайн это во многом отсутствие границ и это в свою очередь, несет с собой интенсивный обмен знаниями.

Новость 1
Высшая школа экономики проводит серию вебинаров Data-driven success: собрали российских предпринимателей, которые добились успеха за рубежом. Кремниевая Долина, Нью-Йорк, Лондон и Дублин.
Первый - уже сегодня - https://events.webinar.ru/20351561/4695862
Георгий Левин впервые расскажет о том, как продавал свой стартап "Газпром-медиа", уехал в США, основал еще один. Кстати, сейчас среди его клиентов Юрий Дудь @yurydud. Отдельно отмечу, что в июне вебинар с Олегом Якубенковым @gopractice, который крайне редко, но крайне емко выступает в публичном поле.
Регистрируемся ⬆️

Новость 2
Яндекс.Практикум запускается в США и сегодня вышел на ProductHunt.
https://www.producthunt.com/posts/practicum-by-yandex
Зайдите, посмотрите, оцените и дайте фидбек в комментариях или лично СМО Практикума Жене Лебедеву

Не переключайтесь...

Mts-link.ru

Data-driven success #1 : истории русских фаундеров за рубежом.
Как перевезти cвой стартап в Нью-Йорк, успешно продать его "Газпрому"…

Магистратура "Коммуникации, основанные на данных" представляет цикл встреч с успешными российскими предпринимателями за рубежом: истории карьеры, переезда и их стартапов на основе данных. Встречи проводит профессор, бизнес-куратор магистратуры Роман Нестер.…

9.3K viewsАлексей Никушин, 08:23

Интернет-аналитика // Алексей Никушин

Деньги и здоровье - темы, которые сегодня волнуют абсолютное большинство людей на земле. Мы нашли и прочли 2 исследования, которые дают объективную картинку по финтеху и хелстеху.

1. Финтех
- По данным CBInsights на 4-й квартал 2019-го года в мире насчитывается 67 "единорогов" в финтехе на $244.6 млрд, три родились в первом квартале 2020-го года.
- Миллениалы рушат американскую систему страхования жизни, почти 80% людей этой группы не застраховано. Стартапы в области страхования нацелены на привлечение молодых клиентов.
- Инвестиции в сервисы микрозаймов упали на 50% по сравнению со вторым и третьим кварталами 2019-го года. Но сервисы хорошо развиваются в Азии и Латинской Америке.
- Mobile-only банкинг развивается в Европе и Индии. Ряд стартапов предлагает решения для частных лиц и бизнеса с аналитикой и блокчейном.
- Развиваются решения для рынка коммерческой недвижимости — агрегаторы с AI-аналитикой и платформы для заключения сделок онлайн.
Подробный отчет ниже.

2. Хелстех
— Количество сделок в категории медицинского оборудования продолжает падать, их почти на 20% меньше, чем было в третьем квартале 19-го года. В топе носимое устройство для мониторинга работы сердца со встроенным дефибриллятором, а также производители диагностических тестов.
— Категория AI относительно стабильна, совершено 80 сделок на $1 млрд.
— В категории Digital Health в Китае зарегистрировано минимальное количество сделок с 2017-го года — всего 27 на $318 млн. В топе приложение для диабетиков и платформы страхования здоровья.
— Телемедицина подняла $1.5 млрд по 103 сделкам — рекорд с конца 2018-го года. В топе стартапы с приложениями для психотерапевтической и психиатрической помощи, коучинга по теме здоровья и онлайн аптеки.
— В категории женского здоровья 31 сделка подняла $361 млн и это в 1.5 раза больше, чем в прошлом квартале. В топе онлайн консультации и диагностика плода для беременных.
— Категория психического здоровья подняла за первый квартал рекордные для себя $576 млн на 44 сделках — в 4 раза больше, чем в прошлом квартале и в 1.5 раза больше максимума за последние три года или две трети всех денег 2019-го. Два стартапа из топа предлагают VR для лечения тревожности, аддикций и нарушений питания.

Осмелимся предположить, что первый и второй квартал 2020 года ознаменуется взрывным ростом инвестиций в решения, связанные с профилактикой и диагностикой здоровья, а также в сервисы психологической помощи.

@internetanalytics

18.4K viewsАлексей Никушин, 08:31

About

Blog

Apps

Platform