NEW BOT Телеграм, страница

Одно из лучших (на мой взгляд) объяснений природы А/B-тестов от Вити Кантора @kantor_ai ⬇️

7.62K viewsАлексей Никушин, edited 20:33

Forwarded from Kantor.AI (Victor Kantor)

Статзначимость в А/В тестах (часть 1/3)

Итак, победил вариант «Простыми словами про статзначимость в А/В тестах». Разбил ответ на три части: введение, непосредственно по теме и некоторые интересные моменты, которые тоже полезно обсудить. Кто знает ответы на вопросы, выделенные полужирным шрифтом в этом посте, могут просто пролистать его и переходить сразу ко второму.

Зачем вообще нужны А/В тесты?

Потребность в А/В тестах возникает тогда, когда мы хотим что-то улучшить. Например, взамен какого-то существующего алгоритма персональных рекомендаций товаров или старого интерфейса мобильного приложения внедрить новую версию. А/В тесты как метод отвечают на вопрос: «Как понять, что это правда будет улучшать важные для нас показатели?»

Посмотреть «стало ли продаж больше» и удовлетвориться такой оценкой нововведения — это очень топорный подход, который сработает только когда бизнес-показатели не зависят от времени и нововведение лишь одно. Обычно это не так. Бизнес растет или угасает, бывает «сезон» и «не сезон». Бывает очень много изменений за месяц, и понять, какое именно из них вызвало эффект, невозможно. Однако многие вещи в коммерческих компаниях (даже самых технологичных) и в 2020 году делаются без А/В тестирования. А еще больше — без оценки статзначимости. К А/В тестам не нужно относиться теологически, но стоит понимать силу и возможности инструмента.

Что такое статистическая значимость и A/A тесты?

Допустим, нет пока никакого нововведения, которое вы будете оценивать в А/В тесте, есть пользователи вашего сайта или приложения, и вы просто делите их на две группы и смотрите на результат в каждой (например, на конверсию посещений в покупки на сайте). Такой тест называется А/А тестом, и, наверное, вас не удивит, что даже при хорошем разбиении на группы результаты в них будут немного отличаться.

Статистическая значимость эффекта в А/В тесте, грубо говоря, означает, что различие между группами заметно больше, чем было бы в А/А тесте, т.е. «есть реальный эффект», а не случайные отклонения. Что это значит для бизнеса? То, что хотя бы при сохранении тех же условий, что и во время проведения А/В теста, эффект от нововведения с большой вероятностью будет какое-то время сохраняться (важное уточнение: эффект может затухать со временем, никто не отменял «эффект новизны»).

447 viewsАлексей Никушин, 20:33

Интернет-аналитика // Алексей Никушин

Forwarded from Kantor.AI (Victor Kantor)

Статзначимость в А/В тестах (часть 2/3)

Как проверяют гипотезы с помощью статистики

Рассмотрим простой пример: мы с другом 10 раз сыграли в шахматы, и он 10 раз победил, какова вероятность такого исхода, если мы с ним играем одинаково хорошо?

Если мы одинаково хороши, шанс выиграть у каждого 0.5, значит мой шанс проиграть все 10 игр был 0.5 в степени 10, т.е. около 0.001. Выглядит как не очень вероятное событие, придется признать, что друг все-таки играет лучше. Ровно так же мы будем делать и при проверке того, что между группами А и В в А/В тесте есть статзначимые различия.

Как работает проверка статзначимости в А/В

Работает это так: предположим, что у нас есть какое-то нововведение (новое оформление, новый интерфейс, новый алгоритм рекомендаций), и мы проводим А/В тест. А вот эффекта от нововведения нет и различия между группами на самом деле нет. Это в статистике называется «нулевой гипотезой» — тем, что мы в А/В тесте в идеале хотим отвергнуть.

Предположив, что нулевая гипотеза выполняется (статистически различия между группами нет), мы можем оценить, с какой вероятностью p можно увидеть разность показателей в группах больше, чем Y (тысяч долларов выручки, например). Как это сделать? Например, взять наши данные, много раз случайно разбить их на две группы и посмотреть, в каком проценте случаев различие между группами окажется больше Y. За счет случайности разбиений, даже если эффект в вашем разбиении на группы А и В был, в новых группах его не будет (т.к. пользователи случайно перемешаются), и можно считать это хорошей оценкой вероятности p.

Если вероятность p оказалась очень маленькой, значит разница в группах все-таки существенная.

И что, всегда делать несколько тысяч случайных разбиений?

Приведенный выше пример с моделированием А/А тестов — это лишь один из используемых на практике стат.критериев — перестановочный тест (с некоторыми оговорками, но не будем сейчас вдаваться в детали). По многим показателям этот стат.критерий не самый удобный, но зато очень просто иллюстрирует концепцию проверки гипотез.

В жизни же во многих случаях можно обойтись без численного моделирования и применить какие-то параметрические стат.тесты (те, в которых распределение величины Y, если нулевая гипотеза верна, выписывается явно формулой). Например, если мы считаем, что наша величина Y имеет нормальное распределение, то можно без численных экспериментов обойтись формулами для нормального распределения. На самом деле, не совсем, надо хотя бы проверить, что распределение правда нормальное, но на этом тоже не будем останавливаться.

Главное — получить распределение Y, при условии нулевой гипотезы. Численно, либо по формуле в рамках каких-то предположений. В нашем примере с шахматами тоже использовался параметрический тест — биномиальный.

Как понять, что вероятность p «мала» и что такое p-value?

Величина p в статистике называется p-value. Перед проведением любого А/В теста фиксируют уровень значимости, например 5%, и отвергают нулевую гипотезу только если p-value оказывается меньше уровня значимости. Т.е. мы допускаем вероятность 5% сказать, что эффект есть, когда его на самом деле нет. А/В тесты, к сожалению, вещь вероятностная, поэтому «точного» ответа на вопрос «есть ли эффект» не дают, только могут подтвердить его на каком-то уровне значимости. Само p-value в русской литературе называют достигаемым уровнем значимости (не путать с уровнем значимости выше — он был порогом, с которым сравниваем p-value).

381 viewsАлексей Никушин, 20:33

Интернет-аналитика // Алексей Никушин

Forwarded from Kantor.AI (Victor Kantor)

Статзначимость в А/В тестах: дополнительные вопросы (часть 3/3)

Я слышал, что p-value — это не вероятность нулевой гипотезы, что это значит?

Все верно, это известная бородатая ошибка при интерпретации p-value. P-value — это не вероятность нулевой гипотезы, а вероятность увидеть в тесте такой же «эффект» или больше, при условии справедливости нулевой гипотезы (т.е. когда эффекта на самом деле нет). От этого можно перейти к вероятности нулевой гипотезы, при условии наблюдаемого эффекта по теореме Байеса, если вдруг вы будете знать все нужные для формулы вероятности, но нужды в этом нет.

А еще я слышал, что нулевую гипотезу нельзя принять, о чем это?

В А/В тесте мы хотим отвергнуть нулевую гипотезу, посмотрев на фактические данные. Но можем не отвергнуть. Подтвердить нулевую гипотезу не можем: если нам не хватает свидетельств против чего-то, это еще не значит, что это что-то верно 🙂

Бытовая иллюстрация:
Старушка на лавочке у подъезда выбирает, как поприветствовать Васю. В качестве нулевой гипотезы она принимает утверждение, что Вася обычный парень. А в качестве альтернативы — что Вася наркоман. Чтобы выбрать доброжелательное или агрессивное приветствие, она оценивает, насколько Вася плохо выглядит сегодня. Если «еще терпимо», то заключает, что свидетельств против нулевой гипотезы не хватает и нужно приветствовать доброжелательно. В этом случае она, однако, не может быть уверена, что Вася не наркоман, т.е. принять нулевую гипотезу. Но как вдумчивая и образованная пожилая женщина, не спешит с выводами и собирает данные.

Везде выше постоянно говорилось о каком-то статистическом различии между результатами в группах А/В, которое либо есть, либо нет. А что это значит?

Вот здесь мы вступаем на территорию более сложных формулировок. Если объяснять это не на бытовом уровне, то вы сами выбираете смысл «статистического различия» при формулировке нулевой гипотезы и альтернативы. Например, если мы сравниваем средние чеки в группах А и В, то под «статистически неразличимыми» результатами мы можем иметь ввиду одинаковое матожидание среднего чека в группе А и в группе В. Это будет нулевой гипотезой. Альтернативой — различные матожидания. Есть критерии, которые в качестве нулевой гипотезы рассматривают совпадение медиан распределений или просто совпадение распределений.

А еще слышал что-то про множественную проверку гипотез? Это о чем?

Это о том, что если вы проверяете одновременно несколько гипотез на уровне значимости, скажем, 5% каждая (например, оцениваете эффект сразу и на средний чек, и на конверсию в покупку, и на конверсию в переход на страницу товара), то шанс ложного срабатывания теста хотя бы для одной гипотезы будет уже не 5%, а существенно больше. Есть разные способы учитывать этот эффект.

369 viewsАлексей Никушин, 20:33

Интернет-аналитика // Алексей Никушин

Одно из лучших (на мой взгляд) объяснений природы А/B-тестов от Вити Кантора @kantor_ai ⬆️

8.09K viewsАлексей Никушин, 20:34

Интернет-аналитика // Алексей Никушин

Агентство Wealth-X Analytics опубликовало отчет о богатстве россиян.

По итогам 2019-го года Россия стоит на 4 месте в мире по количеству миллиардеров. У нас 293 000 человека с крупным чистым доходом (>$1 млн) и 5 500 со сверхкрупным чистым доходом (от $30 млн). Последние составляют всего 2% населения и владеют 50% богатств страны, причем чаще, чем богачи других стран, выбирают ликвидные активы и недвижимость.

В Москве и Санкт-Петербурге сосредоточена треть богатств страны. В Москве 27% людей со сверхкрупным чистым доходом имеют доход более $100 млн, что ставит Москву на 7-е место среди городов всего мира по этому показателю.

Четверть богатств России сосредоточена в финансовом и банковском секторах, 10.6% в энергетике, 6.6% в недвижимости, 5.9% в НКО.

@internetanalytics

14.1K viewsАлексей Никушин, 09:44

Интернет-аналитика // Алексей Никушин

Wealth-X_The-Wealthy-in-Russia_2020.pdf

203 KB

Отчёт о распределении богатства россиян. @internetanalytics

10.2K viewsАлексей Никушин, 09:44

Интернет-аналитика // Алексей Никушин

AsiaAIagenda.pdf

582.9 KB

8.24K viewsАлексей Никушин, 06:18

Интернет-аналитика // Алексей Никушин

MIT Tech Review опросил ⬆️ об использовании AI технологий 1 000 руководителей высшего звена крупных компаний мира в начале этого года. Аналитики предполагают, что страны Азиатско-Тихоокеанского региона готовы стать лидерами планеты в этой области. Лидерство может быть достигнуто благодаря раннему формированию в этом регионе mobile first рынков, наличию большого количества квалифицированных кадров и стимулирующей позиции правительств. Так, в бюджет одной Южной Кореи на 2020 год было заложено 4 млрд долларов на развитие технологий AI.

В 2017-м году только у 56% респондентов из Азии в компании были внедрены технологии AI, в 2019-м технологии применяются уже у 96%, а в других регионах в среднем только у 85%.
Чаще всего AI используют в IT менеджменте, обслуживании клиентов и R&D, но аналитики прогнозируют выход направления маркетинга на первое место к 2022-му году.

54% опрошенных считают, что главная ценность технологий AI - в экономии средств и повышении операционной эффективности. 60% опрошенных из разных стран утверждают, что ROI от внедрения AI соответствовал ожиданиям, а для 37% ROI превзошел ожидания. В Азиатско-Тихоокеанском регионе ROI был выше ожиданий в 46% случаев.

Консультанты McKinsey посчитали, что компании ассоциации АSEАN могли увеличить прибыль на 897 млрд долларов, если бы активнее пользовались технологиями ML.

Азиатско-Тихоокеанский регион стоит на первом месте по использованию AI для персонализации продуктов и расчета ценовой политики, что логично при лидерстве региона в e-commerce. E-com в регионе вырос на 25% за 2019-й год и достиг 2.3 трлн долларов.

@internetanalytics

7.51K viewsАлексей Никушин, 06:19

Интернет-аналитика // Алексей Никушин

Иллюстрации к опросу MIT об использовании технологий искусственного интеллекта

6.59K viewsАлексей Никушин, 06:19

Интернет-аналитика // Алексей Никушин

FunCorp заявили, что согласно внутренним данным и данным их партнеров - 27 крупных рекламных сетей, рынок мобильной рекламы упал на 50% за время пандемии. Спад идет в основном в high и mid tier advertising.

В самом FunCorp прибыль упала на 40-50% несмотря на рост аудитории.

COO компании утверждает, что не видел такого резкого падения на рынке рекламы в последние 10 лет. Возможно, рекламные сети ждет даже банкротство без поддержки крупных компаний, которые также переживают нелегкие времена.

Источник:
https://venturebeat.com/2020/04/20/funcorp-mobile-ad-revenues-fell-50-during-march-as-the-pandemic-grew/

@internetanalytics

8.15K viewsАлексей Никушин, 06:21

Интернет-аналитика // Алексей Никушин

Мне сегодня 30 лет. В какой-то степени это важная дата и веха и полагается что-то написать по этому поводу. Но сложно подобрать слова, когда действительно есть, что сказать. Постараюсь написать что-то такое, чтобы перечитать лет через 10 или 20 и постараться не разочароваться в написанном.

Итак, мне 30 и у меня всё хорошо. Я люблю себя, свою жизнь и мне нравится то, что со мной происходит. Я прекратил есть себя столовой ложкой, когда что-то идет не так. Случается всякое. Последние годы получается жить по своим правилам: делать или не делать что-то потому что есть желание делать или не делать. Идти к своим целям, не быть удобным, не оправдываться за свой выбор, свои мечты, свои интересы. Отвык создавать что-то для того, чтобы мне платили; хочу привыкнуть к тому, чтобы платили за то, что я что-то создаю. Радуюсь возможности учиться на ошибках и удачах других, анализирую и пробиваю дорогу к предсказуемому результату. Так полюбившаяся мне теория игр говорит о том, что приступать к игре нужно только в том случае, если уверен в победе.

В 2020-ом я стал взрослым. Увы, это происходит в те моменты, когда первый раз хоронишь молодого знакомого человека, когда впервые понимаешь, что есть люди на 15-20 лет младше тебя и они уже интересные собеседники и им нужна твоя поддержка. Ты находишься среди этих событий и не знаешь, как так получилось. Это происходит, когда смотришь в серое февральское небо и чувствуешь себя Болконским под Аустерлицем. Нужно что-то оставить после себя и нести абсолютную ответственность за свою жизнь и жизнь близких. И да, будучи счастливым, не страшно ни жить, ни умирать. Бояться глупо. Рискуя своей жизнью, понимаешь, что карьера никчемна.

Эта весна пришлась на самоизоляцию и карантин. Коронавирус разобщил и разозлил людей, став, по сути, религией. Кто-то верит в него, кто-то не верит - каждый находит для себя доказательства правоты. Как говорил Анри Пуанкаре, "есть две одинаково удобные позиции: либо верить во все, либо во всем сомневаться; то и другое избавляет от необходимости думать." Это все это выпало на наши судьбы не просто так и только от нас зависит, какими мы будем после 2020-го. Это шанс. Шанс сделать то, на что никогда не хватало времени. Теперь причин для отговорок нет и делать нужно то, чего ты не можешь не делать.

Впервые за десять лет в этот день пасмурно и облачно. Но все мы знаем, что "в бурю лишь крепче руки и парус поможет и киль. Гораздо трудней не свихнуться со скуки и выдержать полный штиль".

Лет 7 назад я придумал, что напишу в этот день что-то типа "3:0 в мою пользу". Что ж, пока что 1:1. Есть причины двигаться дальше.

Этот же пост в Facebook

@a_nikushin

12.2K viewsАлексей Никушин, 09:52

Интернет-аналитика // Алексей Никушин

Ждём интервью @durov_russia у @yurydud.

Паша выложил пост, в котором ссылается на только что созданный канал Юры. Совпадение?

Да и у Паши много новостей про TON, годовщину блокировки и DAU 400M.

Было бы интересно

15.3K viewsАлексей Никушин, 18:06

About

Blog

Apps

Platform