Forwarded from Этюды для программистов на Python (Дима Федоров)
Продолжаем традицию еженедельных переводов и сегодня две статьи про особенности использования groupby в (🐼)
1) Объяснение функций Grouper и Agg в Pandas
2) Понимание функции transform в Pandas
Кейсы по анализу данных и переводы доступны по ссылке 🐍
1) Объяснение функций Grouper и Agg в Pandas
2) Понимание функции transform в Pandas
Кейсы по анализу данных и переводы доступны по ссылке 🐍
Интересный аналог Яндекс Вебвизора от Microsoft: https://clarity.microsoft.com/. Записи сессий, тепловые карты, куча сегментов и фильтров, хранение записей до 12 месяцев. Сейчас на тесте, более подробно позже.
Считается, что при проведении AB тестов лучше всего придерживаться распределения трафика поровну, например, 50/50, так как чем больше распределение неравномерно, тем больше вероятность влияния на результат разного рода случайностей: выбросов, рекламных акций, иных девиаций. Если у нас много трафика, это частично нивелирует проблему, но решить полностью ее не сможет. И растет риск ошибки при анализе теста.
В реальности нам часто приходится сталкиваться с невозможностью распределить трафик поровну, и нередко приходится работать с распределением и 90% / 10%, из них 90% на тестовый вариант.
Ребята из ExperimentFest сделали разбор таких случаев в своей статье http://bit.ly/3aQLRkY.
И вот из недавнего.
Трафик был распределен в соотношении, близком к 90% в тестовом варианте и 10% в контрольном варианте. Uplift по CR из пользователя в покупателя составил 22% с pvalue 0.000, но шампанское осталось неоткрытым - уж больно хорош отказался результат, чтобы его принять. Искал ошибки у себя, искал девиации в распределении трафика по полу/возрасту, тех. параметрам, гео, и проч.
И, когда разложил на графике количество пользователей, заказов, уровень стат. значимости по дням, все сошлось.
На графике трафика можно увидеть убывание, так как продаваемые товары подвержены сезонности. И в контрольную группу в какой-то момент попадали 100-120 пользователей.
В определенный период началась акция с большими скидками на сайте, в этот период количество заказов выросло в 1.5 - 2 раза по сравнению с предыдущими периодами.
И на графике заказов в тестовой группе эта акция сказалась - заметен значительный прирост. В контрольной группе этого роста нет. Ведь в тестовой группе в день было 1200 - 1500, а в контрольной группе 90 - 100. И откуда же взяться всплеску заказов в этой несчастной группке.
И реальное соотношение трафика было не 90/10, а от 16/1 к 9/1.
На графиках также можно увидеть, что стат. значимость перевалила за 0.95 именно в тот момент, когда этот всплеск начался. Выходит, что результат теста был определен именно за счет этой акции. А если мы остановили бы тест за день до этой акции, результаты не были стат. значимы.
Так что результаты теста с приростом на 22% в топку, запускаем в следующем году, когда начнется сезон, с распределением трафика 50/50.
Такие вот интересные приключения могут нас ожидать, когда мы делим трафик сильно неравномерно.
В реальности нам часто приходится сталкиваться с невозможностью распределить трафик поровну, и нередко приходится работать с распределением и 90% / 10%, из них 90% на тестовый вариант.
Ребята из ExperimentFest сделали разбор таких случаев в своей статье http://bit.ly/3aQLRkY.
И вот из недавнего.
Трафик был распределен в соотношении, близком к 90% в тестовом варианте и 10% в контрольном варианте. Uplift по CR из пользователя в покупателя составил 22% с pvalue 0.000, но шампанское осталось неоткрытым - уж больно хорош отказался результат, чтобы его принять. Искал ошибки у себя, искал девиации в распределении трафика по полу/возрасту, тех. параметрам, гео, и проч.
И, когда разложил на графике количество пользователей, заказов, уровень стат. значимости по дням, все сошлось.
На графике трафика можно увидеть убывание, так как продаваемые товары подвержены сезонности. И в контрольную группу в какой-то момент попадали 100-120 пользователей.
В определенный период началась акция с большими скидками на сайте, в этот период количество заказов выросло в 1.5 - 2 раза по сравнению с предыдущими периодами.
И на графике заказов в тестовой группе эта акция сказалась - заметен значительный прирост. В контрольной группе этого роста нет. Ведь в тестовой группе в день было 1200 - 1500, а в контрольной группе 90 - 100. И откуда же взяться всплеску заказов в этой несчастной группке.
И реальное соотношение трафика было не 90/10, а от 16/1 к 9/1.
На графиках также можно увидеть, что стат. значимость перевалила за 0.95 именно в тот момент, когда этот всплеск начался. Выходит, что результат теста был определен именно за счет этой акции. А если мы остановили бы тест за день до этой акции, результаты не были стат. значимы.
Так что результаты теста с приростом на 22% в топку, запускаем в следующем году, когда начнется сезон, с распределением трафика 50/50.
Такие вот интересные приключения могут нас ожидать, когда мы делим трафик сильно неравномерно.
Medium
Дисбаланс в A/B-тестах. Есть ли разница между 99%/1% и 50%/50% в экспериментах?
Итак, по какой-то причине вы или ваша команда решили запустить A/B-тестирование с несбалансированными выборками (например, 65/45, 90/10…
Forwarded from Beards Analytics (Andrey Osipov)
вау-вау, первая новость в этом году, и хорошая. в bq появился новый интерфейса, пока доступен для очень ограниченного числа аккаунтов.
— теперь есть табы внутри, и не нужно открывать кучу вкладок
— появился helper по функциям и полям (особенно будет полезно новичкам)
— можно сравнивать схемы разных таблиц в одном окне
— теперь есть табы внутри, и не нужно открывать кучу вкладок
— появился helper по функциям и полям (особенно будет полезно новичкам)
— можно сравнивать схемы разных таблиц в одном окне
Forwarded from Грокс (Ilya Pestov)
Трампа забанило ещё большее количество платформ: Reddit, Twitch, Shopify, Snapchat, Youtube, Pinterest, Discord и даже Campaign Monitor (сервис для email рыссылки типа MailChimp). На этом фоне усилился приток пользователей в социальную сеть Parler, которая известна своей непредвзятостью и популярностью среди республиканцев. И как вы думаете, что происходит дальше? — Apple и Google заблокировали приложение Parler. А сегодня Amazon, на серверах которого работает сервис, пообещал приостановить предоставление услуг для Parler и дал команде 24 часа на перенос всех данных.
Как вам такое? Похоже на блокировку соцсети по партийному признаку. Осталось только, чтобы во имя демократии телеком операторы определяли какой трафик правильный, а какой нет. А ещё лучше, чтобы этим занимались энергетические компании и отказывали в поставке электричества датацентрам, хранящим контент сомнительного содержания. И при всём при этом я уже не раз встречал мнение о том, что принцип свободы слова не узурпируется, ибо конституция гарантирует, что именно государство не будет её ограничивать, а частные компании вольны поступать так, как считают нужным.
Вон оно как! Контент действующего президента просто неожиданно начал нарушать пользовательское соглашение всех сервисов. Кстати, платформы называют свои действия не цензурой, а политической сознательностью. И пускай сии корпоративные решения принимались самостоятельно, а не по указу сверху. Меня, признаюсь, нисколько не волнует принцип этого управления и предмет разногласий в чужой стране. Меня беспокоит, что кучка калифорнийских компаний определяет как цензурировать контент во всём мире. Антиутопичные фантазии Джорджа Оруэлла стали явью. #мысливслух
Как вам такое? Похоже на блокировку соцсети по партийному признаку. Осталось только, чтобы во имя демократии телеком операторы определяли какой трафик правильный, а какой нет. А ещё лучше, чтобы этим занимались энергетические компании и отказывали в поставке электричества датацентрам, хранящим контент сомнительного содержания. И при всём при этом я уже не раз встречал мнение о том, что принцип свободы слова не узурпируется, ибо конституция гарантирует, что именно государство не будет её ограничивать, а частные компании вольны поступать так, как считают нужным.
Вон оно как! Контент действующего президента просто неожиданно начал нарушать пользовательское соглашение всех сервисов. Кстати, платформы называют свои действия не цензурой, а политической сознательностью. И пускай сии корпоративные решения принимались самостоятельно, а не по указу сверху. Меня, признаюсь, нисколько не волнует принцип этого управления и предмет разногласий в чужой стране. Меня беспокоит, что кучка калифорнийских компаний определяет как цензурировать контент во всём мире. Антиутопичные фантазии Джорджа Оруэлла стали явью. #мысливслух
Как-то вот так вдруг нарисовались образцы добродетели, свободы слова, закона, и, ... левачества
Forwarded from BigQuery Insights
5 функций в BigQuery о которых ты мог не знать:
https://segorov.medium.com/5-функций-в-bigquery-о-которых-ты-мог-не-знать-936a6399913e
@BigQuery
https://segorov.medium.com/5-функций-в-bigquery-о-которых-ты-мог-не-знать-936a6399913e
@BigQuery
Medium
5 функций в BigQuery о которых ты мог не знать
Если вы читаете это, то, скорее всего, вы специалист по работе с данными или желаете им стать. Добро пожаловать в мир данных…
Как много времени вы работаете в Excel каждый день? Почему до сих пор не используете Power BI, чтобы сократить время работы с данными до нескольких минут в день?
Power BI помогает финансистам и экономистам:
- Упростить работу с Excel;
- Сократить ручной труд по сбору и анализу данных;
- Объединить данные из всех источников в одном окне;
- Автоматизировать финансовые и управленческие отчеты;
- Спрогнозировать исходы управленческих решений.
Мы вместе с сертифицированными тренерами из Microsoft подготовили для вас бесплатный двухдневный курс “Основы финансового моделирования в Power BI”, где обучаем основам финансового моделирования в Power BI, вместе с вами строим простую модель данных и создаем первый интерактивный отчет в Power BI.
После 4 часов практики, вы получите все необходимые навыки для начала самостоятельной работы в Power BI. Пройдя этот мини курс, вы получите свой первый сертификат от партнеров Microsoft.
🗓 Дата проведения: 21 и 22 января с 19:00 до 21:00
💻 Формат участия: Онлайн трансляция с преподавателем.
📍 Это не запись - вы сможете задать вопросы.
Запишитесь в один клик: https://vk.cc/bX9qvz
Power BI помогает финансистам и экономистам:
- Упростить работу с Excel;
- Сократить ручной труд по сбору и анализу данных;
- Объединить данные из всех источников в одном окне;
- Автоматизировать финансовые и управленческие отчеты;
- Спрогнозировать исходы управленческих решений.
Мы вместе с сертифицированными тренерами из Microsoft подготовили для вас бесплатный двухдневный курс “Основы финансового моделирования в Power BI”, где обучаем основам финансового моделирования в Power BI, вместе с вами строим простую модель данных и создаем первый интерактивный отчет в Power BI.
После 4 часов практики, вы получите все необходимые навыки для начала самостоятельной работы в Power BI. Пройдя этот мини курс, вы получите свой первый сертификат от партнеров Microsoft.
🗓 Дата проведения: 21 и 22 января с 19:00 до 21:00
💻 Формат участия: Онлайн трансляция с преподавателем.
📍 Это не запись - вы сможете задать вопросы.
Запишитесь в один клик: https://vk.cc/bX9qvz