Статья о том как делать выводы на основе статистического анализа. Автор рассказывает про подсчет доверительных интервалов для среднего с помощью бутстрапа и обычного t-test'а, а затем проверяет гипотезу о среднем генеральной совокупности.
https://towardsdatascience.com/bootstrapping-for-inferential-statistics-9b613a7653b2
https://towardsdatascience.com/bootstrapping-for-inferential-statistics-9b613a7653b2
Medium
Bootstrapping for Inferential Statistics
Data Scientist’s Toolkit — bootstrapping, sampling, confidence intervals, hypothesis testing
👍1
Если вы давно хотели начать визуализировать данные на Python, но боитесь слов типа matplotlib, seaborn и plotly, то не отчаивайтесь. Начните с построения гистограмм с помощью метода
https://mode.com/example-gallery/python_histogram/
hist() в pandas. Вот статья, которая поможет на старте: https://mode.com/example-gallery/python_histogram/
Mode Resources
Plot Histograms Using Pandas: hist() Example | Charts | Charts - Mode
A histogram is a graphical representation commonly used to visualize the distribution of numerical data. When exploring a dataset, you'll often want to get a quick understanding of the distribution of certain numerical variables within it.
Подробный гайд про трансформацию данных в pandas. Крайне толковое руководство, освещающее как популярные методы
https://hackersandslackers.com/reshaping-pandas-dataframes/
groupby и pivot_table, так и менее распространенные такие как melt, transpose, stack и unstack.https://hackersandslackers.com/reshaping-pandas-dataframes/
Hackers and Slackers
Reshaping Pandas DataFrames
A guide to DataFrame manipulation using groupby, melt, pivot tables, pivot, transpose, and stack.
Напоминаю, что у этого канала есть чатик, который периодически оживает от ваших вопросов. Так что не стесняйтесь их там задавать. Там умеют гуглить и стаковерфлоить за вас🙂, а ещё делиться экспертизой, что гораздо ценнее 👨🔬👩🔬
Также я актуализировал список ссылок про Pandas 🐼, который накопился за время существования этого канала.
Всем удачи!
Также я актуализировал список ссылок про Pandas 🐼, который накопился за время существования этого канала.
Всем удачи!
Telegram
Python для анализа данных
Чат про применение Python для анализа данных, в особенности для различного рода автоматизации и аналитики.
Основной канал: @datalytx
Канал с вакансиями: @data_hr
Основной канал: @datalytx
Канал с вакансиями: @data_hr
🔥1
Бизнес постоянно находит новые задачи. Справиться с новыми вызовами невозможно без глубокого анализа данных и правильной коммуникации с клиентами. Современный digital-маркетинг гораздо больше про технологии, нежели про креатив. И как мы все знаем, хороший маркетолог никогда не даст хорошему аналитику скучать.
Главная конференция для маркетинговых и продуктовых аналитиков, data-инженеров, стратегов - Матемаркетинг-2019
80 докладов, 10 мастер-классов, 100 докладчиков, 2 полных дня
Докладчики летят со всего мира - от Сан-Франциско до Токио.
Ключевые темы: алгоритмический маркетинг, a/b-тестирование, маркетинговая аналитика, маркетинг микро- и малого бизнеса, трек игровой аналитики и полностью зарубежная секция по user acquisition.
Подробнейшая программа Матемаркетинга на двух вкладках google sheets: http://bit.ly/33SYfe0
Все решения, о которых пойдет речь, можно применять у себя в компании и учитывать при планировании сервисов.
Конференция пройдет 14 и 15 ноября (четверг и пятница) в центре Москвы
Билеты: http://bit.ly/2SEBSUJ
Все подробности на сайте: matemarketing.ru
Промокод на скидку 10% действует до конца этой недели: MM-bVflPHJm8y-10
Главная конференция для маркетинговых и продуктовых аналитиков, data-инженеров, стратегов - Матемаркетинг-2019
80 докладов, 10 мастер-классов, 100 докладчиков, 2 полных дня
Докладчики летят со всего мира - от Сан-Франциско до Токио.
Ключевые темы: алгоритмический маркетинг, a/b-тестирование, маркетинговая аналитика, маркетинг микро- и малого бизнеса, трек игровой аналитики и полностью зарубежная секция по user acquisition.
Подробнейшая программа Матемаркетинга на двух вкладках google sheets: http://bit.ly/33SYfe0
Все решения, о которых пойдет речь, можно применять у себя в компании и учитывать при планировании сервисов.
Конференция пройдет 14 и 15 ноября (четверг и пятница) в центре Москвы
Билеты: http://bit.ly/2SEBSUJ
Все подробности на сайте: matemarketing.ru
Промокод на скидку 10% действует до конца этой недели: MM-bVflPHJm8y-10
Google Docs
Программа Матемаркетинга
Интересный пример того как с помощью Python можно генерировать "игрушечные" данные для несуществующего продукта. Это бывает полезно, если хочется написать статью или ещё какой-то обучающий материал, а показывать реальные данные не хочется. Отдельный плюс подхода, показанного в статье - сгенерированные данные содержат в себе некоторые инсайты, а не просто рандом с нормальным распределением.
https://towardsdatascience.com/generating-product-usage-data-from-scratch-with-pandas-319487590c6d
https://towardsdatascience.com/generating-product-usage-data-from-scratch-with-pandas-319487590c6d
Medium
Generating product usage data with Pandas
How can we approximate high-level user behavior?
Статья с примером выгрузки статистики роликов на YouTube-канале с помощю Python-скрипта
https://habr.com/ru/post/467035/
https://habr.com/ru/post/467035/
Хабр
Проектирование дашбордов для веб-аналитики e-commerce сайта. Часть 4: Youtube-канал
Легко посчитать, сколько трафика пришло с ютуб-канала. К примеру, зайти в счетчик Яндекс Метрики или Google Analytics. А вы попробуйте узнать, что происходило с...
Небольшой туториал по оптимизации использования памяти при работе с pandas
https://habr.com/ru/post/467785/
https://habr.com/ru/post/467785/
Хабр
Как оптимизировать pandas при работе с большими datasetами (очерк)
Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их...
Всем привет! В DigitalGod стартует курс по автоматизации сбора данных из рекламных систем. Там не просто научат получать данные из основных рекламных систем (GA, Метрика, Директ, Google Ads, FB и многое другое), но и сохранять эти данные в Clickhouse. А также в курсе много про построение ETL-процессов: например, как автоматизировать сбор по расписанию и управлять сборщиками с помощью Airflow. Ну и отдельная плюшка - Papermill для параметризации ноутбуков. В общем, если вы давно хотели собрать у себя все данные мира, то приходите. Будет хардово и весело!
https://digitalgod.be/collect-data
https://digitalgod.be/collect-data
digitalgod.be
Автоматизация сбора данных YD, GAd, FB, VK, GA, YM #1 | Digital God | Курсы
Получать данные с основных рекламных систем Yandex Direct, Google AdWords, Facebook, Vk и аналитических сервисов Google Analytics, Yandex Metrika. Сохранение в ClickHouse и BigQuery. Автоматизировать при помощи Airflow и Papermill
Большой гайд про когортный анализ силами Python. Рассматривается как сформировать когорты, построить таблицу для когортного анализа, а также визуализировать результаты с помощью heatmap в библиотеке seaborn.
https://medium.com/better-programming/cohort-analysis-with-python-e81d9d740a9b
https://medium.com/better-programming/cohort-analysis-with-python-e81d9d740a9b
Medium
Cohort Analysis with Python
Or how to visualize your customer retention — a code-along guide
Руководство по работе с Jupyter Notebook для новичков
https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/
https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/
Встреча для аналитиков Data Driven — ежегодное мероприятие Яндекса для опытных специалистов, активно использующих анализ данных для принятия бизнес-решений. Встреча пройдет 19 октября в московском офисе Яндекса.
Мероприятие откроет рассказ о практической юнит-экономике от команды Yandex Growth Team, обсуждение основных трудностей и практические советы по их решению. Далее из доклада эксперта по Data Science Алексея Чернобровова вы узнаете, чем хорошие аналитики отличаются от незаменимых и при чём тут soft skills. Эксперты из аналитики рекламных продуктов Яндекса расскажут, как научились смотреть на тысячу графиков одновременно. А команда Яндекс.Толоки поделится опытом, как собирать размеченные данные с помощью краудсорсинга и проводить эффективные А/Б-тестирования.
После перерыва вас ждёт разбор нестандартных кейсов — для этого все участники разделятся на команды и переместятся за столы.
Участие в мероприятии бесплатное, но нужно зарегистрироваться: количество мест ограничено. Эта встреча для опытных аналитиков, поэтому в анкете есть небольшой тест.
https://events.yandex.ru/events/data-driven-2019
Мероприятие откроет рассказ о практической юнит-экономике от команды Yandex Growth Team, обсуждение основных трудностей и практические советы по их решению. Далее из доклада эксперта по Data Science Алексея Чернобровова вы узнаете, чем хорошие аналитики отличаются от незаменимых и при чём тут soft skills. Эксперты из аналитики рекламных продуктов Яндекса расскажут, как научились смотреть на тысячу графиков одновременно. А команда Яндекс.Толоки поделится опытом, как собирать размеченные данные с помощью краудсорсинга и проводить эффективные А/Б-тестирования.
После перерыва вас ждёт разбор нестандартных кейсов — для этого все участники разделятся на команды и переместятся за столы.
Участие в мероприятии бесплатное, но нужно зарегистрироваться: количество мест ограничено. Эта встреча для опытных аналитиков, поэтому в анкете есть небольшой тест.
https://events.yandex.ru/events/data-driven-2019
50 примеров крутых графиков на Matplotlib и Seaborn. В том числе различные нестандартные визуализации типа "вафельной" диаграммы, lolly-par chart. Рекомендовано к добавлению в закладки)
https://habr.com/ru/post/468295/
https://habr.com/ru/post/468295/
Хабр
50 оттенков matplotlib — The Master Plots (с полным кодом на Python)
Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала про...
Ребята из Retentioneering выложили в open-source набор методов и инструментов обработки траекторий движения пользователей в приложении или на сайте. Продуктовые аналитики заценят!
https://habr.com/ru/post/468721/
https://habr.com/ru/post/468721/
Хабр
Retentioneering: как мы open-source инструменты для продуктовой аналитики на Python и Pandas написали
Привет, Хабр. Эта статья посвящена итогам четырехлетней разработки набора методов и инструментов обработки траекторий движения пользователей в приложении или на сайте. Автор разработки — Максим Годзи...
RFM-анализ - один из методов сегментации клиентов. Если вы хотите заняться сегментацией клиентской базы, то вам поможет статья о том как делать RFM-анализ в Python, а также визуализировать полученные сегменты.
https://guillaume-martin.github.io/rfm-segmentation-with-python.html
https://guillaume-martin.github.io/rfm-segmentation-with-python.html
Guillaume Martin
RFM Segmentation with Python
How to segment your customers using RFM analysis with Python
Использовать Jupyter Notebook на удаленном сервере - крайне удобно. Во-первых, все ваши ноутбуки будут доступны с любого устройства, будь то рабочий или домашний компьютер. Во-вторых, не нужно оставлять свой личный компьютер включенным на выполнение длительных задач. Статья расскажет о том как запустить Jupyter Notebook в облаке.
https://towardsdatascience.com/running-jupyter-notebook-in-google-cloud-platform-in-15-min-61e16da34d52
https://towardsdatascience.com/running-jupyter-notebook-in-google-cloud-platform-in-15-min-61e16da34d52
Medium
Running Jupyter Notebook on Google Cloud Platform in 15 min
Recently, while I was doing my research project on Computer Vision using Convolutional Neural Network, I found out that my 8GB RAM laptop…
Статья о том как трансформировать JSON с множественными уровнями вложенности для дальнейшей работы с данными в Pandas
https://hackersandslackers.com/json-into-pandas-dataframes/
https://hackersandslackers.com/json-into-pandas-dataframes/
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
GitHub
GitHub - dolthub/dolt: Dolt – Git for Data
Dolt – Git for Data. Contribute to dolthub/dolt development by creating an account on GitHub.
👍1
Pandas - отличная базовая библиотека для работы с данными, включая очистку, генерацию новых фич и интеграцию с инструментами машинного обучения. Проблема в том, что в ней, несмотря на кажущуюся простоту, есть разные тонкости, а также готовые обертки, которые могут сильно облегчить жизнь, если о них знать.
Николай Марков рассказывает о различных приёмах эффективной работы с данными. Настоятельно рекомендую к просмотру
https://www.youtube.com/watch?v=2xS_glCEuRg
Николай Марков рассказывает о различных приёмах эффективной работы с данными. Настоятельно рекомендую к просмотру
https://www.youtube.com/watch?v=2xS_glCEuRg
YouTube
Как ухаживать за пандами – Николай Марков
Pandas - отличная базовая библиотека для работы с данными, включая очистку, генерацию новых фич и интеграцию с инструментами машинного обучения. Проблема в том, что в ней, несмотря на кажущуюся простоту, есть разные тонкости, а также готовые обертки, которые…