Datalytics – Telegram
Datalytics
9.06K subscribers
220 photos
17 videos
5 files
675 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Кстати, подписывайтесь на канал Лёши Куличевского. Он в аналитике съел слона и плохого не посоветует.

https://news.1rj.ru/str/kulichevskiy
При работе с анализом непрерывных числовых данных может быть полезным разбить эти данные на диапазоны (иначе называемые корзинками или bins). В статье подробно рассказывается о том как разбить данные на диапазоны с помощью функций cut и qcut в pandas.

https://pbpython.com/pandas-qcut-cut.html
Статья из блога DataQuest о том как анализировать данные опросов с помощью Python. Полезно будет новичкам в качестве простого примера разведочного анализа данных

https://www.dataquest.io/blog/how-to-analyze-survey-data-python-beginner/
Forwarded from BigQuery Insights
​​Новый Python скрипт - позволяет извлекать данные об активности пользователя из Google Analytics и импортировать их в таблицу Google BigQuery.

via @BigQuery
Если вы в pandas используете apply на большом объеме данных, то может быть полезным прикрутить шкалу прогресса выполнения функции. В статье рассказывается о том как это сделать с применением библиотеки tqdm

https://towardsdatascience.com/progress-bars-in-python-and-pandas-f81954d33bae
7 советов для повышения эффективности анализа данных в Python: pandas-profiling для быстрого обзора данных, magic-команды, горячие клавиши, выделение блоков markdown цветом и многое другое

https://towardsdatascience.com/7-things-to-quickly-improve-your-data-analysis-in-python-3d434243da7
Подробный гайд по работе с временными рядами в Python. В нем даются примеры визуализации рядов, декомпозиции на трендовую и сезонную компоненту, применение статистических критериев для проверки гипотез, например, тест под забавным для постсоветского пространства названием KPSS, который позволяет проверить стационарность ряда.

https://www.machinelearningplus.com/time-series/time-series-analysis-python/
Наткнулся на интересную библиотеку для статистики - Pingouin. Имеет ряд преимуществ по сравнению с scipy.stats, например, t-test по умолчанию выдает не только T-value и p-value, но и доверительные интервалы, статистическую мощность и размер эффекта. Понятное дело, что всё это можно сделать и в scipy, но Pingouin делает это одной функцией, что крайне удобно. Вот ноутбук с кратким обзором того, что умеет Pingouin: https://nbviewer.jupyter.org/github/raphaelvallat/pingouin/blob/master/notebooks/00_QuickStart.ipynb

https://github.com/raphaelvallat/pingouin
Книга Nicolas P. Rougier "From Python to Numpy" рассказывает о том как с помощью NumPy существенно улучшить эффективность алгоритмов анализа данных. Автор специализируется в применении Python к научным исследованиям и визуализациям, поэтому книга изобилует сложными, но очень крутыми примерами.

https://www.labri.fr/perso/nrougier/from-python-to-numpy/
Статья о том как сделать исключение одного датафрейма из другого. Интерес представляет практический пример, когда merge вызывают с параметром indicator=True и это приносит пользу

https://kanoki.org/2019/07/04/pandas-difference-between-two-dataframes/
Обзор просто бомбической библиотеки Streamlit, которая позволяет создавать небольшие интерактивные веб-приложения для взаимодействия с данными и алгоритмами ML. Похоже на разработку Voila, но не привязана к ipyWidgets, а использует свои виджеты, создавать которые крайне просто. В общем, посмотрите и попробуйте, это кайф

https://habr.com/ru/post/473196/
Руководство по работе с datetime в python: как извлекать атрибуты datetime, работать с timedelta, а также с timezones. Помимо этого в руководстве есть раздел, посвященный работе с датой/временем в pandas

https://www.dataquest.io/blog/python-datetime-tutorial/
🔥1
Яндекс.Маркет приглашает аналитиков на субботний митап, который пройдет в Москве 23 ноября.

В программе 6 докладов от аналитиков Маркета. Разберём и обсудим совершенно разные направления аналитической работы, которые сильно повлияли на развитие нашего бизнеса: привлечение и удержание пользователей, монетизация сервиса, сбор и систематизация неструктурированных данных, поиск и рекомендации на сервисе, логистика и фулфилмент.

Заполняйте анкету с небольшим тестом. Участие в мероприятии бесплатное, по предварительной регистрации:

https://events.yandex.ru/events/data_market/23nov
Сегодня хочу порекомендовать канал Дашбордец.

Его автор Даша подробно рассказывает как построить визуализацию так, чтобы дашборд выполнил свою задачу и помог принять решение. От методов бизнес-анализа до реализации на BI. Прикольные графики, интересные фичи и многое другое. Подписывайтесь, там интересно.
Хороший пример использования pandas для обработки данных в разных форматах: на примере финансовых данных в различных форматах автор разбирает как стандартизировать данные, чтобы облегчить их дальнейшую обработку

https://pbpython.com/currency-cleanup.html
Пример создания простого ETL-процесса, в котором берутся данные из API городского велопроката Нью-Йорка, трансформируются с помощью Pandas, а затем заливаются в BigQuery

https://www.datacourses.com/an-api-based-etl-pipeline-with-python-part-1-259/
Ноутбук с моего сегодняшнего выступления на MateMarketing, где рассказал про то как можно анализировать пользовательские данные с помощью Python.

http://bit.ly/2Of2Xf5
Данные тут: http://bit.ly/36YRwB3
Datalytics pinned a photo