NEW BOT Телеграм, страница

Большой гайд по использованию лямбда-функций в Python

https://realpython.com/python-lambda/

How to Use Python Lambda Functions – Real Python

In this step-by-step tutorial, you'll learn about Python lambda functions. You'll see how they compare with regular functions and how you can use them in accordance with best practices.

2.05K views08:08

Datalytics

Отличный пример визуализации геоданных с помощью библиотеки Folium. В статье разбирается кейс выбора места для открытия нового филиала организации.

Интересно, что автор использовал открытые данные для определения населения в конкретной области карты.

https://habr.com/ru/post/456856/

Хабр

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

Выбор места для нового филиала — ответственное решение. Ошибка может стоить дорого, особенно в капиталоемких отраслях. Чаще всего такие решения принимаются менеджментом экспертно: на основе знания...

2.03K views09:01

Datalytics

Статья про контроль версий в Jupyter Notebook.

Разбирается как совладать с главной сложностью контроля версий ноутбуков: файлы ipynb содержат кучу метаданных о форматировании и визуализациях. Таким образом, сравнивать версии ноутбуков между собой в режиме «чистого» текста (plain–text) становится достаточно сложно, так как исчезает главный плюс ноутбуков — восприятие исследования не просто как кода, а как некоторой интерактивной истории.

Среди предложенных методов: конвертировать ноутбук сначала в html или py, а затем использовать обычную систему контроля версий (например, git); использовать специальные vcs для ноутбуков (nbdime, ReviewNB, Jupytext).

https://nextjournal.com/schmudde/how-to-version-control-jupyter

Nextjournal

How to Version Control Jupyter Notebooks

Jupyter notebooks generate files that may contain metadata, source code, formatted text, and rich media. Unfortunately, this makes these files poor candidates for conventional version control solutions, which works best with plain text.

2.02K views11:31

Datalytics

Большой гайд по типам данных в NumPy и распространенных манипуляциях с ними. Также приводятся интересные примеры того как выглядят тексты, изображения, звуковые дорожки, преобразованные в numpy-array.
https://jalammar.github.io/visual-numpy/

jalammar.github.io

A Visual Intro to NumPy and Data Representation

Discussions:
Hacker News (366 points, 21 comments), Reddit r/MachineLearning (256 points, 18 comments)

Translations: Chinese 1, Chinese 2, Japanese, Korean

The NumPy package is the workhorse of data analysis, machine learning, and scientific computing…

1.88K views07:33

Datalytics

Пример построения инфраструктуры по передаче данных из Google Analytics в Google BigQuery с указанием ClientID, SessionID и HitID. Вытаскивание данных из Google Analytics API и передача в BQ реализованы на Python, в статье есть примеры кода. По сути, ничего не мешает использовать в место BQ свой Clickhouse или другую приглянувшуюся БД.

https://habr.com/ru/company/idfinance/blog/457052/

Хабр

Как настроить инфраструктуру веб-аналитики за $100 в месяц

Рано или поздно почти любая компания сталкивается с проблемой развития веб-аналитики. Это не значит, что нужно только поставить код Google Analytics на сайт — нужно найти пользу в полученных данных. В...

2.04K views11:44

Datalytics

Перевод статьи об оптимизации работы с Jupyter Notebook. Рассмотрены основные горячие клавиши, установка дополнений, использование magic-команд

https://tproger.ru/translations/how-to-optimize-jupyter-notebook/

Tproger

Как оптимизировать работу в Jupyter Notebook

Оптимизируем работу в Jupyter Notebook с помощью основных команд и расширений и добавляем немного магии, чтобы всё стало ещё быстрее и проще.

1.71K views07:13

Datalytics

В работе аналитика, зачастую, 80% времени уходит на подготовку данных: очистку, замену пропущенных значений, трансформацию, нормализацию. Обычно никто это дело особо не любит, но от этих процедур напрямую зависит конечный результат. Как известно, garbage in -> garbage out.

В этой статье разбираются разные приемы обработки данных, как с помощью общепринятых методов, например, df.fillna(), так и с помощью различных библиотек, таких как dedupe для поиска нечетких дублей или fuzzywuzzy для нечеткого сравнения строк.

https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3

Medium

Cleaning and Prepping Data with Python for Data Science — Best Practices and Helpful Packages

1.73K views12:35

Datalytics

Forwarded from DataEng

нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.

GitHub

GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.

An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster

166 views16:22

Show comments

Datalytics

Если вам нужно создать новую колонку, которая формируется по сложной логике, например, на основе функции, которая принимает в качестве аргументов значения из других колонок, то не обойтись без apply и lambda. В этой статье рассматривается использование этих функций на множестве понятных примеров.

https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7

Medium

Apply and Lambda usage in pandas

Learn these to master Pandas

1.7K views09:28

Datalytics

Forwarded from DevBrain

Без pandas сейчас никуда, если дело касается анализа данных. Несколько лет назад я писал вводную заметку про pandas и анализ данных на Python для тех, кто только начинает свой путь и немного запутан. Ежедневно её читает около 300 человек.

После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.

Видео можно посмотреть вот тут.

Исходник jupyter notebook можно скачать здесь

Khashtamov

Введение в pandas: анализ данных на Python

pandas это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что явл…

206 views07:22

Show comments

Datalytics

Если у вас возникают проблемы с индексами в датафрейме или вы вообще не понимаете зачем они нужны и при любом удобном случае делаете reset_index(drop=True), то почитайте статью про индексацию в датафрейме

https://brohrer.github.io/dataframe_indexing.html

1.97K viewsedited 12:48

Datalytics

Статья о том как проводить исследовательский анализ данных на примере данных о метеорологических наблюдениях

https://risk-engineering.org/notebook/data-analysis-weather.html

1.87K views08:42

Datalytics

Хороший туториал по Bokeh - библиотеке для визуализации данных, которую выгодно отличает от matplotlib или seaborn возможность строить интерактивные графики. Также эта библиотека используется для построения графиков на дашбордах в рамках фреймворка Panel.

https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/

Stack Abuse

Python's Bokeh Library for Interactive Data Visualization

Introduction In this tutorial, we're going to learn how to use Bokeh library in Python. Most of you would have heard of matplotlib, numpy, seaborn, etc. as they are very popular python libraries for graphics and visualizations. What distinguishes Bokeh from…

2K views09:16

Datalytics

Мегапост с гигантской подборкой блокнотов по ML, Data Science, анализу и визуализации данных. Налетай, разбирай, сохраняй в закладки!

Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

https://habr.com/ru/post/460321/

Хабр

Галерея лучших блокнотов по ML и Data Science

Привет, читатель. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Ma...

2.15K views11:55

Datalytics

Неплохая вводная статья про различные виды распределений вероятностей. В статье приведены примеры генерации случайных чисел, подчиняющихся определенным законам распределения, с использованием пакета scipy.stats.

https://www.datacamp.com/community/tutorials/probability-distributions-python

Datacamp

Probability Distributions in Python Tutorial

Learn about probability distributions with Python. Understand common distributions used in machine learning today!

1.98K views08:00

Datalytics

Крутейшая видеолекция Алексея Куличевского, в которой он рассказывает про построение системы репортинга и self-service аналитики с помощью Metabase.

На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды

https://digitalgod.be/guides/metabase_video_dr5_metabase

digitalgod.be

Digital God | Guides | Использование Metabase с PostgreSQL и ClickHouse

Тема с Digital Rockstar #5, Алексей Куличевский делится опытом работы с Metabase.

2.27K viewsedited 16:18

Datalytics

Туториал по визуализации данных с помощью Seaborn. Erik Marsja рассказывает о том как использовать различные техники визуализации данных, от барчартов до raincloud-plots, для исследования данных.

https://www.marsja.se/python-data-visualization-techniques-you-should-learn-seaborn/

Erik Marsja

9 Data Visualization Techniques You Should Learn in Python - Erik Marsja

In this Python data visualization tutorial we will learn how to create 9 different plots using Python Seaborn. More precisely we have used Python to create a scatter plot, histogram, bar plot, time series plot, box plot, heat map, correlogram, violin plot…

1.99K views08:53

Datalytics

Всем привет! Завтра я и Дима Родин в DigitalGod покажем как собирать данные из коллтрекинга CoMagic с помощью API и анализировать эти данные в Python. А затем рассмотрим как самостоятельно сделать интеграцию с Rockstat через WebHook'и. Спешите, количество мест ограничено. Регистрация на страничке

https://digitalgod.be/meetup/0719_comagic_api_webhook

digitalgod.be

Digital God | Meetups | Работа с API, WebHook CoMagic. 25 июля.

Препарируем данные CoMagic, прокачиваем интеграцию

1.47K viewsedited 08:53

Datalytics

Огромная подборка различных полезных сниппетов кода для Pandas. Изучайте, открывайте для себя новые примеры использования

https://vishalmnemonic.github.io/DC9/

1.97K views11:43

Datalytics

Хорошая иллюстрированная статья про groupby и концепцию split-apply-combine в Pandas. Если вы хотите на более низком уровне понимать как работает группировка и применение агрегирующих функций, настоятельно рекомендую ознакомиться.

https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e

Medium

How to use the Split-Apply-Combine strategy in Pandas groupby

Master the Split-Apply-Combine pattern in Python with this visual guide to Pandas groupby-apply.

1.89K views09:01

Datalytics

Подробная шпаргалка по работе с Pandas

https://www.webpages.uidaho.edu/~stevel/504/Pandas%20DataFrame%20Notes.pdf

1.91K views06:55

About

Blog

Apps

Platform