NEW BOT Телеграм, страница

Channel created

20:43

Если нужно выгрузить датафрейм из Юпитера, то обычно используют[df.to_csv() (https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html) и потом ищут файлик. Иногда удобно выгрузить файлик прямо браузером https://gist.github.com/axmakarov/a83727d16cc75761ea5d0bce1a667d1c

Gist

download_from_ipython.py

GitHub Gist: instantly share code, notes, and snippets.

635 viewsedited 13:43

Datalytics

Курс машинного обучения Data Mining In Action от кафедры Алгоритмов и Технологий Программирования МФТИ https://www.youtube.com/channel/UCop3CelRVvrchG5lsPyxvHg/videos?flow=grid&sort=p&view=0

679 views14:35

Datalytics

В Pandas одно и то же действие с данными можно выполнить несколькими способами. Например, отсортировать данные можно внутренней функцией sort_values() или использовать numpy'шный np.sort(). Добрый самаритянин сравнил производительность функций, чтобы мы тратили меньше времени на все эти слайсинги, сортировки и удаление дубликатов https://github.com/mm-mansour/Fast-Pandas

GitHub

GitHub - mm-mansour/Fast-Pandas: Benchmark for different operations in pandas against various dataframe sizes.

Benchmark for different operations in pandas against various dataframe sizes. - mm-mansour/Fast-Pandas

685 views08:58

Datalytics

Крутая шпаргалка по Pandas https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf

GitHub

pandas/doc/cheatsheet/Pandas_Cheat_Sheet.pdf at main · pandas-dev/pandas

Flexible and powerful data analysis / manipulation library for Python, providing labeled data structures similar to R data.frame objects, statistical functions, and much more - pandas-dev/pandas

743 views10:49

Datalytics

Нашел библиотеку для автоматической генерации фич (feature, признаков, если говорить по-русски) для машинного обучения: https://www.featuretools.com/. Процесс генерации фич достаточно занимательный и творческий. Не уверен, что в ближайшую пятилетку получится автоматизировать его полностью, но библиотека точно облегчает жизнь аналитику, особенно если речь идет о достаточно простых признаках. Принцип работы достаточно прост: обычно аналитику приходится создавать фичи самому, применяя различные агрегирующие функции к определенной категории данных, а библиотека FeatureTools берет эту задачу на себя. Например, если мы пытаемся предсказать покупку клиентом определенного товара, то нам нужно изучить историю его прошлых покупок, а также пользователей похожих на него по каким-либо признакам: что чаще покупали люди, которые живут в том же городе и того же возраста, что и наш клиент; в какое время года чаще всего клиенты покупали определенный товар; как часто пользователь до этого просматривал страницу с этим товаром или похожим. Для каждого из таких параметров нам нужно сделать агрегаты, то есть взять все данные о покупках товара из определенного города и посчитать для него частоту покупок, средний чек, медиану по чеку и ещё кучу всяких параметров. Потом можно взять связку город и товар и сделать тоже самое. Всё это можно делать ручками, придумывая каждую фичу самостоятельно, а можно использовать библиотеку FeatureTools или ей подобную.

685 views08:47

Datalytics

Forwarded from Интернет-аналитика // Алексей Никушин (Alexey Nikushin)

Kaggle выложил мини-курсы "Hands-On Data Science Education": Pandas, ML, SQL, R, Data Visualization.
Вроде бы это не видеокурсы, а текстовые с примерами.

https://www.kaggle.com/learn/overview

187 views10:06

Datalytics

Continuum (которые делают питоновскую сборку Anaconda для аналитиков данных) запустили свою программу для сертификации специалистов в области Data Science. Работает всё это на платформе DataCamp и суммарно стоит конские 2800$, хотя у самих DataCamp годовая подписка обойдется в 300$. На мой взгляд, даже для зарубежных аналитиков это будет очень сомнительная инвестиция в себя, при том, что новые знания в этой области появляются с невероятной скоростью, а вместо сертификата лучше размахивать здоровенным гитхабом. https://www.anaconda.com/anaconda-data-science-certification/

653 views12:48

Datalytics

Годнота про то как сделать один сервер Jupyter доступным для кучи пользователей с разграничением доступов https://habrahabr.ru/company/yandex/blog/353546/. От туда узнал про nbgrader - систему для оценки заданий с помощью Jupyter (https://github.com/jupyter/nbgrader).

Habr

JupyterHub, или как управлять сотнями пользователей Python. Лекция Яндекса

Платформа Jupyter позволяет начинающим разработчикам, аналитикам данных и студентам быстрее начать программировать на Python. Предположим, ваша команда растёт — в ней теперь не только программисты, но...

697 views10:06

Datalytics

Как-то я раньше не знал о существовании чудесного фреймворка Dash https://github.com/plotly/dash от Plotly для создания собственных аналитических веб-приложений на Питоне. Упрощенно говоря, на выходе получаются дэшборды в виде отдельных веб-сервисов, которые можно кастомизировать как душе угодно. Если кто-то видел Shiny для R, то это его аналог, но для Python. И всё это опенсорсненько. Пример дэшборда: https://dash-stock-tickers.plot.ly/

GitHub

GitHub - plotly/dash: Data Apps & Dashboards for Python. No JavaScript Required.

Data Apps & Dashboards for Python. No JavaScript Required. - plotly/dash

806 views13:43

Datalytics

Channel photo updated

04:40

Datalytics

Интересный формат. Автор планирует туториал из 8 эпизодов для тех аналитиков, кто пытался когда-то изучать Python, но забросил. Бросают обычно из-за того, что люди начинают изучение с синтаксиса, а лучше начинать с решения легких практических задач, избавляя себя от рутины и сразу же чувствуя как Python улучшает рабочий процесс. https://changhsinlee.com/pyderpuffgirls-ep1/

Chang Hsin Lee

A Python Tutorial for the Bored Me—PyderPuffGirls Episode 1

This is the Episode 1 of the PyderPuffGirls†—a tutorial on automating the boring parts of data analysis that we are going through in the next 8 weeks. I’m writing this tutorial for people that had at least one false start in learning Python, just like me…

1.08K views10:11

About

Blog

Apps

Platform