Если нужно выгрузить датафрейм из Юпитера, то обычно используют[df.to_csv() (https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html) и потом ищут файлик. Иногда удобно выгрузить файлик прямо браузером https://gist.github.com/axmakarov/a83727d16cc75761ea5d0bce1a667d1c
Gist
download_from_ipython.py
GitHub Gist: instantly share code, notes, and snippets.
Курс машинного обучения Data Mining In Action от кафедры Алгоритмов и Технологий Программирования МФТИ https://www.youtube.com/channel/UCop3CelRVvrchG5lsPyxvHg/videos?flow=grid&sort=p&view=0
В Pandas одно и то же действие с данными можно выполнить несколькими способами. Например, отсортировать данные можно внутренней функцией sort_values() или использовать numpy'шный np.sort(). Добрый самаритянин сравнил производительность функций, чтобы мы тратили меньше времени на все эти слайсинги, сортировки и удаление дубликатов https://github.com/mm-mansour/Fast-Pandas
GitHub
GitHub - mm-mansour/Fast-Pandas: Benchmark for different operations in pandas against various dataframe sizes.
Benchmark for different operations in pandas against various dataframe sizes. - mm-mansour/Fast-Pandas
Крутая шпаргалка по Pandas https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf
GitHub
pandas/doc/cheatsheet/Pandas_Cheat_Sheet.pdf at main · pandas-dev/pandas
Flexible and powerful data analysis / manipulation library for Python, providing labeled data structures similar to R data.frame objects, statistical functions, and much more - pandas-dev/pandas
Нашел библиотеку для автоматической генерации фич (feature, признаков, если говорить по-русски) для машинного обучения: https://www.featuretools.com/. Процесс генерации фич достаточно занимательный и творческий. Не уверен, что в ближайшую пятилетку получится автоматизировать его полностью, но библиотека точно облегчает жизнь аналитику, особенно если речь идет о достаточно простых признаках. Принцип работы достаточно прост: обычно аналитику приходится создавать фичи самому, применяя различные агрегирующие функции к определенной категории данных, а библиотека FeatureTools берет эту задачу на себя. Например, если мы пытаемся предсказать покупку клиентом определенного товара, то нам нужно изучить историю его прошлых покупок, а также пользователей похожих на него по каким-либо признакам: что чаще покупали люди, которые живут в том же городе и того же возраста, что и наш клиент; в какое время года чаще всего клиенты покупали определенный товар; как часто пользователь до этого просматривал страницу с этим товаром или похожим. Для каждого из таких параметров нам нужно сделать агрегаты, то есть взять все данные о покупках товара из определенного города и посчитать для него частоту покупок, средний чек, медиану по чеку и ещё кучу всяких параметров. Потом можно взять связку город и товар и сделать тоже самое. Всё это можно делать ручками, придумывая каждую фичу самостоятельно, а можно использовать библиотеку FeatureTools или ей подобную.
Forwarded from Интернет-аналитика // Алексей Никушин (Alexey Nikushin)
Kaggle выложил мини-курсы "Hands-On Data Science Education": Pandas, ML, SQL, R, Data Visualization.
Вроде бы это не видеокурсы, а текстовые с примерами.
https://www.kaggle.com/learn/overview
Вроде бы это не видеокурсы, а текстовые с примерами.
https://www.kaggle.com/learn/overview
Continuum (которые делают питоновскую сборку Anaconda для аналитиков данных) запустили свою программу для сертификации специалистов в области Data Science. Работает всё это на платформе DataCamp и суммарно стоит конские 2800$, хотя у самих DataCamp годовая подписка обойдется в 300$. На мой взгляд, даже для зарубежных аналитиков это будет очень сомнительная инвестиция в себя, при том, что новые знания в этой области появляются с невероятной скоростью, а вместо сертификата лучше размахивать здоровенным гитхабом. https://www.anaconda.com/anaconda-data-science-certification/
Годнота про то как сделать один сервер Jupyter доступным для кучи пользователей с разграничением доступов https://habrahabr.ru/company/yandex/blog/353546/. От туда узнал про nbgrader - систему для оценки заданий с помощью Jupyter (https://github.com/jupyter/nbgrader).
Habr
JupyterHub, или как управлять сотнями пользователей Python. Лекция Яндекса
Платформа Jupyter позволяет начинающим разработчикам, аналитикам данных и студентам быстрее начать программировать на Python. Предположим, ваша команда растёт — в ней теперь не только программисты, но...
Как-то я раньше не знал о существовании чудесного фреймворка Dash https://github.com/plotly/dash от Plotly для создания собственных аналитических веб-приложений на Питоне. Упрощенно говоря, на выходе получаются дэшборды в виде отдельных веб-сервисов, которые можно кастомизировать как душе угодно. Если кто-то видел Shiny для R, то это его аналог, но для Python. И всё это опенсорсненько. Пример дэшборда: https://dash-stock-tickers.plot.ly/
GitHub
GitHub - plotly/dash: Data Apps & Dashboards for Python. No JavaScript Required.
Data Apps & Dashboards for Python. No JavaScript Required. - plotly/dash
Интересный формат. Автор планирует туториал из 8 эпизодов для тех аналитиков, кто пытался когда-то изучать Python, но забросил. Бросают обычно из-за того, что люди начинают изучение с синтаксиса, а лучше начинать с решения легких практических задач, избавляя себя от рутины и сразу же чувствуя как Python улучшает рабочий процесс. https://changhsinlee.com/pyderpuffgirls-ep1/
Chang Hsin Lee
A Python Tutorial for the Bored Me—PyderPuffGirls Episode 1
This is the Episode 1 of the PyderPuffGirls†—a tutorial on automating the boring parts of data analysis that we are going through in the next 8 weeks. I’m writing this tutorial for people that had at least one false start in learning Python, just like me…
Добавляйтесь в мою группу на Facebook. Делитесь интересными ссылками, задавайте вопросы по анализу данных, по возможности буду отвечать или отвечайте на вопросы других участников. Давайте сообща развивать культуру анализа данных на Python! 🐍
Из статьи на vc.ru узнал о том, что Amazon выкатил в паблик свои курсы по машинному обучению. Бесплатненько. Для курсов выбран любопытный подход, когда различные курсы объединены в обучающие пути. Например, есть обучающий путь для разработчиков ML или для дата-сайентистов.
vc.ru
Amazon открыла доступ к внутренним курсам по машинному обучению для всех желающих — Образование на vc.ru
Каждый может пройти программу, по которой готовятся разработчики крупнейшего онлайн-ритейлера.
