Datalytics – Telegram
Datalytics
9.08K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Channel created
Если нужно выгрузить датафрейм из Юпитера, то обычно используют[df.to_csv() (https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html) и потом ищут файлик. Иногда удобно выгрузить файлик прямо браузером https://gist.github.com/axmakarov/a83727d16cc75761ea5d0bce1a667d1c
Курс машинного обучения Data Mining In Action от кафедры Алгоритмов и Технологий Программирования МФТИ https://www.youtube.com/channel/UCop3CelRVvrchG5lsPyxvHg/videos?flow=grid&sort=p&view=0
В Pandas одно и то же действие с данными можно выполнить несколькими способами. Например, отсортировать данные можно внутренней функцией sort_values() или использовать numpy'шный np.sort(). Добрый самаритянин сравнил производительность функций, чтобы мы тратили меньше времени на все эти слайсинги, сортировки и удаление дубликатов https://github.com/mm-mansour/Fast-Pandas
Нашел библиотеку для автоматической генерации фич (feature, признаков, если говорить по-русски) для машинного обучения: https://www.featuretools.com/. Процесс генерации фич достаточно занимательный и творческий. Не уверен, что в ближайшую пятилетку получится автоматизировать его полностью, но библиотека точно облегчает жизнь аналитику, особенно если речь идет о достаточно простых признаках. Принцип работы достаточно прост: обычно аналитику приходится создавать фичи самому, применяя различные агрегирующие функции к определенной категории данных, а библиотека FeatureTools берет эту задачу на себя. Например, если мы пытаемся предсказать покупку клиентом определенного товара, то нам нужно изучить историю его прошлых покупок, а также пользователей похожих на него по каким-либо признакам: что чаще покупали люди, которые живут в том же городе и того же возраста, что и наш клиент; в какое время года чаще всего клиенты покупали определенный товар; как часто пользователь до этого просматривал страницу с этим товаром или похожим. Для каждого из таких параметров нам нужно сделать агрегаты, то есть взять все данные о покупках товара из определенного города и посчитать для него частоту покупок, средний чек, медиану по чеку и ещё кучу всяких параметров. Потом можно взять связку город и товар и сделать тоже самое. Всё это можно делать ручками, придумывая каждую фичу самостоятельно, а можно использовать библиотеку FeatureTools или ей подобную.
Kaggle выложил мини-курсы "Hands-On Data Science Education": Pandas, ML, SQL, R, Data Visualization.
Вроде бы это не видеокурсы, а текстовые с примерами.

https://www.kaggle.com/learn/overview
Continuum (которые делают питоновскую сборку Anaconda для аналитиков данных) запустили свою программу для сертификации специалистов в области Data Science. Работает всё это на платформе DataCamp и суммарно стоит конские 2800$, хотя у самих DataCamp годовая подписка обойдется в 300$. На мой взгляд, даже для зарубежных аналитиков это будет очень сомнительная инвестиция в себя, при том, что новые знания в этой области появляются с невероятной скоростью, а вместо сертификата лучше размахивать здоровенным гитхабом. https://www.anaconda.com/anaconda-data-science-certification/
Как-то я раньше не знал о существовании чудесного фреймворка Dash https://github.com/plotly/dash от Plotly для создания собственных аналитических веб-приложений на Питоне. Упрощенно говоря, на выходе получаются дэшборды в виде отдельных веб-сервисов, которые можно кастомизировать как душе угодно. Если кто-то видел Shiny для R, то это его аналог, но для Python. И всё это опенсорсненько. Пример дэшборда: https://dash-stock-tickers.plot.ly/
Channel photo updated
Интересный формат. Автор планирует туториал из 8 эпизодов для тех аналитиков, кто пытался когда-то изучать Python, но забросил. Бросают обычно из-за того, что люди начинают изучение с синтаксиса, а лучше начинать с решения легких практических задач, избавляя себя от рутины и сразу же чувствуя как Python улучшает рабочий процесс. https://changhsinlee.com/pyderpuffgirls-ep1/