data будни – Telegram
data будни
1.47K subscribers
120 photos
1 video
2 files
237 links
работаю инженером данных и пишу в основном про это.

Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
Download Telegram
Channel photo updated
Channel name was changed to «data будни»
В прошлом году закончил курс по аналитике данных в Яндекс Практикуме и сменил профессию.

Почему не в Data Science?

Аналитик данных — для меня это быстрый старт в новой отрасли; такой MVP. «Быстрый» — относительно Data Science:

1. Ниже порог входа по необходимым знаниям. Соответственно, быстрее обучение.
2. Больше потребность на рынке (167 вакансий по запросу «Data Scientist» против 2669 «аналитиков данных» по данным hh.ru). Соответственно, быстрее поиск новой работы.

Ещё три абзаца в блоге
https://sashamikhailov.ru/blog/all/data-analyst-and-data-scientist/
интерактивный помогатор для cron — с примерами и лучшими практиками

https://crontab.guru/tips.html
Про базы данных со стороны бэкэнда

Лекция Татьяны Денисовой для курса по бэкэнду от Яндекса

Это лекция, которая проходится по верхам основных тем для работы с базами данных. Темы, о существований которых надо знать — чтобы при необходимости знать, что писать в поисковый запрос.

https://youtu.be/YjSIdz8DnAo
Аналитика рынка аналитиков от агентства New.HR

Результаты анализа упаковали в презентацию. Что-то из презентации опубликовали в виде статьи на виси. Получился набор блоков с буллетами 🙂

Судя по слайдам с зарплатами, продуктовые аналитики ценятся выше, чем маркетинговые. А дата саентистов — ешё выше.

Также там есть список необходимых инструментов и навыков для каждого уровня развития.
Интерактивный обновляющийся дешборд на открытых данных

Как сделать из простого Jupyter ноутбука полноценный сайт в интернете.

1. получить данные с Reddit через их API — pushshift (облегчив себе жизнь с помощью функции-обёртки с **kwargs); слегка обработать эти данные и сложить их в pandas.
2. добавить чуток NLP через библиотеку TextBlob. Через неё текст оценивается по двум параметрам: субъективность и эмоциональный окрас (негативный или позитивный).
3. Сделать из Jupyter ноутбука HTML страницу через Voilà.
4. Сделать так, чтобы Jypter ноутбук с Voilà можно было открыть как обычный сайт в интернете и чтобы при этом он обновлялся. Простой вариант — через Binder. Сложный вариант — через Linux сервер. Ещё один простой — через Heroku или Google Cloud Platform.

Статья с поэтапным объяснением, примерами кода и всем ссылками на все перечисленные инструменты.
на визуализации странный выбор параметра для обозначения цветом — эмоциональный окрас сообщения. По сути этот же параметр уже передаётся положением точки на вертикальной оси: все точки выше нуля зелёные, ниже — красные. Получается, что информация дублируется.

РазTextBlob даёт два параметра, можно было бы показать их оба: положением показывать эмоцию сообщения, а цветом — его эмоциональный окрас.
Дмитрий Аношин работает в Амазон и неспешно пишет бесплатный курс по аналитике и инжинирингу данных.

В очередном уроке разбирает структуру аналитического решения в компании: откуда данные приходят, где хранятся, и как потом попадают к бизнесу.

И как называются роли, которые отвечают за каждый вид работа. Где там BI аналитик, а где — data engineer.

https://youtu.be/_M8yxr2Inyo
👍1
как я делал тестовое задание в Welltory и анализировал данные с фитнес-трекеров.

внутри нет технических деталей, зато есть полудетективная история про то, как я нашёл владельца трекера и получил приглашение на собеседование в полседьмого утра 🙂

https://sashamikhailov.ru/blog/all/welltory-data-engineer/
Влад Исмагилов из Яндексю.Маркет о том, что нужно знать начинающему аналитику:

1. Любознательность.
2. Базовая практика. Для начала для себя: спарсить погоду или Циан.
3. Базовое понимание, что за цифрами есть математическая база
4. Понимание, зачем цифры нужны бизнесу и как будут приниматься решения на их основе.


https://news.1rj.ru/str/just_analytics/15

П.С.: будет легче читаться, если хотя бы разбить текст на абзацы 🙃
https://telegra.ph/chto-nuzhno-znat-dzhunior-analitiku-07-30
Если посмотреть ближайшую кофейню или купить билет в кино, то это к Яндексу.

А если надо найти нужную функцию в питоне или понять, почему код не работает, то я открываю Гугл.

Да, приходится искать на английском, но в этом больше плюсов, чем минусов. Не нужно спрягать слова или выдумывать синонимы, как могли бы описать мою проблему другие: вопросы задают такие же «знатоки» английского, как и я: хватит даже школьного уровня.

Обычно прям забиваю ключевые слова в поиск:
python string to datetime

(я даже мануал по pandas каждый раз открываю через гугл ¯\_(ツ)_/¯ )
Роман Бунин поговорил с Дмитрием Аношиным про карьеру дата инженера в Амазоне.

(я сейчас прохожу курс Дмитрия по введение в дата инжиниринг и очень рекомендую. Курсы бесплатный, выложен на Ютубе)

Дмитрий — человек большой активности, только послушав про его опыт уже хочется запилить какую-нибудь презентацию. Дикая мотивация.

Очень полезно про поиск работы: мониторить рынок и требования, откликаться на любые подходящие вакансии, участвовать в любой движухе.

Слушать и смотреть:
https://news.1rj.ru/str/revealthedata/122

Читать:
https://news.1rj.ru/str/revealthedata/123

А вот сам курс Дмитрия «введение в дата инжиниринг и аналитику»
EDA — вебинар от karpov.courses

тот самый Анатолий Карпов из курса по статистике на Степике делает свою школу по работе с данными. Ребята провели полезный вебинар по анализу данных. Вебинар полезен чтобы познакомиться и разобраться с нуля или чтобы вспомнить основы.

Exploratory Data Analysis — разведывательный анализ данных — первое, что надо сделать с данными.

данные почти всегда «грязные»
нужны метаданные — описания к признакам
могут быть пропуски — отвалилось устройство сбора или просто криво собрали данные

есть интересные применение pd.crosstab, .style.background и pandas profiling

https://youtu.be/wKrsanSXzk0
Сделал отдельный канал про дата-отрасль и всё такое

Изначально не хотел плодить множество каналов: казалось, что будет пусто и там, и там; плюс не хотелось каждый раз запариваться, куда отправить тот или иной пост — нужно было одно место.

Последнее время столкнулся с дилеммой: с одной стороны хочу писать просто про жизнь, про семью и детей, про ментальное и физическое здоровье, собирать скриншоты сайтиков из интернета; а с другой — приводить прям код на питоне и сиквеле или разбираться в тонкостях баз данных и матстатистики. Кажется, что в одном канале таким разным постам будет тесно.

В итоге завёл отдельный канал, куда буду писать про всё связанное с данными. Для начала накидал туда все релевантные посты за последние пару месяцев — чтобы было понятно, что я понимаю под «всё связанное с данными».

В общем, велком!
https://news.1rj.ru/str/data_days
Собрал курсы, которые дополнили знания по аналитике после Практикума.

SQL

Сиквел — основа работы всех сортов аналитиков. И даже видел рекомендации осваивать сиквел продакт-менеджерам. Задачи на SQL мне встречались почти во всех тестовых.

Простота SQL обманчива. Помню как радовался, когда наконец «изучил SQL», пройдя курс по базовым запросам; и как потом «прозрел», когда неделю делал тестовое в SkyEng с оконными функциями и вложенными запросами.

Навык никогда не будет лишним и «перекачать» его сложно. По-моему стоит его делать каждый день по небольшому подходу — мне тут помогает поставить на повтор в трекере задач.

Базовый SQL:
https://mode.com/sql-tutorial/ или https://stepik.org/course/51562

Продвинутый уровень — понимание работы запросов в контексте баз данных:
https://stepik.org/course/55776/syllabus — транзакции, ACID, процедуры, триггеры, представления

https://stepik.org/course/51675/syllabus — проектирование баз данных, четыре нормальных формы, денормализация, удаление данных

Если эти ссылки не зашли (это нормально!), вот ещё была большая подборка курсов в канале у Алексея Никушина
https://news.1rj.ru/str/internetanalytics/3012

#SQL
Введение в статистику

Обязательный курс, чтобы понимать распределения и отличать среднее от медианы.

Статистические методы пригодятся в разведывательном анализе данных (EDA)
и в АБ тестировании. Ну и вообще полезно для общего понимания и критического мышления.

https://stepik.org/course/76

#statistics
Введение в дата инжиниринг и аналитику

Дмитрий Аношин уже несколько лет работает в Амазоне, а до этого работал в Сбербанке, Ламоде и Терадате.

Дмитрий работал в разных больших компаниях и рассказывает только то, что действительно используется в работе. Типа «так, здесь у нас constraints, но по факту это никогда не используется — вычёркиваем» или «на собеседовании в Амазон спрашивали про схему звезды, но я сказал что обычно никто с этим не заморачивается… и прошёл»

В курсе есть обзор общей картины по работе с данными в компании: от источника до дешборда. И рассказ, какой специалист занимается каким участком

Курс бесплатный, выложен на Ютуб. Есть плейлисты с модулями: пока записано 3 (из 8?)

Ещё в рамках курса бывают вебинары с крутанами, например Роман Бунин про дешборды в Tableau.

#data_engineering
Data Yoga — про работу с Tableau

Если надо разобраться с визуализацией и дашбордами: на примере лучшей в отрасли — Tableau.

В курсе 42 урока. Удобно проходить по одному в день. Опять пригодится повтор задачи в личном трекере)

https://tableau.pro/marathon42