data будни – Telegram
data будни
1.47K subscribers
120 photos
1 video
2 files
237 links
работаю инженером данных и пишу в основном про это.

Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
Download Telegram
Аналитика рынка аналитиков от агентства New.HR

Результаты анализа упаковали в презентацию. Что-то из презентации опубликовали в виде статьи на виси. Получился набор блоков с буллетами 🙂

Судя по слайдам с зарплатами, продуктовые аналитики ценятся выше, чем маркетинговые. А дата саентистов — ешё выше.

Также там есть список необходимых инструментов и навыков для каждого уровня развития.
Интерактивный обновляющийся дешборд на открытых данных

Как сделать из простого Jupyter ноутбука полноценный сайт в интернете.

1. получить данные с Reddit через их API — pushshift (облегчив себе жизнь с помощью функции-обёртки с **kwargs); слегка обработать эти данные и сложить их в pandas.
2. добавить чуток NLP через библиотеку TextBlob. Через неё текст оценивается по двум параметрам: субъективность и эмоциональный окрас (негативный или позитивный).
3. Сделать из Jupyter ноутбука HTML страницу через Voilà.
4. Сделать так, чтобы Jypter ноутбук с Voilà можно было открыть как обычный сайт в интернете и чтобы при этом он обновлялся. Простой вариант — через Binder. Сложный вариант — через Linux сервер. Ещё один простой — через Heroku или Google Cloud Platform.

Статья с поэтапным объяснением, примерами кода и всем ссылками на все перечисленные инструменты.
на визуализации странный выбор параметра для обозначения цветом — эмоциональный окрас сообщения. По сути этот же параметр уже передаётся положением точки на вертикальной оси: все точки выше нуля зелёные, ниже — красные. Получается, что информация дублируется.

РазTextBlob даёт два параметра, можно было бы показать их оба: положением показывать эмоцию сообщения, а цветом — его эмоциональный окрас.
Дмитрий Аношин работает в Амазон и неспешно пишет бесплатный курс по аналитике и инжинирингу данных.

В очередном уроке разбирает структуру аналитического решения в компании: откуда данные приходят, где хранятся, и как потом попадают к бизнесу.

И как называются роли, которые отвечают за каждый вид работа. Где там BI аналитик, а где — data engineer.

https://youtu.be/_M8yxr2Inyo
👍1
как я делал тестовое задание в Welltory и анализировал данные с фитнес-трекеров.

внутри нет технических деталей, зато есть полудетективная история про то, как я нашёл владельца трекера и получил приглашение на собеседование в полседьмого утра 🙂

https://sashamikhailov.ru/blog/all/welltory-data-engineer/
Влад Исмагилов из Яндексю.Маркет о том, что нужно знать начинающему аналитику:

1. Любознательность.
2. Базовая практика. Для начала для себя: спарсить погоду или Циан.
3. Базовое понимание, что за цифрами есть математическая база
4. Понимание, зачем цифры нужны бизнесу и как будут приниматься решения на их основе.


https://news.1rj.ru/str/just_analytics/15

П.С.: будет легче читаться, если хотя бы разбить текст на абзацы 🙃
https://telegra.ph/chto-nuzhno-znat-dzhunior-analitiku-07-30
Если посмотреть ближайшую кофейню или купить билет в кино, то это к Яндексу.

А если надо найти нужную функцию в питоне или понять, почему код не работает, то я открываю Гугл.

Да, приходится искать на английском, но в этом больше плюсов, чем минусов. Не нужно спрягать слова или выдумывать синонимы, как могли бы описать мою проблему другие: вопросы задают такие же «знатоки» английского, как и я: хватит даже школьного уровня.

Обычно прям забиваю ключевые слова в поиск:
python string to datetime

(я даже мануал по pandas каждый раз открываю через гугл ¯\_(ツ)_/¯ )
Роман Бунин поговорил с Дмитрием Аношиным про карьеру дата инженера в Амазоне.

(я сейчас прохожу курс Дмитрия по введение в дата инжиниринг и очень рекомендую. Курсы бесплатный, выложен на Ютубе)

Дмитрий — человек большой активности, только послушав про его опыт уже хочется запилить какую-нибудь презентацию. Дикая мотивация.

Очень полезно про поиск работы: мониторить рынок и требования, откликаться на любые подходящие вакансии, участвовать в любой движухе.

Слушать и смотреть:
https://news.1rj.ru/str/revealthedata/122

Читать:
https://news.1rj.ru/str/revealthedata/123

А вот сам курс Дмитрия «введение в дата инжиниринг и аналитику»
EDA — вебинар от karpov.courses

тот самый Анатолий Карпов из курса по статистике на Степике делает свою школу по работе с данными. Ребята провели полезный вебинар по анализу данных. Вебинар полезен чтобы познакомиться и разобраться с нуля или чтобы вспомнить основы.

Exploratory Data Analysis — разведывательный анализ данных — первое, что надо сделать с данными.

данные почти всегда «грязные»
нужны метаданные — описания к признакам
могут быть пропуски — отвалилось устройство сбора или просто криво собрали данные

есть интересные применение pd.crosstab, .style.background и pandas profiling

https://youtu.be/wKrsanSXzk0
Сделал отдельный канал про дата-отрасль и всё такое

Изначально не хотел плодить множество каналов: казалось, что будет пусто и там, и там; плюс не хотелось каждый раз запариваться, куда отправить тот или иной пост — нужно было одно место.

Последнее время столкнулся с дилеммой: с одной стороны хочу писать просто про жизнь, про семью и детей, про ментальное и физическое здоровье, собирать скриншоты сайтиков из интернета; а с другой — приводить прям код на питоне и сиквеле или разбираться в тонкостях баз данных и матстатистики. Кажется, что в одном канале таким разным постам будет тесно.

В итоге завёл отдельный канал, куда буду писать про всё связанное с данными. Для начала накидал туда все релевантные посты за последние пару месяцев — чтобы было понятно, что я понимаю под «всё связанное с данными».

В общем, велком!
https://news.1rj.ru/str/data_days
Собрал курсы, которые дополнили знания по аналитике после Практикума.

SQL

Сиквел — основа работы всех сортов аналитиков. И даже видел рекомендации осваивать сиквел продакт-менеджерам. Задачи на SQL мне встречались почти во всех тестовых.

Простота SQL обманчива. Помню как радовался, когда наконец «изучил SQL», пройдя курс по базовым запросам; и как потом «прозрел», когда неделю делал тестовое в SkyEng с оконными функциями и вложенными запросами.

Навык никогда не будет лишним и «перекачать» его сложно. По-моему стоит его делать каждый день по небольшому подходу — мне тут помогает поставить на повтор в трекере задач.

Базовый SQL:
https://mode.com/sql-tutorial/ или https://stepik.org/course/51562

Продвинутый уровень — понимание работы запросов в контексте баз данных:
https://stepik.org/course/55776/syllabus — транзакции, ACID, процедуры, триггеры, представления

https://stepik.org/course/51675/syllabus — проектирование баз данных, четыре нормальных формы, денормализация, удаление данных

Если эти ссылки не зашли (это нормально!), вот ещё была большая подборка курсов в канале у Алексея Никушина
https://news.1rj.ru/str/internetanalytics/3012

#SQL
Введение в статистику

Обязательный курс, чтобы понимать распределения и отличать среднее от медианы.

Статистические методы пригодятся в разведывательном анализе данных (EDA)
и в АБ тестировании. Ну и вообще полезно для общего понимания и критического мышления.

https://stepik.org/course/76

#statistics
Введение в дата инжиниринг и аналитику

Дмитрий Аношин уже несколько лет работает в Амазоне, а до этого работал в Сбербанке, Ламоде и Терадате.

Дмитрий работал в разных больших компаниях и рассказывает только то, что действительно используется в работе. Типа «так, здесь у нас constraints, но по факту это никогда не используется — вычёркиваем» или «на собеседовании в Амазон спрашивали про схему звезды, но я сказал что обычно никто с этим не заморачивается… и прошёл»

В курсе есть обзор общей картины по работе с данными в компании: от источника до дешборда. И рассказ, какой специалист занимается каким участком

Курс бесплатный, выложен на Ютуб. Есть плейлисты с модулями: пока записано 3 (из 8?)

Ещё в рамках курса бывают вебинары с крутанами, например Роман Бунин про дешборды в Tableau.

#data_engineering
Data Yoga — про работу с Tableau

Если надо разобраться с визуализацией и дашбордами: на примере лучшей в отрасли — Tableau.

В курсе 42 урока. Удобно проходить по одному в день. Опять пригодится повтор задачи в личном трекере)

https://tableau.pro/marathon42
Ребята из product sense собрали фильмы, из которых можно чему-то научиться. Для аналитиков они тоже будут полезны.

Особо обращаю внимание на эти:
- Человек, который изменил все (Moneyball), 2012
- Основатель (The Founder), 2016
- Скрытые фигуры (Hidden Figures), 2016
- Остановись и гори (Halt and Catch Fire), 2014

https://productsense.io/productmovies
Небольшой таймлайн в Tableau по сталинской и хрущёвской архитектуре. Понравился общий стиль и особенно куски здания как тетрис.

#tableau
Дмитрий Аношин оценил мой пост про тестовое в Welltory. Отличный повод для поста)
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Саша классно написал как он креативно out of the box решал тестовое задание. Очень хороший пример как нужно подходить к каждому работадателю. Так же это хорошо характеризует опыт кандидата с компанией во время собеседования. Я попозже расскажу про свой опыт с Microsoft и Facebook (work in progress). А еще Саша дал ссылочку на классный пост сделать <> делать
в прошлом году я развлекался тем, что парсил веб-страницы через гугл-таблицы. Из сырого текста и ссылок собрал аккуратный план, чтобы удобно было отслеживать прогресс. И даже сделал титульную страницу в стиле источника.

Прогресс так и не пригодился: нашёл работу дата-инженером, а не маркетинговым аналитиком ¯\_(ツ)_/¯

https://sashamikhailov.ru/blog/all/jedi-index-process/

#blog #google_spreadsheets #web_parsing