data будни – Telegram
data будни
1.47K subscribers
120 photos
1 video
2 files
237 links
работаю инженером данных и пишу в основном про это.

Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
Download Telegram
на визуализации странный выбор параметра для обозначения цветом — эмоциональный окрас сообщения. По сути этот же параметр уже передаётся положением точки на вертикальной оси: все точки выше нуля зелёные, ниже — красные. Получается, что информация дублируется.

РазTextBlob даёт два параметра, можно было бы показать их оба: положением показывать эмоцию сообщения, а цветом — его эмоциональный окрас.
Дмитрий Аношин работает в Амазон и неспешно пишет бесплатный курс по аналитике и инжинирингу данных.

В очередном уроке разбирает структуру аналитического решения в компании: откуда данные приходят, где хранятся, и как потом попадают к бизнесу.

И как называются роли, которые отвечают за каждый вид работа. Где там BI аналитик, а где — data engineer.

https://youtu.be/_M8yxr2Inyo
👍1
как я делал тестовое задание в Welltory и анализировал данные с фитнес-трекеров.

внутри нет технических деталей, зато есть полудетективная история про то, как я нашёл владельца трекера и получил приглашение на собеседование в полседьмого утра 🙂

https://sashamikhailov.ru/blog/all/welltory-data-engineer/
Влад Исмагилов из Яндексю.Маркет о том, что нужно знать начинающему аналитику:

1. Любознательность.
2. Базовая практика. Для начала для себя: спарсить погоду или Циан.
3. Базовое понимание, что за цифрами есть математическая база
4. Понимание, зачем цифры нужны бизнесу и как будут приниматься решения на их основе.


https://news.1rj.ru/str/just_analytics/15

П.С.: будет легче читаться, если хотя бы разбить текст на абзацы 🙃
https://telegra.ph/chto-nuzhno-znat-dzhunior-analitiku-07-30
Если посмотреть ближайшую кофейню или купить билет в кино, то это к Яндексу.

А если надо найти нужную функцию в питоне или понять, почему код не работает, то я открываю Гугл.

Да, приходится искать на английском, но в этом больше плюсов, чем минусов. Не нужно спрягать слова или выдумывать синонимы, как могли бы описать мою проблему другие: вопросы задают такие же «знатоки» английского, как и я: хватит даже школьного уровня.

Обычно прям забиваю ключевые слова в поиск:
python string to datetime

(я даже мануал по pandas каждый раз открываю через гугл ¯\_(ツ)_/¯ )
Роман Бунин поговорил с Дмитрием Аношиным про карьеру дата инженера в Амазоне.

(я сейчас прохожу курс Дмитрия по введение в дата инжиниринг и очень рекомендую. Курсы бесплатный, выложен на Ютубе)

Дмитрий — человек большой активности, только послушав про его опыт уже хочется запилить какую-нибудь презентацию. Дикая мотивация.

Очень полезно про поиск работы: мониторить рынок и требования, откликаться на любые подходящие вакансии, участвовать в любой движухе.

Слушать и смотреть:
https://news.1rj.ru/str/revealthedata/122

Читать:
https://news.1rj.ru/str/revealthedata/123

А вот сам курс Дмитрия «введение в дата инжиниринг и аналитику»
EDA — вебинар от karpov.courses

тот самый Анатолий Карпов из курса по статистике на Степике делает свою школу по работе с данными. Ребята провели полезный вебинар по анализу данных. Вебинар полезен чтобы познакомиться и разобраться с нуля или чтобы вспомнить основы.

Exploratory Data Analysis — разведывательный анализ данных — первое, что надо сделать с данными.

данные почти всегда «грязные»
нужны метаданные — описания к признакам
могут быть пропуски — отвалилось устройство сбора или просто криво собрали данные

есть интересные применение pd.crosstab, .style.background и pandas profiling

https://youtu.be/wKrsanSXzk0
Сделал отдельный канал про дата-отрасль и всё такое

Изначально не хотел плодить множество каналов: казалось, что будет пусто и там, и там; плюс не хотелось каждый раз запариваться, куда отправить тот или иной пост — нужно было одно место.

Последнее время столкнулся с дилеммой: с одной стороны хочу писать просто про жизнь, про семью и детей, про ментальное и физическое здоровье, собирать скриншоты сайтиков из интернета; а с другой — приводить прям код на питоне и сиквеле или разбираться в тонкостях баз данных и матстатистики. Кажется, что в одном канале таким разным постам будет тесно.

В итоге завёл отдельный канал, куда буду писать про всё связанное с данными. Для начала накидал туда все релевантные посты за последние пару месяцев — чтобы было понятно, что я понимаю под «всё связанное с данными».

В общем, велком!
https://news.1rj.ru/str/data_days
Собрал курсы, которые дополнили знания по аналитике после Практикума.

SQL

Сиквел — основа работы всех сортов аналитиков. И даже видел рекомендации осваивать сиквел продакт-менеджерам. Задачи на SQL мне встречались почти во всех тестовых.

Простота SQL обманчива. Помню как радовался, когда наконец «изучил SQL», пройдя курс по базовым запросам; и как потом «прозрел», когда неделю делал тестовое в SkyEng с оконными функциями и вложенными запросами.

Навык никогда не будет лишним и «перекачать» его сложно. По-моему стоит его делать каждый день по небольшому подходу — мне тут помогает поставить на повтор в трекере задач.

Базовый SQL:
https://mode.com/sql-tutorial/ или https://stepik.org/course/51562

Продвинутый уровень — понимание работы запросов в контексте баз данных:
https://stepik.org/course/55776/syllabus — транзакции, ACID, процедуры, триггеры, представления

https://stepik.org/course/51675/syllabus — проектирование баз данных, четыре нормальных формы, денормализация, удаление данных

Если эти ссылки не зашли (это нормально!), вот ещё была большая подборка курсов в канале у Алексея Никушина
https://news.1rj.ru/str/internetanalytics/3012

#SQL
Введение в статистику

Обязательный курс, чтобы понимать распределения и отличать среднее от медианы.

Статистические методы пригодятся в разведывательном анализе данных (EDA)
и в АБ тестировании. Ну и вообще полезно для общего понимания и критического мышления.

https://stepik.org/course/76

#statistics
Введение в дата инжиниринг и аналитику

Дмитрий Аношин уже несколько лет работает в Амазоне, а до этого работал в Сбербанке, Ламоде и Терадате.

Дмитрий работал в разных больших компаниях и рассказывает только то, что действительно используется в работе. Типа «так, здесь у нас constraints, но по факту это никогда не используется — вычёркиваем» или «на собеседовании в Амазон спрашивали про схему звезды, но я сказал что обычно никто с этим не заморачивается… и прошёл»

В курсе есть обзор общей картины по работе с данными в компании: от источника до дешборда. И рассказ, какой специалист занимается каким участком

Курс бесплатный, выложен на Ютуб. Есть плейлисты с модулями: пока записано 3 (из 8?)

Ещё в рамках курса бывают вебинары с крутанами, например Роман Бунин про дешборды в Tableau.

#data_engineering
Data Yoga — про работу с Tableau

Если надо разобраться с визуализацией и дашбордами: на примере лучшей в отрасли — Tableau.

В курсе 42 урока. Удобно проходить по одному в день. Опять пригодится повтор задачи в личном трекере)

https://tableau.pro/marathon42
Ребята из product sense собрали фильмы, из которых можно чему-то научиться. Для аналитиков они тоже будут полезны.

Особо обращаю внимание на эти:
- Человек, который изменил все (Moneyball), 2012
- Основатель (The Founder), 2016
- Скрытые фигуры (Hidden Figures), 2016
- Остановись и гори (Halt and Catch Fire), 2014

https://productsense.io/productmovies
Небольшой таймлайн в Tableau по сталинской и хрущёвской архитектуре. Понравился общий стиль и особенно куски здания как тетрис.

#tableau
Дмитрий Аношин оценил мой пост про тестовое в Welltory. Отличный повод для поста)
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Саша классно написал как он креативно out of the box решал тестовое задание. Очень хороший пример как нужно подходить к каждому работадателю. Так же это хорошо характеризует опыт кандидата с компанией во время собеседования. Я попозже расскажу про свой опыт с Microsoft и Facebook (work in progress). А еще Саша дал ссылочку на классный пост сделать <> делать
в прошлом году я развлекался тем, что парсил веб-страницы через гугл-таблицы. Из сырого текста и ссылок собрал аккуратный план, чтобы удобно было отслеживать прогресс. И даже сделал титульную страницу в стиле источника.

Прогресс так и не пригодился: нашёл работу дата-инженером, а не маркетинговым аналитиком ¯\_(ツ)_/¯

https://sashamikhailov.ru/blog/all/jedi-index-process/

#blog #google_spreadsheets #web_parsing
Прикольная статья про то, что дэшборды уже мертвы, а будущее за блокнотами по типу Jupyter notebook💪

Почему так: 1) дэшбордов слишком много и они начинают терять свою ценность, потому что на любую задачу есть свой дэшборд; 2) куча фильтров, от которых хочется умереть и по итогу, чтобы что-то нормально сравнить, нужно очень сильно постараться с дичайшей фильтрацией; 3) некоторые не верят чужим дэшбордам, потому что у тебя есть итоговая картинка, а что внутри не очень понятно.

📍Что дают блокноты: 1) выше доверие к данным, потому что видно, как это все собирается в график или таблицу; 2) они более гибкие, если другие пользователи знают язык, на котором все написано, то могут под свои нужды его быстро адаптировать; 3) больше возможностей для совместной коллаборации и презентаций.

Я совсем недавно тоже об этом всем думала, делая очередной дэшборд, которые уже просто путаются в глазах. Блокноты реально прикольная штука, но очень не универсальная. Основное, наверное, упирается в язык программирования и в то, что зачастую заказчикам этих дэшбордов важен результат, а не процесс. Поэтому все еще верю, что дэшборды штука важная и нужная, и она помогает именно communicate data, а блокноты стали бы отличным вариантом для каких-то небольших задач, потому что еще непонятно, что хуже: дэшборд с кучей страниц или блокнот с таким же количеством.

Ну и в конце статьи немножко рекламы сервиса Count (выглядит на картинках оч красиво), если кто-то пробовал, напишите, как вам, буду рада)


https://towardsdatascience.com/dashboards-are-dead-b9f12eeb2ad2