data будни – Telegram
data будни
1.47K subscribers
120 photos
1 video
2 files
237 links
работаю инженером данных и пишу в основном про это.

Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
Download Telegram
как я делал тестовое задание в Welltory и анализировал данные с фитнес-трекеров.

внутри нет технических деталей, зато есть полудетективная история про то, как я нашёл владельца трекера и получил приглашение на собеседование в полседьмого утра 🙂

https://sashamikhailov.ru/blog/all/welltory-data-engineer/
Влад Исмагилов из Яндексю.Маркет о том, что нужно знать начинающему аналитику:

1. Любознательность.
2. Базовая практика. Для начала для себя: спарсить погоду или Циан.
3. Базовое понимание, что за цифрами есть математическая база
4. Понимание, зачем цифры нужны бизнесу и как будут приниматься решения на их основе.


https://news.1rj.ru/str/just_analytics/15

П.С.: будет легче читаться, если хотя бы разбить текст на абзацы 🙃
https://telegra.ph/chto-nuzhno-znat-dzhunior-analitiku-07-30
Если посмотреть ближайшую кофейню или купить билет в кино, то это к Яндексу.

А если надо найти нужную функцию в питоне или понять, почему код не работает, то я открываю Гугл.

Да, приходится искать на английском, но в этом больше плюсов, чем минусов. Не нужно спрягать слова или выдумывать синонимы, как могли бы описать мою проблему другие: вопросы задают такие же «знатоки» английского, как и я: хватит даже школьного уровня.

Обычно прям забиваю ключевые слова в поиск:
python string to datetime

(я даже мануал по pandas каждый раз открываю через гугл ¯\_(ツ)_/¯ )
Роман Бунин поговорил с Дмитрием Аношиным про карьеру дата инженера в Амазоне.

(я сейчас прохожу курс Дмитрия по введение в дата инжиниринг и очень рекомендую. Курсы бесплатный, выложен на Ютубе)

Дмитрий — человек большой активности, только послушав про его опыт уже хочется запилить какую-нибудь презентацию. Дикая мотивация.

Очень полезно про поиск работы: мониторить рынок и требования, откликаться на любые подходящие вакансии, участвовать в любой движухе.

Слушать и смотреть:
https://news.1rj.ru/str/revealthedata/122

Читать:
https://news.1rj.ru/str/revealthedata/123

А вот сам курс Дмитрия «введение в дата инжиниринг и аналитику»
EDA — вебинар от karpov.courses

тот самый Анатолий Карпов из курса по статистике на Степике делает свою школу по работе с данными. Ребята провели полезный вебинар по анализу данных. Вебинар полезен чтобы познакомиться и разобраться с нуля или чтобы вспомнить основы.

Exploratory Data Analysis — разведывательный анализ данных — первое, что надо сделать с данными.

данные почти всегда «грязные»
нужны метаданные — описания к признакам
могут быть пропуски — отвалилось устройство сбора или просто криво собрали данные

есть интересные применение pd.crosstab, .style.background и pandas profiling

https://youtu.be/wKrsanSXzk0
Сделал отдельный канал про дата-отрасль и всё такое

Изначально не хотел плодить множество каналов: казалось, что будет пусто и там, и там; плюс не хотелось каждый раз запариваться, куда отправить тот или иной пост — нужно было одно место.

Последнее время столкнулся с дилеммой: с одной стороны хочу писать просто про жизнь, про семью и детей, про ментальное и физическое здоровье, собирать скриншоты сайтиков из интернета; а с другой — приводить прям код на питоне и сиквеле или разбираться в тонкостях баз данных и матстатистики. Кажется, что в одном канале таким разным постам будет тесно.

В итоге завёл отдельный канал, куда буду писать про всё связанное с данными. Для начала накидал туда все релевантные посты за последние пару месяцев — чтобы было понятно, что я понимаю под «всё связанное с данными».

В общем, велком!
https://news.1rj.ru/str/data_days
Собрал курсы, которые дополнили знания по аналитике после Практикума.

SQL

Сиквел — основа работы всех сортов аналитиков. И даже видел рекомендации осваивать сиквел продакт-менеджерам. Задачи на SQL мне встречались почти во всех тестовых.

Простота SQL обманчива. Помню как радовался, когда наконец «изучил SQL», пройдя курс по базовым запросам; и как потом «прозрел», когда неделю делал тестовое в SkyEng с оконными функциями и вложенными запросами.

Навык никогда не будет лишним и «перекачать» его сложно. По-моему стоит его делать каждый день по небольшому подходу — мне тут помогает поставить на повтор в трекере задач.

Базовый SQL:
https://mode.com/sql-tutorial/ или https://stepik.org/course/51562

Продвинутый уровень — понимание работы запросов в контексте баз данных:
https://stepik.org/course/55776/syllabus — транзакции, ACID, процедуры, триггеры, представления

https://stepik.org/course/51675/syllabus — проектирование баз данных, четыре нормальных формы, денормализация, удаление данных

Если эти ссылки не зашли (это нормально!), вот ещё была большая подборка курсов в канале у Алексея Никушина
https://news.1rj.ru/str/internetanalytics/3012

#SQL
Введение в статистику

Обязательный курс, чтобы понимать распределения и отличать среднее от медианы.

Статистические методы пригодятся в разведывательном анализе данных (EDA)
и в АБ тестировании. Ну и вообще полезно для общего понимания и критического мышления.

https://stepik.org/course/76

#statistics
Введение в дата инжиниринг и аналитику

Дмитрий Аношин уже несколько лет работает в Амазоне, а до этого работал в Сбербанке, Ламоде и Терадате.

Дмитрий работал в разных больших компаниях и рассказывает только то, что действительно используется в работе. Типа «так, здесь у нас constraints, но по факту это никогда не используется — вычёркиваем» или «на собеседовании в Амазон спрашивали про схему звезды, но я сказал что обычно никто с этим не заморачивается… и прошёл»

В курсе есть обзор общей картины по работе с данными в компании: от источника до дешборда. И рассказ, какой специалист занимается каким участком

Курс бесплатный, выложен на Ютуб. Есть плейлисты с модулями: пока записано 3 (из 8?)

Ещё в рамках курса бывают вебинары с крутанами, например Роман Бунин про дешборды в Tableau.

#data_engineering
Data Yoga — про работу с Tableau

Если надо разобраться с визуализацией и дашбордами: на примере лучшей в отрасли — Tableau.

В курсе 42 урока. Удобно проходить по одному в день. Опять пригодится повтор задачи в личном трекере)

https://tableau.pro/marathon42
Ребята из product sense собрали фильмы, из которых можно чему-то научиться. Для аналитиков они тоже будут полезны.

Особо обращаю внимание на эти:
- Человек, который изменил все (Moneyball), 2012
- Основатель (The Founder), 2016
- Скрытые фигуры (Hidden Figures), 2016
- Остановись и гори (Halt and Catch Fire), 2014

https://productsense.io/productmovies
Небольшой таймлайн в Tableau по сталинской и хрущёвской архитектуре. Понравился общий стиль и особенно куски здания как тетрис.

#tableau
Дмитрий Аношин оценил мой пост про тестовое в Welltory. Отличный повод для поста)
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Саша классно написал как он креативно out of the box решал тестовое задание. Очень хороший пример как нужно подходить к каждому работадателю. Так же это хорошо характеризует опыт кандидата с компанией во время собеседования. Я попозже расскажу про свой опыт с Microsoft и Facebook (work in progress). А еще Саша дал ссылочку на классный пост сделать <> делать
в прошлом году я развлекался тем, что парсил веб-страницы через гугл-таблицы. Из сырого текста и ссылок собрал аккуратный план, чтобы удобно было отслеживать прогресс. И даже сделал титульную страницу в стиле источника.

Прогресс так и не пригодился: нашёл работу дата-инженером, а не маркетинговым аналитиком ¯\_(ツ)_/¯

https://sashamikhailov.ru/blog/all/jedi-index-process/

#blog #google_spreadsheets #web_parsing
Прикольная статья про то, что дэшборды уже мертвы, а будущее за блокнотами по типу Jupyter notebook💪

Почему так: 1) дэшбордов слишком много и они начинают терять свою ценность, потому что на любую задачу есть свой дэшборд; 2) куча фильтров, от которых хочется умереть и по итогу, чтобы что-то нормально сравнить, нужно очень сильно постараться с дичайшей фильтрацией; 3) некоторые не верят чужим дэшбордам, потому что у тебя есть итоговая картинка, а что внутри не очень понятно.

📍Что дают блокноты: 1) выше доверие к данным, потому что видно, как это все собирается в график или таблицу; 2) они более гибкие, если другие пользователи знают язык, на котором все написано, то могут под свои нужды его быстро адаптировать; 3) больше возможностей для совместной коллаборации и презентаций.

Я совсем недавно тоже об этом всем думала, делая очередной дэшборд, которые уже просто путаются в глазах. Блокноты реально прикольная штука, но очень не универсальная. Основное, наверное, упирается в язык программирования и в то, что зачастую заказчикам этих дэшбордов важен результат, а не процесс. Поэтому все еще верю, что дэшборды штука важная и нужная, и она помогает именно communicate data, а блокноты стали бы отличным вариантом для каких-то небольших задач, потому что еще непонятно, что хуже: дэшборд с кучей страниц или блокнот с таким же количеством.

Ну и в конце статьи немножко рекламы сервиса Count (выглядит на картинках оч красиво), если кто-то пробовал, напишите, как вам, буду рада)


https://towardsdatascience.com/dashboards-are-dead-b9f12eeb2ad2
Продвинутый пайтон для аналитики?
Или как же разобраться с бардаком в своих юпитер-блокнотах?

На работе пишу ETL-скрипты для сбора данных. Первое время было как-то не до эффективности или общего порядка в коде — мне в принципе было сложно поверить, что они действительно работают (и я всё боялся, что вот завтра-то меня точно раскусят и уволят к чертям).

В результате через полгода такой практики обнаружил себя посреди кодового бардака:

какие-то куски кода я оборачиваю в функции, а что-то остаётся просто в теле программы (или как это будет по-питонячьи?)

При этом функции копируются из предыдущих программ и постепенно модифицируются, получаются новые версии функций. В разных программах разные версии разных функций.

Когда в очередной раз мне нужна функция, я не могу найти файлик, где она в последней-самой-хорошей версии. Беру другую версию, дорабатываю её — и вот у меня ещё одна «последняя» версия.

Думал выделить в отдельный модуль общие функции и развивать там. Увидел такое в открытом коде вастрик.клуба — там есть специальная папочка-модуль Common и там всё «общее», что может потребоваться в нескольких местах
https://github.com/vas3k/vas3k.club/tree/master/common

кажется, если углубиться в пайтон, то там ещё много таких приёмников, которые могли бы сильно упростить жизнь аналитикам (и тем, кто потом релизит их код на прод!).

решил углубить свои знания в питоне — уделю этому сентябрь. Пробую сервис от JetBrains: маленькие кусочки теории, обложенные практическими задачами.
https://hyperskill.org/

а вот Фёдор Борщёв для изучения питона рекомендует прочитать от корки до корки Марка Лутца и сделать все «домашки» оттуда (пост и подкаст)

#python
нужны ли алгоритмы программистам?

холиварный выпуск Moscow Python подкаста: Григорий Петров и Злата Обуховская накидывали на вентилятор, направленный на Асю Воронцову из Яндекса.

Тезис №1: знание алгоритмов нужны только тем, кто работает с высоконагруженными сервисами, где важна эффективности. Типа ядра Линукса или поисковика Яндекса. (важно отметить: даже в самом Яндексе не все работают с хайлоадом)

Тезис №2: внедрение алгоритмов в код ухудшает его читаемость. Это важно, т.к. код больше читается, чем пишется.

Тезис №3: времязатраты на написание эффективного кода не всегда окупается. Можно потратить две недели на код, который даёт всего 5% в сравнении с уже готовой библиотекой.

Тезис №4: профилировщик — лучший друг программиста. Это снимает большинство вопросов с эффективностью. Например, он подскажет, если вдруг код зайдёт в цикл.

Тезис №5: в больших компаниях спрашивают знание алгоритмов (и умение их писать на бумажке) не только ради самого знания, но и просто как ещё один фильтр, чтобы отсеять людей, которые уже приложили усилия и вызубрили редко используемую информацию.

#data_podcast в iTunes и overcast

#python
#algorithms