NEW BOT Телеграм, страница

как я делал тестовое задание в Welltory и анализировал данные с фитнес-трекеров.

внутри нет технических деталей, зато есть полудетективная история про то, как я нашёл владельца трекера и получил приглашение на собеседование в полседьмого утра 🙂

https://sashamikhailov.ru/blog/all/welltory-data-engineer/

sashamikhailov.ru

Тестовое задание в Welltory

…или как я нашёл пользователя по данным фитнес-трекера

248 views04:57

data будни

Forwarded from Канал Саши Михайлова

Влад Исмагилов из Яндексю.Маркет о том, что нужно знать начинающему аналитику:

1. Любознательность.
2. Базовая практика. Для начала для себя: спарсить погоду или Циан.
3. Базовое понимание, что за цифрами есть математическая база
4. Понимание, зачем цифры нужны бизнесу и как будут приниматься решения на их основе.

https://news.1rj.ru/str/just_analytics/15

П.С.: будет легче читаться, если хотя бы разбить текст на абзацы 🙃
https://telegra.ph/chto-nuzhno-znat-dzhunior-analitiku-07-30

Аналитика для всех

5. В таком случае, что нужно знать, чтобы прийти в аналитику, скажем, на стажера/джуна. Что нужно выучить, чтобы пройти собеседование и получить работу, которую они хотят?

С одной стороны, собеседование далеко не самый первый шаг у кандидата, который хочет…

183 views04:57

data будни

Forwarded from Канал Саши Михайлова

Если посмотреть ближайшую кофейню или купить билет в кино, то это к Яндексу.

А если надо найти нужную функцию в питоне или понять, почему код не работает, то я открываю Гугл.

Да, приходится искать на английском, но в этом больше плюсов, чем минусов. Не нужно спрягать слова или выдумывать синонимы, как могли бы описать мою проблему другие: вопросы задают такие же «знатоки» английского, как и я: хватит даже школьного уровня.

Обычно прям забиваю ключевые слова в поиск:
python string to datetime

(я даже мануал по pandas каждый раз открываю через гугл ¯\_(ツ)_/¯ )

185 views04:57

data будни

Forwarded from Канал Саши Михайлова

Кого почитать про аналитику. Алексей Макаров сделал большой список людей, кто пишет про аналитику.

http://datalytics.ru/all/kogo-chitat-po-teme-analitiki-dannyh/

www.datalytics.ru

Кого читать по теме аналитики данных

«Мы видим больше и дальше, чем они, не потому, что взгляд у нас острее и сами мы выше...

178 views04:57

data будни

Forwarded from Канал Саши Михайлова

Роман Бунин поговорил с Дмитрием Аношиным про карьеру дата инженера в Амазоне.

(я сейчас прохожу курс Дмитрия по введение в дата инжиниринг и очень рекомендую. Курсы бесплатный, выложен на Ютубе)

Дмитрий — человек большой активности, только послушав про его опыт уже хочется запилить какую-нибудь презентацию. Дикая мотивация.

Очень полезно про поиск работы: мониторить рынок и требования, откликаться на любые подходящие вакансии, участвовать в любой движухе.

Слушать и смотреть:
https://news.1rj.ru/str/revealthedata/122

Читать:
https://news.1rj.ru/str/revealthedata/123

А вот сам курс Дмитрия «введение в дата инжиниринг и аналитику»

Reveal the Data

Записал подкаст с Дмитрием Аношиным — Data Engineer Амазон и автор канала Инжиниринг данных и проекта Datalearn.

Получился насыщенный разговор: Дима рассказал про свой подход к поиску работу, почему обилие технологий затрудняет вход в профессию и чем занимается…

197 views04:57

data будни

Forwarded from Канал Саши Михайлова

Классная заметка про нулевой тариф в Яндекс.Драйве. Показывает, как принимать нетривиальные решения и потом оценивать итоги, закапываясь на несколько уровней вглубь

https://news.1rj.ru/str/UnderTheHood/29

Под капотом Яндекс.Такси

Две мысли:
1. Иногда продавать что-то за 0 рублей может быть выгодно.
2. Вот вам отличный пример, как аналитики, умеющие глубоко копать, помогли принять верное решение, в то время как неверное решение лежало на поверхности и манило своей простотой.

Коллеги…

177 views04:58

data будни

Forwarded from Канал Саши Михайлова

EDA — вебинар от karpov.courses

тот самый Анатолий Карпов из курса по статистике на Степике делает свою школу по работе с данными. Ребята провели полезный вебинар по анализу данных. Вебинар полезен чтобы познакомиться и разобраться с нуля или чтобы вспомнить основы.

Exploratory Data Analysis — разведывательный анализ данных — первое, что надо сделать с данными.

данные почти всегда «грязные»
нужны метаданные — описания к признакам
могут быть пропуски — отвалилось устройство сбора или просто криво собрали данные

есть интересные применение pd.crosstab, .style.background и pandas profiling

https://youtu.be/wKrsanSXzk0

YouTube

Exploratory data analysis в Pandas | Вебинар Лаврентия Данилова | karpov.courses

Курс «Аналитик данных»: https://bit.ly/3zExQ5c

EDA — первая, и пожалуй, самая важная часть анализа данных. Перед тем, как приступить к построению сложных моделей и поиску инсайтов в данных, нужно убедиться, что с данными всё хорошо, в них нет ошибок и противоречий.…

179 views04:58

data будни

Forwarded from Канал Саши Михайлова

Сделал отдельный канал про дата-отрасль и всё такое

Изначально не хотел плодить множество каналов: казалось, что будет пусто и там, и там; плюс не хотелось каждый раз запариваться, куда отправить тот или иной пост — нужно было одно место.

Последнее время столкнулся с дилеммой: с одной стороны хочу писать просто про жизнь, про семью и детей, про ментальное и физическое здоровье, собирать скриншоты сайтиков из интернета; а с другой — приводить прям код на питоне и сиквеле или разбираться в тонкостях баз данных и матстатистики. Кажется, что в одном канале таким разным постам будет тесно.

В итоге завёл отдельный канал, куда буду писать про всё связанное с данными. Для начала накидал туда все релевантные посты за последние пару месяцев — чтобы было понятно, что я понимаю под «всё связанное с данными».

В общем, велком!
https://news.1rj.ru/str/data_days

data будни

работаю инженером данных и пишу в основном про это.

Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.

151 views03:48

data будни

Собрал курсы, которые дополнили знания по аналитике после Практикума.

SQL

Сиквел — основа работы всех сортов аналитиков. И даже видел рекомендации осваивать сиквел продакт-менеджерам. Задачи на SQL мне встречались почти во всех тестовых.

Простота SQL обманчива. Помню как радовался, когда наконец «изучил SQL», пройдя курс по базовым запросам; и как потом «прозрел», когда неделю делал тестовое в SkyEng с оконными функциями и вложенными запросами.

Навык никогда не будет лишним и «перекачать» его сложно. По-моему стоит его делать каждый день по небольшому подходу — мне тут помогает поставить на повтор в трекере задач.

Базовый SQL:
https://mode.com/sql-tutorial/ или https://stepik.org/course/51562

Продвинутый уровень — понимание работы запросов в контексте баз данных:
https://stepik.org/course/55776/syllabus — транзакции, ACID, процедуры, триггеры, представления

https://stepik.org/course/51675/syllabus — проектирование баз данных, четыре нормальных формы, денормализация, удаление данных

Если эти ссылки не зашли (это нормально!), вот ещё была большая подборка курсов в канале у Алексея Никушина
https://news.1rj.ru/str/internetanalytics/3012

#SQL

ThoughtSpot

ThoughtSpot SQL Tutorial | ThoughtSpot

Learn to answer questions with data using SQL, no prior coding required, guiding you through foundational to advanced SQL skills.

566 viewsedited 03:48

data будни

Введение в статистику

Обязательный курс, чтобы понимать распределения и отличать среднее от медианы.

Статистические методы пригодятся в разведывательном анализе данных (EDA)
и в АБ тестировании. Ну и вообще полезно для общего понимания и критического мышления.

https://stepik.org/course/76

#statistics

Stepik: online education

Основы статистики

Курс знакомит слушателей с основными понятиями и методами математической статистики. В течение трех недель мы рассмотрим наиболее широко используемые статистические методы и принципы, стоящие за ними. Полученных знаний будет достаточно для решения широкого…

348 viewsedited 03:48

data будни

Введение в дата инжиниринг и аналитику

Дмитрий Аношин уже несколько лет работает в Амазоне, а до этого работал в Сбербанке, Ламоде и Терадате.

Дмитрий работал в разных больших компаниях и рассказывает только то, что действительно используется в работе. Типа «так, здесь у нас constraints, но по факту это никогда не используется — вычёркиваем» или «на собеседовании в Амазон спрашивали про схему звезды, но я сказал что обычно никто с этим не заморачивается… и прошёл»

В курсе есть обзор общей картины по работе с данными в компании: от источника до дешборда. И рассказ, какой специалист занимается каким участком

Курс бесплатный, выложен на Ютуб. Есть плейлисты с модулями: пока записано 3 (из 8?)

Ещё в рамках курса бывают вебинары с крутанами, например Роман Бунин про дешборды в Tableau.

#data_engineering

247 viewsedited 03:48

data будни

Data Yoga — про работу с Tableau

Если надо разобраться с визуализацией и дашбордами: на примере лучшей в отрасли — Tableau.

В курсе 42 урока. Удобно проходить по одному в день. Опять пригодится повтор задачи в личном трекере)

https://tableau.pro/marathon42

tableau.pro

Tableau Марафон 2.0. Визуализация данных

Бесплатная образовательная программа от ДатаЙога и Vizuators

393 views03:49

data будни

Ребята из product sense собрали фильмы, из которых можно чему-то научиться. Для аналитиков они тоже будут полезны.

Особо обращаю внимание на эти:
- Человек, который изменил все (Moneyball), 2012
- Основатель (The Founder), 2016
- Скрытые фигуры (Hidden Figures), 2016
- Остановись и гори (Halt and Catch Fire), 2014

https://productsense.io/productmovies

productsense.io

Фильмы для прокачки продуктового мышления

список фильмов для менеджеров продуктов и предпринимателей

480 views13:58

data будни

Небольшой таймлайн в Tableau по сталинской и хрущёвской архитектуре. Понравился общий стиль и особенно куски здания как тетрис.

#tableau

Tableau Public

Judit Bekker - Profile | Tableau Public

Judit Bekker's Tableau Public profile. View interactive data visualizations published by this author.

234 viewsedited 05:58

data будни

Дмитрий Аношин оценил мой пост про тестовое в Welltory. Отличный повод для поста)

226 views07:38

data будни

Forwarded from Инжиниринг Данных (Dmitry Anoshin)

Саша классно написал как он креативно out of the box решал тестовое задание. Очень хороший пример как нужно подходить к каждому работадателю. Так же это хорошо характеризует опыт кандидата с компанией во время собеседования. Я попозже расскажу про свой опыт с Microsoft и Facebook (work in progress). А еще Саша дал ссылочку на классный пост сделать <> делать

sashamikhailov.ru

Тестовое задание в Welltory

…или как я нашёл пользователя по данным фитнес-трекера

204 views07:38

Show comments

data будни

в прошлом году я развлекался тем, что парсил веб-страницы через гугл-таблицы. Из сырого текста и ссылок собрал аккуратный план, чтобы удобно было отслеживать прогресс. И даже сделал титульную страницу в стиле источника.

Прогресс так и не пригодился: нашёл работу дата-инженером, а не маркетинговым аналитиком ¯\_(ツ)_/¯

https://sashamikhailov.ru/blog/all/jedi-index-process/

#blog #google_spreadsheets #web_parsing

sashamikhailov.ru

Как спарсить веб-страницу гугл-таблицей

У агентства IT-Agency есть план обучения для сотрудников — он открыт и опубликован на их сайте

270 viewsedited 13:41

data будни

Forwarded from настенька и графики

Прикольная статья про то, что дэшборды уже мертвы, а будущее за блокнотами по типу Jupyter notebook💪

❓Почему так: 1) дэшбордов слишком много и они начинают терять свою ценность, потому что на любую задачу есть свой дэшборд; 2) куча фильтров, от которых хочется умереть и по итогу, чтобы что-то нормально сравнить, нужно очень сильно постараться с дичайшей фильтрацией; 3) некоторые не верят чужим дэшбордам, потому что у тебя есть итоговая картинка, а что внутри не очень понятно.

📍Что дают блокноты: 1) выше доверие к данным, потому что видно, как это все собирается в график или таблицу; 2) они более гибкие, если другие пользователи знают язык, на котором все написано, то могут под свои нужды его быстро адаптировать; 3) больше возможностей для совместной коллаборации и презентаций.

Я совсем недавно тоже об этом всем думала, делая очередной дэшборд, которые уже просто путаются в глазах. Блокноты реально прикольная штука, но очень не универсальная. Основное, наверное, упирается в язык программирования и в то, что зачастую заказчикам этих дэшбордов важен результат, а не процесс. Поэтому все еще верю, что дэшборды штука важная и нужная, и она помогает именно communicate data, а блокноты стали бы отличным вариантом для каких-то небольших задач, потому что еще непонятно, что хуже: дэшборд с кучей страниц или блокнот с таким же количеством.

Ну и в конце статьи немножко рекламы сервиса Count (выглядит на картинках оч красиво), если кто-то пробовал, напишите, как вам, буду рада)

https://towardsdatascience.com/dashboards-are-dead-b9f12eeb2ad2

Count

The only collaborative AI agent and BI platform | Count

Explore data and solve problems together. Build metric trees, create dashboards, and share insights with your team—all in one collaborative analytics platform.

288 views09:13

data будни

ссылку на канал ^ нашёл в подборке Ромы Бунина, там есть ещё:
https://revealthedata.com/blog/all/dataviz-channels/

Revealthedata

Чаты и каналы про датавиз, аналитику и около

Большая подборка каналов, чатов и ресурсов про визуализацию данных, аналитику, данные, дизайн, управление продуктами и темы вокруг них

321 views09:13

data будни

Продвинутый пайтон для аналитики?
Или как же разобраться с бардаком в своих юпитер-блокнотах?

На работе пишу ETL-скрипты для сбора данных. Первое время было как-то не до эффективности или общего порядка в коде — мне в принципе было сложно поверить, что они действительно работают (и я всё боялся, что вот завтра-то меня точно раскусят и уволят к чертям).

В результате через полгода такой практики обнаружил себя посреди кодового бардака:

какие-то куски кода я оборачиваю в функции, а что-то остаётся просто в теле программы (или как это будет по-питонячьи?)

При этом функции копируются из предыдущих программ и постепенно модифицируются, получаются новые версии функций. В разных программах разные версии разных функций.

Когда в очередной раз мне нужна функция, я не могу найти файлик, где она в последней-самой-хорошей версии. Беру другую версию, дорабатываю её — и вот у меня ещё одна «последняя» версия.

Думал выделить в отдельный модуль общие функции и развивать там. Увидел такое в открытом коде вастрик.клуба — там есть специальная папочка-модуль Common и там всё «общее», что может потребоваться в нескольких местах
https://github.com/vas3k/vas3k.club/tree/master/common

кажется, если углубиться в пайтон, то там ещё много таких приёмников, которые могли бы сильно упростить жизнь аналитикам (и тем, кто потом релизит их код на прод!).

решил углубить свои знания в питоне — уделю этому сентябрь. Пробую сервис от JetBrains: маленькие кусочки теории, обложенные практическими задачами.
https://hyperskill.org/

а вот Фёдор Борщёв для изучения питона рекомендует прочитать от корки до корки Марка Лутца и сделать все «домашки» оттуда (пост и подкаст)

#python

GitHub

vas3k.club/common at master · vas3k/vas3k.club

No bullshit IT community with private membership. Contribute to vas3k/vas3k.club development by creating an account on GitHub.

421 viewsedited 13:11

data будни

нужны ли алгоритмы программистам?

холиварный выпуск Moscow Python подкаста: Григорий Петров и Злата Обуховская накидывали на вентилятор, направленный на Асю Воронцову из Яндекса.

Тезис №1: знание алгоритмов нужны только тем, кто работает с высоконагруженными сервисами, где важна эффективности. Типа ядра Линукса или поисковика Яндекса. (важно отметить: даже в самом Яндексе не все работают с хайлоадом)

Тезис №2: внедрение алгоритмов в код ухудшает его читаемость. Это важно, т.к. код больше читается, чем пишется.

Тезис №3: времязатраты на написание эффективного кода не всегда окупается. Можно потратить две недели на код, который даёт всего 5% в сравнении с уже готовой библиотекой.

Тезис №4: профилировщик — лучший друг программиста. Это снимает большинство вопросов с эффективностью. Например, он подскажет, если вдруг код зайдёт в цикл.

Тезис №5: в больших компаниях спрашивают знание алгоритмов (и умение их писать на бумажке) не только ради самого знания, но и просто как ещё один фильтр, чтобы отсеять людей, которые уже приложили усилия и вызубрили редко используемую информацию.

#data_podcast в iTunes и overcast

#python
#algorithms

Apple Podcasts

‎«Moscow Python: подкаст о Python на русском»: «Moscow Python Podcast. Алгоритмы vs Профилировщик (level: All)» в Apple Podcasts

‎Шоу «Moscow Python: подкаст о Python на русском», выпуск «Moscow Python Podcast. Алгоритмы vs Профилировщик (level: All)» от 12 авг. 2020 г.

4.31K viewsedited 10:26

About

Blog

Apps

Platform