Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
У нас в чатике Инжиниринг Данных много интересных дискуссий про зарплатные ожидания, про страны для миграция, про условия труда и тп. Когда у меня есть время повтыкать в телефон, например в очереди, то очень помогает с пользой скоротать время🙃 В общем, получилось классно.

Последняя тема была - курсы по математике для Data Science. Тема безусловно важная и в наши дни по ней очень много ресурсов. А я хотел рассказать про свой опыт по этому вопросу, но только в 2014 году.

Если отмотать время назад, то в 2010-2011 годах не было data science, но был data mining (всем известные методы регрессии, кластеризации, классификации) на основе математических моделей. В индустрии обычно банки использовали data mining для моделей кредитного скоринга и там работали математики, как правило. Я же работал в 2010 году в банке, и для меня кредитный и риск отдел это была элита.

Про data mining я узнал из книжки (must have для студентов datalearn) - Паклин Н.Б., Орешков В.И. - Бизнес-Аналитика От Данных К Знаниям (можете найти ее легко). В книге 3 части:
1) В целом про аналитику, BI, DW, ETL. Концепция, для 2010 года это была находка, ничего больше не было, кроме Кимбала и Инмана, а там уснешь пока их прочитаешь.
2) Про data mining методы, как работает математика и все такое. Ну я особо не вникал.
3) Бесполезная часть про их продукт deductor. Насколько я понимаю этот продукт неплохо справляется с задачами. Не знаю как у него сейчас дела. Кто знает?

Затем, работая в Терадата, некоторые консультанты побежали изучать Data Science напримере продукта Teradata Aster, там использовали R в основном. Несколько ребят неплохо развились в этом направлении и потом разъехались по миру.

Я был полностью погружен в изучение SQL и SAP Business Objects. Но тренда на дата саенс набирал обороты и я нашел хорошую книгу по этой теме - Doing Data Science 2013 год. Прочитал ее, но ничего не использовал. В это же время на курсере вышло много курсов по Data Science, причем все были на R. В то время, только ленивый не смотрел курсеру и не учил R.

В 2014 году я решил, что пора более углубленно изучать data science, НО!!! Мне нужен курс по математике сначала. А такого контента не было и в помине. Я пошел на Авито и стал писать репетиторам по математике, потом переписывался долго и упорно с ними. Но никто не мог понять, что мне нужно и как мне помочь. На этом, мое изучение data science закончилось и я стал больше фокусироваться на End to End решениях и интеграции данных из Source в облачное DW. А про роль Data Engineer я узнал только в 2016 году, а понял, что это такое, только в 2017.

Сейчас уже обратная проблема, как найти нормальные материалы в океане курсов и книг.
28 сентября день рабочего стола! С чем я вас и поздравляю! Присылайте свои рабочие места в комментарии. #деньрабочегостола
Data Lakehouse by Ihnmon.pdf
3.1 MB
Коротенькая книжка от отца хранилищ данных (при поддержки Databricks) - Building the Data Lakehouse
By Bill Inmon, father of the data warehouse. Странно, но книжка не полная, а лишь 35 страниц. Где ещё 170 не знаю🙄
Следующий урок в Datalearn будет про Snowflake. У них как раз будет конференция Snowflake Build 4-5 Октября сразу в 3х регионах. Как минимум я вам рекомендую послушать Keynote (на любой конференции они интересны и полезны), чтобы знать куда движется аналитический продуктовый мир. https://www.snowflake.com/build/?utm_campaign=Teradata
Хорошая идея для всех отечественных конференций - кофе в подарок. Я зарегистрировалс на Databricks событие - Building an Open, Petabyte-Scale Data Platform With Databricks, а они такие добрые, прислали карточку на 5$!)
Я всегда говорю - собеседования это хорошо, лишний раз пообщаться с умными и интересными людьми никому не навредит😉

Я обратил внимание на разницу в вопросах между РФ и Северной Америке. Вот некоторые вопросы:
- Ваш пол - sex (3 варианта ответа)
- Как вы себя идентицируете - gender identity (11 вариантов ответа)
- Какой вы рассы (10 вариантов)
- Ваша сексуальная ориентация (7 вариантов)
- Есть ли у вас инвалидноть (disability)
- В штатах обязательно еще вопрос про ветеранский статус.

Конечно в каждом вопросе есть Other и I don't want to answer.

В РФ обычно один вопрос - какие зарплатные ожидания.
Совсем недавно Amazon анонсировал много классных новых устройств. Есть видео, где за 1 минуту вам все покажут и расскажут.

Когда я был в Амазоне, я был подписан на beta alexa, и мне каждый месяц присылали всякие новые девайсы попробовать. Но когда я уходил, все попросили сдать:(
Вот это я понимаю реклама курсов!
Forwarded from Data Apps Design (Artemiy Kzr)
А вот служба поддержки разочаровывает 🙃
15 дней на ответ совсем не о том.

P.S. пытаюсь поставить clickhouse-jdbc-bridge на управляемую версию CH от Я.Облака, чтобы писать запросы к другим базам из CH. Хитрый замысел.
Хотите научиться работать с облачными базами данных и бесплатно сдать сертификационный экзамен DP-900?

Пройдите двухдневный тренинг от Microsoft 25 и 26 октября.

От экспертов Microsoft вы узнаете о важнейших принципах действия сервисов Azure, проверенных подходах и специфике работы с реляционными и нереляционными данными.

Успейте записаться на тренинг

PS Пост поддержал приют для собак Зоорассвет в Москве.

PPS Лично я уже сдал экзамен DP-900, очень хорошие материалы по основам аналитике, экзамен стоит того!
Из мира игр:
Netflix купил студию, и продолжает развивать направление игр https://nightschoolstudio.com/joining-netflix/

Амазон выпустил свою первую большую игру New World 28 сентября: https://en.m.wikipedia.org/wiki/New_World_(video_game)

Ранее они открыли студию в Монреале https://www.amazongames.com/en-gb/news/articles/amazon-games-opens-development-studio-montreal

А вот Google и Stadia как-то приостановились. Но они были одни из первых в стриминге.

Сбер мутит игры, но как-то все шито-крыто, новостей не слышно.

Все это говорит о росте популярности игровой индустрии и как следствие аналитики, инжиниринга данных в игровой индустрии.
Вам в помощь - клавиатура с CNTRL+C/CNTRL+V
https://drop.com/buy/stack-overflow-the-key-macropad#overview

PS Только для Senior ролей и выше!
Совсем недавно мы обсуждали доставку Insights через webhook в Microsoft Teams, а сегодня я увидел Tableau сообщило:

Goodbye, email. 📧
Hello, Slack! 👋

Выглядит красиво! Если у вас Tableau и Slack, то я вам завидую! Я раньше так делал в Splunk в 2015, не знаю, почему Табло не спешило делать такую фичу.

https://www.tableau.com/about/blog/2021/8/when-work-flows-insights-grow-tableau-app-slack
Нашел интересное тестовое задание. Может быть кто-то хочет попробовать его решить на Python?

Мне видится, что можно взять spark, прочитать все JSON в папке data, извлечь схему JSON и дальше написать запрос.

Я не понял, что они хотят найти. Но понятно, что в итоге программу можно положить в docker. Ну или сразу брать готовый контейнер со spark.

На выходе, будет spark submit, куда передается параметры.

Если вы изучаете питон, отличное упражнение и можно решить вообще без спарка.

Интересно посмотреть на ваши решения.
Building_an_Open,_Petabyte_Scale_Data_Platform_Keynote_9_29_21.pdf
12.5 MB
Хорошая презентация с the Building an Open, Petabyte Scale Data Platform with Databricks Workshop. Много интересных слайдов, можно идеи к себе в слайды утащить.
Это очень популярный слайд про ML
Сегодня я поймал себя на мысли, что мне неудобно отправлять коллегам письмо в 9 вечера. И outlook мне показал хорошую опцию - поставить письмо на расписание, так как я его написал в нерабочее время.

Раньше я всегда считал, что это круто написать письмо в 12 ночи, и показать насколько я крут😎

А как у вас с коммуникацией в нерабочее время? Не могу похвастаться карьерными перспективами в майкрософт, но work life balance тут существует. При условии, что вы в рабочее время работаете.🦆