Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
В августе вышла новая книга - Tableau Strategies (книжка не для новичков).

Содержание:
1. Categorical Analysis
2. Quantitative Analysis
3. Making Comparisons
4. Working With Time
5. Key Performance Indicators
6. Building Impactful Tables
7. Working With Geospatial Data
8. Advanced Mathematical Concepts
9. Constructing Dynamic Analyses
10. Advanced Data Modeling
11. Advanced Interactivity
12. Building Dashboards And Data Products
13. The Broader Tableau Ecosystem
14. Industry Frameworks

https://learning.oreilly.com/library/view/tableau-strategies/9781492080077/
У нас в чатике Инжиниринг Данных много интересных дискуссий про зарплатные ожидания, про страны для миграция, про условия труда и тп. Когда у меня есть время повтыкать в телефон, например в очереди, то очень помогает с пользой скоротать время🙃 В общем, получилось классно.

Последняя тема была - курсы по математике для Data Science. Тема безусловно важная и в наши дни по ней очень много ресурсов. А я хотел рассказать про свой опыт по этому вопросу, но только в 2014 году.

Если отмотать время назад, то в 2010-2011 годах не было data science, но был data mining (всем известные методы регрессии, кластеризации, классификации) на основе математических моделей. В индустрии обычно банки использовали data mining для моделей кредитного скоринга и там работали математики, как правило. Я же работал в 2010 году в банке, и для меня кредитный и риск отдел это была элита.

Про data mining я узнал из книжки (must have для студентов datalearn) - Паклин Н.Б., Орешков В.И. - Бизнес-Аналитика От Данных К Знаниям (можете найти ее легко). В книге 3 части:
1) В целом про аналитику, BI, DW, ETL. Концепция, для 2010 года это была находка, ничего больше не было, кроме Кимбала и Инмана, а там уснешь пока их прочитаешь.
2) Про data mining методы, как работает математика и все такое. Ну я особо не вникал.
3) Бесполезная часть про их продукт deductor. Насколько я понимаю этот продукт неплохо справляется с задачами. Не знаю как у него сейчас дела. Кто знает?

Затем, работая в Терадата, некоторые консультанты побежали изучать Data Science напримере продукта Teradata Aster, там использовали R в основном. Несколько ребят неплохо развились в этом направлении и потом разъехались по миру.

Я был полностью погружен в изучение SQL и SAP Business Objects. Но тренда на дата саенс набирал обороты и я нашел хорошую книгу по этой теме - Doing Data Science 2013 год. Прочитал ее, но ничего не использовал. В это же время на курсере вышло много курсов по Data Science, причем все были на R. В то время, только ленивый не смотрел курсеру и не учил R.

В 2014 году я решил, что пора более углубленно изучать data science, НО!!! Мне нужен курс по математике сначала. А такого контента не было и в помине. Я пошел на Авито и стал писать репетиторам по математике, потом переписывался долго и упорно с ними. Но никто не мог понять, что мне нужно и как мне помочь. На этом, мое изучение data science закончилось и я стал больше фокусироваться на End to End решениях и интеграции данных из Source в облачное DW. А про роль Data Engineer я узнал только в 2016 году, а понял, что это такое, только в 2017.

Сейчас уже обратная проблема, как найти нормальные материалы в океане курсов и книг.
28 сентября день рабочего стола! С чем я вас и поздравляю! Присылайте свои рабочие места в комментарии. #деньрабочегостола
Data Lakehouse by Ihnmon.pdf
3.1 MB
Коротенькая книжка от отца хранилищ данных (при поддержки Databricks) - Building the Data Lakehouse
By Bill Inmon, father of the data warehouse. Странно, но книжка не полная, а лишь 35 страниц. Где ещё 170 не знаю🙄
Следующий урок в Datalearn будет про Snowflake. У них как раз будет конференция Snowflake Build 4-5 Октября сразу в 3х регионах. Как минимум я вам рекомендую послушать Keynote (на любой конференции они интересны и полезны), чтобы знать куда движется аналитический продуктовый мир. https://www.snowflake.com/build/?utm_campaign=Teradata
Хорошая идея для всех отечественных конференций - кофе в подарок. Я зарегистрировалс на Databricks событие - Building an Open, Petabyte-Scale Data Platform With Databricks, а они такие добрые, прислали карточку на 5$!)
Я всегда говорю - собеседования это хорошо, лишний раз пообщаться с умными и интересными людьми никому не навредит😉

Я обратил внимание на разницу в вопросах между РФ и Северной Америке. Вот некоторые вопросы:
- Ваш пол - sex (3 варианта ответа)
- Как вы себя идентицируете - gender identity (11 вариантов ответа)
- Какой вы рассы (10 вариантов)
- Ваша сексуальная ориентация (7 вариантов)
- Есть ли у вас инвалидноть (disability)
- В штатах обязательно еще вопрос про ветеранский статус.

Конечно в каждом вопросе есть Other и I don't want to answer.

В РФ обычно один вопрос - какие зарплатные ожидания.
Совсем недавно Amazon анонсировал много классных новых устройств. Есть видео, где за 1 минуту вам все покажут и расскажут.

Когда я был в Амазоне, я был подписан на beta alexa, и мне каждый месяц присылали всякие новые девайсы попробовать. Но когда я уходил, все попросили сдать:(
Вот это я понимаю реклама курсов!
Forwarded from Data Apps Design (Artemiy Kzr)
А вот служба поддержки разочаровывает 🙃
15 дней на ответ совсем не о том.

P.S. пытаюсь поставить clickhouse-jdbc-bridge на управляемую версию CH от Я.Облака, чтобы писать запросы к другим базам из CH. Хитрый замысел.
Хотите научиться работать с облачными базами данных и бесплатно сдать сертификационный экзамен DP-900?

Пройдите двухдневный тренинг от Microsoft 25 и 26 октября.

От экспертов Microsoft вы узнаете о важнейших принципах действия сервисов Azure, проверенных подходах и специфике работы с реляционными и нереляционными данными.

Успейте записаться на тренинг

PS Пост поддержал приют для собак Зоорассвет в Москве.

PPS Лично я уже сдал экзамен DP-900, очень хорошие материалы по основам аналитике, экзамен стоит того!
Из мира игр:
Netflix купил студию, и продолжает развивать направление игр https://nightschoolstudio.com/joining-netflix/

Амазон выпустил свою первую большую игру New World 28 сентября: https://en.m.wikipedia.org/wiki/New_World_(video_game)

Ранее они открыли студию в Монреале https://www.amazongames.com/en-gb/news/articles/amazon-games-opens-development-studio-montreal

А вот Google и Stadia как-то приостановились. Но они были одни из первых в стриминге.

Сбер мутит игры, но как-то все шито-крыто, новостей не слышно.

Все это говорит о росте популярности игровой индустрии и как следствие аналитики, инжиниринга данных в игровой индустрии.
Вам в помощь - клавиатура с CNTRL+C/CNTRL+V
https://drop.com/buy/stack-overflow-the-key-macropad#overview

PS Только для Senior ролей и выше!
Совсем недавно мы обсуждали доставку Insights через webhook в Microsoft Teams, а сегодня я увидел Tableau сообщило:

Goodbye, email. 📧
Hello, Slack! 👋

Выглядит красиво! Если у вас Tableau и Slack, то я вам завидую! Я раньше так делал в Splunk в 2015, не знаю, почему Табло не спешило делать такую фичу.

https://www.tableau.com/about/blog/2021/8/when-work-flows-insights-grow-tableau-app-slack
Нашел интересное тестовое задание. Может быть кто-то хочет попробовать его решить на Python?

Мне видится, что можно взять spark, прочитать все JSON в папке data, извлечь схему JSON и дальше написать запрос.

Я не понял, что они хотят найти. Но понятно, что в итоге программу можно положить в docker. Ну или сразу брать готовый контейнер со spark.

На выходе, будет spark submit, куда передается параметры.

Если вы изучаете питон, отличное упражнение и можно решить вообще без спарка.

Интересно посмотреть на ваши решения.
Building_an_Open,_Petabyte_Scale_Data_Platform_Keynote_9_29_21.pdf
12.5 MB
Хорошая презентация с the Building an Open, Petabyte Scale Data Platform with Databricks Workshop. Много интересных слайдов, можно идеи к себе в слайды утащить.
Это очень популярный слайд про ML