Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
У data learn пока нет сертификатов, но обязательно будут. Пройдет время, и студенты datalearn будут котироваться. Когда мы создаем сообщества, они растут очень медленно, но у них самый высокий ROI. Когда вы помогаете одним людям, они потом помогают другим, и так кирпичик за кирпичиком, создается, что-то стоящее. На платной основе такое сложно сделать, так как создание курсов datalearn это творческий процесс, нужно вдохновение. Поэтому идет медленно, идеи должны кристаллизоваться и дорасти. Как показывает дашборд с YouTube, у нас отличный сентимент и высокое качество контента.

Мне очень нравиться концепция бейджей у вендоров, поэтому теперь и у datalearn будут бейджи. За каждый модуль и выполненное ДЗ вы получаете бейдж, за 12 бейджей - вы получаете сертификат.

Мне кажется к окончанию курса datalearn будет более узнаваем и добавит весу при устройстве на работу🤙
Недавно узнал про Coding интервью FizzBuzz. Оказывается известный термин в кругах программистов. Вот статья. Статья написано в 2007 году, когда еще не было whiteboaring, screen sharing и тп. Мужик задумался над вопросом, что про резюме вроде опыт хороший и история опыта красивая, но инженер не умеет писать код, и нужно проверять именно написание кода. Так же он пришел к выводу, что достаточно проверять простые базовые вещи. Нет смысла проверять сложные алгоритмы (кстати так делает Facebook на собеседовании для инженеров данных). Он вспомнил школьную игру - FizzBuzz, где нужно говорить Fizz, если число делится на 3, Buzz, если число делится на 5 и FizzBuzz если на 3 и 5. Поэтому он стал просить кандидатов написать программу, которая будет это делать.

Write a program that prints the numbers from 1 to 100. But for multiples of three print “Fizz” instead of the number and for the multiples of five print “Buzz”. For numbers which are multiples of both three and five print “FizzBuzz”.

Как оказалось много выпускников не могли справиться с таким заданием.
Китайцы серьезно прокачивают свое облако. Вашему вниманию предлагается Real-time data warehouse - Hologres (не путать с Postgres).

Если вы любите копать вглубь, то вам тогда нужно прочитать paper.
Lakehouse = DW + Data Lake.

Примеры lakehouse:
- Redshift + Redshift Spectrum
- Snowflake
- Databrics Delta Lake
- Azure Synapse Analytics

Попался очень интересный paper, который был только недавно опубликован основателями Databricks.

This paper argues that the data warehouse architecture as we know it today will wither in the coming years and be replaced by a new architectural pattern, the Lakehouse, which will (i) be based on open direct-access data formats, such as Apache Parquet, (ii) have first class support for machine learning and data science, and (iii) offer state-of-the-art performance. Lakehouses can help address several major challenges with data warehouses, including data staleness, reliability, total cost of ownership, data lock-in, and limited use-case support.
Оказывается у мужских коллективов есть название: https://en.m.wikipedia.org/wiki/Bro_culture
Аналитическое решение = data product. В статье автор дает Best Practices for Data Engineering. Это все хороше иметь, но можно не в первую очередь.

- Version Control
- Automated testing and deployment
- Make and keep data available
- Test and communicate data quality
- Share best-practices with colleagues
- Build immutable datasets

В общем Unit Tests + DevOps помогут сделать решение более качественным.
Не знаю почему они решили уголь, наверно это исторически, всем кто плохо вел себя, Санта уголь приносил. Кстати русским детям в Канаде везёт, получают подарки на кристмас (то есть сегодня) и потом ещё на новый год))
Самое крупное сообщество Microsoft - PASS (множество user groups, meetups, workshops, conferences ,SQL Saturdays and so on) объявило о своем закрытии. Я выступал несколько раз на их митапах и онлайн митапах, так на SQL Saturdays, так же на одной Rock Your Data, была спонсором(решил поддержать организаторов). Такого крупного сообщество больше нет, они делали очень много для мира Microsoft, жалко, что не пережили. И странно, что Microsoft не поддержал своих адептов. Но это говорит о том, что их подход устарел и их бизнес модель не работает. Нельзя использовать тоже самое, что было хорошо 10-15 лет назад. И когда, что-то умирает, на его месте вырастает, что-то другое, интересно, что будет. Ну и ждать помощи от вендора бесполезно, нужно рассчитывать только на себя.
Слышали про Monte Carlo simulation? Ее можно сделать в эксель. Я читал про это в книге How to measure anything. Кстати автор книги выступал у меня в Amazon BI Tech talks. У него ещё есть интересный метод - правило 5, почти фокус, но статистически правильный.
Про BI так же должно быть)) кстати, одно время было очень круто делать резюме в Tableau Public, есть много примеров хороших, очень не стандартный способ привлечь к себе внимание. https://public.tableau.com/en-us/s/blog/2016/09/how-create-interactive-resume-tableau
​​Что вам скажет коуч миллиардеров на личной консультации? Весь 2020 год я искала ответ, жадно поглощая контент. И вот, что я нашла.

Важное. Чтобы уберечь мозг от очередного эксперта, я стала осторожной. Доверять можно, если есть честность и креативность. Остальное - растущая энтропия нашего века.

Доверие и любовь случились к трудам Марины Мелия. Особенно понравилась её свежая книга - «Хочу, могу, надо». Почему я поверила автору?

🌞 Опыт. Практика Марины Мелия в бизнес консультировании измеряется десятками лет. Её называют "коучем миллиардеров", так как многие её клиенты стали миллиардерами.

🌞 Честность. На первых страницах книги я увидела отсылки к Эриху Фромму, Эрику Берну и Абрахаму Маслоу. Это три автора в психологии, книги которых я зачитала до дыр. Это еще когда я физиком хотела понять фундаментальные основы психологи. Считаю, все три - мастхев.

🌞 Креативность. Зная теорию того же Берна, я восхитилась её развитием. Марина Мелия адаптировала модель сценариев жизни людей на наше поколение и Россию. Фундаментальная психология заиграла новыми красками. Стала реальной и конкретной. А значит, понятной.

О результатах говорить безусловно рано. Я прочитала книгу недавно. Но мое окружение расцветает как бутон лотоса. Думаю, не без эффекта книги.

Сейчас я в состоянии "знаю, как надо". Это касается и отдельных сфер жизни, и картины целиком.

🦸 Лена-предприниматель. Относительно дела я увидела, как установки из детства мешали мне сближаться с единомышленниками и заставляли играть на чужом поле.

👍 О выгорании. Я поняла, почему часто работаю не в плюс себе или проекту. Стала сильнее относительно манипуляций в сотрудничестве и работе с клиентами.

👍 О чуйке. У меня мощнейшая бизнес-интуиция. Звучит не скромно. Но все, кто меня близко знает, замечали. Интуиция есть, а доверия к ней ноль. С этим я продолжаю работать. Но книга детально подсветила мне проблему со всех сторон.

👍 О том, как все слить. Лично я регулярно сливала дорогие сердцу проекты. В том время как менее ценные закрывала качественнее. Источники этой проблемы так же полечились в процессе прочтения книги.

👍 О главном. Достигаторство и трудогодлизм. Я работаю, чтобы быть счастливой. Не ради очередного поста с тысячью лайков. Не ради признания, что я крута. Пожалуй, кроме счастья личного мне надо, чтобы мама восхитилась мной и дети продолжали гордиться. Прочем для последнего я могу просто испечь свой фирменный нежнейший чизкейк.
Как должно выглядеть описание современного руководителя по инжинирингу данных:

• Provide strategic data engineering guidance to our Capability within <company name>, and our clients.
• Work closely with our team and clients on the discovery and delivery of complex projects, promoting a data engineering best practices.
• Research, explore, and evaluate the latest data engineering technologies and methodologies, continuously looking to improve my own skill set.
• Support the growth of our team members, sharing my experience and skills through training, and mentoring.
• Be a analytics and data engineering champion internally and externally, advancing our core data engineering practices, and engaging with the analytics community.
• Be an inclusive leader that provides an environment that allows everyone to flourish, individually and collectively, coaching and guiding people rather than giving directives.


Причем тут почти 50% это развитие своей команды и культуры, в который каждый является важным элементом и контрибьютером, чтобы все были счастливы (напоминает историю с классической музыкой в коровнике, когда коровы дают больше молока и наш учитель английского всегда включал классику, когда мы писали контрольную). Остальные 50% поделены между существующими навыками и знаниями по инжиниринга данных или любой другой специализацией и возможность учиться и развиваться в своей области. Это пример вакансий Director/VP инжиниринга данных.

PS data engineering можно заменить на data science, software engineering, qa и тп