Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Компания Thoughtworks решила заморочиться и выпустила Technology Radar. Сама картинка читается сложно без пояснительной записки.

The Radar captures the output of the Technology Advisory Board’s discussions in a format that provides value to a wide
range of stakeholders, from developers to CTOs. The content is intended as a concise summary.


Adopt: We feel strongly that the industry should be adopting these items. We use them when appropriate in our projects.
Trial: Worth pursuing. It’s important to understand how to build up this capability.
Enterprises can try this technology on a project that can handle the risk.
Assess: Worth exploring with the goal of understanding how it will affect your enterprise.
Hold: Proceed with caution.


В этом докладе вы найдете все популярные инструменты и buzz words и можете посмотреть, где они на графе.

Сама компания занимается консалтингом и именно их архитектор активно топит за Data Mesh
В дополнение к прошедшему вебинару по Airflow представляем перевод статьи от создателя этого инструмента о размышлении про будущее инженера данных.

Ссылка на перевод:
https://vc.ru/hr/311461-budushchee-inzhenera-dannyh

Также перевод продублирован на Яндекс.Дзен
https://zen.yandex.ru/media/id/61706aa4298d6612db1752e5/buduscee-injenera-dannyh-61799bd2126be27e399c4071
В какой-то момент своей аналитической карьеры (а может быть и до ее начала) вы захотите овладеть software engineering best practices и вообще почитать что-нибудь по этой теме. Вот некоторые из книг:
- Clean Code: A Handbook of Agile Software Craftsmanship
- The Pragmatic Programmer: From Journeyman to Master
- Refactoring: Improving the Design of Existing Code
- Test-Driven Development: By Example
- Code Complete
- The Missing Readme: A Guide for the New Software Engineer (в канале даже было обсуждение и в комментах была pdf)

Можете в комменты добавить ваши варианты. Однажды мы сможем написать чистый и красивый код...
А вот свеженькая книжка по нашей тематике: The Informed Company: How to Build a Cloud-Based Data Stack to Explore and Understand Data

- Discover the data stack strategies that are working for today's successful small, medium, and enterprise companies
- Learn the different Agile stages of data organization, and the right one for your team
- Learn how to maintain Data Lakes and Data -Warehouses for effective, accessible data storage
- Gain the knowledge you need to architect Data Warehouses and Data Marts
- Understand your business's level of data sophistication and the steps you can take to get to "level up" your data

https://theinformedcompany.com/ было бы интересно полистать PDF если у кого будет;)

Кстати авторы книги крутые - Dave Fowler (CEO of Chartio - now acquired by Atlassian) and Matt David ( Head of The Data School)
Вчера у нас был замечательный вводный вебинар/урок/демонстрация про Airflow от Дмитрия Браженко, вот запись.

Я бы очень хотел бы сделать такие же вебинары вводные про
- GreenplumDB
- Clickhouse

Еще бы посмотрели про Apache Superset.

Если у вас есть опыт с этими технологиями и хотите поделиться, welcome! Напишите Роману @rspon, сделает все в лучшем виде! Как раз сейчас модуль 6 про аналитические хранилища, а я могу только про западные рассказывать.
Большие новости в tech Facebook rebrands to #Meta “A social technology company”. “We build technologies that help people connect with friends and family, find communities, and grow businesses.”
https://about.fb.com/news/2021/10/facebook-company-is-now-meta/
У нас в slack есть канал data_news_from_the_world. Я его подписал на RSS разных тематических компаний и вендоров. Там даже была новость clickhouse.

Netflix опубликовал интервью с Data Engineer. Вообще Netflix платит топовые зарплаты, но и спрос соответствующий. У них есть безлимитный отпуск, но никто им не пользуется (безлимитным).

У них есть целый раздел посвященный data engineering https://netflixtechblog.com/tagged/data-engineering

Есть ещё книга про компанию Netflix, там хорошо раскрыты подходы к найму лучших сотрудников и их удержание.
👍1
🚀 Примите участие в онлайн-соревновании BCS Coding Days от «БКС Мир инвестиций» и Фонда «Сколково».

BCS Coding Days — это задачи для системных аналитиков, Android и Java-разработчиков с призовым фондом 1 500 000 рублей. Соревнование пройдёт с 4 по 5 декабря онлайн.

Трек для Системных аналитиков:

Вам будет предложено 4 реальных кейса:
- инструментарий для гибкой настройки портфеля;
- сервис «Обмен ПИФ»;
- подбор и анализ финансовых инструментов;
- онбординг новых пользователей.

Таймлайн BCS Coding Days:
- В преддверии соревнования посетите митапы с экспертами рынка;
- С 4 по 5 декабря решайте задачи, участвуйте в чек-поинтах и стрим-конференции с экспертами «БКС Мир инвестиций»;
- 7 декабря презентуйте свое решение и выиграйте главные призы.

Поборитесь за главный приз и возможность получить offer от «БКС Мир инвестиций».

👉 Успейте подать заявку до 3 декабря по ссылке: https://clck.ru/YWPaH

PS Пост поддержал приют для собак Зоорассвет в Москве
mds.pdf
16 MB
Красивая презентация про modern data stack
Данные бывают:
- Structured - табличный вид
- Semi-Structured - XML, JSON, и тп
- Unstructured - Video, Image, Text, Audio. (На примере web логи, и мы можем их часточно структурировать, через пробел, поэтому не самый лучший пример)
В октябре вышла новая книга с громким названием - Data Engineering with Spark, Delta Lake, and Lakehouse

Section 1: Modern Data Engineering And Tools
Chapter 1: The Story Of DE And Analytics
Chapter 2: Storage And Compute Data Lakes
Chapter 3: Data Engineering On Azure


Section 2: Data Pipelines And Stages Of DE
4: Understanding Data Pipelines
5: Data Collection Stage
6: Understanding Delta Lake
7: Data Curation Stage
8: Data Aggregation Stage


Section 3: DE Challenges And Effective Deployment Strategies
9: Deploying And Monitoring Pipelines
10: DEChallenges
11: Infrastructure Provisioning
12: Continuous Integration And Deployment (CI/CD)


Я просмотрел всю книгу, в книге есть end-to-end case про создание аналитического решения на Azure с использованием Databricks и Data Factory. В книге мы не найдем best practices или глубокой информации по созданию решений, но есть хорошие примеры, которые помогут начать работать с Azure Data Platform.
👍2
В ноябре получится выступить на игровой конференции и рассказать про аналитику для AAA игр https://devgamm.com/fall2021/
Недавно facebook запустил Metaverse и Microsoft тоже активно работает в этом направлении. На Microsoft Ignite 2021 они показали продукт Mesh для Team. Пока входной порог очень высокий так как устройство дорогое. И вообще интересно применение, это должно быть новое поколение людей для кого это будет нормой, я себя не вижу в таком девайсе, мне лучше по старинке с выключенной камерой сидеть на митинге и заниматься своими делами😇

А вы бы хотели тусить в metaverse?