NEW BOT Телеграм, страница

Инжиниринг Данных

Пока анекдотов новых нет, но есть разные новости из data мира.

У AWS Glue есть свой githab, в котором есть полезные утилиты. Одна из них это docker со Spark UI, который запускается на локальной машине и читает логи спарка в s3.

У glue столкнулся с проблемой, job падает, когда читает s3 папку с 24мя файлами паркет, каждый 1gb. Оказывается проблема, в том, что спарк плохо читает большие файлы и ему трудно их делаить на кусочки - Spark – Reading Parquet – Why the Number of Tasks can be Much Larger than the Number of Row Groups - в статье более подробно как это работает. У Спарка вообще все просто до первого падения job.

Начал использовать разные полезные утилиты для командыной строки:
- pqrs - утилитка для работы с паркетом
- parquet-tools - еще одна, можно сразу анализировать файлы в облаке
- athenareader - клиент для Amazon Athena, показывает даже стоимость запроса в долларах.

Новая статья про LakeHouse архитектуру - Lakes? Warehouses? Lakehouses? A short history of Data Architecture

Пример создания Declarative Data Pipelines в Databricks.

Dbt cloud обновили свой scheduler и написал блог пост про него.

Slowly Changing Dimensions (SCDs) In The Age of The Cloud Data Warehouse - по названию понятно про что это.

The State of Data Engineering 2022 - тут вам расскажут про разные вендоры и их назначения для инжиниринга данных. Про 2022 я могу вам лично от себя сказать, что инжиниринг данных превращается в разработку ПО и требования соответствующие. Зоопарк технологий растет, требования к безопасности и сложность интеграции повышается, так что кликать мышкой уже не достаточно.

Service-aligned Data Platform Architecture - пример аналитического решения от компании canva (оч удобный продукт кстати для создания маркетинговых материалов и бесплатного много).

GitHub

aws-glue-samples/utilities/Spark_UI/README.md at master · aws-samples/aws-glue-samples

AWS Glue code samples. Contribute to aws-samples/aws-glue-samples development by creating an account on GitHub.

👍21🔥3

8.22K viewsDmitry, edited 17:29

Инжиниринг Данных

Хорошая теория по Software Architecture.

Jenkov

Software Architecture

👍16

9.51K viewsDmitry, 23:10

Инжиниринг Данных

Если вы работаете с Jira, то вам будет понятно мнение автора. А так можно “jira” заменить на любой другой продукт:
- I fucking hate “Oracle”
- I fucking hate “Excel”
- I fucking hate “VBA”
- I fucking hate “пробки в центре”
- I fucking hate “холодный капучино”
- и далее по списку🤪

I fucking hate Jira.

Real opinions from real people about a project management system which unfortunately is also real.

😁13👍6🤔1

10.1K viewsDmitry, 18:03

Инжиниринг Данных

Недавно прошел Data&AI summit от Databricks. Вы можете посмотреть краткий обзор того, что там было:

Data & AI Summit Takeaways: Part I
Data & AI Summit Takeaways: Part II

Medium

Data & AI Summit Takeaways: Part I

Just like I did a few weeks ago with Airflow Summit, I’m virtually attending the Data & AI Summit this week (or rather, trying to keep up when I can as work has been a bit busy lately). While there…

👍17🤔1

7.34K viewsDmitry, 23:30

Инжиниринг Данных

Всем привет, завтра (6 июля, среда) вебинар в 20:00 по мск
Мы продолжаем серию общеобразовательных вебинаров о том как работает наш мозг, про умение думать и мыслить и все в этом духе)))

Ссылка на вебинар: https://youtu.be/KL4RV8BsPbI
⚠️ Описание вебинара:
Добрый день, меня зовут Рустам, я создатель крупнейшего в рунете сообщества изучающего принципы управления, организации и работы со знаниями. Неожиданно для себя открыл, что критическому мышлению, которым многие мечтают овладеть, просто невозможно научиться.

Сегодня хотелось бы поразмышлять вместе с Вами о том что такое критическое мышление, какую роль во всем этот играет рациональность и что вообще это такое. Попробуем разобраться могут ли математические алгоритмы создавать знание и как далеко нам до ИИ, а также какое препятствие стоит у нас на пути к написанному в строках кодах сознанию и почему меня пугает AlphaGo.

Ну и в заключении поговорим о мышлении в широком смысле слова. Подходах, инструментах, процессу переработки и системах создания знаний. И как бы нам не хотелось компьютеризировать этот процесс, он пока еще исключительно антропоцентричный и никаких серьезных изменений в этой области не предвидится.

📕 Ссылки на ресурсы спикера:
🔗 Канал в телеге: https://news.1rj.ru/str/Zettelkasten_ru
🔗 Цифровой сад: rustamagamaliev.ru
🔗 Форум: zttl.space

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания и получить сертификат прохождения курса.

🔥 Самые актуальные новости про аналитику в Telegram канале:
https://news.1rj.ru/str/rockyourdata
🔥 Телеграм канал DataLearn:
https://news.1rj.ru/str/datalearnru

YouTube

ИНСТРУМЕНТЫ МЫШЛЕНИЯ, ПЕРЕРАБОТКИ ИНФОРМАЦИИ И ПОДХОДОВ В ОРГАНИЗАЦИИ ЗНАНИЯ / Рустам Агамалиев

⚠️ Описание вебинара:
Добрый день, меня зовут Рустам, я создатель крупнейшего в рунете сообщества изучающего принципы управления, организации и работы со знаниями. Неожиданно для себя открыл, что критическому мышлению, которым многие мечтают овладеть, просто…

👍18🤬11🔥2

7.58K viewsRoman Ponomarev, 19:20

Инжиниринг Данных

Очередная саркастичная картинка про “Modern Data Stack”, вот и вопрос, как же войти в профессию с чего начать, что делать, куда бежать?

Как было раньше хорошо, был Oracle и SQL Server как хранилище и несколько ETL инструментов с UI либо процедурные языки от баз данных, а теперь вот 🙈🙊

Кстати другой момент, что на всех этих картинках нет инструментов для моделирования хранилищ данных, потому что это трудозатратно и требует опыта.

И кстати утверждение, что в облаке нам не нужна модель данных - отчасти верна, мы можем взять большой кластер и выполнить запрос, но вот цена вопроса будет другой, поэтому модель данных это уже не про перформанс, а про цену compute. А мы знаем (из модуля 5 и 6 datalearn, compute - дорого!)

👍29❤2🤔1

7.47K viewsDmitry, 05:21

Инжиниринг Данных

Через 20 минут начинаем:
https://youtu.be/KL4RV8BsPbI

YouTube

ИНСТРУМЕНТЫ МЫШЛЕНИЯ, ПЕРЕРАБОТКИ ИНФОРМАЦИИ И ПОДХОДОВ В ОРГАНИЗАЦИИ ЗНАНИЯ / Рустам Агамалиев

🔥9

7.34K viewsRoman Ponomarev, 16:39

Инжиниринг Данных

dbt - инструмент для трансформации данных внутри хранилища, то есть T в процессе ELT, достаточно прост и удобен, да еще и бесплатный.

Вот некоторые ресурсы по нему:

В облаке google:
DBT at scale on Google Cloud — Part 1
DBT at scale on Google Cloud — Part 2
DBT at scale on Google Cloud — Part 3

Serverless dbt on Google Cloud Platform

Serverless architecture on Google Cloud with dbt

В облаке AWS:
Build a modern data architecture on AWS with Amazon AppFlow, AWS Lake Formation, and Amazon Redshift
Build a modern data architecture on AWS with Amazon AppFlow, AWS Lake Formation, and Amazon Redshift: Part 2

В облаке Azure:
Run DBT in Azure Data Factory: A Clean Solution

И просто примеры решений:
Building a Robust Data Pipeline with the “dAG Stack”: dbt, Airflow, and Great Expectations

How Rittman Analytics does Analytics Part 2 : Building our Modern Data Stack using dbt, Google BigQuery, Looker, Segment and Rudderstack.

dbt and Snowflake

Transform your data with dbt and Serverless architecture

Building an End-to-End Open-Source Modern Data Platform

Ну и наш вебинар про введение в dbt - ВВЕДЕНИ В DBT / СОЗДАНИЕ МОДЕЛЕЙ ПРИ ПОМОЩИ DBT / УПРАВЛЕНИЕ ТРАНСФОРМАЦИЕЙ ДАННЫХ / РИШАТ МИНГАЗОВ

Вот ещё от в JetBrains блоге https://blog.jetbrains.com/big-data-tools/tag/dbt/

В целом, инструмент хороший, можно использовать, большое сообщество, прост и быстр в обучении.

🔥35👏9❤3👍1🤬1

8.74K viewsDmitry, edited 17:31

Инжиниринг Данных

👍44😁19👏5🤔3🎉2

6.85K viewsDmitry, 17:40

Инжиниринг Данных

CB-Insights_Laws-Driving-Success-In-Tech.pdf

2.2 MB

Классный документ про 11 законов, которые популярны в tech индустрии, например 2 pizza rule, принцип парето и тп. (эти 2 я использую очень часто).

Отличный материал для начинающих или для тех, кто учит английский.

👍35🔥8

8.15K viewsDmitry, edited 18:33

Инжиниринг Данных

BI:DW Intro.pptx

24.8 MB

Моя презентация 2016 года про миграцию отчетности с Oracle, Excel, Crystal Reports на Redshift и Tableau.

👍16

6.49K viewsDmitry, 18:18

Инжиниринг Данных

Еще одно техническое собеседование для Амазон:

Задание 1:

Есть 2 таблицы А и Б, нужно сказать сколько строк выведется при соединении.
TableA
id1
1
1

TableB
id2
1
1
1
1
NULL


Please provide the count of rows for each join for Table A and Table B:
Left  join:
Right join: 
inner join: 
full join:

Задание 2:

Department table (id, name)
D1 Finance Dept
D2 HR Dept
D3 AR Dept
F1 AP Dept

Employee table (id, name, deptNo, sex, hireDate, Salary,effectiveDate)
E1, sample1, D1,M,01/01/2000, 5000, 01/01/2000
E1, sample1, D1,M,01/01/2000, 6000, 01/01/2001
E1, sample1, D2,M,01/01/2000, 6000, 01/02/2001
E2, sample1, D2,M,01/01/2000, 6000, 01/02/2001
E3, sample1, D1,M,01/01/2000, 5000, 01/01/2000
E3, sample1, D1,M,01/01/2000, 6000, 01/01/2001
E4, sample1, F1,M,01/01/2000, 5000, 01/01/2000
E4, sample1, D1,M,01/01/2000, 6000, 01/01/2001
E4, sample1, D3,M,01/01/2000, 8000, 01/02/2001
E5, sample1, D3,F,01/01/2001, 8000, 01/02/2001
E6, sample1, D3,F,01/01/2001, 9000, 01/02/2001

1.Write a query to display latest salary of each employee

2. Write a query to display department name where employees count in the department is 
more than 2

Задание 3 (code):

 Given two strings, output the words that are unique to each string.
 Example:
   String 1: The quick brown fox jumped over the lazy fox 
   String 2: The slow blue whale swam over the quick shark

 Output: slow, brown, blue, fox, whale, jumped, swam, lazy, shark

Задание 4 (моделирование):

Employee Seat Assignment
Daily some employees in the organization transfer from one manager to another manager. 
This transfer leads to new seat assignment at his new work location. 

Can you do a data model to maintain the history of work location changes?

(нужно прикинуть какой подход для моделирования использовать, какие колонки будут в таблице, как отображать историю)

👍65

8.78K viewsDmitry, 18:39

Инжиниринг Данных

В июне вышла новая книга Fundamentals of Data Engineering с хорошим рейтингом.

This book will help you:

- Get a concise overview of the entire data engineering landscape
- Assess data engineering problems using an end-to-end framework of best practices
- Cut through marketing hype when choosing data technologies, architecture, and processes
- Use the data engineering lifecycle to design and build a robust architecture
- Incorporate data governance and security across the data engineering lifecycle

446 страниц

O’Reilly Online Learning

Fundamentals of Data Engineering

Data engineering has grown rapidly in the past decade, leaving many software engineers, data scientists, and analysts looking for a comprehensive view of this practice. With this... - Selection from Fundamentals of Data Engineering [Book]

👍15

7.38K viewsDmitry, edited 17:35

Инжиниринг Данных

O'Reilly опубликовал результаты опроса по tech зарплатам в штатах.

Из интересного:
- самые популярные языки SQL (везде) и Python
- облако AWS самое популярное
- Linux более популярен, чем MacOs для разработчиков
- Terraform и Docker больше всех востребованы среди доп инструментов
- Сертификация гугла коррелирует с более высоким доходом
- Большинство на удаленке
- Manager и Engineer получает почти одинаково, а вот director получает на 25% выше (в среднем).
- Очень важная разница между РФ и Штатами - максимальный доход в 45-54 года. Тут не ищут молодых. В РФ должно меняться отношение к взрослым специалистам, HR на заметку!!!
- Штат Оклахома имеет самые высокие ЗП (это где вообще?)
- У мужчин все еще ЗП выше, чем у женщин☹️ Но при этом, у женщин ЗП растет быстрей.
- Средняя ЗП в районе 150к - 175к в США. У нас например есть инженеры из штатов, получают 180к. База 180 это ОК, вопрос в стоках и бонусах. Топ компании могут платить базу 200+, но это скорей исключение. Если нужно получать больше, то надо платить меньше налогов, а это надо работать через корпорацию (аналог ООО и ИП).

O’Reilly Media

2022 Cloud Salary Survey

Trends for Compensation, Remote Work, Training, and More

👍75😁1🤔1

9.36K viewsDmitry, 17:47

Инжиниринг Данных

Теперь даже Amazon Redshift доступен как сервис - Amazon Redshift Serverless is now generally available

Что такое serverless? В модуле 5 datalearn мы проходили облачные вычисления и рассматривали типы сервисов:
- IaaS - инфраструктура как сервис - пример это виртуальная машина, на которую мы ставим софт. В этом случае мы должны отвечать за все, кроме hardware.

- PaaS - платформа как сервис - как раз классический Redshift это PaaS - пару кликов, и у нас уже работающий Redshift, но мы должны еще делать сами бекапы, управлять нагрузкой, оптимизировать хранение данных (частично админы), но нам не надо переживать за операционную версию кластера и другие вещи.

- SaaS - софт как сервис - то есть пару кликов и у нас готовый сервис, который сам будет масштабироваться и мы будем платить только за использование. Примеры - Snowflake, Databricks managed Spark), недавно появился Amazon EMR serverless, AWS Glue (managed spark), Amazon Athena, BigQuery, Azure Synapse Serverless SQL (DWH). И список довольно большой. А самые первые сервисы это Google sheets, slides, docs и SalesForce.

Значит ли это, что можно забыть про инфраструктуру и кликать только мышкой? В теории звучит, как будто то да, а вот на практике ситуация обратная. Обычно все работает гладко, пока "коса на камень" не случится. Большой объем данных, требования к безопасности, требования DevOps и ИТ к использованию CI/CD, инфраструктуры как код, приватность данных и многое другое. То есть на практике, все эти serverless решения лишь только отвлекают нас от инженерной сути происходящего. Поэтому знать и понимать разницу хорошо.

Amazon

Amazon Redshift Serverless is now generally available - AWS

Discover more about what's new at AWS with Amazon Redshift Serverless is now generally available

🔥17👍6

6.77K viewsDmitry, 19:08

Инжиниринг Данных

😁42🤬3😢3🔥2

6.63K viewsDmitry, 19:33

Инжиниринг Данных

Автор статьи Data teams are getting larger, faster рассуждает про рост дата команды и идеальный размер. Вопрос хороший, легко быть маленькой командой в 2-3 человека, но когда кол-во человек переваливает за 10, уже начинается хаос.

Есть ли у вас опыт с резким ростом команды и как все происходило? Стало лучше/хуже?

Inside Data by Mikkel Dengsøe

Data teams are getting larger, faster

On the relationship between data team size and complexity

👍16

7.02K viewsDmitry, 05:12

Инжиниринг Данных

Когда мы строим ETL, один из первоочередных вопросов, как мы хотим забирать данные из источника. Один из самых популярных терминов - CDC (Change Data Capture). То есть, мы хотим забрать только инкремент свежих данных с минимальной нагрузкой на ETL и источник.

Есть много способов внедрения этого подхода, начинаю с классчиских сервисов репликации как Oracle Golden Gate или AWS DMS и заканчиваю open source продуктами как Debezium.

Как у вас успехи с CDC?

PS есть хорошие материалы по debezium?

Redhat

What is change data capture?

Change data capture is a data integration pattern to track changes in data and alert other systems and services that must respond to those changes.

👍17🤔4

7.26K viewsDmitry, edited 19:15

Инжиниринг Данных

Хорошая статья, которая рассматривает стоимость современных аналитических решений в облаке, на первый взгляд все стоит дёшево,а по факту может получиться кругленькая сумма. https://blog.dataminded.com/why-rising-cloud-costs-are-the-silent-killers-of-data-platforms-52a98b371f28

Medium

Why rising cloud costs are the silent killers of data platforms

Building data platforms in the cloud is changing. Gone are the days that you would manually set up a few EC2 instances and run some modest…

🔥4🤬1

7.03K viewsDmitry, 14:57

Инжиниринг Данных

Сегодня услышал интересный statement в Microsoft. Тот случай когда и смешно и грустно одновременно. Я пообщался с другой командой про internal transfer, и все вроде бы хорошо, только есть одно маленькое НО. Для senior инженеров сначала должны рассматриваться кандидаты отвечающие требованиям diversity&inclusion, поэтому предложили подождать лучших времен😁

Зато когда общался с обычной SaaS компанией про позицию Data Engineer, меня собеседовало 5 мужиков (инженеры и менеджеры). Про D&I там пока не заморачиваются. И я ответил им на вопрос про Time&Space Complexity алгоритма! Вот это повод собой годиться😂

😁28👍14🤬6🔥3🤔3😢2

6.8K viewsDmitry, edited 19:47

Инжиниринг Данных

Недавно посетители книжного клуба пригласи автора небезызвестного "кабанчика" на встречу - Interview Martin Kleppmann

YouTube

Interview Martin Kleppmann

Мы организовали интервью с тем самым Мартином Клеппманном книгу которого мы прочитали - Designing Data-Intensive Applications. Обсудим книгу, поговорим про будущее data systems и о новых исследованиях Мартина:
📍 https://www.inkandswitch.com/local-first/ …

👍23❤1

7.07K viewsDmitry, 02:38

About

Blog

Apps

Platform