Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Нашел хорошее видео, которее сделал в 2013 году в Lamoda, Что такое Business Intelligence на примере Lamoda https://www.youtube.com/watch?v=xYExt37a9Qg&list=PLmUaI68_u1e1uZfyrxgROLPyhoO2ObIab
If you draw random samples from a population "enough" times and chart the sampling distribution, it will begin to look like Mr. Gauss' normal distribution (even if the underlying "original" distribution didn't look anything like a bell curve). It's the nature of "randomness" and one of the incredible facts of the universe. PS On a side note: this is what Mr. Gauss looked like on the 10-Deutschmark-bill (note the normal distribution curve in the background)
Амазон опубликовал Case Study про себя. Мне кажется основная цель было написать, как было плохо, когда был Oracle: Database administration for the Oracle data warehouse was complicated, expensive, and error-prone, requiring engineers to spend hundreds of hours each month on software upgrades, replication of data across multiple Oracle clusters, OS patching, and performance monitoring. Inefficient hardware provisioning required labor-intensive demand forecasting and capacity planning. It was also financially inefficient, being statically sized for peak loads and lacking the ability to dynamically scale for hardware cost optimization, with ever-increasing Oracle licensing costs.
94 страницы про Spark - руководство для Инженера данных от databricks
Мой коллега проходит курс Data Visualization and Communication with Tableau. Когда вы просмотрите лекции первой недели, вам дадут лицензию Табло на 6 месяцев.
23 января, бесплатная онлайн конференция по Data Goverance - это про управление данными внутри организации
Forwarded from Вастрик.Пынь
💌 Вастрик.Инсайд 39

По заявкам решил сделать выпуск о «войти вайти». Разобрал пять самых популярных вопросов.

— Недостаток айтишников — миф или правда?
— Нужен ли диплом и универ?
— Как легко изучать новые вещи?
— Карьерная лестница разработчика?
— Как оставаться востребованным?

https://vas3k.ru/inside/39/
#dataengineering

ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).

А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).

Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.
Matillion прям сыпит сегодня интересными white papers. Еще одна - Data Analytics Platform. В терминологии можно совсем запутаться. Это теже яйца, только в профиль🙈. Интересно, что лучше покупают, Data Platform или Data Warehouse.
Бесплатный вебинар по Tableau от Zen Master
Каждый год Gartner публикует Magic Quadrant для различных технологий. Например, есть для BI, есть про ETL, есть про Data Platforms и тп. Раньше это было больше про Хранилища Данных, теперь сместилось к платформам, так как под разные задачи существуют разные решения (Например Redshift + Elastic Map Reduce - разные технологии и решают разные задачи, но служат для аналитики и доступны в AWS)

Каждый год с начала моей аналитической карьеры я всегда с удовольствием рассматриваю их картинки. И вот сейчас они опубликовали за 2019, где можно найти все топовые аналитические платформы (Leaders Quadrant): Snowflake, BigQuery, Dataproc, Bigtable и другие (Google), Teradata, Redshift, EMR (AWS), Azure SQL DW (Microsoft) или свежые продукты (Niche Players) - Alibab cloud (может есть чего у них, чтобы бесплатно использовать?)

Для меня это самый лучший способ посмотреть на тренды рынка и основные фичи продуктов.
Magic Quadrant for Data Management Solutions for Analytics