Нашел хорошее видео, которее сделал в 2013 году в Lamoda, Что такое Business Intelligence на примере Lamoda https://www.youtube.com/watch?v=xYExt37a9Qg&list=PLmUaI68_u1e1uZfyrxgROLPyhoO2ObIab
YouTube
Introduction into DWH/BI
Do you want to know what DHW/BI is about?
Welcome!
Welcome!
If you draw random samples from a population "enough" times and chart the sampling distribution, it will begin to look like Mr. Gauss' normal distribution (even if the underlying "original" distribution didn't look anything like a bell curve). It's the nature of "randomness" and one of the incredible facts of the universe. PS On a side note: this is what Mr. Gauss looked like on the 10-Deutschmark-bill (note the normal distribution curve in the background)
Амазон опубликовал Case Study про себя. Мне кажется основная цель было написать, как было плохо, когда был Oracle: Database administration for the Oracle data warehouse was complicated, expensive, and error-prone, requiring engineers to spend hundreds of hours each month on software upgrades, replication of data across multiple Oracle clusters, OS patching, and performance monitoring. Inefficient hardware provisioning required labor-intensive demand forecasting and capacity planning. It was also financially inefficient, being statically sized for peak loads and lacking the ability to dynamically scale for hardware cost optimization, with ever-increasing Oracle licensing costs.
Amazon
Amazon Migration Analytics Case Study – Amazon Web Services (AWS)
Amazon migrated its analytics system from Oracle to AWS to enable greater agility, reduce operational cost and effort, and support growing performance needs. Amazon is the world’s leading online retailer and provides a wide range of cloud services through…
Мой коллега проходит курс Data Visualization and Communication with Tableau. Когда вы просмотрите лекции первой недели, вам дадут лицензию Табло на 6 месяцев.
Coursera
Data Visualization and Communication with Tableau
Offered by Duke University. One of the skills that ... Enroll for free.
23 января, бесплатная онлайн конференция по Data Goverance - это про управление данными внутри организации
Forwarded from Вастрик.Пынь
💌 Вастрик.Инсайд 39
По заявкам решил сделать выпуск о «войти вайти». Разобрал пять самых популярных вопросов.
— Недостаток айтишников — миф или правда?
— Нужен ли диплом и универ?
— Как легко изучать новые вещи?
— Карьерная лестница разработчика?
— Как оставаться востребованным?
https://vas3k.ru/inside/39/
По заявкам решил сделать выпуск о «войти вайти». Разобрал пять самых популярных вопросов.
— Недостаток айтишников — миф или правда?
— Нужен ли диплом и универ?
— Как легко изучать новые вещи?
— Карьерная лестница разработчика?
— Как оставаться востребованным?
https://vas3k.ru/inside/39/
#dataengineering
ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).
А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).
Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.
ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).
А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).
Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.
Matillion прям сыпит сегодня интересными white papers. Еще одна - Data Analytics Platform. В терминологии можно совсем запутаться. Это теже яйца, только в профиль🙈. Интересно, что лучше покупают, Data Platform или Data Warehouse.
Каждый год Gartner публикует Magic Quadrant для различных технологий. Например, есть для BI, есть про ETL, есть про Data Platforms и тп. Раньше это было больше про Хранилища Данных, теперь сместилось к платформам, так как под разные задачи существуют разные решения (Например Redshift + Elastic Map Reduce - разные технологии и решают разные задачи, но служат для аналитики и доступны в AWS)
Каждый год с начала моей аналитической карьеры я всегда с удовольствием рассматриваю их картинки. И вот сейчас они опубликовали за 2019, где можно найти все топовые аналитические платформы (Leaders Quadrant): Snowflake, BigQuery, Dataproc, Bigtable и другие (Google), Teradata, Redshift, EMR (AWS), Azure SQL DW (Microsoft) или свежые продукты (Niche Players) - Alibab cloud (может есть чего у них, чтобы бесплатно использовать?)
Для меня это самый лучший способ посмотреть на тренды рынка и основные фичи продуктов.
Каждый год с начала моей аналитической карьеры я всегда с удовольствием рассматриваю их картинки. И вот сейчас они опубликовали за 2019, где можно найти все топовые аналитические платформы (Leaders Quadrant): Snowflake, BigQuery, Dataproc, Bigtable и другие (Google), Teradata, Redshift, EMR (AWS), Azure SQL DW (Microsoft) или свежые продукты (Niche Players) - Alibab cloud (может есть чего у них, чтобы бесплатно использовать?)
Для меня это самый лучший способ посмотреть на тренды рынка и основные фичи продуктов.