Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
#dataengineering

ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).

А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).

Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.
Matillion прям сыпит сегодня интересными white papers. Еще одна - Data Analytics Platform. В терминологии можно совсем запутаться. Это теже яйца, только в профиль🙈. Интересно, что лучше покупают, Data Platform или Data Warehouse.
Бесплатный вебинар по Tableau от Zen Master
Каждый год Gartner публикует Magic Quadrant для различных технологий. Например, есть для BI, есть про ETL, есть про Data Platforms и тп. Раньше это было больше про Хранилища Данных, теперь сместилось к платформам, так как под разные задачи существуют разные решения (Например Redshift + Elastic Map Reduce - разные технологии и решают разные задачи, но служат для аналитики и доступны в AWS)

Каждый год с начала моей аналитической карьеры я всегда с удовольствием рассматриваю их картинки. И вот сейчас они опубликовали за 2019, где можно найти все топовые аналитические платформы (Leaders Quadrant): Snowflake, BigQuery, Dataproc, Bigtable и другие (Google), Teradata, Redshift, EMR (AWS), Azure SQL DW (Microsoft) или свежые продукты (Niche Players) - Alibab cloud (может есть чего у них, чтобы бесплатно использовать?)

Для меня это самый лучший способ посмотреть на тренды рынка и основные фичи продуктов.
Magic Quadrant for Data Management Solutions for Analytics
Если бы Тони Роббинс выступил на айтишной конференции...(попалось на FB)
Все привет! Если вы любите смотреть как кто-нибудь сравнивает вендоров аналитического софта, то вот вам еще один отчет - Analytical Data Infrastructure Market Study 2019, причем очень свежий. От Dresner Advisory Services. В нем сравниваю так называемые Инфраструктуры для Аналитики Данных (Analytical Data Infrastructure), надеюсь я правильно перевел. Все больше и больше терминов, которые по сути про одно и тоже.

Инфраструктуры для Аналитики Данных - набор технологических компонентов для интеграция, моделирования, управления, хранения и доступа к данным, которые служат для аналитических нужд (пользователей, приложений, инструментов).

Они опросили 5000 человек из разных организация и разных стран, построили много графиков в экселе во всех возможных разрезах. И потом продали вендорам, у меня вот копия Snowflake. Мне это напоминает учет вальдшнепа в Московской Области, я помогал отцу, мне нужно было в деревне вечером 2 час стоять и слушать/смотреть вальдшнепов и заносить информацию о птицах в анкету. На основе этой выборки можно было сказать о миграции вальдшнепа. Отец даже диссертацию по этой теме написал. А тут вместо вальдшнепов у нас вендоры с их решениями для Хранилищ данных. Интересно, пользователей тоже в лесу ловили, или как Gartner предлагали в замен 20$ карточку Амазон (я уже наверно на 200 долларов поотвечал, не могу сказать что честно, времени не было в вопросы вчитываться), вот так и работает индустрия.

По результатам:
💋83% ответили, что им необходимы такие штуки для Отчетности, 43% за data science и 35% просто попробовать хотять и посмотреть как работает.
💋Цена решения не очень важна, как и корпоративные стандарты
💋60% считают, что лучше иметь одно решения (впринципе очевидно, но вот, например, HootSuite использует Snowflake и BigQuery, то есть просто каждый департамент пилит, что-то свое, а компания теряет деньги)
💋Большинство предпочитают облачное решение
💋30% хотят гибридное решение (cloud and on-premise)
💋Из-за большого разнообразия решений и возможностей, которые они предоставляют, очень сложно выбрать стратегию для руководителей
Преимущества Облачных Вычислений (AWS слайд)
Cool news from frineds: Clutch’s research team chose over 300 companies as the highest-performing service providers in Canada, based on the quality of their client feedback, industry leadership, services offered, clientele, and market presence.
Еще одна бесплатная онлайн конференция по аналитике - Analytics Best Practices, не понятно что там будет конкретно, но упоминают: Strategy, Culture, Tactics, Results.
#dataengineering

Еще парочку интересных постов от компании UPSIDE. Первый про миграцию из Redshift на Snowflake. Пока мы тут обсуждаем преимущетсва облака, ребята уже наигрались в Redshift, и мигрировали на Snowflake в качестве Хранилища Данных и Matillion как основной ETL. При этом они сэкономили 70% от стоимсти Redshift за счета распределенный архитектуры (хранение данных и вычисления). Если вы строити хранилище в облаке, стоит задуматься. Если есть вопросы по облачным аналитическим решениям, могу подсказать.

Другой пост от CTO, о том, как они немного устали от AWS. Несмотря на то, что AWS лидеры, не все так хорошо и не всегда работает для конкретных случаем.
#dataengineering

Еще интерсный пост из этой же серии. Ребята из Fivetran (ETL продукт), проверили производительнось Redshift, Snowflake, Azure DW, Presto, BigQuery и сравнили скорость и цены.

Я вот недавно узнал, про becnhmark для аналитических решений, оказывается есть стандартизированные базы данных разных размеров под разные кейсы. Существуют не комеерческая организация TPC, которая появилась в 80х и они начинали с ATM машин и транзакционных систем. Если вам интересно, можете почитать больше по ссылке.

Для аналитических решений используется база TPC-DS. Например, в Snowflake она уже доступно по умолчанию, в Redshift я не видел, но мне кажется, вам придется загружать самим. В TPC есть уже эти базы под различные БД (Oracle, Teradata, ..)

В нашем примере ипользовали данные 2х размеров: 100Гб(400 млн строк) и 1ТБ(4 млр строк). Так жы использовали сложные запросы от TPC (без кеширования).

В принципе у них получось все почти одинаково, так как они хотели просто пропиариться. Мне бы было интересно такой тест провести, но это требует времени на подготовку и будет стоить денег за ресурсы.