Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Из моей презентации, Озеро Данных - для чайников. На примере, мы делаем фотку, сохраняем в облаком (Ingestion and Storage), фото обрабатывается и собираются метаданные (Process), и мы можем обращаться к данным (Catalog and Search), ну конечно все очень Secure.
А так выглядит data lake by AWS. Все данных сохраняются в S3. Главный challenge это собрать метаданные, чтобы люди могли самостоятельно найти данные, которые им нужны.
Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.
А вот ребята из Twitch, у них все по взрослому, 96 нод Redshift Cluster и 2.2 PB Parquet озеро данных в котором 1300 exernal tables. Главный challenge - Metadata
Они написали свои тулзы - Sheik, для трансформаций
Mode для exploration данных, аналог looker. Кстати про looker сказали, что хрень полная))
Табло у них тоже есть
Сейчас они активно внедряют Alation, как я понял очень крутой инструмент, собиарет метаданные из табло, хранилища и тп, собирает статистику по использованию таблиц, и вообще замечательный продукт. Такой же отзыв я слышал от ребят из GoDaddy.
Когда мы говорим про Cloud Analytics, важно знать типы сервисов IaaS, CaaS, PaaS, FaaS, Saas. На картинке с пиццей видно преимущество каждого сервиса.
Свежый отчет Gartner по Традиционным Хранилищам Данных.
Хорошая визуализация разделения ответственности между провайдером и клиентом
Вот это крутая штука - бесплатная БД mysql - https://remotemysql.com/ всамый раз поучиться или собрать аналитику для своего проекта
Немного не в тему, но очень классная реклама Канады https://youtu.be/xYJ1LtTvofU