NEW BOT Телеграм, страница

Инжиниринг Данных

А так выглядит data lake by AWS. Все данных сохраняются в S3. Главный challenge это собрать метаданные, чтобы люди могли самостоятельно найти данные, которые им нужны.

662 views20:58

Инжиниринг Данных

Вот мой кейс, когда traditional ELT не смог справиться с объемом, загрузка одного файла в Redshift занимает 1мин, у меня 5600 файлов в день. Поэтому использовал EMR (Hadoop) + Spark (PySpark где описал логику трансформаций). Результат сохраняется в S3 в Parquet формате. AWS Glue Crawler сканирует файлы и обновляет External Table (Hive Metastore), как результат пользователи могут писать SQL запросы через Redshift Spectrum. Примерно такое же решение можно собрать в Azure и GCP.

672 views21:02

Инжиниринг Данных

623 views21:03

Инжиниринг Данных

612 views21:03

Инжиниринг Данных

А вот ребята из Twitch, у них все по взрослому, 96 нод Redshift Cluster и 2.2 PB Parquet озеро данных в котором 1300 exernal tables. Главный challenge - Metadata

600 views21:04

Инжиниринг Данных

Они написали свои тулзы - Sheik, для трансформаций

586 views21:05

Инжиниринг Данных

Mode для exploration данных, аналог looker. Кстати про looker сказали, что хрень полная))

607 viewsedited 21:06

Инжиниринг Данных

Табло у них тоже есть

628 views21:06

Инжиниринг Данных

Сейчас они активно внедряют Alation, как я понял очень крутой инструмент, собиарет метаданные из табло, хранилища и тп, собирает статистику по использованию таблиц, и вообще замечательный продукт. Такой же отзыв я слышал от ребят из GoDaddy.

781 viewsedited 21:08

Инжиниринг Данных

Когда мы говорим про Cloud Analytics, важно знать типы сервисов IaaS, CaaS, PaaS, FaaS, Saas. На картинке с пиццей видно преимущество каждого сервиса.

903 views05:05

Инжиниринг Данных

707 views15:15

Инжиниринг Данных

Свежый отчет Gartner по Традиционным Хранилищам Данных.

663 views04:00

Инжиниринг Данных

https://info.matillion.com/webinar-machine-learning

Matillion

[Webinar] Successful Machine Learning starts with Data Transformation

Your business needs to process and understand growing data volumes faster to generate meaningful insights - empowering data-driven decisions to be made across your organization. Machine learning can help you automate the data exploration and analysis process.

641 views05:30