DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Serverless Data Lake Framework Workshop :: Serverless Data Lake Framework (SDLF) Workshop
https://sdlf.workshop.aws/
Внезапно! От издательства Packt Publishing вышла книга Data Engineering with Python: https://www.packtpub.com/product/data-engineering-with-python/9781839214189
В книге акцент уделён построению дата пайплайнов на Apache Airflow и Apache NiFi. Также есть главы, посвященные Kafka и Spark.
Лекции про распределенные системы: https://www.youtube.com/playlist?list=PLeKd45zvjcDFUEv_ohr_HdUFe97RItdiB
Набор AWS воркшопов: https://www.workshops.aws/
Forwarded from Data1984
Some important updates from #AWS :
Amazon Kinesis Data Streams enables data stream retention up to one year.
Now you can export your Amazon DynamoDB table data to your data lake in Amazon S3 to perform analytics at any scale.
Amazon Redshift now supports modifying column compression encodings to optimize storage utilization and query performance
Amazon Athena announces availability of engine version 2
Нашел интересный проект от Apache (пока на стадии инкубатора) — Apache Liminal: http://liminal.incubator.apache.org/
Платформа для оркестрации машинного обучения. Насколько понял, под капотом используется Apache Airflow.
Я чуть выше публиковал серию лекций про распределённые системы от Мартина Клепмана, а вот недавно появился пост у него в блоге: https://martin.kleppmann.com/2020/11/18/distributed-systems-and-elliptic-curves.html
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Netflix создал еще одно решение - Бульдозер, для экспорта данных из хранилища данных в NoSQL. https://netflixtechblog.com/bulldozer-batch-data-moving-from-data-warehouse-to-online-key-value-stores-41bac13863f8