NEW BOT Телеграм, страница

DataEng

Смотрите какой апдейт у Dagster подкатил: https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory

- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine

Здоровая конкуренция среди workflow менеджеров прям радует 💪

dagster.io

Dagster 0.10.0: The Edge of Glory | Dagster Blog

In 0.10.0, we introduce unique event-based scheduling capabilities, hardened deployments on Kubernetes, and new primitives for persistence.

1.27K views08:15

DataEng

Вышел Apache Superset 1.0: https://preset.io/blog/2021-01-18-superset-1-0/

preset.io

Apache Superset 1.0 is out!

Apache Superset 1.0 is officially released! Explore the major milestone features, usability improvements, and what's next for the project.

2.48K views02:48

DataEng

Airflow на AWS Fargate: https://aws.amazon.com/blogs/containers/running-airflow-on-aws-fargate/

Amazon

Running Airflow on AWS Fargate | Amazon Web Services

Apache Airflow is an open-source distributed workflow management platform that allows you to schedule, orchestrate, and monitor workflows. Airflow helps you automate and orchestrate complex data pipelines that can be multistep with inter-dependencies. This…

1.19K views10:56

DataEng

Нашел ещё один блог про data engineering: https://www.alisa-in.tech/post/

1.05K views13:37

DataEng

https://karen-tovmasyan.medium.com/dynamodb-deep-dive-chapter-4-55b207b44866

Medium

Amazon DynamoDB Deep Dive. Chapter 4: Data Modeling, Best Practices, What’s next

The story of one of the world’s fastest database in a human-friendly format

876 views08:50

DataEng

Очередной крутой пост от ребят из Astronomer, на этот раз про Airflow и Change Data Capture https://www.astronomer.io/blog/change-data-capture-with-apache-airflow
Жаль правда разбирают только Google CloudSQL 🙄

www.astronomer.io

Near-Real-Time CDC with Airflow: Scheduled GCP Extract

Learn how to implement near-real-time Change Data Capture (CDC) in Airflow using a scheduled GCP CloudSQL export approach for data pipelines.

957 views10:35

DataEng

Кейс Dropbox по использованию Apache Superset: https://dropbox.tech/application/why-we-chose-apache-superset-as-our-data-exploration-platform

dropbox.tech

Why we chose Apache Superset as our data exploration platform

3.29K views02:45

DataEng

Интересный сборник data engineering материала: https://github.com/abhishek-ch/around-dataengineering

GitHub

GitHub - abhishek-ch/around-dataengineering: A Data Engineering & Machine Learning Knowledge Hub

A Data Engineering & Machine Learning Knowledge Hub - abhishek-ch/around-dataengineering

1.1K views15:48

DataEng

https://medium.com/whispering-data/the-end-of-etl-as-we-know-it-92166c19084c

Medium

The End of ETL As We Know It

If you’re as sick of this three-letter phrase as I am, you’ll be happy to know there is another way.

1.07K views09:15

DataEng

Всем привет! 👋

Сейчас я занялся разработкой курса про Apache Airflow 2.0. В связи с этим подготовил небольшой пост в блоге: https://khashtamov.com/ru/apache-airflow-course/

⏲ Планирую закончить его ближе к концу февраля, сейчас работа идёт полным ходом 🔧

Если вам был бы интересен такой курс, то оставьте, пожалуйста, свой электронный адрес на форме. Как только курс будет готов для раннего доступа я вышлю вам приглашение, также вы получите 20% скидку. Цена скорее всего не будет превышать 3000 рублей. Более подробно о формате и приблизительном плане курса читайте в посте в блоге.

Khashtamov

Курс Apache Airflow 2.0

UPDATE: Курс доступен на платформе StartDataJourney, разработанной мною же. Приятного обучения - Apache Airflow 2.0: практический курс.Наверняка вы читали мой пост про введение в Apache A…

3.23K views14:27

DataEng

Apache Flink SQL Cookbook: https://github.com/ververica/flink-sql-cookbook

GitHub

GitHub - ververica/flink-sql-cookbook: The Apache Flink SQL Cookbook is a curated collection of examples, patterns, and use cases…

The Apache Flink SQL Cookbook is a curated collection of examples, patterns, and use cases of Apache Flink SQL. Many of the recipes are completely self-contained and can be run in Ververica Platfor...

994 views11:06

DataEng

В Стэнфорде сейчас проходит интересный курс Machine Learning Systems Design. К сожалению, видеолекций пока нет, непонятно будут ли они позже выложены, но есть интересные Lecture notes. Вчера обнаружил такую заметку по теме Data engineering. Она скорее для начинающих, но даёт хороший структурированный фундамент для входа в эту область. Рекомендую для ознакомления!

Google Docs

cs329s_03_note_data_engineering

3.33K views04:25

DataEng

В новом выпуске подкаста TalkPython гостем стал ведущий другого подкаста про Data Engineering — Tobias Macey.
Подкаст получился обзорным и интересным — The Data Engineering Landscape in 2021

talkpython.fm

The Data Engineering Landscape in 2021

I'm sure you're familiar with data science. But what about data engineering? Are these the same or how are they related?

1.46K views06:40

DataEng

Интересная большая статья от Alibaba Cloud про концепции озера данных: https://alibaba-cloud.medium.com/data-lake-concepts-characteristics-architecture-and-case-studies-28be1b265624
В том числе автор проводит сравнительный анализ на примере разных облачных провайдеров (AWS, Azure, Alibaba)

Medium

Data Lake: Concepts, Characteristics, Architecture, and Case Studies

This article provides deep insights into the data lake concept and compares some common solutions available in the market.

2.33K views05:15

DataEng

Два бомбических поста про базы данных:

1. Why I love databases
2. How Sharding Works

Medium

Why I love databases

Initially forced by necessity, I soon became fascinated by databases. The study of databases intersects almost every topic in computer science — its theory and implementation are both sophisticated…

2.46K views11:40

DataEng

Forwarded from DevBrain

Подборка снипетов кода на Python, которые могут ввести в заблуждение и расходиться с привычным для вас поведением: https://github.com/satwikkansal/wtfpython
Такие штуки могут пригодиться на собеседованиях. К сожалению, есть ещё люди, которые судят о ваших знаниях языка на основе таких перлов (о которых сами узнали буквально пару дней назад 🤣)

GitHub

GitHub - satwikkansal/wtfpython: What the f*ck Python? 😱

What the f*ck Python? 😱. Contribute to satwikkansal/wtfpython development by creating an account on GitHub.

841 views09:26

DataEng

Пока готовлю курс и пишу практические примеры, попутно копаюсь в коде Airflow. В один из таких заходов решил заюзать TelegramOperator, который появился во второй версии в декабре. При первом же запуске понял, что код нерабочий. Автор кода его даже не тестировал 😂

Проблема была в шаблонных полях при передаче сообщений в телеграм. Как итог сделал первый пул-реквест в Airflow, починил баги и покрыл всё это дело тестами. Исправления будут в версии 2.0.2.

999 views10:39

DataEng

Наткнулся на статью про эволюцию дата-инфраструктуры в Paypal. Как итог, открыл для себя ещё один инструмент Apache Gobblin. В Paypal более 300 миллионов пользователей, объём данных неуклонно растёт, куча легаси, сотни петабайт данных на Hadoop и других аналитических инструментах.

Я так понял, что и команд там много, каждая пользуется какими-то своими решениями для работы с данными. Чтобы выстроить централизованный процесс они решили перейти на Apache Gobblin и Apache Airflow. Первая балалайка это какой-то распределенный фреймворк, отвечающий за жизненный цикл данных, а Airflow все мы знаем и любим. Из коробки Gobblin не дружит с Airflow (но дружит со всякими Oozie и Azkaban), поэтому Paypal написали свой костыль.

Gobblin кажется интересным инструментом, сочетающим в себе все новомодные фразы типа data observability, data quality и т.д (хотя впервые увидел свет в 2015 году). Странно, что ещё не появилось managed решения на его основе.

Medium

Next-Gen Data Movement Platform at PayPal

…using Apache Airflow scheduler and Apache Gobblin — a data integration framework open-sourced by LinkedIn.

1.38K views13:00

DataEng

Весьма доступное объяснение работы Raft алгоритма: https://www.brianstorti.com/raft/
Ещё у автора есть хорошая статья про Actors: https://www.brianstorti.com/the-actor-model/

Brianstorti

Raft: Consensus made simple(r)

1.16K views05:42

DataEng

Хорошее вводное видео про старт в области data engineering: https://bit.ly/3k07XnC
Если вас не смущает индийский акцент, то в остальном очень даже полезная инфа.

YouTube

Getting started with Data Engineering and Live Q&A

#dataengineering #datascience #cloud

If you want to Master Apache Spark check this - https://www.youtube.com/playlist?list=PL3N9eeOlCrP5PfpYrP6YxMNtt5Hw27ZlO

For Google Cloud follow this - https://www.youtube.com/playlist?list=PL3N9eeOlCrP6Nhv4UFp67IsQ_TVDpXqXK…

1.2K views06:49

DataEng

Двумя постами выше упоминал про Apache Gobblin, а сегодня вышла новость о том, что проект переведён из статуса Incubating в статус Top-Level.

А это значит, что теперь проект соответствует всем требования Apache Foundation и становится полноценным Apache Project: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces73

Инструмент интересный, планировал поставить его и поиграться, а там глядишь и пост в блоге появится 😀

1.3K viewsedited 22:00

About

Blog

Apps

Platform