Серия вебинаро про TimescaleDB: https://www.youtube.com/playlist?list=PLsceB9ac9MHT3D_2voE2DUUlHgG3yEUEw
YouTube
Timescale Webinars - YouTube
Нашел библиотеку для построения ETL на базе Celery: https://ovh.github.io/celery-director/
А вы использовали AWS Lambda для стриминговой аналитики?
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/
Amazon
Using AWS Lambda for streaming analytics | Amazon Web Services
With tumbling windows, you can calculate aggregate values in near-real time for Kinesis data streams and DynamoDB streams. Unlike existing stream-based invocations, state can be passed forward by Lambda invocations. This makes it easier to calculate sums…
Интересный кейс построения lake house на базе Redshift, AWS Lambda и Athena: https://aurochssolutions.com/blog/build-a-real-time-data-lake-with-aws-lambda-redshift-athena/
Aurochs Solutions
Build a real-time data lake with AWS Lambda, Redshift and Athena - Aurochs Solutions
As data sources grow even early-stage, pre-commercialization healthcare organizations need to adopt data stores, lakes and warehouses to enable analysis of prenoscription.
Вчера на главной странице HackerNews появился пост: We Don't Need Data Scientists, We Need Data Engineers
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪
Mihaileric
We Don't Need Data Scientists, We Need Data Engineers
After analyzing 1000+ Y-Combinator Companies, I discover there's a huge market need for more engineering-focused data practitioner roles.
Большая просьба 🆘
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.
Нашел в сети как два человека обсуждают мою статью про дата инженера на английском: https://youtu.be/UvmDBXNDeVE
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.
YouTube
Where Data Engineering Is Going In 2021 - Monday Morning Data Chat (1/18/2021)
This week, we discuss two blog posts on becoming a data engineer and the demand for data engineers at tech startups. We also discuss where we think data engineering is going in 2021.
Blog posts we discuss.
How to become a data engineer: https://khashtamov.com/en/how…
Blog posts we discuss.
How to become a data engineer: https://khashtamov.com/en/how…
Смотрите какой апдейт у Dagster подкатил: https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory
- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine
Здоровая конкуренция среди workflow менеджеров прям радует 💪
- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine
Здоровая конкуренция среди workflow менеджеров прям радует 💪
dagster.io
Dagster 0.10.0: The Edge of Glory | Dagster Blog
In 0.10.0, we introduce unique event-based scheduling capabilities, hardened deployments on Kubernetes, and new primitives for persistence.
Airflow на AWS Fargate: https://aws.amazon.com/blogs/containers/running-airflow-on-aws-fargate/
Amazon
Running Airflow on AWS Fargate | Amazon Web Services
Apache Airflow is an open-source distributed workflow management platform that allows you to schedule, orchestrate, and monitor workflows. Airflow helps you automate and orchestrate complex data pipelines that can be multistep with inter-dependencies. This…
Очередной крутой пост от ребят из Astronomer, на этот раз про Airflow и Change Data Capture https://www.astronomer.io/blog/change-data-capture-with-apache-airflow
Жаль правда разбирают только Google CloudSQL 🙄
Жаль правда разбирают только Google CloudSQL 🙄
www.astronomer.io
Near-Real-Time CDC with Airflow: Scheduled GCP Extract
Learn how to implement near-real-time Change Data Capture (CDC) in Airflow using a scheduled GCP CloudSQL export approach for data pipelines.
Кейс Dropbox по использованию Apache Superset: https://dropbox.tech/application/why-we-chose-apache-superset-as-our-data-exploration-platform
dropbox.tech
Why we chose Apache Superset as our data exploration platform
Всем привет! 👋
Сейчас я занялся разработкой курса про Apache Airflow 2.0. В связи с этим подготовил небольшой пост в блоге: https://khashtamov.com/ru/apache-airflow-course/
⏲ Планирую закончить его ближе к концу февраля, сейчас работа идёт полным ходом 🔧
Если вам был бы интересен такой курс, то оставьте, пожалуйста, свой электронный адрес на форме. Как только курс будет готов для раннего доступа я вышлю вам приглашение, также вы получите 20% скидку. Цена скорее всего не будет превышать 3000 рублей. Более подробно о формате и приблизительном плане курса читайте в посте в блоге.
Сейчас я занялся разработкой курса про Apache Airflow 2.0. В связи с этим подготовил небольшой пост в блоге: https://khashtamov.com/ru/apache-airflow-course/
⏲ Планирую закончить его ближе к концу февраля, сейчас работа идёт полным ходом 🔧
Если вам был бы интересен такой курс, то оставьте, пожалуйста, свой электронный адрес на форме. Как только курс будет готов для раннего доступа я вышлю вам приглашение, также вы получите 20% скидку. Цена скорее всего не будет превышать 3000 рублей. Более подробно о формате и приблизительном плане курса читайте в посте в блоге.
Khashtamov
Курс Apache Airflow 2.0
UPDATE: Курс доступен на платформе StartDataJourney, разработанной мною же. Приятного обучения - Apache Airflow 2.0: практический курс.Наверняка вы читали мой пост про введение в Apache A…
Apache Flink SQL Cookbook: https://github.com/ververica/flink-sql-cookbook
GitHub
GitHub - ververica/flink-sql-cookbook: The Apache Flink SQL Cookbook is a curated collection of examples, patterns, and use cases…
The Apache Flink SQL Cookbook is a curated collection of examples, patterns, and use cases of Apache Flink SQL. Many of the recipes are completely self-contained and can be run in Ververica Platfor...