А вы использовали AWS Lambda для стриминговой аналитики?
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/
Amazon
Using AWS Lambda for streaming analytics | Amazon Web Services
With tumbling windows, you can calculate aggregate values in near-real time for Kinesis data streams and DynamoDB streams. Unlike existing stream-based invocations, state can be passed forward by Lambda invocations. This makes it easier to calculate sums…
Интересный кейс построения lake house на базе Redshift, AWS Lambda и Athena: https://aurochssolutions.com/blog/build-a-real-time-data-lake-with-aws-lambda-redshift-athena/
Aurochs Solutions
Build a real-time data lake with AWS Lambda, Redshift and Athena - Aurochs Solutions
As data sources grow even early-stage, pre-commercialization healthcare organizations need to adopt data stores, lakes and warehouses to enable analysis of prenoscription.
Вчера на главной странице HackerNews появился пост: We Don't Need Data Scientists, We Need Data Engineers
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪
Mihaileric
We Don't Need Data Scientists, We Need Data Engineers
After analyzing 1000+ Y-Combinator Companies, I discover there's a huge market need for more engineering-focused data practitioner roles.
Большая просьба 🆘
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.
Нашел в сети как два человека обсуждают мою статью про дата инженера на английском: https://youtu.be/UvmDBXNDeVE
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.
YouTube
Where Data Engineering Is Going In 2021 - Monday Morning Data Chat (1/18/2021)
This week, we discuss two blog posts on becoming a data engineer and the demand for data engineers at tech startups. We also discuss where we think data engineering is going in 2021.
Blog posts we discuss.
How to become a data engineer: https://khashtamov.com/en/how…
Blog posts we discuss.
How to become a data engineer: https://khashtamov.com/en/how…
Смотрите какой апдейт у Dagster подкатил: https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory
- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine
Здоровая конкуренция среди workflow менеджеров прям радует 💪
- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine
Здоровая конкуренция среди workflow менеджеров прям радует 💪
dagster.io
Dagster 0.10.0: The Edge of Glory | Dagster Blog
In 0.10.0, we introduce unique event-based scheduling capabilities, hardened deployments on Kubernetes, and new primitives for persistence.
Airflow на AWS Fargate: https://aws.amazon.com/blogs/containers/running-airflow-on-aws-fargate/
Amazon
Running Airflow on AWS Fargate | Amazon Web Services
Apache Airflow is an open-source distributed workflow management platform that allows you to schedule, orchestrate, and monitor workflows. Airflow helps you automate and orchestrate complex data pipelines that can be multistep with inter-dependencies. This…
Очередной крутой пост от ребят из Astronomer, на этот раз про Airflow и Change Data Capture https://www.astronomer.io/blog/change-data-capture-with-apache-airflow
Жаль правда разбирают только Google CloudSQL 🙄
Жаль правда разбирают только Google CloudSQL 🙄
www.astronomer.io
Near-Real-Time CDC with Airflow: Scheduled GCP Extract
Learn how to implement near-real-time Change Data Capture (CDC) in Airflow using a scheduled GCP CloudSQL export approach for data pipelines.
Кейс Dropbox по использованию Apache Superset: https://dropbox.tech/application/why-we-chose-apache-superset-as-our-data-exploration-platform
dropbox.tech
Why we chose Apache Superset as our data exploration platform
Всем привет! 👋
Сейчас я занялся разработкой курса про Apache Airflow 2.0. В связи с этим подготовил небольшой пост в блоге: https://khashtamov.com/ru/apache-airflow-course/
⏲ Планирую закончить его ближе к концу февраля, сейчас работа идёт полным ходом 🔧
Если вам был бы интересен такой курс, то оставьте, пожалуйста, свой электронный адрес на форме. Как только курс будет готов для раннего доступа я вышлю вам приглашение, также вы получите 20% скидку. Цена скорее всего не будет превышать 3000 рублей. Более подробно о формате и приблизительном плане курса читайте в посте в блоге.
Сейчас я занялся разработкой курса про Apache Airflow 2.0. В связи с этим подготовил небольшой пост в блоге: https://khashtamov.com/ru/apache-airflow-course/
⏲ Планирую закончить его ближе к концу февраля, сейчас работа идёт полным ходом 🔧
Если вам был бы интересен такой курс, то оставьте, пожалуйста, свой электронный адрес на форме. Как только курс будет готов для раннего доступа я вышлю вам приглашение, также вы получите 20% скидку. Цена скорее всего не будет превышать 3000 рублей. Более подробно о формате и приблизительном плане курса читайте в посте в блоге.
Khashtamov
Курс Apache Airflow 2.0
UPDATE: Курс доступен на платформе StartDataJourney, разработанной мною же. Приятного обучения - Apache Airflow 2.0: практический курс.Наверняка вы читали мой пост про введение в Apache A…
Apache Flink SQL Cookbook: https://github.com/ververica/flink-sql-cookbook
GitHub
GitHub - ververica/flink-sql-cookbook: The Apache Flink SQL Cookbook is a curated collection of examples, patterns, and use cases…
The Apache Flink SQL Cookbook is a curated collection of examples, patterns, and use cases of Apache Flink SQL. Many of the recipes are completely self-contained and can be run in Ververica Platfor...
В Стэнфорде сейчас проходит интересный курс Machine Learning Systems Design. К сожалению, видеолекций пока нет, непонятно будут ли они позже выложены, но есть интересные Lecture notes. Вчера обнаружил такую заметку по теме Data engineering. Она скорее для начинающих, но даёт хороший структурированный фундамент для входа в эту область. Рекомендую для ознакомления!
Google Docs
cs329s_03_note_data_engineering
В новом выпуске подкаста TalkPython гостем стал ведущий другого подкаста про Data Engineering — Tobias Macey.
Подкаст получился обзорным и интересным — The Data Engineering Landscape in 2021
Подкаст получился обзорным и интересным — The Data Engineering Landscape in 2021
talkpython.fm
The Data Engineering Landscape in 2021
I'm sure you're familiar with data science. But what about data engineering? Are these the same or how are they related?