Forwarded from Mikhail Kumachev
Друзья!
В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.
Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн
В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.
2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.
Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/
Всех с Наступающим Новым Годом! Ждем вас на митапе!
В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.
Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн
В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.
2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.
Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/
Всех с Наступающим Новым Годом! Ждем вас на митапе!
В конце ноября Datafold проводили второй митап, посвященный теме качества данных. Ознакомиться с докладами и панельной дискуссией можно тут: https://www.datafold.com/blog/data-quality-meetup-2/
Datafold
Data Quality Meetup #2 Digest
Data Quality Meetup brings together professionals from data-driven teams and the community to share the best practices around data quality & governance.
Минутка саморекламы 😎
А вы знали, что в телеграм-боте @RemoteListBot можно подписаться на вакансии категории DataOps и получать в том числе предложения из сферы Data Engineering 👨🔧
А вы знали, что в телеграм-боте @RemoteListBot можно подписаться на вакансии категории DataOps и получать в том числе предложения из сферы Data Engineering 👨🔧
Серия вебинаро про TimescaleDB: https://www.youtube.com/playlist?list=PLsceB9ac9MHT3D_2voE2DUUlHgG3yEUEw
YouTube
Timescale Webinars - YouTube
Нашел библиотеку для построения ETL на базе Celery: https://ovh.github.io/celery-director/
А вы использовали AWS Lambda для стриминговой аналитики?
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/
https://aws.amazon.com/ru/blogs/compute/using-aws-lambda-for-streaming-analytics/
Amazon
Using AWS Lambda for streaming analytics | Amazon Web Services
With tumbling windows, you can calculate aggregate values in near-real time for Kinesis data streams and DynamoDB streams. Unlike existing stream-based invocations, state can be passed forward by Lambda invocations. This makes it easier to calculate sums…
Интересный кейс построения lake house на базе Redshift, AWS Lambda и Athena: https://aurochssolutions.com/blog/build-a-real-time-data-lake-with-aws-lambda-redshift-athena/
Aurochs Solutions
Build a real-time data lake with AWS Lambda, Redshift and Athena - Aurochs Solutions
As data sources grow even early-stage, pre-commercialization healthcare organizations need to adopt data stores, lakes and warehouses to enable analysis of prenoscription.
Вчера на главной странице HackerNews появился пост: We Don't Need Data Scientists, We Need Data Engineers
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪
Mihaileric
We Don't Need Data Scientists, We Need Data Engineers
After analyzing 1000+ Y-Combinator Companies, I discover there's a huge market need for more engineering-focused data practitioner roles.
Большая просьба 🆘
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.
Нашел в сети как два человека обсуждают мою статью про дата инженера на английском: https://youtu.be/UvmDBXNDeVE
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.
YouTube
Where Data Engineering Is Going In 2021 - Monday Morning Data Chat (1/18/2021)
This week, we discuss two blog posts on becoming a data engineer and the demand for data engineers at tech startups. We also discuss where we think data engineering is going in 2021.
Blog posts we discuss.
How to become a data engineer: https://khashtamov.com/en/how…
Blog posts we discuss.
How to become a data engineer: https://khashtamov.com/en/how…
Смотрите какой апдейт у Dagster подкатил: https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory
- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine
Здоровая конкуренция среди workflow менеджеров прям радует 💪
- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine
Здоровая конкуренция среди workflow менеджеров прям радует 💪
dagster.io
Dagster 0.10.0: The Edge of Glory | Dagster Blog
In 0.10.0, we introduce unique event-based scheduling capabilities, hardened deployments on Kubernetes, and new primitives for persistence.
Airflow на AWS Fargate: https://aws.amazon.com/blogs/containers/running-airflow-on-aws-fargate/
Amazon
Running Airflow on AWS Fargate | Amazon Web Services
Apache Airflow is an open-source distributed workflow management platform that allows you to schedule, orchestrate, and monitor workflows. Airflow helps you automate and orchestrate complex data pipelines that can be multistep with inter-dependencies. This…
Очередной крутой пост от ребят из Astronomer, на этот раз про Airflow и Change Data Capture https://www.astronomer.io/blog/change-data-capture-with-apache-airflow
Жаль правда разбирают только Google CloudSQL 🙄
Жаль правда разбирают только Google CloudSQL 🙄
www.astronomer.io
Near-Real-Time CDC with Airflow: Scheduled GCP Extract
Learn how to implement near-real-time Change Data Capture (CDC) in Airflow using a scheduled GCP CloudSQL export approach for data pipelines.