Доклады с последнего DE or DIE митапа:
- Своя песочница – как сделать кластер для инженера данных
- Data governance – что это, зачем, и с чего начать
- Своя песочница – как сделать кластер для инженера данных
- Data governance – что это, зачем, и с чего начать
YouTube
DE or DIE #4. Артем Селезнев – Своя песочница – как сделать кластер для инженера данных
Материалы всех наших митапов: https://deordie.com
Наш чат в Telegram: https://news.1rj.ru/str/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Автор доклада: Артем Селезнев, Senior Data Engineer, Сбербанк.
Отличные коробочные решения…
Наш чат в Telegram: https://news.1rj.ru/str/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Автор доклада: Артем Селезнев, Senior Data Engineer, Сбербанк.
Отличные коробочные решения…
Хороший доклад про базы данных от сотрудницы Яндекса: https://www.youtube.com/watch?v=YjSIdz8DnAo
YouTube
04. Базы Данных – Татьяна Денисова
Во время лекции мы поговорим о том, что такое данные, какие базы данных бывают и чем они отличаются. Вы узнаете, какие особенности работы с базами данных нужно иметь в виду разработчику.Обсудим, как характеризовать, структурировать и хранить данные — с расчетом…
Ищите проект в области data engineering на котором можно потренироваться и чтобы не было стыдно показать при устройстве на работу?
Тогда эта статья для вас: https://www.startdataengineering.com/post/data-engineering-project-for-beginners-stream-edition/
Тогда эта статья для вас: https://www.startdataengineering.com/post/data-engineering-project-for-beginners-stream-edition/
Start Data Engineering
Data Engineering Project: Stream Edition – Start Data Engineering
Stream processing differs from batch; one needs to be mindful of the system’s memory, event order, and system recovery in case of failures. However, understanding the fundamental concepts of time attributes, cluster memory, time-bounded joins, and system…
Гайд про XComs в Apache Airflow: https://www.youtube.com/watch?v=zw9Vy42IwG0
YouTube
Getting started with XComs in Apache Airflow
Welcome in Getting started with XComs in Apache Airflow
My name is Marc Lamberti and I'm super excited to see you there.
Indeed, you are going to discover how to get started with XComs in Apache Airflow.
As you can see from the curriculum below, you are…
My name is Marc Lamberti and I'm super excited to see you there.
Indeed, you are going to discover how to get started with XComs in Apache Airflow.
As you can see from the curriculum below, you are…
Кейс нашей компании по использованию облачного сервиса AWS: https://aws.amazon.com/ru/solutions/case-studies/playrix/
Amazon
Playrix Case Study
Playrix uses AWS to produce a 10-times increase in analytic querying speed and store and process 5 TB of data with zero bottlenecks to garner strong data insights that improve the end user experience.
Про Apache Beam за 12 минут: https://www.youtube.com/watch?v=yZUe4th9gwY
YouTube
Apache Beam Explained in 12 Minutes
Apache Beam is a popular parallel processing framework. In this video, Alexandra will give you an overview of Apache Beam and by the end of the video you will hopefully have the skills that you need to write a simple pipeline.
Source code - https://gith…
Source code - https://gith…
Serverless Data Lake Framework Workshop :: Serverless Data Lake Framework (SDLF) Workshop
https://sdlf.workshop.aws/
https://sdlf.workshop.aws/
sdlf.workshop.aws
Serverless Data Lake Framework (SDLF) Workshop
Внезапно! От издательства Packt Publishing вышла книга Data Engineering with Python: https://www.packtpub.com/product/data-engineering-with-python/9781839214189
В книге акцент уделён построению дата пайплайнов на Apache Airflow и Apache NiFi. Также есть главы, посвященные Kafka и Spark.
В книге акцент уделён построению дата пайплайнов на Apache Airflow и Apache NiFi. Также есть главы, посвященные Kafka и Spark.
Packt
Data Engineering with Python | Packt
Build, monitor, and manage real-time data pipelines to create data engineering infrastructure efficiently using open-source Apache projects
Для Redshift выпущен коннектор под Python: https://github.com/aws/amazon-redshift-python-driver
GitHub
GitHub - aws/amazon-redshift-python-driver: Redshift Python Connector. It supports Python Database API Specification v2.0.
Redshift Python Connector. It supports Python Database API Specification v2.0. - aws/amazon-redshift-python-driver
Отличный материал про сравнение самых популярных облачных хранили: BigQuery, Amazon Redshift и Snowflake — https://poplindata.com/data-warehouses/2020-database-showdown-bigquery-vs-redshift-vs-snowflake/
Snowplow
Snowplow Behavioral Data Platform - Fuel AI, Analytics, Marketing | Snowplow
Snowplow empowers organizations to unlock the value of its customer behavioral data in their cloud data warehouse to fuel next-gen AI, analytics, and marketing.
На платформе Udemy можно бесплатно зарегистрироваться на курс Google Associate Cloud Engineer 2020: https://www.udemy.com/course/google-certified-associate-cloud-engineer-2019-prep-course/
Udemy
Google Cloud Associate Cloud Engineer: Get Certified 2024
Learn How to Pass the Exam from the author of the Official Certification Guide for Google
Ссылка с купоном на бесплатный курс: https://www.udemy.com/course/google-certified-associate-cloud-engineer-2019-prep-course/?couponCode=23FFEC011AB4ED7E351B
Udemy
Google Cloud Associate Cloud Engineer: Get Certified 2024
Learn How to Pass the Exam from the author of the Official Certification Guide for Google
Лекции про распределенные системы: https://www.youtube.com/playlist?list=PLeKd45zvjcDFUEv_ohr_HdUFe97RItdiB
Forwarded from Data1984
A comparison of data version control tools.
https://dagshub.com/blog/data-version-control-tools/
https://dagshub.com/blog/data-version-control-tools/
DagsHub Blog
Comparing Data Version Control Tools - 2020
Data versioning is one of the keys to automating a team's machine learning model development. While it can be very complicated if your team attempts to develop its own system to manage the process, this doesn’t need to be the case.