Ребята из AppsFlyer поделились кейсом использования Apache Airflow: https://medium.com/appsflyer/how-appsflyer-uses-apache-airflow-to-run-over-3-5k-daily-jobs-and-more-683106cb24fc
Если не знаете что такое Airflow, велком в мою статью: https://khashtamov.com/ru/apache-airflow-introduction/
Если не знаете что такое Airflow, велком в мою статью: https://khashtamov.com/ru/apache-airflow-introduction/
Medium
How AppsFlyer uses Apache Airflow to run over 3.5k daily jobs and more
AppsFlyer is essentially a big data company, we get data from our SDK’s, transform and normalize the data, and then showing it on our…
В базе данных Amazon Redshift наконец то стали доступны материализованный представления (materialized views) для всех: https://aws.amazon.com/ru/blogs/aws/materialize-your-amazon-redshift-views-to-speed-up-query-execution/
Amazon
Materialize your Amazon Redshift Views to Speed Up Query Execution | Amazon Web Services
At AWS, we take pride in building state of the art virtualization technologies to simplify the management and access to cloud services such as networks, computing resources or object storage. In a Relational Database Management Systems (RDBMS), a view is…
Forwarded from DevBrain
И снова поговорим про ETL
На PyCon RU я сравнивал 2 ETL-инструмента в экосистема Python:
- Luigi
- Apache Airflow
И в конце упоминал ещё несколько батареек на которые стоит обратить внимание. Среди них был Prefect.
Это относительно новый инструмент, который появился в результате коллаборации разработчиков из Apache Airflow и Dask. Мотивацию о создании нового инструмента они описали в посте Why not Airflow?. Но сейчас не об этом.
Вчера состоялся новый релиз Prefect, где наконец появился UI дэшборд. Я до этого времени особо не обращал на него пристального внимания, т.к. именно UI фишечки и не хватало. Кстати, небольшой пример пайплайна на Prefect я писал в рамках подготовки к PyCon RU 19.
Материалы:
- NYC Yellow Taxi Data Pipeline на Prefect
- Примеры пайплайнов на Airflow, Luigi, Prefect для выступления на PyCon RU 19
- Доклад на PyCon RU 19: ETL инструменты в экосистеме Python
- Сайт Prefect
На PyCon RU я сравнивал 2 ETL-инструмента в экосистема Python:
- Luigi
- Apache Airflow
И в конце упоминал ещё несколько батареек на которые стоит обратить внимание. Среди них был Prefect.
Это относительно новый инструмент, который появился в результате коллаборации разработчиков из Apache Airflow и Dask. Мотивацию о создании нового инструмента они описали в посте Why not Airflow?. Но сейчас не об этом.
Вчера состоялся новый релиз Prefect, где наконец появился UI дэшборд. Я до этого времени особо не обращал на него пристального внимания, т.к. именно UI фишечки и не хватало. Кстати, небольшой пример пайплайна на Prefect я писал в рамках подготовки к PyCon RU 19.
Материалы:
- NYC Yellow Taxi Data Pipeline на Prefect
- Примеры пайплайнов на Airflow, Luigi, Prefect для выступления на PyCon RU 19
- Доклад на PyCon RU 19: ETL инструменты в экосистеме Python
- Сайт Prefect
Medium
Why Not Airflow?
An overview of the Prefect engine for Airflow users
А вот и новость от самих ребят из Prefect о релизе Prefect UI: https://medium.com/the-prefect-blog/open-sourcing-the-prefect-platform-d19a6d6f6dad
Medium
Open-Sourcing the Prefect Platform
Today, we’re taking a huge step forward and open-sourcing an orchestration layer for Prefect — including the Prefect Cloud UI.
Ура! Я наконец завершил создание курса по построению дата-пайплайнов в Python, используя фреймворк Luigi: Введение в Data Engineering: дата-пайплайны
Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он будет размещаться. Выбор пал в сторону Stepik по ряду причин: удобные инструменты, хорошее сообщество и условия по продаже курса. Первые уроки стали доступны в начале ноября 2019 года, тогда же стартовали продажи. К сожалению, на протяжении длительного периода не появлялся новый материал. Я прошу прощения у всех, кто купил курс и ждал материал так долго. В тот период был некоторый завал на работе, квартирный ремонт и череда болезней. Как итог, получил парочку негативных отзывов о курсе, вполне справедливо. К счастью, мне удалось решить все проблемы и продолжить наполнение новым и интересным контентом. Честно говоря я не ожидал, что простой казалось бы с виду курс отнимет столько времени и сил. Я не надеюсь, что затраченные усилия окупятся в денежном плане, но я безумно рад, что получил интересный, а главное суперполезный опыт. И считаю, что курс получился уникальным. Почему?
Я постарался сделать его максимально практическим, но в то же время не забыл про теорию и мотивацию. В курсе разобраны 5 практических задач от банального Hello World пайплайна до кастомных нотификаций об ошибках при выполнении в Telegram. Затронул не менее важную тему деплоя пайплайнов на продакшен, используя Docker. В конце курса подробно описал один из вариантов деплоя на serverless технологиях Amazon Web Services, используя Fargate, ECS, Cloud Map, Route 53. Такого материала вы нигде не найдёте. Курс получился миксом из текста и видео уроков.
Если вам интересна тема data engineering и построения дата пайплайнов на Python, то милости прошу по ссылке: https://bit.ly/3ceP4Ib
Стоимость курса не изменилась, всего $10
Курс хостится на платформе Stepik, поэтому для его прохождения необходимо зарегистрироваться.
Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он будет размещаться. Выбор пал в сторону Stepik по ряду причин: удобные инструменты, хорошее сообщество и условия по продаже курса. Первые уроки стали доступны в начале ноября 2019 года, тогда же стартовали продажи. К сожалению, на протяжении длительного периода не появлялся новый материал. Я прошу прощения у всех, кто купил курс и ждал материал так долго. В тот период был некоторый завал на работе, квартирный ремонт и череда болезней. Как итог, получил парочку негативных отзывов о курсе, вполне справедливо. К счастью, мне удалось решить все проблемы и продолжить наполнение новым и интересным контентом. Честно говоря я не ожидал, что простой казалось бы с виду курс отнимет столько времени и сил. Я не надеюсь, что затраченные усилия окупятся в денежном плане, но я безумно рад, что получил интересный, а главное суперполезный опыт. И считаю, что курс получился уникальным. Почему?
Я постарался сделать его максимально практическим, но в то же время не забыл про теорию и мотивацию. В курсе разобраны 5 практических задач от банального Hello World пайплайна до кастомных нотификаций об ошибках при выполнении в Telegram. Затронул не менее важную тему деплоя пайплайнов на продакшен, используя Docker. В конце курса подробно описал один из вариантов деплоя на serverless технологиях Amazon Web Services, используя Fargate, ECS, Cloud Map, Route 53. Такого материала вы нигде не найдёте. Курс получился миксом из текста и видео уроков.
Если вам интересна тема data engineering и построения дата пайплайнов на Python, то милости прошу по ссылке: https://bit.ly/3ceP4Ib
Стоимость курса не изменилась, всего $10
Курс хостится на платформе Stepik, поэтому для его прохождения необходимо зарегистрироваться.
Stepik: online education
Введение в Data Engineering: дата-пайплайны
Курс раскрывает тему построения сложных дата-пайплайнов в экосистеме Python, а именно знакомит слушателя с удобным и гибким инструментом Luigi.
Forwarded from Инжиниринг Данных
Если вы вдруг работаете или планируете начать работать с Microsoft Azure, то вот отличный обзор учебных ресурсов для Data Engineer. https://youtu.be/ceOSlyc2J0g
YouTube
How to become a Data Engineer in 2021 FOR FREE!!!
I run through free tools and resources so you can become a Data Engineer for free!
LINKS:
https://www.kratosbi.com/
MICROSOFT LEARN
https://docs.microsoft.com/en-us/learn/?source=learn
DATA ENGINEERING
https://docs.microsoft.com/en-us/learn/browse/?roles=data…
LINKS:
https://www.kratosbi.com/
MICROSOFT LEARN
https://docs.microsoft.com/en-us/learn/?source=learn
DATA ENGINEERING
https://docs.microsoft.com/en-us/learn/browse/?roles=data…
AWS Data Engineering Day: https://aws-dataengineering-day.workshop.aws/
Коды к лабам: https://github.com/aws-samples/data-engineering-for-aws-immersion-day
Коды к лабам: https://github.com/aws-samples/data-engineering-for-aws-immersion-day
GitHub
GitHub - aws-samples/data-engineering-for-aws-immersion-day: Lab Instructions for Data Engineering Immersion Day
Lab Instructions for Data Engineering Immersion Day - aws-samples/data-engineering-for-aws-immersion-day
Амазон запустил новый сервис Amazon AppFlow, облачный ETL по забору данных из SaaS продуктов в хранилища AWS: https://aws.amazon.com/ru/appflow/
Amazon
Интеграция SaaS – Amazon AppFlow – AWS
Amazon AppFlow – это сервис интеграции, который дает возможность безопасно передавать данные между приложениями SaaS и сервисами AWS без кода.
Тут у Segment намечается вебинар по теме построения Data Lake в компании Taxfix, кому интересно велком: https://learn.segment.com/building-a-data-lake-taxfix/
Segment
Segment | Customer Data Platform (CDP)
Segment is a customer data platform (CDP) that helps you collect, clean, and activate your customer data.
Присоединяйтесь к Online AWSome Week! 27 апреля – 4 мая, 13.00 – 14.00. Архитекторы AWS расскажут, как сделать первые шаги в облачных технологиях. За 5 бесплатных вебинаров вы разберетесь в основных сервисах AWS и подготовитесь к экзамену на сертификат практика облачных сервисов. Участие бесплатно, нужно просто зарегистрироваться: https://go.aws/3cFwo4D
пост про serverless data streaming с помощью lambda, kinesis и dynamodb: https://www.teamdatascience.com/post/how-to-write-kinesis-data-stream-to-dynamodb
Team Data Science
How to write Kinesis data stream to DynamoDB
In this blog, my data stream is being written to Dynamo DB. The latest data available in streams through the producer will trigger events to the Lambda function. The function will write data to Dynamo DB. How the data is produced? Kindly refer to my earlier…
Нашел в сети курс от MIT про распределённые системы: MIT 6.824: Distributed Systems, ведёт курс легендарный Роберт Морис: https://www.youtube.com/channel/UC_7WrbZTCODu1o_kfUMq88g/videos
Кейс перехода с Apache Kafka на Apache Pulsar: https://streamnative.io/blog/tech/2020-04-21-from-apache-kafka-to-apache-pulsar/
StreamNative
4 мая ребята из сообщества Data Engineering проведут бесплатный митап: «Data Engineer or Die».
Соберутся хорошие эксперты по теме: Егор Матешук (CDO Qvant), Денис Хуртин (DMP Яндекс.Маркет), Михаил Кумачёв, Ксения Томак, Дарья Буланова (команда Data Engineering в Dodo Pizza).
Встреча будет актуальна для тех, кто работает с доставкой данных, backend-developers, ну и конечно для тех, кто в теме Data Engineering (или только начинает в ней вариться).
Ссылка на ивент: https://deordie.timepad.ru/event/1303716/
Соберутся хорошие эксперты по теме: Егор Матешук (CDO Qvant), Денис Хуртин (DMP Яндекс.Маркет), Михаил Кумачёв, Ксения Томак, Дарья Буланова (команда Data Engineering в Dodo Pizza).
Встреча будет актуальна для тех, кто работает с доставкой данных, backend-developers, ну и конечно для тех, кто в теме Data Engineering (или только начинает в ней вариться).
Ссылка на ивент: https://deordie.timepad.ru/event/1303716/
А вот ещё в догонку подкаст про Dask.
Кто не в курсе, Dask это big data framework на Python, аналог Apache Spark. Если вам необходимо обрабатывать большие данные, то не торопитесь изучать Spark, возможно Dask будет лучшим выбором, если вы хорошо знакомы с Python.
Кто не в курсе, Dask это big data framework на Python, аналог Apache Spark. Если вам необходимо обрабатывать большие данные, то не торопитесь изучать Spark, возможно Dask будет лучшим выбором, если вы хорошо знакомы с Python.
Forwarded from DevBrain
Монументальный труд про построение бэкэнда на Python от Яндекса: https://habr.com/ru/company/yandex/blog/499534/
Хабр
Практическое руководство по разработке бэкенд-сервиса на Python
Привет, меня зовут Александр Васин, я бэкенд-разработчик в Едадиле. Идея этого материала началась с того, что я хотел разобрать вступительное задание ( Я.Диск ) в Школу бэкенд-разработки Яндекса. Я...
Путь Data Platform Engineer в AWS: https://aws.amazon.com/ru/training/learning-paths/machine-learning/data-platform-engineer/
Amazon
Машинное обучение (МО) – онлайн-курсы и аудиторные занятия | AWS
Развивайте навыки по работе с технологиями машинного обучения с помощью онлайн-курсов, аудиторных занятий и программ сертификации, предназначенных для специализированных ролей в области машинного обучения. Подробнее
Ссылка на трансляцию митапа по data engineering, который начнётся через 1 час: https://youtu.be/3GaiDIHUvro