Стартовал новый поток курса по базам данных от Carnegie Mellon University — Advanced Database Systems
В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP).
Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html
Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/
В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP).
Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html
Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/
YouTube
01 - History of Databases (CMU Databases / Spring 2020)
Prof. Andy Pavlo (http://www.cs.cmu.edu/~pavlo/)
Slides: https://15721.courses.cs.cmu.edu/spring2020/slides/01-history.pdf
15-721 Advanced Database Systems (Spring 2020)
Carnegie Mellon University
https://15721.courses.cs.cmu.edu/spring2020/
Slides: https://15721.courses.cs.cmu.edu/spring2020/slides/01-history.pdf
15-721 Advanced Database Systems (Spring 2020)
Carnegie Mellon University
https://15721.courses.cs.cmu.edu/spring2020/
Доклад про ETL на базе event-driven от сотрудника Confluent: https://talks.rmoff.net/Jn6rgo#sriL5Sw
talks.rmoff.net
The Changing Face of ETL: Event-Driven Architectures for Data Engineers by Robin Moffatt
Data integration in architectures built on static, update-in-place datastores inevitably end up with pathologically high degrees of coupling and poor scalability. This has been the standard practice for decades, as we attempt to build data pipelines on top…
Друзья, ссылка на вебинар: https://www.youtube.com/watch?v=fkKKD93WA4s. Начало через 7 минут.
С меня пост про dbt в блоге чуть позже, сам давно хочу внедрить её в повседневные рутинные задачи, связанные с SQL.
С меня пост про dbt в блоге чуть позже, сам давно хочу внедрить её в повседневные рутинные задачи, связанные с SQL.
YouTube
Открытый вебинар «Data Build Tool для хранилища Amazon Redshift»
Рассматриваем построение моделей и зависимостей.
Изучаем полную и инкрементальную загрузку, работу с вложенными (nested) JSON, макросы и шаблоны Jinja, автоматическое тестирование.
Ссылка на слайды - https://docs.google.com/presentation/d/1acoXbZEncyKJ…
Изучаем полную и инкрементальную загрузку, работу с вложенными (nested) JSON, макросы и шаблоны Jinja, автоматическое тестирование.
Ссылка на слайды - https://docs.google.com/presentation/d/1acoXbZEncyKJ…
Amazon опубликовали научную статью по работе Firecracker.
Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker
Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications
Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker
Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications
GitHub
GitHub - firecracker-microvm/firecracker: Secure and fast microVMs for serverless computing.
Secure and fast microVMs for serverless computing. - firecracker-microvm/firecracker
Dice.com опубликовали отчёт Dice 2020 Tech Job Report в котором специальность Data Engineer занимает 1-е место в категории Fastest Growing Tech Occupations с результатом 50%. Это значит, что спрос на дата инженеров вырос на 50% в сравнении с 2019 годом.
Среднее время закрытия позиции в США составляет 46 дней. Dice прогнозируют, что этот показатель вырастет, т.к. спрос на таких специалистов продолжает расти. Amazon, например, активно нанимает дата инженеров в команды по всему миру. Пруф
Мне кажется, что сейчас самое лучшее время для тех, кто хочет стать Data Engineer. Напоминаю, что в начале прошлого года я публиковал статью Как стать Data Engineer. Необходимые навыки, которые я описывал в статье, пересекаются с навыками дата инженера по мнению ребят из Dice.com.
Среднее время закрытия позиции в США составляет 46 дней. Dice прогнозируют, что этот показатель вырастет, т.к. спрос на таких специалистов продолжает расти. Amazon, например, активно нанимает дата инженеров в команды по всему миру. Пруф
Мне кажется, что сейчас самое лучшее время для тех, кто хочет стать Data Engineer. Напоминаю, что в начале прошлого года я публиковал статью Как стать Data Engineer. Необходимые навыки, которые я описывал в статье, пересекаются с навыками дата инженера по мнению ребят из Dice.com.
Доклад Future of Data Engineering на QCon от инженера из WePay: https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/
InfoQ
Future of Data Engineering
Chris Riccomini talks about the current state-of-the-art in data pipelines and data warehousing, and shares some of the solutions to current problems dealing with data streaming and warehousing.
В рамках подготовки к митапу AWS Meetup Almaty 2020 написал небольшую статью про построение Data Lake средствами AWS, а именно:
- Amazon S3
- Amazon Glue
- Amazon Athena
Прочитать можно по ссылке: http://bit.ly/2Tkcswc
Код с примерами пайплайна есть в моём гитхаб репе: https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake
- Amazon S3
- Amazon Glue
- Amazon Athena
Прочитать можно по ссылке: http://bit.ly/2Tkcswc
Код с примерами пайплайна есть в моём гитхаб репе: https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake
Ребята из AppsFlyer поделились кейсом использования Apache Airflow: https://medium.com/appsflyer/how-appsflyer-uses-apache-airflow-to-run-over-3-5k-daily-jobs-and-more-683106cb24fc
Если не знаете что такое Airflow, велком в мою статью: https://khashtamov.com/ru/apache-airflow-introduction/
Если не знаете что такое Airflow, велком в мою статью: https://khashtamov.com/ru/apache-airflow-introduction/
Medium
How AppsFlyer uses Apache Airflow to run over 3.5k daily jobs and more
AppsFlyer is essentially a big data company, we get data from our SDK’s, transform and normalize the data, and then showing it on our…
В базе данных Amazon Redshift наконец то стали доступны материализованный представления (materialized views) для всех: https://aws.amazon.com/ru/blogs/aws/materialize-your-amazon-redshift-views-to-speed-up-query-execution/
Amazon
Materialize your Amazon Redshift Views to Speed Up Query Execution | Amazon Web Services
At AWS, we take pride in building state of the art virtualization technologies to simplify the management and access to cloud services such as networks, computing resources or object storage. In a Relational Database Management Systems (RDBMS), a view is…
Forwarded from DevBrain
И снова поговорим про ETL
На PyCon RU я сравнивал 2 ETL-инструмента в экосистема Python:
- Luigi
- Apache Airflow
И в конце упоминал ещё несколько батареек на которые стоит обратить внимание. Среди них был Prefect.
Это относительно новый инструмент, который появился в результате коллаборации разработчиков из Apache Airflow и Dask. Мотивацию о создании нового инструмента они описали в посте Why not Airflow?. Но сейчас не об этом.
Вчера состоялся новый релиз Prefect, где наконец появился UI дэшборд. Я до этого времени особо не обращал на него пристального внимания, т.к. именно UI фишечки и не хватало. Кстати, небольшой пример пайплайна на Prefect я писал в рамках подготовки к PyCon RU 19.
Материалы:
- NYC Yellow Taxi Data Pipeline на Prefect
- Примеры пайплайнов на Airflow, Luigi, Prefect для выступления на PyCon RU 19
- Доклад на PyCon RU 19: ETL инструменты в экосистеме Python
- Сайт Prefect
На PyCon RU я сравнивал 2 ETL-инструмента в экосистема Python:
- Luigi
- Apache Airflow
И в конце упоминал ещё несколько батареек на которые стоит обратить внимание. Среди них был Prefect.
Это относительно новый инструмент, который появился в результате коллаборации разработчиков из Apache Airflow и Dask. Мотивацию о создании нового инструмента они описали в посте Why not Airflow?. Но сейчас не об этом.
Вчера состоялся новый релиз Prefect, где наконец появился UI дэшборд. Я до этого времени особо не обращал на него пристального внимания, т.к. именно UI фишечки и не хватало. Кстати, небольшой пример пайплайна на Prefect я писал в рамках подготовки к PyCon RU 19.
Материалы:
- NYC Yellow Taxi Data Pipeline на Prefect
- Примеры пайплайнов на Airflow, Luigi, Prefect для выступления на PyCon RU 19
- Доклад на PyCon RU 19: ETL инструменты в экосистеме Python
- Сайт Prefect
Medium
Why Not Airflow?
An overview of the Prefect engine for Airflow users
А вот и новость от самих ребят из Prefect о релизе Prefect UI: https://medium.com/the-prefect-blog/open-sourcing-the-prefect-platform-d19a6d6f6dad
Medium
Open-Sourcing the Prefect Platform
Today, we’re taking a huge step forward and open-sourcing an orchestration layer for Prefect — including the Prefect Cloud UI.
Ура! Я наконец завершил создание курса по построению дата-пайплайнов в Python, используя фреймворк Luigi: Введение в Data Engineering: дата-пайплайны
Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он будет размещаться. Выбор пал в сторону Stepik по ряду причин: удобные инструменты, хорошее сообщество и условия по продаже курса. Первые уроки стали доступны в начале ноября 2019 года, тогда же стартовали продажи. К сожалению, на протяжении длительного периода не появлялся новый материал. Я прошу прощения у всех, кто купил курс и ждал материал так долго. В тот период был некоторый завал на работе, квартирный ремонт и череда болезней. Как итог, получил парочку негативных отзывов о курсе, вполне справедливо. К счастью, мне удалось решить все проблемы и продолжить наполнение новым и интересным контентом. Честно говоря я не ожидал, что простой казалось бы с виду курс отнимет столько времени и сил. Я не надеюсь, что затраченные усилия окупятся в денежном плане, но я безумно рад, что получил интересный, а главное суперполезный опыт. И считаю, что курс получился уникальным. Почему?
Я постарался сделать его максимально практическим, но в то же время не забыл про теорию и мотивацию. В курсе разобраны 5 практических задач от банального Hello World пайплайна до кастомных нотификаций об ошибках при выполнении в Telegram. Затронул не менее важную тему деплоя пайплайнов на продакшен, используя Docker. В конце курса подробно описал один из вариантов деплоя на serverless технологиях Amazon Web Services, используя Fargate, ECS, Cloud Map, Route 53. Такого материала вы нигде не найдёте. Курс получился миксом из текста и видео уроков.
Если вам интересна тема data engineering и построения дата пайплайнов на Python, то милости прошу по ссылке: https://bit.ly/3ceP4Ib
Стоимость курса не изменилась, всего $10
Курс хостится на платформе Stepik, поэтому для его прохождения необходимо зарегистрироваться.
Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он будет размещаться. Выбор пал в сторону Stepik по ряду причин: удобные инструменты, хорошее сообщество и условия по продаже курса. Первые уроки стали доступны в начале ноября 2019 года, тогда же стартовали продажи. К сожалению, на протяжении длительного периода не появлялся новый материал. Я прошу прощения у всех, кто купил курс и ждал материал так долго. В тот период был некоторый завал на работе, квартирный ремонт и череда болезней. Как итог, получил парочку негативных отзывов о курсе, вполне справедливо. К счастью, мне удалось решить все проблемы и продолжить наполнение новым и интересным контентом. Честно говоря я не ожидал, что простой казалось бы с виду курс отнимет столько времени и сил. Я не надеюсь, что затраченные усилия окупятся в денежном плане, но я безумно рад, что получил интересный, а главное суперполезный опыт. И считаю, что курс получился уникальным. Почему?
Я постарался сделать его максимально практическим, но в то же время не забыл про теорию и мотивацию. В курсе разобраны 5 практических задач от банального Hello World пайплайна до кастомных нотификаций об ошибках при выполнении в Telegram. Затронул не менее важную тему деплоя пайплайнов на продакшен, используя Docker. В конце курса подробно описал один из вариантов деплоя на serverless технологиях Amazon Web Services, используя Fargate, ECS, Cloud Map, Route 53. Такого материала вы нигде не найдёте. Курс получился миксом из текста и видео уроков.
Если вам интересна тема data engineering и построения дата пайплайнов на Python, то милости прошу по ссылке: https://bit.ly/3ceP4Ib
Стоимость курса не изменилась, всего $10
Курс хостится на платформе Stepik, поэтому для его прохождения необходимо зарегистрироваться.
Stepik: online education
Введение в Data Engineering: дата-пайплайны
Курс раскрывает тему построения сложных дата-пайплайнов в экосистеме Python, а именно знакомит слушателя с удобным и гибким инструментом Luigi.
Forwarded from Инжиниринг Данных
Если вы вдруг работаете или планируете начать работать с Microsoft Azure, то вот отличный обзор учебных ресурсов для Data Engineer. https://youtu.be/ceOSlyc2J0g
YouTube
How to become a Data Engineer in 2021 FOR FREE!!!
I run through free tools and resources so you can become a Data Engineer for free!
LINKS:
https://www.kratosbi.com/
MICROSOFT LEARN
https://docs.microsoft.com/en-us/learn/?source=learn
DATA ENGINEERING
https://docs.microsoft.com/en-us/learn/browse/?roles=data…
LINKS:
https://www.kratosbi.com/
MICROSOFT LEARN
https://docs.microsoft.com/en-us/learn/?source=learn
DATA ENGINEERING
https://docs.microsoft.com/en-us/learn/browse/?roles=data…
AWS Data Engineering Day: https://aws-dataengineering-day.workshop.aws/
Коды к лабам: https://github.com/aws-samples/data-engineering-for-aws-immersion-day
Коды к лабам: https://github.com/aws-samples/data-engineering-for-aws-immersion-day
GitHub
GitHub - aws-samples/data-engineering-for-aws-immersion-day: Lab Instructions for Data Engineering Immersion Day
Lab Instructions for Data Engineering Immersion Day - aws-samples/data-engineering-for-aws-immersion-day
Амазон запустил новый сервис Amazon AppFlow, облачный ETL по забору данных из SaaS продуктов в хранилища AWS: https://aws.amazon.com/ru/appflow/
Amazon
Интеграция SaaS – Amazon AppFlow – AWS
Amazon AppFlow – это сервис интеграции, который дает возможность безопасно передавать данные между приложениями SaaS и сервисами AWS без кода.
Тут у Segment намечается вебинар по теме построения Data Lake в компании Taxfix, кому интересно велком: https://learn.segment.com/building-a-data-lake-taxfix/
Segment
Segment | Customer Data Platform (CDP)
Segment is a customer data platform (CDP) that helps you collect, clean, and activate your customer data.
Присоединяйтесь к Online AWSome Week! 27 апреля – 4 мая, 13.00 – 14.00. Архитекторы AWS расскажут, как сделать первые шаги в облачных технологиях. За 5 бесплатных вебинаров вы разберетесь в основных сервисах AWS и подготовитесь к экзамену на сертификат практика облачных сервисов. Участие бесплатно, нужно просто зарегистрироваться: https://go.aws/3cFwo4D