DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Forwarded from DevBrain
И снова поговорим про ETL

На PyCon RU я сравнивал 2 ETL-инструмента в экосистема Python:

- Luigi
- Apache Airflow

И в конце упоминал ещё несколько батареек на которые стоит обратить внимание. Среди них был Prefect.
Это относительно новый инструмент, который появился в результате коллаборации разработчиков из Apache Airflow и Dask. Мотивацию о создании нового инструмента они описали в посте Why not Airflow?. Но сейчас не об этом.

Вчера состоялся новый релиз Prefect, где наконец появился UI дэшборд. Я до этого времени особо не обращал на него пристального внимания, т.к. именно UI фишечки и не хватало. Кстати, небольшой пример пайплайна на Prefect я писал в рамках подготовки к PyCon RU 19.


Материалы:
- NYC Yellow Taxi Data Pipeline на Prefect
- Примеры пайплайнов на Airflow, Luigi, Prefect для выступления на PyCon RU 19
- Доклад на PyCon RU 19: ETL инструменты в экосистеме Python
- Сайт Prefect
Ура! Я наконец завершил создание курса по построению дата-пайплайнов в Python, используя фреймворк Luigi: Введение в Data Engineering: дата-пайплайны

Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он будет размещаться. Выбор пал в сторону Stepik по ряду причин: удобные инструменты, хорошее сообщество и условия по продаже курса. Первые уроки стали доступны в начале ноября 2019 года, тогда же стартовали продажи. К сожалению, на протяжении длительного периода не появлялся новый материал. Я прошу прощения у всех, кто купил курс и ждал материал так долго. В тот период был некоторый завал на работе, квартирный ремонт и череда болезней. Как итог, получил парочку негативных отзывов о курсе, вполне справедливо. К счастью, мне удалось решить все проблемы и продолжить наполнение новым и интересным контентом. Честно говоря я не ожидал, что простой казалось бы с виду курс отнимет столько времени и сил. Я не надеюсь, что затраченные усилия окупятся в денежном плане, но я безумно рад, что получил интересный, а главное суперполезный опыт. И считаю, что курс получился уникальным. Почему?

Я постарался сделать его максимально практическим, но в то же время не забыл про теорию и мотивацию. В курсе разобраны 5 практических задач от банального Hello World пайплайна до кастомных нотификаций об ошибках при выполнении в Telegram. Затронул не менее важную тему деплоя пайплайнов на продакшен, используя Docker. В конце курса подробно описал один из вариантов деплоя на serverless технологиях Amazon Web Services, используя Fargate, ECS, Cloud Map, Route 53. Такого материала вы нигде не найдёте. Курс получился миксом из текста и видео уроков.

Если вам интересна тема data engineering и построения дата пайплайнов на Python, то милости прошу по ссылке: https://bit.ly/3ceP4Ib

Стоимость курса не изменилась, всего $10

Курс хостится на платформе Stepik, поэтому для его прохождения необходимо зарегистрироваться.
Тут у Segment намечается вебинар по теме построения Data Lake в компании Taxfix, кому интересно велком: https://learn.segment.com/building-a-data-lake-taxfix/
Присоединяйтесь к Online AWSome Week! 27 апреля – 4 мая, 13.00 – 14.00. Архитекторы AWS расскажут, как сделать первые шаги в облачных технологиях. За 5 бесплатных вебинаров вы разберетесь в основных сервисах AWS и подготовитесь к экзамену на сертификат практика облачных сервисов. Участие бесплатно, нужно просто зарегистрироваться: https://go.aws/3cFwo4D
Нашел в сети курс от MIT про распределённые системы: MIT 6.824: Distributed Systems, ведёт курс легендарный Роберт Морис: https://www.youtube.com/channel/UC_7WrbZTCODu1o_kfUMq88g/videos
4 мая ребята из сообщества Data Engineering проведут бесплатный митап: «Data Engineer or Die».
Соберутся хорошие эксперты по теме: Егор Матешук (CDO Qvant), Денис Хуртин (DMP Яндекс.Маркет), Михаил Кумачёв, Ксения Томак, Дарья Буланова (команда Data Engineering в Dodo Pizza).
Встреча будет актуальна для тех, кто работает с доставкой данных, backend-developers, ну и конечно для тех, кто в теме Data Engineering (или только начинает в ней вариться).

Ссылка на ивент: https://deordie.timepad.ru/event/1303716/
В подкасте Software Daily вышел эпизод про workflow менеджер Prefect.
А вот ещё в догонку подкаст про Dask.
Кто не в курсе, Dask это big data framework на Python, аналог Apache Spark. Если вам необходимо обрабатывать большие данные, то не торопитесь изучать Spark, возможно Dask будет лучшим выбором, если вы хорошо знакомы с Python.
Ссылка на трансляцию митапа по data engineering, который начнётся через 1 час: https://youtu.be/3GaiDIHUvro
Forwarded from DevBrain
К вопросу про целесообразность построение проекта на основе микросервисной архитектуры. Почитайте полезный пост от Twitter о том как они у себя удаляют данные в своём распределённом улье: https://blog.twitter.com/engineering/en_us/topics/infrastructure/2020/deleting-data-distributed-throughout-your-microservices-architecture.html

Весьма актуально в эпоху GDPR