DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Стартовал новый поток курса по базам данных от Carnegie Mellon University — Advanced Database Systems
В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP).

Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html

Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/
​​Накатал статейку про введение в Apache Airflow: http://bit.ly/37o3tiD
Amazon опубликовали научную статью по работе Firecracker.
Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker
Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications
Dice.com опубликовали отчёт Dice 2020 Tech Job Report в котором специальность Data Engineer занимает 1-е место в категории Fastest Growing Tech Occupations с результатом 50%. Это значит, что спрос на дата инженеров вырос на 50% в сравнении с 2019 годом.

Среднее время закрытия позиции в США составляет 46 дней. Dice прогнозируют, что этот показатель вырастет, т.к. спрос на таких специалистов продолжает расти. Amazon, например, активно нанимает дата инженеров в команды по всему миру. Пруф

Мне кажется, что сейчас самое лучшее время для тех, кто хочет стать Data Engineer. Напоминаю, что в начале прошлого года я публиковал статью Как стать Data Engineer. Необходимые навыки, которые я описывал в статье, пересекаются с навыками дата инженера по мнению ребят из Dice.com.
В рамках подготовки к митапу AWS Meetup Almaty 2020 написал небольшую статью про построение Data Lake средствами AWS, а именно:

- Amazon S3
- Amazon Glue
- Amazon Athena

Прочитать можно по ссылке: http://bit.ly/2Tkcswc
Код с примерами пайплайна есть в моём гитхаб репе: https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake
Forwarded from DevBrain
И снова поговорим про ETL

На PyCon RU я сравнивал 2 ETL-инструмента в экосистема Python:

- Luigi
- Apache Airflow

И в конце упоминал ещё несколько батареек на которые стоит обратить внимание. Среди них был Prefect.
Это относительно новый инструмент, который появился в результате коллаборации разработчиков из Apache Airflow и Dask. Мотивацию о создании нового инструмента они описали в посте Why not Airflow?. Но сейчас не об этом.

Вчера состоялся новый релиз Prefect, где наконец появился UI дэшборд. Я до этого времени особо не обращал на него пристального внимания, т.к. именно UI фишечки и не хватало. Кстати, небольшой пример пайплайна на Prefect я писал в рамках подготовки к PyCon RU 19.


Материалы:
- NYC Yellow Taxi Data Pipeline на Prefect
- Примеры пайплайнов на Airflow, Luigi, Prefect для выступления на PyCon RU 19
- Доклад на PyCon RU 19: ETL инструменты в экосистеме Python
- Сайт Prefect
Ура! Я наконец завершил создание курса по построению дата-пайплайнов в Python, используя фреймворк Luigi: Введение в Data Engineering: дата-пайплайны

Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он будет размещаться. Выбор пал в сторону Stepik по ряду причин: удобные инструменты, хорошее сообщество и условия по продаже курса. Первые уроки стали доступны в начале ноября 2019 года, тогда же стартовали продажи. К сожалению, на протяжении длительного периода не появлялся новый материал. Я прошу прощения у всех, кто купил курс и ждал материал так долго. В тот период был некоторый завал на работе, квартирный ремонт и череда болезней. Как итог, получил парочку негативных отзывов о курсе, вполне справедливо. К счастью, мне удалось решить все проблемы и продолжить наполнение новым и интересным контентом. Честно говоря я не ожидал, что простой казалось бы с виду курс отнимет столько времени и сил. Я не надеюсь, что затраченные усилия окупятся в денежном плане, но я безумно рад, что получил интересный, а главное суперполезный опыт. И считаю, что курс получился уникальным. Почему?

Я постарался сделать его максимально практическим, но в то же время не забыл про теорию и мотивацию. В курсе разобраны 5 практических задач от банального Hello World пайплайна до кастомных нотификаций об ошибках при выполнении в Telegram. Затронул не менее важную тему деплоя пайплайнов на продакшен, используя Docker. В конце курса подробно описал один из вариантов деплоя на serverless технологиях Amazon Web Services, используя Fargate, ECS, Cloud Map, Route 53. Такого материала вы нигде не найдёте. Курс получился миксом из текста и видео уроков.

Если вам интересна тема data engineering и построения дата пайплайнов на Python, то милости прошу по ссылке: https://bit.ly/3ceP4Ib

Стоимость курса не изменилась, всего $10

Курс хостится на платформе Stepik, поэтому для его прохождения необходимо зарегистрироваться.
Тут у Segment намечается вебинар по теме построения Data Lake в компании Taxfix, кому интересно велком: https://learn.segment.com/building-a-data-lake-taxfix/
Присоединяйтесь к Online AWSome Week! 27 апреля – 4 мая, 13.00 – 14.00. Архитекторы AWS расскажут, как сделать первые шаги в облачных технологиях. За 5 бесплатных вебинаров вы разберетесь в основных сервисах AWS и подготовитесь к экзамену на сертификат практика облачных сервисов. Участие бесплатно, нужно просто зарегистрироваться: https://go.aws/3cFwo4D