DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
А вы слышали термин Analytics Engineer?
Anonymous Poll
31%
Да
69%
Нет, а кто это?
Большая просьба 🆘
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.
Нашел в сети как два человека обсуждают мою статью про дата инженера на английском: https://youtu.be/UvmDBXNDeVE
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.
Смотрите какой апдейт у Dagster подкатил: https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory

- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine

Здоровая конкуренция среди workflow менеджеров прям радует 💪
Нашел ещё один блог про data engineering: https://www.alisa-in.tech/post/
Очередной крутой пост от ребят из Astronomer, на этот раз про Airflow и Change Data Capture https://www.astronomer.io/blog/change-data-capture-with-apache-airflow
Жаль правда разбирают только Google CloudSQL 🙄
Всем привет! 👋

Сейчас я занялся разработкой курса про Apache Airflow 2.0. В связи с этим подготовил небольшой пост в блоге: https://khashtamov.com/ru/apache-airflow-course/

Планирую закончить его ближе к концу февраля, сейчас работа идёт полным ходом 🔧

Если вам был бы интересен такой курс, то оставьте, пожалуйста, свой электронный адрес на форме. Как только курс будет готов для раннего доступа я вышлю вам приглашение, также вы получите 20% скидку. Цена скорее всего не будет превышать 3000 рублей. Более подробно о формате и приблизительном плане курса читайте в посте в блоге.
В Стэнфорде сейчас проходит интересный курс Machine Learning Systems Design. К сожалению, видеолекций пока нет, непонятно будут ли они позже выложены, но есть интересные Lecture notes. Вчера обнаружил такую заметку по теме Data engineering. Она скорее для начинающих, но даёт хороший структурированный фундамент для входа в эту область. Рекомендую для ознакомления!
В новом выпуске подкаста TalkPython гостем стал ведущий другого подкаста про Data Engineering — Tobias Macey.
Подкаст получился обзорным и интересным — The Data Engineering Landscape in 2021
Интересная большая статья от Alibaba Cloud про концепции озера данных: https://alibaba-cloud.medium.com/data-lake-concepts-characteristics-architecture-and-case-studies-28be1b265624
В том числе автор проводит сравнительный анализ на примере разных облачных провайдеров (AWS, Azure, Alibaba)
Forwarded from DevBrain
Подборка снипетов кода на Python, которые могут ввести в заблуждение и расходиться с привычным для вас поведением: https://github.com/satwikkansal/wtfpython
Такие штуки могут пригодиться на собеседованиях. К сожалению, есть ещё люди, которые судят о ваших знаниях языка на основе таких перлов (о которых сами узнали буквально пару дней назад 🤣)
​​Пока готовлю курс и пишу практические примеры, попутно копаюсь в коде Airflow. В один из таких заходов решил заюзать TelegramOperator, который появился во второй версии в декабре. При первом же запуске понял, что код нерабочий. Автор кода его даже не тестировал 😂

Проблема была в шаблонных полях при передаче сообщений в телеграм. Как итог сделал первый пул-реквест в Airflow, починил баги и покрыл всё это дело тестами. Исправления будут в версии 2.0.2.