DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Вчера на главной странице HackerNews появился пост: We Don't Need Data Scientists, We Need Data Engineers
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/

Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪
А вы слышали термин Analytics Engineer?
Anonymous Poll
31%
Да
69%
Нет, а кто это?
Большая просьба 🆘
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.
Нашел в сети как два человека обсуждают мою статью про дата инженера на английском: https://youtu.be/UvmDBXNDeVE
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.
Смотрите какой апдейт у Dagster подкатил: https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory

- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine

Здоровая конкуренция среди workflow менеджеров прям радует 💪
Нашел ещё один блог про data engineering: https://www.alisa-in.tech/post/
Очередной крутой пост от ребят из Astronomer, на этот раз про Airflow и Change Data Capture https://www.astronomer.io/blog/change-data-capture-with-apache-airflow
Жаль правда разбирают только Google CloudSQL 🙄
Всем привет! 👋

Сейчас я занялся разработкой курса про Apache Airflow 2.0. В связи с этим подготовил небольшой пост в блоге: https://khashtamov.com/ru/apache-airflow-course/

Планирую закончить его ближе к концу февраля, сейчас работа идёт полным ходом 🔧

Если вам был бы интересен такой курс, то оставьте, пожалуйста, свой электронный адрес на форме. Как только курс будет готов для раннего доступа я вышлю вам приглашение, также вы получите 20% скидку. Цена скорее всего не будет превышать 3000 рублей. Более подробно о формате и приблизительном плане курса читайте в посте в блоге.
В Стэнфорде сейчас проходит интересный курс Machine Learning Systems Design. К сожалению, видеолекций пока нет, непонятно будут ли они позже выложены, но есть интересные Lecture notes. Вчера обнаружил такую заметку по теме Data engineering. Она скорее для начинающих, но даёт хороший структурированный фундамент для входа в эту область. Рекомендую для ознакомления!
В новом выпуске подкаста TalkPython гостем стал ведущий другого подкаста про Data Engineering — Tobias Macey.
Подкаст получился обзорным и интересным — The Data Engineering Landscape in 2021
Интересная большая статья от Alibaba Cloud про концепции озера данных: https://alibaba-cloud.medium.com/data-lake-concepts-characteristics-architecture-and-case-studies-28be1b265624
В том числе автор проводит сравнительный анализ на примере разных облачных провайдеров (AWS, Azure, Alibaba)