DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Forwarded from How to DWH with Python
Рекомендую к прочтению тем, кто пробовал NoSQL: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-354f97c96c2 — эта статья буквально расширила границы моего сознания!

Здесь рассказывается про то, как проектировать таблицы в NoSQL БД на примере (и с большой привязкой к) AWS DynamoDB.

Расширение сознания вызвано тем, что основной рассмотренный прием — это хранение в одной таблице совершенно разных данных, относящихся к одном объекту, чтобы ускорить к ним доступ. В реляционных СУБД в одной таблице лежат данные «одной грани» каждой сущности, и это логично, привычно и оправданно. А вот идея хранить в одной таблице разные по сути данные звучит провокационно, однако статья вполне обосновывает такой подход.

В конце статьи дан пример, как шесть таблиц реляционной СУБД упихали в одну NoSQL таблицу, обеспечив доступ к разным «срезам» с помощью глобального индекса (Global Secondary Index). И это звучит обоснованно и модно 😉

Почитать про основные аспекты NoSQL и конкретно DynamoDB можно в первой части статьи: https://medium.com/@nabtechblog/advanced-design-patterns-for-amazon-dynamodb-c31d65d2e3de
Forwarded from Mikhail Kumachev
Друзья!

В преддверии Нового Года мы проведем праздничный митап DE or DIE #5.

Дата и время: 24 декабря 18:00–20:30
Формат: Онлайн

В нашей программе:
1. Дмитрий Шалин, Data Engineer, СБЕР — расскажет про построение Data Lake в сжатые сроки в условиях стартапа.

2. Андрей Титов, Senior Spark Engineer, NVIDIA — особенности использования Scala UDF в PySpark.

Зарегистрироваться можно по ссылке: https://deordie.timepad.ru/event/1508656/

Всех с Наступающим Новым Годом! Ждем вас на митапе!
В конце ноября Datafold проводили второй митап, посвященный теме качества данных. Ознакомиться с докладами и панельной дискуссией можно тут: https://www.datafold.com/blog/data-quality-meetup-2/
Минутка саморекламы 😎
А вы знали, что в телеграм-боте @RemoteListBot можно подписаться на вакансии категории DataOps и получать в том числе предложения из сферы Data Engineering 👨‍🔧
Нашел библиотеку для построения ETL на базе Celery: https://ovh.github.io/celery-director/
Вчера на главной странице HackerNews появился пост: We Don't Need Data Scientists, We Need Data Engineers
Ссылка на статью: https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/

Автор провёл небольшой анализ открытых позиций в компаниях из пула Y Combinator, и сделал выводы, что спрос на дата инженеров на 70% выше чем на data science специалистов. Занятное чтиво 💪
А вы слышали термин Analytics Engineer?
Anonymous Poll
31%
Да
69%
Нет, а кто это?
Большая просьба 🆘
Поделитесь, пожалуйста, ресурсами (сайты, блоги, каналы), которые читаете, чтобы быть в курсе последних новшеств в Data Science, Analytics, Engineering.
Нашел в сети как два человека обсуждают мою статью про дата инженера на английском: https://youtu.be/UvmDBXNDeVE
Полезно послушать с точки зрения фидбека и дополнений к озвученному мною списку навыков, которыми должен обладать современный дата инженер.
Смотрите какой апдейт у Dagster подкатил: https://dagster.io/blog/dagster-0-10-0-the-edge-of-glory

- Exactly-once, Fault-Tolerant Scheduling (прям в Airflow 2.0)
- Sensors (event-based schedules)
- Mature Kubernetes Execution Engine

Здоровая конкуренция среди workflow менеджеров прям радует 💪
Нашел ещё один блог про data engineering: https://www.alisa-in.tech/post/