DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
В подкасте Software Engineering Daily вышел эпизод про исследования в области распределённых систем. Гостем выпуска стал Peter Alvaro: https://softwareengineeringdaily.com/2020/05/28/distributed-systems-research-with-peter-alvaro/
Uber зарелизил библиотеку для работы с Amazon Athena на языке Go: https://eng.uber.com/introducing-athenadriver/

Для тех, кто не знает что такое Amazon Athena, велком читать мой пост про построение озера данных в AWS: https://khashtamov.com/ru/aws-data-lake/

В Python для работы с Athena можно использовать boto3, пример кода https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake/blob/master/athena_query.py
Состоялся мажорный выпуск новой версии ETL инструмента Luigi - luigi 3.0. Из глобальных изменений там только отказ от поддержки Python2 по понятным причинам. Из новых фишечек добавили лишь более удобную визуализацию статуса работы воркера (при условии, что вы обновляете прогресс).

Для тех, кто не знаком с инструментом, велком почитать мой старый пост: Строим Data Pipeline на Python и Luigi.

Несколько месяцев назад я закончил создание курса про построение дата-пайплайнов на Luigi, он находится на платформе stepik: Введение в Data Engineering: дата-пайплайны. Его купили уже более 50 специалистов, отзывы о курсе можно почитать тут
Случайно в поиске нашел интересный блог про изучением data engineering. Автор в основном пишет про инструменты: dbt, Kafka, debezium, airflow и т.д. Но есть статьи про поиск работы и даже практические проекты на которых можно потренировать свой скилл.

Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме.

Огромное уважение автору за титанический труд!
В @dataeng_chat не так давно затрагивали тему про OLAP базы, упомянул Apache Pinot, тёмную лошадку среди распределенных аналитических БД. И вот на просторах сети вышла интересная статья про анализ текста средствами Apache Pinot: https://medium.com/apache-pinot-developer-blog/text-analytics-on-apache-pinot-cbf5c45d282c
DataEng pinned «Ура! Я наконец завершил создание курса по построению дата-пайплайнов в Python, используя фреймворк Luigi: Введение в Data Engineering: дата-пайплайны Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он…»
как распараллелить ваш python код на лямбды? очень просто — используйте http://pywren.io/
Интересный обзор новых БД от автора книги Seven databases in seven weeks. Автор планирует написать 3 поста с небольшими обзорами главных фич.

Первая часть посвящена: TileDB, Materialize и Prisma. Во второй части будут разобраны EdgeDB, Tremor и Debezium (CDC). И в финальной части автор обещает сделать выводы.

Ссылка на статью: https://lucperkins.dev/blog/new-db-tech-1/
A Brief History of Dask: https://coiled.io/blog/history-dask.html
Dask может быть лучшей альтернативой Apache Spark
Если вы сейчас рассматриваете предложения о работе и в частности в сфере data engineering, то на сайте remotelist.ru есть отдельная категория DataOps: https://remotelist.ru/category/dataops-jobs/
Если лень постоянно заходить на сайт, то можно подписаться на RSS этой категории: https://remotelist.ru/feed/category/dataops/

Также есть телеграм канал: @remotelist и бот @RemoteListBot

P.S. проект мой, пожелания и предложения можно оставлять в комментариях 😊
Вышла новая версия Apache Spark 3: https://spark.apache.org/releases/spark-release-3-0-0.html