DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Forwarded from DevBrain
Совсем забыл. Не так давно писал пост про оконные функции SQL. Рассмотрел далеко не все функции, но постарался основную идею передать, надеюсь, что мне это удалось 🍀

Ссылка на пост: https://khashtamov.com/ru/window-functions-sql/
Window_Functions_Cheat_Sheet.pdf
116.5 KB
крутой cheatsheet по оконным функциям SQL 😎
Дмитрий с канала @rockyourdata запустил бесплатный курс по дата инженерии у себя на ютуб-канале: https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg
​​В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования.
Data Engineer — это специалист, который как раз и собирает данные из разных источников, структурирует и передает аналитикам для принятия бизнес-решений.

Потребность в специалистах Data Engineering сейчас очень высокая и, по прогнозам, будет расти. По версии кадрового агентства Glassdoor, профессия Data Engineer входит в топ-10 в рейтинге самых лучших профессий Америки.

В SkillFactory идет набор на курс Data Engineer. Курс предназначен для людей, которым нужно освоить основные инструменты и методы по работе с Big Data. Программа рассчитана на тех, кто знаком с Python и построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать аналитику данных. И как итог, в конце курса вы завершите собственный проект по настройке пайплайнов и хранилища данных

🧨Прямо сейчас на курс дают скидку 50%. Торопитесь: https://clc.to/S1GeJw
В подкасте Software Engineering Daily вышел эпизод про исследования в области распределённых систем. Гостем выпуска стал Peter Alvaro: https://softwareengineeringdaily.com/2020/05/28/distributed-systems-research-with-peter-alvaro/
Uber зарелизил библиотеку для работы с Amazon Athena на языке Go: https://eng.uber.com/introducing-athenadriver/

Для тех, кто не знает что такое Amazon Athena, велком читать мой пост про построение озера данных в AWS: https://khashtamov.com/ru/aws-data-lake/

В Python для работы с Athena можно использовать boto3, пример кода https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake/blob/master/athena_query.py
Состоялся мажорный выпуск новой версии ETL инструмента Luigi - luigi 3.0. Из глобальных изменений там только отказ от поддержки Python2 по понятным причинам. Из новых фишечек добавили лишь более удобную визуализацию статуса работы воркера (при условии, что вы обновляете прогресс).

Для тех, кто не знаком с инструментом, велком почитать мой старый пост: Строим Data Pipeline на Python и Luigi.

Несколько месяцев назад я закончил создание курса про построение дата-пайплайнов на Luigi, он находится на платформе stepik: Введение в Data Engineering: дата-пайплайны. Его купили уже более 50 специалистов, отзывы о курсе можно почитать тут
Случайно в поиске нашел интересный блог про изучением data engineering. Автор в основном пишет про инструменты: dbt, Kafka, debezium, airflow и т.д. Но есть статьи про поиск работы и даже практические проекты на которых можно потренировать свой скилл.

Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме.

Огромное уважение автору за титанический труд!
В @dataeng_chat не так давно затрагивали тему про OLAP базы, упомянул Apache Pinot, тёмную лошадку среди распределенных аналитических БД. И вот на просторах сети вышла интересная статья про анализ текста средствами Apache Pinot: https://medium.com/apache-pinot-developer-blog/text-analytics-on-apache-pinot-cbf5c45d282c
DataEng pinned «Ура! Я наконец завершил создание курса по построению дата-пайплайнов в Python, используя фреймворк Luigi: Введение в Data Engineering: дата-пайплайны Идея создания курса пришла давно, в июле 2019 я начал готовить материал и выбирал платформу на которой он…»