DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
​​Нашел в сети интересный чеклист для подготовки к интервью на позицию Data Engineer - The Interview Study Guide For Data EngineersThe Interview Study Guide For Data Engineers
Не так давно в Лондоне прошел Kafka Summit London 2019. Все видео с этого саммита уже доступны онлайн: https://www.confluent.io/resources/kafka-summit-london-2019/
Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen).

Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine
в тех.блоге DataDog появилась статья про опыт использования apache kafka внутри компании: https://www.datadoghq.com/blog/kafka-at-datadog/
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.
Если вы активный пользователей Apache Airflow и Sentry, то вышла крутая новость! Теперь эти две балалайки можно и нужно склеить между собой. Читайте как тут: https://blog.sentry.io/2019/07/10/sentry-for-data-optimizing-airflow-with-sentry
Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2
Друзья!

На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.

Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).

В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.

Стоимость курса всего $10. Ссылка на курс: http://bit.ly/36P1eWG

Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.
В подкасте Data engineering вышел эпизод с авторами проекта Debezium: https://www.dataengineeringpodcast.com/debezium-change-data-capture-episode-114/
Для тех, кто в танке, debezium позволяет транслировать логи изменений БД (Change Data Capture). Поддерживает наиболее популярные БД, включая MySQL, PostgreSQL, MongoDB, SQL Server, Oracle, Cassandra.
Всем привет!

На сайте Dice вышла статья о том, что 2020 год должен стать годом Data Engineer: 2020: The Year of the Citizen Data Engineer

В заметке есть интересная ссылка на исследование от LinkedIn: 2020 Emerging Jobs Report, где дата инженер занимает почетное 8 месте с годовым приростом спроса аж на 38%. Отчёт актуален для рынка США.

Из наиболее популярных навыков для дата инженера упоминаются:

- Apache Spark
- Hadoop
- Python
- SQL
- ETL
- Amazon Web Services

Самое время углубиться в эту интересную и важную профессию цифрового века. А узнать как стать дата инженером поможет моя прошлогодняя статья: Как стать Data Engineer.