NEW BOT Телеграм, страница

DataEng

Обзорная презентация с Google IO про сервисы Google Cloud Platform. Будет интересно начинающим: https://www.youtube.com/watch?v=h4NJdvUcq2c

YouTube

Google Cloud Platform (GCP) Essentials (Google I/O'19)

This session is your key to the Google Cloud Platform kingdom, covering compute options, storage and database solutions, container-driven runtimes, continuous integration tools, applied DevOps principles, fully-managed big data processing, and machine learning…

582 views07:00

DataEng

Если вы у себя используете Airflow, то эта статейка может быть весьма к стати: https://medium.com/flatiron-engineering/upgrading-airflow-with-zero-downtime-8df303760c96

Medium

Upgrading Airflow with Zero Downtime

At Flatiron Health, we use Airflow to orchestrate the pipelines necessary to build the mission-critical datasets we use to accelerate…

616 views07:01

DataEng

Нашел в сети интересный чеклист для подготовки к интервью на позицию Data Engineer - The Interview Study Guide For Data EngineersThe Interview Study Guide For Data Engineers

736 views08:00

DataEng

На HighLoad++ 2018 был доклад про data engineers: Дата-инженеры и кому они нужны - www.youtube.com/watch?v=KyZYDCkNPow

YouTube

Дата-инженеры и кому они нужны / Валентин Гогичашвили (Zalando SE)

Приглашаем на конференцию Saint HighLoad++ 2025, которая пройдет 23 и 24 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ Moscow 2018

Тезисы и презентация:
http://www.highload.ru/mo…

707 viewsedited 06:25

DataEng

Неплохой пост про эволюцию профессии дата инженера https://medium.com/analytics-and-data/on-the-evolution-of-data-engineering-c5e56d273e37

Medium

ON the evolution of Data Engineering

A few years ago being a data engineer meant managing data in and out of a database, creating pipelines in SQL or Procedural SQL and doing…

568 views16:57

DataEng

Не так давно в Лондоне прошел Kafka Summit London 2019. Все видео с этого саммита уже доступны онлайн: https://www.confluent.io/resources/kafka-summit-london-2019/

Confluent

Kafka Summit London 2019 - Confluent

Confluent is building the foundational platform for data in motion so any organization can innovate and win in a digital-first world.

631 views10:41

DataEng

Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen).

Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine

YouTube

Disrupting Data Discovery at Lyft (Amundsen)

Lyft has reduced the time it takes to discover data by 10x by building its own data portal, Amundsen. Amundsen is built on three key pillars: an augmented da...

826 views06:33

DataEng

Интересный доклад про построение дата-инжиниринг культуры: Creating a Data Engineering Culture

YouTube

Creating a Data Engineering Culture | Big Data Institute

Get the slides: https://www.datacouncil.ai/talks/creating-a-data-engineering-cultureDownload slides of this talk: https://www.dataengconf.com/speaker/creatin...

695 viewsedited 12:19

Add a comment

DataEng

Стали появляться видео с прошедшей конференции Data Council (бывшая DataEng Conf)

- Running Apache Airflow Reliably with Kubernetes
- Amundsen: A Data Discovery Platform From Lyft
- Notebooks as Functions with Papermill
- Operating Multi-Tenant Kafka Services for Developers on Heroku
- How Data is Transforming Politics

YouTube

Running Apache Airflow Reliably with Kubernetes | Astronomer

Get the slides: https://www.datacouncil.ai/talks/running-airflow-reliably-with-kubernetesABOUT THE TALKAstronomer is a data engineering platform that collect...

803 viewsedited 13:14

Add a comment

DataEng

трезвая статья про кафку: https://vicki.substack.com/p/you-dont-need-kafka

Normcore Tech

You don't need Kafka

really.

728 viewsedited 07:08

Add a comment

DataEng

в тех.блоге DataDog появилась статья про опыт использования apache kafka внутри компании: https://www.datadoghq.com/blog/kafka-at-datadog/

Datadog

Lessons learned from running Kafka at Datadog | Datadog

Learn about several configuration-related issues we encountered while running 40+ Kafka and ZooKeeper clusters.

591 viewsedited 09:52

Add a comment

DataEng

нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.

GitHub

GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.

An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster

6.46K viewsedited 06:01

Add a comment

DataEng

Если вы активный пользователей Apache Airflow и Sentry, то вышла крутая новость! Теперь эти две балалайки можно и нужно склеить между собой. Читайте как тут: https://blog.sentry.io/2019/07/10/sentry-for-data-optimizing-airflow-with-sentry

Product Blog • Sentry

Sentry for Data: Optimizing Airflow with Sentry

In our Sentry for Data series, we explain precisely why Sentry is the perfect tool for your data team.

716 viewsedited 10:40

Add a comment

DataEng

17-18 июля сего года в Сингапуре прошла конференция Data Council SG, где были интересные доклады на тему data science, data engineering и т.д. Вот наиболее интересные видосики:

- Data Architecture 101 for Your Business

- Presto: Optimizing Performance of SQL-on-Anything

- Data Modeling and Processing for a Travel Super App

- Revenue Maximization in the Shared Bike Business

- Building Data Orchestration for Big Data Analytics in the Cloud

Весь плейлист можно посмотреть по ссылке

YouTube

Data Architecture 101 for Your Business

Download Slides: https://www.datacouncil.ai/talks/data-architecture-101-for-your-business?hsLang=en

WANT TO EXPERIENCE A TALK LIKE THIS LIVE?

Barcelona: https://www.datacouncil.ai/barcelona
New York City: https://www.datacouncil.ai/new-york-city
San…

1.05K viewsedited 11:02

Add a comment

DataEng

Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2

YouTube

Data Council BCN '19 - YouTube

733 views11:57

1 comment

DataEng

Друзья!

На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.

Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).

В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.

Стоимость курса всего $10. Ссылка на курс: http://bit.ly/36P1eWG

Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.

Stepik: online education

Введение в Data Engineering: дата-пайплайны

Курс раскрывает тему построения сложных дата-пайплайнов в экосистеме Python, а именно знакомит слушателя с удобным и гибким инструментом Luigi.

965 views12:01

2 comments

DataEng

Компания Confluent анонсировала выход ksqlDB: https://www.confluent.io/blog/intro-to-ksqldb-sql-database-streaming

Confluent

Introducing ksqlDB

Today marks a new release of KSQL, one so significant that we’re giving it a new name: ksqlDB. There are two new major features we’re adding: pull queries and connector management.

815 views17:24

Add a comment

DataEng

Потихоньку становятся доступны доклады с Data Council, прошедшей в Нью-Йорке: http://bit.ly/2OgHC6m

YouTube

Accelerate Source to Signal: Data Engineering Efficiency | Crux Informatics

Get the slides: https://www.datacouncil.ai/talks/accelerate-source-to-signal-data-engineering-efficiency?hsLang=enABOUT THE TALKIngesting data from thousands...

952 views11:29

Add a comment

DataEng

На Data Engineering Podcast вышел выпуск про SnowflakeDB: https://www.dataengineeringpodcast.com/snowflakedb-cloud-data-warehouse-episode-110/

Data Engineering Podcast

SnowflakeDB: The Data Warehouse Built For The Cloud - Episode 110

Data warehouses have gone through many transformations, from standard relational databases on powerful hardware, to column oriented storage engines, to the current generation of cloud-native analytical engines. SnowflakeDB has been leading the charge to take…

1.03K views13:28

Add a comment

DataEng

В подкасте Data engineering вышел эпизод с авторами проекта Debezium: https://www.dataengineeringpodcast.com/debezium-change-data-capture-episode-114/
Для тех, кто в танке, debezium позволяет транслировать логи изменений БД (Change Data Capture). Поддерживает наиболее популярные БД, включая MySQL, PostgreSQL, MongoDB, SQL Server, Oracle, Cassandra.

Data Engineering Podcast

Change Data Capture For All Of Your Databases With Debezium - Episode 114

Databases are useful for inspecting the current state of your application, but inspecting the history of that data can get messy without a way to track changes as they happen. Debezium is an open source platform for reliable change data capture that you can…

645 views04:44

Add a comment

DataEng

Всем привет!

На сайте Dice вышла статья о том, что 2020 год должен стать годом Data Engineer: 2020: The Year of the Citizen Data Engineer

В заметке есть интересная ссылка на исследование от LinkedIn: 2020 Emerging Jobs Report, где дата инженер занимает почетное 8 месте с годовым приростом спроса аж на 38%. Отчёт актуален для рынка США.

Из наиболее популярных навыков для дата инженера упоминаются:

- Apache Spark
- Hadoop
- Python
- SQL
- ETL
- Amazon Web Services

Самое время углубиться в эту интересную и важную профессию цифрового века. А узнать как стать дата инженером поможет моя прошлогодняя статья: Как стать Data Engineer.

Dice Insights

2020: The Year of the Citizen Data Engineer

Data sophistication has forever and profoundly changed the way in which companies do business today. Data-driven innovation has led to better business decisions, enhanced customer engagement, and improved customer retention, all of which are essential to…

6.41K views10:50

Add a comment

About

Blog

Apps

Platform