Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
"Deep Learning" An MIT Press book.
В приложение книжка про Apache #Spark от DataBricks - "A Gentle Introduction". Spark стал неотъемлемой частью проектов по Big Data и ML. Вы можете скачать его к себе на компьютер и попробовать. У него есть SQL, Python, Shell, Java интерфейсы.
А вот курс по Apache Spark от Edx, сейчас не досутпен почему-то
#dataengineering

Профессия Инженера Данных набирает популярность, по сути, это человек, который знает как управлять потоками данных любого размера, знает инструменты для работы с данными и понимает в каком виде лучше всего предоставить данные для конечного потребителя. Если посмотреть на Head Hunter, то там вакансии Data Engineer это обязательно будет BigData, Hadoop, Spark, Java и тп. Или вообще программист со знанием C++. Я с этим не согласен. Это всего лишь разновидность задач, которые не решить традиционным ETL. Хотя тренд такой, что AWS позволяет использовать Hadoop без знания Java, так же как и предлагает готовые сервисы по распознанию голоса или видео. На западном рынке Data Engineer - это специались по работы с данными (аналог нашего ETL разработчика) и задачи бывают разные, но уже больше 50% связано с облаком.

Основной тренд понятен, это облачные вычисления, соответственно, это большой плюс пройти обучение и при возможности сертифицироваться, желательно бесплатно или почти бесплатно. Сейчас есть 3 основных лидера Azure, AWS, GCP. По каждому из них разработана сертификация. Но GCP пошел дальше. У нас есть замечательная возможность пройти бесплатное обучение на Coursera по Data Engineering on Google Cloud Platform Specialization и за 250$ сдать экзамен на Google Data Engineer. Несмотря на то, что курс по GCP, концепции те же самые, как у AWS и Azure.

На прошлой неделе я сдал экзамен по Tableau Desktop Associate, следующий будет Tableau Server Associate, замет AWS Solution Architect Associate и обязательно
Google Cloud Certified Data Engineer

PS Если есть возможность расшарьте пост или другие посты, больше людей придет, больше контента буду писать:)
🍓1
0.pdf
1.2 MB
BigData in 2018 - инфографика
Нашел хорошее видео, которее сделал в 2013 году в Lamoda, Что такое Business Intelligence на примере Lamoda https://www.youtube.com/watch?v=xYExt37a9Qg&list=PLmUaI68_u1e1uZfyrxgROLPyhoO2ObIab
If you draw random samples from a population "enough" times and chart the sampling distribution, it will begin to look like Mr. Gauss' normal distribution (even if the underlying "original" distribution didn't look anything like a bell curve). It's the nature of "randomness" and one of the incredible facts of the universe. PS On a side note: this is what Mr. Gauss looked like on the 10-Deutschmark-bill (note the normal distribution curve in the background)
Амазон опубликовал Case Study про себя. Мне кажется основная цель было написать, как было плохо, когда был Oracle: Database administration for the Oracle data warehouse was complicated, expensive, and error-prone, requiring engineers to spend hundreds of hours each month on software upgrades, replication of data across multiple Oracle clusters, OS patching, and performance monitoring. Inefficient hardware provisioning required labor-intensive demand forecasting and capacity planning. It was also financially inefficient, being statically sized for peak loads and lacking the ability to dynamically scale for hardware cost optimization, with ever-increasing Oracle licensing costs.
94 страницы про Spark - руководство для Инженера данных от databricks
Мой коллега проходит курс Data Visualization and Communication with Tableau. Когда вы просмотрите лекции первой недели, вам дадут лицензию Табло на 6 месяцев.
23 января, бесплатная онлайн конференция по Data Goverance - это про управление данными внутри организации
Forwarded from Вастрик.Пынь
💌 Вастрик.Инсайд 39

По заявкам решил сделать выпуск о «войти вайти». Разобрал пять самых популярных вопросов.

— Недостаток айтишников — миф или правда?
— Нужен ли диплом и универ?
— Как легко изучать новые вещи?
— Карьерная лестница разработчика?
— Как оставаться востребованным?

https://vas3k.ru/inside/39/
#dataengineering

ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).

А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).

Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.