NEW BOT Телеграм, страница - 588525460

Инжиниринг Данных

23.5K subscribers

1.98K photos

56 videos

192 files

3.2K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.5K subscribers

Инжиниринг Данных

"Deep Learning" An MIT Press book.

819 viewsedited 18:33

Инжиниринг Данных

В приложение книжка про Apache #Spark от DataBricks - "A Gentle Introduction". Spark стал неотъемлемой частью проектов по Big Data и ML. Вы можете скачать его к себе на компьютер и попробовать. У него есть SQL, Python, Shell, Java интерфейсы.

844 views18:44

Инжиниринг Данных

7_73758_AGentleIntroductiontoApacheSpark.pdf

998 views18:45

Инжиниринг Данных

А вот курс по Apache Spark от Edx, сейчас не досутпен почему-то

943 viewsedited 18:45

Инжиниринг Данных

#dataengineering

Профессия Инженера Данных набирает популярность, по сути, это человек, который знает как управлять потоками данных любого размера, знает инструменты для работы с данными и понимает в каком виде лучше всего предоставить данные для конечного потребителя. Если посмотреть на Head Hunter, то там вакансии Data Engineer это обязательно будет BigData, Hadoop, Spark, Java и тп. Или вообще программист со знанием C++. Я с этим не согласен. Это всего лишь разновидность задач, которые не решить традиционным ETL. Хотя тренд такой, что AWS позволяет использовать Hadoop без знания Java, так же как и предлагает готовые сервисы по распознанию голоса или видео. На западном рынке Data Engineer - это специались по работы с данными (аналог нашего ETL разработчика) и задачи бывают разные, но уже больше 50% связано с облаком.

Основной тренд понятен, это облачные вычисления, соответственно, это большой плюс пройти обучение и при возможности сертифицироваться, желательно бесплатно или почти бесплатно. Сейчас есть 3 основных лидера Azure, AWS, GCP. По каждому из них разработана сертификация. Но GCP пошел дальше. У нас есть замечательная возможность пройти бесплатное обучение на Coursera по Data Engineering on Google Cloud Platform Specialization и за 250$ сдать экзамен на Google Data Engineer. Несмотря на то, что курс по GCP, концепции те же самые, как у AWS и Azure.

На прошлой неделе я сдал экзамен по Tableau Desktop Associate, следующий будет Tableau Server Associate, замет AWS Solution Architect Associate и обязательно
Google Cloud Certified Data Engineer

PS Если есть возможность расшарьте пост или другие посты, больше людей придет, больше контента буду писать:)

🍓1

1.24K viewsedited 23:10

Инжиниринг Данных

BigData in 2018 - инфографика

1.23K views07:13

Инжиниринг Данных

Нашел хорошее видео, которее сделал в 2013 году в Lamoda, Что такое Business Intelligence на примере Lamoda https://www.youtube.com/watch?v=xYExt37a9Qg&list=PLmUaI68_u1e1uZfyrxgROLPyhoO2ObIab

Introduction into DWH/BI

Do you want to know what DHW/BI is about?
Welcome!

1.47K viewsedited 06:13

Инжиниринг Данных

https://developers.google.com/machine-learning/crash-course/

Google for Developers

Machine Learning | Google for Developers

1.23K views23:51

Инжиниринг Данных

ML cheatsheet https://ml-cheatsheet.readthedocs.io/en/latest/index.html

1.14K views20:16

Инжиниринг Данных

http://www.chaskor.ru/article/mashinnoe_obuchenie_dlya_lyudej_43988

893 views18:11

Инжиниринг Данных

If you draw random samples from a population "enough" times and chart the sampling distribution, it will begin to look like Mr. Gauss' normal distribution (even if the underlying "original" distribution didn't look anything like a bell curve). It's the nature of "randomness" and one of the incredible facts of the universe. PS On a side note: this is what Mr. Gauss looked like on the 10-Deutschmark-bill (note the normal distribution curve in the background)

997 views00:41

Инжиниринг Данных

Амазон опубликовал Case Study про себя. Мне кажется основная цель было написать, как было плохо, когда был Oracle: Database administration for the Oracle data warehouse was complicated, expensive, and error-prone, requiring engineers to spend hundreds of hours each month on software upgrades, replication of data across multiple Oracle clusters, OS patching, and performance monitoring. Inefficient hardware provisioning required labor-intensive demand forecasting and capacity planning. It was also financially inefficient, being statically sized for peak loads and lacking the ability to dynamically scale for hardware cost optimization, with ever-increasing Oracle licensing costs.

Amazon Migration Analytics Case Study – Amazon Web Services (AWS)

Amazon migrated its analytics system from Oracle to AWS to enable greater agility, reduce operational cost and effort, and support growing performance needs. Amazon is the world’s leading online retailer and provides a wide range of cloud services through…

1.01K views22:11

Инжиниринг Данных

The-Data-Engineers-Guide-to-Apache-Spark.pdf

1.22K views22:23

Инжиниринг Данных

94 страницы про Spark - руководство для Инженера данных от databricks

1.13K views22:24

Инжиниринг Данных

Мой коллега проходит курс Data Visualization and Communication with Tableau. Когда вы просмотрите лекции первой недели, вам дадут лицензию Табло на 6 месяцев.

Data Visualization and Communication with Tableau

Offered by Duke University. One of the skills that ... Enroll for free.

1.63K views23:37

Инжиниринг Данных

https://moreynis.ru/normalbook-0/

Аркадий Морейнис // Тёмная сторона

Бизнес, стартапы, инвестиции. С опытом каждой стороны.

1.12K views02:40

Инжиниринг Данных

23 января, бесплатная онлайн конференция по Data Goverance - это про управление данными внутри организации

871 views17:27

Инжиниринг Данных

Redshift vs BIgQuery ценовое сравнение https://statsbot.co/blog/bigquery-vs-redshift-pricing/

Practical guides on business analytics and machine learning with applications and SQL code. Latest trends in data science for professionals, as long as good old methods for beginners.

1K views18:45

Инжиниринг Данных

Forwarded from Вастрик.Пынь

💌 Вастрик.Инсайд 39

По заявкам решил сделать выпуск о «войти вайти». Разобрал пять самых популярных вопросов.

— Недостаток айтишников — миф или правда?
— Нужен ли диплом и универ?
— Как легко изучать новые вещи?
— Карьерная лестница разработчика?
— Как оставаться востребованным?

https://vas3k.ru/inside/39/

150 views17:32

Инжиниринг Данных

#dataengineering

ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).

А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).

Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.

1.05K viewsedited 17:26

Инжиниринг Данных

#datawarehouse

Хорошая статья на medium, как строили Cloud DW в продуктовой компании

Developing a Data Warehouse in the Cloud for SaaS at SalesLoft

For the sake of the readers who are hearing the term ‘Data Warehouse’ for the first time, let me explain briefly. A data warehouse is an integrated, non-volatile, subject-oriented and time variant…

1.01K views20:28