Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
#правилопяти

Я сейчас читаю книгу «How To Measure Anything» Дугласа Хаббарда, в которой он углубляется в понятие измерений. Приводит много интересных приемов и методов. Кстати, он согласился сделать презентация для моего Amazon BI Tech Talk в январе, я выложу запись потом, да и все прошлые выпуски тоже загружу. Вот один из интересных и простых приемов – правило пяти.

Например, допустим, вы хотите решить, находится ли ваш офис в наиболее удобном месте для ваших сотрудников. Вы можете провести полный опрос всего офиса, чтобы получить консенсус по этому вопросу, но это будет отнимать много времени и средств и, вероятно, даст вам больше точности, которая вам нужна.

Предположим, вместо этого вы просто случайно выбрали пять человек. Есть и другие вопросы, которые вам необходимо учитывать в отношении «случайности», но сейчас давайте предположим, что вы просто выбираете пять сотрудников наугад. Позвоните этим людям и спросите их, как долго они обычно ездят на работу. Когда вы получите ответы от пяти человек, остановитесь. Предположим, что вы получаете значения 30, 60, 45, 80 и 60 минут. Возьмите самое высокое и самое низкое значения из выборки из пяти: 30 и 80. Существует вероятность 93,75%, что медиана всей совокупности работников находится между этими двумя числами. Это, по мнению Дугласа Хаббарда, является правилом пяти. Правило пяти простое, оно работает, и оно может быть доказано как статистически обоснованное для широкого круга проблем. При такой небольшой выборке диапазон может быть очень широким, но если он был значительно уже вашего предыдущего диапазона (то есть диапазона неизвестного), то он считается измерением.

Правило пяти оценивает медиану (среднюю точку) выборки. Половина выборки выше определенного значения, половина ниже. Есть вероятность 93,75%, что медиана выборки находится между наименьшим и наибольшим значениями в любой случайной выборке из пяти из этой популяции. Может показаться невозможным на 93,75% быть уверенным в чем-либо, основываясь на случайной выборке из пяти, но это работает.

Как работает правило пяти
Изменение случайного выбора значения выше медианы, по определению, составляет 50% - то же самое, что и бросок монеты, приводящий к «орлам» или решкам. Изменение случайного выбора пяти значений, которые оказываются выше среднего, похоже на подбрасывание монеты в орла пять раз подряд. Шанс получить орла пять раз подряд при случайном подбрасывании монеты составляет 1 к 32, или 3,125%. Вероятность того, что вы не получите все орлы или все решки, составляет 100% -3,125% x 2 (= 6,25%) или 93,75%. Следовательно, вероятность того, что по меньшей мере один из пяти бросков выше медианы и по меньшей мере один ниже медианы, составляет 93,75%.

https://www.amazon.com/How-Measure-Anything-Intangibles-Business/dp/1118539273/
Сегодня существует более 7000 инструментов цифрового маркетинга по сравнению со 150 инструментами в 2011 году.

Но почему цифровой маркетинг стал более эффективным, чем традиционный маркетинг?

В традиционном маркетинге широкая клиентская база нацелена на использование платной телевизионной, печатной и радиорекламы с целью донести продукты / услуги до клиентов. Этот метод не дает четкого представления о том, как измерить успех маркетинговых кампаний или как их оценивать, кроме как сидеть и ждать.

В цифровом маркетинге цель состоит в том, чтобы привлечь клиентов к продуктам / услугам путем повышения осведомленности и привлечения. И есть много точек соприкосновения, чтобы измерить и оценить маркетинговые кампании, чтобы они могли быть усовершенствованы, чтобы достигнуть правильной аудитории.

Существуют инструменты на основе подписки, которые берут от 10 до 500 долларов в месяц. Когда вы складываете стоимость всех этих инструментов, вы внезапно платите намного больше, чем ожидали.

Также стоит брать в расчет усилия, необходимые для отдельного управления всеми этими инструментами и каналами. Как насчет измерения пути клиента?

Единственное решение – это объедините всех своих данных в одной платформе и автоматизация.

Из хороших новостей, если вы смогли интегрироваться с одной из систем, то вы сможете и со всеми остальными. Как раз такие задачи решают инженеры данных.
"Deep Learning" An MIT Press book.
В приложение книжка про Apache #Spark от DataBricks - "A Gentle Introduction". Spark стал неотъемлемой частью проектов по Big Data и ML. Вы можете скачать его к себе на компьютер и попробовать. У него есть SQL, Python, Shell, Java интерфейсы.
А вот курс по Apache Spark от Edx, сейчас не досутпен почему-то
#dataengineering

Профессия Инженера Данных набирает популярность, по сути, это человек, который знает как управлять потоками данных любого размера, знает инструменты для работы с данными и понимает в каком виде лучше всего предоставить данные для конечного потребителя. Если посмотреть на Head Hunter, то там вакансии Data Engineer это обязательно будет BigData, Hadoop, Spark, Java и тп. Или вообще программист со знанием C++. Я с этим не согласен. Это всего лишь разновидность задач, которые не решить традиционным ETL. Хотя тренд такой, что AWS позволяет использовать Hadoop без знания Java, так же как и предлагает готовые сервисы по распознанию голоса или видео. На западном рынке Data Engineer - это специались по работы с данными (аналог нашего ETL разработчика) и задачи бывают разные, но уже больше 50% связано с облаком.

Основной тренд понятен, это облачные вычисления, соответственно, это большой плюс пройти обучение и при возможности сертифицироваться, желательно бесплатно или почти бесплатно. Сейчас есть 3 основных лидера Azure, AWS, GCP. По каждому из них разработана сертификация. Но GCP пошел дальше. У нас есть замечательная возможность пройти бесплатное обучение на Coursera по Data Engineering on Google Cloud Platform Specialization и за 250$ сдать экзамен на Google Data Engineer. Несмотря на то, что курс по GCP, концепции те же самые, как у AWS и Azure.

На прошлой неделе я сдал экзамен по Tableau Desktop Associate, следующий будет Tableau Server Associate, замет AWS Solution Architect Associate и обязательно
Google Cloud Certified Data Engineer

PS Если есть возможность расшарьте пост или другие посты, больше людей придет, больше контента буду писать:)
🍓1
0.pdf
1.2 MB
BigData in 2018 - инфографика
Нашел хорошее видео, которее сделал в 2013 году в Lamoda, Что такое Business Intelligence на примере Lamoda https://www.youtube.com/watch?v=xYExt37a9Qg&list=PLmUaI68_u1e1uZfyrxgROLPyhoO2ObIab
If you draw random samples from a population "enough" times and chart the sampling distribution, it will begin to look like Mr. Gauss' normal distribution (even if the underlying "original" distribution didn't look anything like a bell curve). It's the nature of "randomness" and one of the incredible facts of the universe. PS On a side note: this is what Mr. Gauss looked like on the 10-Deutschmark-bill (note the normal distribution curve in the background)
Амазон опубликовал Case Study про себя. Мне кажется основная цель было написать, как было плохо, когда был Oracle: Database administration for the Oracle data warehouse was complicated, expensive, and error-prone, requiring engineers to spend hundreds of hours each month on software upgrades, replication of data across multiple Oracle clusters, OS patching, and performance monitoring. Inefficient hardware provisioning required labor-intensive demand forecasting and capacity planning. It was also financially inefficient, being statically sized for peak loads and lacking the ability to dynamically scale for hardware cost optimization, with ever-increasing Oracle licensing costs.
94 страницы про Spark - руководство для Инженера данных от databricks
Мой коллега проходит курс Data Visualization and Communication with Tableau. Когда вы просмотрите лекции первой недели, вам дадут лицензию Табло на 6 месяцев.
23 января, бесплатная онлайн конференция по Data Goverance - это про управление данными внутри организации