NEW BOT Телеграм, страница

Инжиниринг Данных

#python

Иногда нам нужно выгрузить данные из Интренета, обычно они бывают в формате HTML или XML. Сегодня встретил библиотеку Python (кстати для Data Engineering (интеграция и трансформация данных) я рассматриваю как основной язык, а R это для меня язык дла статистики больше, но с помощью R и Python часто можно решить одинаковые задачи.)

Библиотека Beautiful Soup - парсит данные HTML и XML. Например, мы можешь задать SearchUrl и скрипт должен будет выкачать данные из результата поиска, распарсить результат и сохранить в CSV. Так же возможно подключаться к API и тогда мы можем получить JSON.

Я приложил пример, который выгружает данные с сайта поиска работы Dice.com (скрипт может устарел, но идея ясна) https://www.crummy.com/software/BeautifulSoup/

Скрипт выгружает данные по этому запросу https://www.dice.com/jobs/q-tableau-limit-30-startPage-1-limit-30-jobs?searchid=9787308578379 и перебирает страницы поиска [1:30]

Crummy

Beautiful Soup: We called him Tortoise because he taught us.

Beautiful Soup: a library designed for screen-scraping HTML and XML.

956 viewsedited 23:51

1.06K views23:54

#правилопяти

Я сейчас читаю книгу «How To Measure Anything» Дугласа Хаббарда, в которой он углубляется в понятие измерений. Приводит много интересных приемов и методов. Кстати, он согласился сделать презентация для моего Amazon BI Tech Talk в январе, я выложу запись потом, да и все прошлые выпуски тоже загружу. Вот один из интересных и простых приемов – правило пяти.

Например, допустим, вы хотите решить, находится ли ваш офис в наиболее удобном месте для ваших сотрудников. Вы можете провести полный опрос всего офиса, чтобы получить консенсус по этому вопросу, но это будет отнимать много времени и средств и, вероятно, даст вам больше точности, которая вам нужна.

Предположим, вместо этого вы просто случайно выбрали пять человек. Есть и другие вопросы, которые вам необходимо учитывать в отношении «случайности», но сейчас давайте предположим, что вы просто выбираете пять сотрудников наугад. Позвоните этим людям и спросите их, как долго они обычно ездят на работу. Когда вы получите ответы от пяти человек, остановитесь. Предположим, что вы получаете значения 30, 60, 45, 80 и 60 минут. Возьмите самое высокое и самое низкое значения из выборки из пяти: 30 и 80. Существует вероятность 93,75%, что медиана всей совокупности работников находится между этими двумя числами. Это, по мнению Дугласа Хаббарда, является правилом пяти. Правило пяти простое, оно работает, и оно может быть доказано как статистически обоснованное для широкого круга проблем. При такой небольшой выборке диапазон может быть очень широким, но если он был значительно уже вашего предыдущего диапазона (то есть диапазона неизвестного), то он считается измерением.

Правило пяти оценивает медиану (среднюю точку) выборки. Половина выборки выше определенного значения, половина ниже. Есть вероятность 93,75%, что медиана выборки находится между наименьшим и наибольшим значениями в любой случайной выборке из пяти из этой популяции. Может показаться невозможным на 93,75% быть уверенным в чем-либо, основываясь на случайной выборке из пяти, но это работает.

Как работает правило пяти
Изменение случайного выбора значения выше медианы, по определению, составляет 50% - то же самое, что и бросок монеты, приводящий к «орлам» или решкам. Изменение случайного выбора пяти значений, которые оказываются выше среднего, похоже на подбрасывание монеты в орла пять раз подряд. Шанс получить орла пять раз подряд при случайном подбрасывании монеты составляет 1 к 32, или 3,125%. Вероятность того, что вы не получите все орлы или все решки, составляет 100% -3,125% x 2 (= 6,25%) или 93,75%. Следовательно, вероятность того, что по меньшей мере один из пяти бросков выше медианы и по меньшей мере один ниже медианы, составляет 93,75%.

https://www.amazon.com/How-Measure-Anything-Intangibles-Business/dp/1118539273/

1.02K views21:16

Инжиниринг Данных

Сегодня существует более 7000 инструментов цифрового маркетинга по сравнению со 150 инструментами в 2011 году.

Но почему цифровой маркетинг стал более эффективным, чем традиционный маркетинг?

В традиционном маркетинге широкая клиентская база нацелена на использование платной телевизионной, печатной и радиорекламы с целью донести продукты / услуги до клиентов. Этот метод не дает четкого представления о том, как измерить успех маркетинговых кампаний или как их оценивать, кроме как сидеть и ждать.

В цифровом маркетинге цель состоит в том, чтобы привлечь клиентов к продуктам / услугам путем повышения осведомленности и привлечения. И есть много точек соприкосновения, чтобы измерить и оценить маркетинговые кампании, чтобы они могли быть усовершенствованы, чтобы достигнуть правильной аудитории.

Существуют инструменты на основе подписки, которые берут от 10 до 500 долларов в месяц. Когда вы складываете стоимость всех этих инструментов, вы внезапно платите намного больше, чем ожидали.

Также стоит брать в расчет усилия, необходимые для отдельного управления всеми этими инструментами и каналами. Как насчет измерения пути клиента?

Единственное решение – это объедините всех своих данных в одной платформе и автоматизация.

Из хороших новостей, если вы смогли интегрироваться с одной из систем, то вы сможете и со всеми остальными. Как раз такие задачи решают инженеры данных.

890 views00:55

Инжиниринг Данных

936 views00:55

Инжиниринг Данных

"Deep Learning" An MIT Press book.

819 viewsedited 18:33

Инжиниринг Данных

В приложение книжка про Apache #Spark от DataBricks - "A Gentle Introduction". Spark стал неотъемлемой частью проектов по Big Data и ML. Вы можете скачать его к себе на компьютер и попробовать. У него есть SQL, Python, Shell, Java интерфейсы.

844 views18:44

Инжиниринг Данных

7_73758_AGentleIntroductiontoApacheSpark.pdf

8.5 MB

998 views18:45

Инжиниринг Данных

А вот курс по Apache Spark от Edx, сейчас не досутпен почему-то

943 viewsedited 18:45

Инжиниринг Данных

#dataengineering

Профессия Инженера Данных набирает популярность, по сути, это человек, который знает как управлять потоками данных любого размера, знает инструменты для работы с данными и понимает в каком виде лучше всего предоставить данные для конечного потребителя. Если посмотреть на Head Hunter, то там вакансии Data Engineer это обязательно будет BigData, Hadoop, Spark, Java и тп. Или вообще программист со знанием C++. Я с этим не согласен. Это всего лишь разновидность задач, которые не решить традиционным ETL. Хотя тренд такой, что AWS позволяет использовать Hadoop без знания Java, так же как и предлагает готовые сервисы по распознанию голоса или видео. На западном рынке Data Engineer - это специались по работы с данными (аналог нашего ETL разработчика) и задачи бывают разные, но уже больше 50% связано с облаком.

Основной тренд понятен, это облачные вычисления, соответственно, это большой плюс пройти обучение и при возможности сертифицироваться, желательно бесплатно или почти бесплатно. Сейчас есть 3 основных лидера Azure, AWS, GCP. По каждому из них разработана сертификация. Но GCP пошел дальше. У нас есть замечательная возможность пройти бесплатное обучение на Coursera по Data Engineering on Google Cloud Platform Specialization и за 250$ сдать экзамен на Google Data Engineer. Несмотря на то, что курс по GCP, концепции те же самые, как у AWS и Azure.

На прошлой неделе я сдал экзамен по Tableau Desktop Associate, следующий будет Tableau Server Associate, замет AWS Solution Architect Associate и обязательно
Google Cloud Certified Data Engineer

PS Если есть возможность расшарьте пост или другие посты, больше людей придет, больше контента буду писать:)

🍓1

1.24K viewsedited 23:10

Инжиниринг Данных

0.pdf

1.2 MB

BigData in 2018 - инфографика

1.23K views07:13

Инжиниринг Данных

Нашел хорошее видео, которее сделал в 2013 году в Lamoda, Что такое Business Intelligence на примере Lamoda https://www.youtube.com/watch?v=xYExt37a9Qg&list=PLmUaI68_u1e1uZfyrxgROLPyhoO2ObIab

YouTube

Introduction into DWH/BI

Do you want to know what DHW/BI is about?
Welcome!

1.47K viewsedited 06:13

Инжиниринг Данных

https://developers.google.com/machine-learning/crash-course/

Google for Developers

Machine Learning | Google for Developers

1.23K views23:51

Инжиниринг Данных

ML cheatsheet https://ml-cheatsheet.readthedocs.io/en/latest/index.html

1.14K views20:16

Инжиниринг Данных

http://www.chaskor.ru/article/mashinnoe_obuchenie_dlya_lyudej_43988

893 views18:11

Инжиниринг Данных

If you draw random samples from a population "enough" times and chart the sampling distribution, it will begin to look like Mr. Gauss' normal distribution (even if the underlying "original" distribution didn't look anything like a bell curve). It's the nature of "randomness" and one of the incredible facts of the universe. PS On a side note: this is what Mr. Gauss looked like on the 10-Deutschmark-bill (note the normal distribution curve in the background)

997 views00:41

Инжиниринг Данных

Амазон опубликовал Case Study про себя. Мне кажется основная цель было написать, как было плохо, когда был Oracle: Database administration for the Oracle data warehouse was complicated, expensive, and error-prone, requiring engineers to spend hundreds of hours each month on software upgrades, replication of data across multiple Oracle clusters, OS patching, and performance monitoring. Inefficient hardware provisioning required labor-intensive demand forecasting and capacity planning. It was also financially inefficient, being statically sized for peak loads and lacking the ability to dynamically scale for hardware cost optimization, with ever-increasing Oracle licensing costs.

Amazon

Amazon Migration Analytics Case Study – Amazon Web Services (AWS)

Amazon migrated its analytics system from Oracle to AWS to enable greater agility, reduce operational cost and effort, and support growing performance needs. Amazon is the world’s leading online retailer and provides a wide range of cloud services through…

1.01K views22:11

Инжиниринг Данных

The-Data-Engineers-Guide-to-Apache-Spark.pdf

12.6 MB

1.22K views22:23

Инжиниринг Данных

94 страницы про Spark - руководство для Инженера данных от databricks

1.13K views22:24

Инжиниринг Данных

Мой коллега проходит курс Data Visualization and Communication with Tableau. Когда вы просмотрите лекции первой недели, вам дадут лицензию Табло на 6 месяцев.

Coursera

Data Visualization and Communication with Tableau

Offered by Duke University. One of the skills that ... Enroll for free.

1.63K views23:37

Инжиниринг Данных

https://moreynis.ru/normalbook-0/

Аркадий Морейнис // Тёмная сторона

Бизнес, стартапы, инвестиции. С опытом каждой стороны.

1.12K views02:40

About

Blog

Apps

Platform