#python
Иногда нам нужно выгрузить данные из Интренета, обычно они бывают в формате HTML или XML. Сегодня встретил библиотеку Python (кстати для Data Engineering (интеграция и трансформация данных) я рассматриваю как основной язык, а R это для меня язык дла статистики больше, но с помощью R и Python часто можно решить одинаковые задачи.)
Библиотека Beautiful Soup - парсит данные HTML и XML. Например, мы можешь задать SearchUrl и скрипт должен будет выкачать данные из результата поиска, распарсить результат и сохранить в CSV. Так же возможно подключаться к API и тогда мы можем получить JSON.
Я приложил пример, который выгружает данные с сайта поиска работы Dice.com (скрипт может устарел, но идея ясна) https://www.crummy.com/software/BeautifulSoup/
Скрипт выгружает данные по этому запросу https://www.dice.com/jobs/q-tableau-limit-30-startPage-1-limit-30-jobs?searchid=9787308578379 и перебирает страницы поиска [1:30]
Иногда нам нужно выгрузить данные из Интренета, обычно они бывают в формате HTML или XML. Сегодня встретил библиотеку Python (кстати для Data Engineering (интеграция и трансформация данных) я рассматриваю как основной язык, а R это для меня язык дла статистики больше, но с помощью R и Python часто можно решить одинаковые задачи.)
Библиотека Beautiful Soup - парсит данные HTML и XML. Например, мы можешь задать SearchUrl и скрипт должен будет выкачать данные из результата поиска, распарсить результат и сохранить в CSV. Так же возможно подключаться к API и тогда мы можем получить JSON.
Я приложил пример, который выгружает данные с сайта поиска работы Dice.com (скрипт может устарел, но идея ясна) https://www.crummy.com/software/BeautifulSoup/
Скрипт выгружает данные по этому запросу https://www.dice.com/jobs/q-tableau-limit-30-startPage-1-limit-30-jobs?searchid=9787308578379 и перебирает страницы поиска [1:30]
Crummy
Beautiful Soup: We called him Tortoise because he taught us.
Beautiful Soup: a library designed for screen-scraping HTML and XML.
#правилопяти
Я сейчас читаю книгу «How To Measure Anything» Дугласа Хаббарда, в которой он углубляется в понятие измерений. Приводит много интересных приемов и методов. Кстати, он согласился сделать презентация для моего Amazon BI Tech Talk в январе, я выложу запись потом, да и все прошлые выпуски тоже загружу. Вот один из интересных и простых приемов – правило пяти.
Например, допустим, вы хотите решить, находится ли ваш офис в наиболее удобном месте для ваших сотрудников. Вы можете провести полный опрос всего офиса, чтобы получить консенсус по этому вопросу, но это будет отнимать много времени и средств и, вероятно, даст вам больше точности, которая вам нужна.
Предположим, вместо этого вы просто случайно выбрали пять человек. Есть и другие вопросы, которые вам необходимо учитывать в отношении «случайности», но сейчас давайте предположим, что вы просто выбираете пять сотрудников наугад. Позвоните этим людям и спросите их, как долго они обычно ездят на работу. Когда вы получите ответы от пяти человек, остановитесь. Предположим, что вы получаете значения 30, 60, 45, 80 и 60 минут. Возьмите самое высокое и самое низкое значения из выборки из пяти: 30 и 80. Существует вероятность 93,75%, что медиана всей совокупности работников находится между этими двумя числами. Это, по мнению Дугласа Хаббарда, является правилом пяти. Правило пяти простое, оно работает, и оно может быть доказано как статистически обоснованное для широкого круга проблем. При такой небольшой выборке диапазон может быть очень широким, но если он был значительно уже вашего предыдущего диапазона (то есть диапазона неизвестного), то он считается измерением.
Правило пяти оценивает медиану (среднюю точку) выборки. Половина выборки выше определенного значения, половина ниже. Есть вероятность 93,75%, что медиана выборки находится между наименьшим и наибольшим значениями в любой случайной выборке из пяти из этой популяции. Может показаться невозможным на 93,75% быть уверенным в чем-либо, основываясь на случайной выборке из пяти, но это работает.
Как работает правило пяти
Изменение случайного выбора значения выше медианы, по определению, составляет 50% - то же самое, что и бросок монеты, приводящий к «орлам» или решкам. Изменение случайного выбора пяти значений, которые оказываются выше среднего, похоже на подбрасывание монеты в орла пять раз подряд. Шанс получить орла пять раз подряд при случайном подбрасывании монеты составляет 1 к 32, или 3,125%. Вероятность того, что вы не получите все орлы или все решки, составляет 100% -3,125% x 2 (= 6,25%) или 93,75%. Следовательно, вероятность того, что по меньшей мере один из пяти бросков выше медианы и по меньшей мере один ниже медианы, составляет 93,75%.
https://www.amazon.com/How-Measure-Anything-Intangibles-Business/dp/1118539273/
Я сейчас читаю книгу «How To Measure Anything» Дугласа Хаббарда, в которой он углубляется в понятие измерений. Приводит много интересных приемов и методов. Кстати, он согласился сделать презентация для моего Amazon BI Tech Talk в январе, я выложу запись потом, да и все прошлые выпуски тоже загружу. Вот один из интересных и простых приемов – правило пяти.
Например, допустим, вы хотите решить, находится ли ваш офис в наиболее удобном месте для ваших сотрудников. Вы можете провести полный опрос всего офиса, чтобы получить консенсус по этому вопросу, но это будет отнимать много времени и средств и, вероятно, даст вам больше точности, которая вам нужна.
Предположим, вместо этого вы просто случайно выбрали пять человек. Есть и другие вопросы, которые вам необходимо учитывать в отношении «случайности», но сейчас давайте предположим, что вы просто выбираете пять сотрудников наугад. Позвоните этим людям и спросите их, как долго они обычно ездят на работу. Когда вы получите ответы от пяти человек, остановитесь. Предположим, что вы получаете значения 30, 60, 45, 80 и 60 минут. Возьмите самое высокое и самое низкое значения из выборки из пяти: 30 и 80. Существует вероятность 93,75%, что медиана всей совокупности работников находится между этими двумя числами. Это, по мнению Дугласа Хаббарда, является правилом пяти. Правило пяти простое, оно работает, и оно может быть доказано как статистически обоснованное для широкого круга проблем. При такой небольшой выборке диапазон может быть очень широким, но если он был значительно уже вашего предыдущего диапазона (то есть диапазона неизвестного), то он считается измерением.
Правило пяти оценивает медиану (среднюю точку) выборки. Половина выборки выше определенного значения, половина ниже. Есть вероятность 93,75%, что медиана выборки находится между наименьшим и наибольшим значениями в любой случайной выборке из пяти из этой популяции. Может показаться невозможным на 93,75% быть уверенным в чем-либо, основываясь на случайной выборке из пяти, но это работает.
Как работает правило пяти
Изменение случайного выбора значения выше медианы, по определению, составляет 50% - то же самое, что и бросок монеты, приводящий к «орлам» или решкам. Изменение случайного выбора пяти значений, которые оказываются выше среднего, похоже на подбрасывание монеты в орла пять раз подряд. Шанс получить орла пять раз подряд при случайном подбрасывании монеты составляет 1 к 32, или 3,125%. Вероятность того, что вы не получите все орлы или все решки, составляет 100% -3,125% x 2 (= 6,25%) или 93,75%. Следовательно, вероятность того, что по меньшей мере один из пяти бросков выше медианы и по меньшей мере один ниже медианы, составляет 93,75%.
https://www.amazon.com/How-Measure-Anything-Intangibles-Business/dp/1118539273/
Сегодня существует более 7000 инструментов цифрового маркетинга по сравнению со 150 инструментами в 2011 году.
Но почему цифровой маркетинг стал более эффективным, чем традиционный маркетинг?
В традиционном маркетинге широкая клиентская база нацелена на использование платной телевизионной, печатной и радиорекламы с целью донести продукты / услуги до клиентов. Этот метод не дает четкого представления о том, как измерить успех маркетинговых кампаний или как их оценивать, кроме как сидеть и ждать.
В цифровом маркетинге цель состоит в том, чтобы привлечь клиентов к продуктам / услугам путем повышения осведомленности и привлечения. И есть много точек соприкосновения, чтобы измерить и оценить маркетинговые кампании, чтобы они могли быть усовершенствованы, чтобы достигнуть правильной аудитории.
Существуют инструменты на основе подписки, которые берут от 10 до 500 долларов в месяц. Когда вы складываете стоимость всех этих инструментов, вы внезапно платите намного больше, чем ожидали.
Также стоит брать в расчет усилия, необходимые для отдельного управления всеми этими инструментами и каналами. Как насчет измерения пути клиента?
Единственное решение – это объедините всех своих данных в одной платформе и автоматизация.
Из хороших новостей, если вы смогли интегрироваться с одной из систем, то вы сможете и со всеми остальными. Как раз такие задачи решают инженеры данных.
Но почему цифровой маркетинг стал более эффективным, чем традиционный маркетинг?
В традиционном маркетинге широкая клиентская база нацелена на использование платной телевизионной, печатной и радиорекламы с целью донести продукты / услуги до клиентов. Этот метод не дает четкого представления о том, как измерить успех маркетинговых кампаний или как их оценивать, кроме как сидеть и ждать.
В цифровом маркетинге цель состоит в том, чтобы привлечь клиентов к продуктам / услугам путем повышения осведомленности и привлечения. И есть много точек соприкосновения, чтобы измерить и оценить маркетинговые кампании, чтобы они могли быть усовершенствованы, чтобы достигнуть правильной аудитории.
Существуют инструменты на основе подписки, которые берут от 10 до 500 долларов в месяц. Когда вы складываете стоимость всех этих инструментов, вы внезапно платите намного больше, чем ожидали.
Также стоит брать в расчет усилия, необходимые для отдельного управления всеми этими инструментами и каналами. Как насчет измерения пути клиента?
Единственное решение – это объедините всех своих данных в одной платформе и автоматизация.
Из хороших новостей, если вы смогли интегрироваться с одной из систем, то вы сможете и со всеми остальными. Как раз такие задачи решают инженеры данных.
В приложение книжка про Apache #Spark от DataBricks - "A Gentle Introduction". Spark стал неотъемлемой частью проектов по Big Data и ML. Вы можете скачать его к себе на компьютер и попробовать. У него есть SQL, Python, Shell, Java интерфейсы.
#dataengineering
Профессия Инженера Данных набирает популярность, по сути, это человек, который знает как управлять потоками данных любого размера, знает инструменты для работы с данными и понимает в каком виде лучше всего предоставить данные для конечного потребителя. Если посмотреть на Head Hunter, то там вакансии Data Engineer это обязательно будет BigData, Hadoop, Spark, Java и тп. Или вообще программист со знанием C++. Я с этим не согласен. Это всего лишь разновидность задач, которые не решить традиционным ETL. Хотя тренд такой, что AWS позволяет использовать Hadoop без знания Java, так же как и предлагает готовые сервисы по распознанию голоса или видео. На западном рынке Data Engineer - это специались по работы с данными (аналог нашего ETL разработчика) и задачи бывают разные, но уже больше 50% связано с облаком.
Основной тренд понятен, это облачные вычисления, соответственно, это большой плюс пройти обучение и при возможности сертифицироваться, желательно бесплатно или почти бесплатно. Сейчас есть 3 основных лидера Azure, AWS, GCP. По каждому из них разработана сертификация. Но GCP пошел дальше. У нас есть замечательная возможность пройти бесплатное обучение на Coursera по Data Engineering on Google Cloud Platform Specialization и за 250$ сдать экзамен на Google Data Engineer. Несмотря на то, что курс по GCP, концепции те же самые, как у AWS и Azure.
На прошлой неделе я сдал экзамен по Tableau Desktop Associate, следующий будет Tableau Server Associate, замет AWS Solution Architect Associate и обязательно
Google Cloud Certified Data Engineer
PS Если есть возможность расшарьте пост или другие посты, больше людей придет, больше контента буду писать:)
Профессия Инженера Данных набирает популярность, по сути, это человек, который знает как управлять потоками данных любого размера, знает инструменты для работы с данными и понимает в каком виде лучше всего предоставить данные для конечного потребителя. Если посмотреть на Head Hunter, то там вакансии Data Engineer это обязательно будет BigData, Hadoop, Spark, Java и тп. Или вообще программист со знанием C++. Я с этим не согласен. Это всего лишь разновидность задач, которые не решить традиционным ETL. Хотя тренд такой, что AWS позволяет использовать Hadoop без знания Java, так же как и предлагает готовые сервисы по распознанию голоса или видео. На западном рынке Data Engineer - это специались по работы с данными (аналог нашего ETL разработчика) и задачи бывают разные, но уже больше 50% связано с облаком.
Основной тренд понятен, это облачные вычисления, соответственно, это большой плюс пройти обучение и при возможности сертифицироваться, желательно бесплатно или почти бесплатно. Сейчас есть 3 основных лидера Azure, AWS, GCP. По каждому из них разработана сертификация. Но GCP пошел дальше. У нас есть замечательная возможность пройти бесплатное обучение на Coursera по Data Engineering on Google Cloud Platform Specialization и за 250$ сдать экзамен на Google Data Engineer. Несмотря на то, что курс по GCP, концепции те же самые, как у AWS и Azure.
На прошлой неделе я сдал экзамен по Tableau Desktop Associate, следующий будет Tableau Server Associate, замет AWS Solution Architect Associate и обязательно
Google Cloud Certified Data Engineer
PS Если есть возможность расшарьте пост или другие посты, больше людей придет, больше контента буду писать:)
🍓1
Нашел хорошее видео, которее сделал в 2013 году в Lamoda, Что такое Business Intelligence на примере Lamoda https://www.youtube.com/watch?v=xYExt37a9Qg&list=PLmUaI68_u1e1uZfyrxgROLPyhoO2ObIab
YouTube
Introduction into DWH/BI
Do you want to know what DHW/BI is about?
Welcome!
Welcome!
If you draw random samples from a population "enough" times and chart the sampling distribution, it will begin to look like Mr. Gauss' normal distribution (even if the underlying "original" distribution didn't look anything like a bell curve). It's the nature of "randomness" and one of the incredible facts of the universe. PS On a side note: this is what Mr. Gauss looked like on the 10-Deutschmark-bill (note the normal distribution curve in the background)
Амазон опубликовал Case Study про себя. Мне кажется основная цель было написать, как было плохо, когда был Oracle: Database administration for the Oracle data warehouse was complicated, expensive, and error-prone, requiring engineers to spend hundreds of hours each month on software upgrades, replication of data across multiple Oracle clusters, OS patching, and performance monitoring. Inefficient hardware provisioning required labor-intensive demand forecasting and capacity planning. It was also financially inefficient, being statically sized for peak loads and lacking the ability to dynamically scale for hardware cost optimization, with ever-increasing Oracle licensing costs.
Amazon
Amazon Migration Analytics Case Study – Amazon Web Services (AWS)
Amazon migrated its analytics system from Oracle to AWS to enable greater agility, reduce operational cost and effort, and support growing performance needs. Amazon is the world’s leading online retailer and provides a wide range of cloud services through…
Мой коллега проходит курс Data Visualization and Communication with Tableau. Когда вы просмотрите лекции первой недели, вам дадут лицензию Табло на 6 месяцев.
Coursera
Data Visualization and Communication with Tableau
Offered by Duke University. One of the skills that ... Enroll for free.