Павел Новичков записал супер подробное видео (уже 2ое) по инструменту Pentaho DI, чтобы вы смогли овладеть принципами ETL.
В этом видео вы:
📌 Познакомимся с графическим интерфейсом Spoon
📌 Рассмотрим строительные блоки любого проекта: Steps и Hops
📌 Узнаем про виды проектов в Pentaho: Jobs и Transformations. В чем их отличия и когда что использовать.
📌 Познакомимся с наиболее распространенными форматами данных в ETL
📌 Потренируемся работе с форматами txt, csv, xls, json, xml
📌 Построим несколько джобов и трансформаций
📌 Научимся запускать проекты по расписанию
В этом видео вы:
📌 Познакомимся с графическим интерфейсом Spoon
📌 Рассмотрим строительные блоки любого проекта: Steps и Hops
📌 Узнаем про виды проектов в Pentaho: Jobs и Transformations. В чем их отличия и когда что использовать.
📌 Познакомимся с наиболее распространенными форматами данных в ETL
📌 Потренируемся работе с форматами txt, csv, xls, json, xml
📌 Построим несколько джобов и трансформаций
📌 Научимся запускать проекты по расписанию
Unified Data Architecture - еще один термин, обозначающий примерно то же самое - консолидация данных для принятия бизнес решений и с недавних пор для использования данных в машинном обучении. Другими словами синоним слова “хранилище данных”. Но в данном контексте это уже может быть что угодно - реляционная база данных, озеро данных на Hadoop или микс хранилища и озера данных, как например Snowflake или Redshift + Redshift Spectrum. Очень хорошая диаграмма, на которой по слоям все расписано от источника до отчета.
Databricks готовится к IPO, и вот уже объявили о поддержке Google Cloud. https://databricks.com/blog/2021/02/17/announcing-the-launch-of-databricks-on-google-cloud.html
Databricks
Announcing the Launch of Databricks on Google Cloud
Learn more about the launch of Databricks on Google Cloud and how the new collaboration will help organizations and their data teams maximize the analytics capabilities of their Google Cloud Storage infrastructure.
Спросили: Что такое Databricks?
Ответ: Это managed spark. То есть compute engines, которых можно создать сколько хочешь и любого размера. Подключить к озеру данных на AWS/Azure и делать processing на Python/Scala/SQL. Можно хранить результат в parquet и использовать delta log = delta lake, озеро данных с функцией ACID. Можно и без databcricks все построить на Hadoop+Spark и хранить все тоже самое в HDFS, но уже надо все ручками настраивать.
Другими словами мы создаем Lakehouse. Когда данные в виде файлов в репозитории, а сверху виртуальные машины, которые умеют читать файлы с помощью SQL (в случае Snowflake, Redshift Spectrum, Athena, Synapse). А вот в случае Databricks вы можете использовать Python/Scala/SQL, получаете преимущества cloud computing и заодно можете использовать docker, делать ML&DS и стримить данные и обрабатывать в реальном времени. В общем вещь!
В СНГ все это конечно не так популярно, так как мы отстаем с облаками. На курсах datalearn я хочу восполнить этот проблем. Это моя любимая тема облака+аналитика и всякие платформы. Даже на западном рынке нет таких курсов, которые включает в себя столько, сколько мы засунули в datalearn и самое главное есть контекст, а не просто учим кнопки нажимать, мы учим вас выбирать подходящее решение самостоятельно и самостоятельно достигать поставленных целей.
Ответ: Это managed spark. То есть compute engines, которых можно создать сколько хочешь и любого размера. Подключить к озеру данных на AWS/Azure и делать processing на Python/Scala/SQL. Можно хранить результат в parquet и использовать delta log = delta lake, озеро данных с функцией ACID. Можно и без databcricks все построить на Hadoop+Spark и хранить все тоже самое в HDFS, но уже надо все ручками настраивать.
Другими словами мы создаем Lakehouse. Когда данные в виде файлов в репозитории, а сверху виртуальные машины, которые умеют читать файлы с помощью SQL (в случае Snowflake, Redshift Spectrum, Athena, Synapse). А вот в случае Databricks вы можете использовать Python/Scala/SQL, получаете преимущества cloud computing и заодно можете использовать docker, делать ML&DS и стримить данные и обрабатывать в реальном времени. В общем вещь!
В СНГ все это конечно не так популярно, так как мы отстаем с облаками. На курсах datalearn я хочу восполнить этот проблем. Это моя любимая тема облака+аналитика и всякие платформы. Даже на западном рынке нет таких курсов, которые включает в себя столько, сколько мы засунули в datalearn и самое главное есть контекст, а не просто учим кнопки нажимать, мы учим вас выбирать подходящее решение самостоятельно и самостоятельно достигать поставленных целей.
Привет!
Новые публикации по Data Studio
1️⃣ Как преобразовать и упростить анализ эффективности рекламы при помощи Data Studio
https://clc.am/4kf9aw
2️⃣ [Видео] Аналитика воронки продаж онлайн школы в Google Data Studio - Дэшборды, отчеты по трафику, конверсиям
https://clc.am/XCYfwg
3️⃣ Наши любимые Ассоциированные конверсии (зачем нужны, как отследить в Google Analytics, Google Ads и добавить в отчеты GDS)
https://clc.am/-EIQ9w
4️⃣ [Видео] Простой отчет по контекстной рекламе в Google Data Studio
https://clc.am/r54b_Q
Новые публикации по Data Studio
1️⃣ Как преобразовать и упростить анализ эффективности рекламы при помощи Data Studio
https://clc.am/4kf9aw
2️⃣ [Видео] Аналитика воронки продаж онлайн школы в Google Data Studio - Дэшборды, отчеты по трафику, конверсиям
https://clc.am/XCYfwg
3️⃣ Наши любимые Ассоциированные конверсии (зачем нужны, как отследить в Google Analytics, Google Ads и добавить в отчеты GDS)
https://clc.am/-EIQ9w
4️⃣ [Видео] Простой отчет по контекстной рекламе в Google Data Studio
https://clc.am/r54b_Q
ppc.world | ppc.world – все о работе с платным трафиком
Статьи о ppc-маркетинге, веб-аналитике, контекстной и таргетированной рекламе – ppc.world
Актуальные статьи о ppc-маркетинге. Материалы об аналитике, настройке и работе в системах контекстной и таргетированной рекламы.
Всем привет! Мы уже провели немало интересных вебинаров от профессионалов со всего мира! И это только начало. Мы хотим собрать все самые крутые материалы по аналитике в одном месте и структурировать их за счет курсов data learn.
Мы создали форму для подачи заявки на вебинары. Интересные темы для вебинары:
- Обзор аналитики облачный решений AWS, Azure, GCP, Alibaba
- Обзор решений для BI/DW/ETL/BigData и тп (теория + демонстрация продукта)
- Информация про управление и развитие дата команд и дата продуктов
- Аналитические кейсы (внедрение решений аналитики и результаты)
- Ваши истории про иммиграция в любую страну и обзор рынка труда и процесс иммиграции
- Истории про смену проф ориентации
- Да все что угодно, лишь бы это было нам на пользу!
Мы создали форму для подачи заявки на вебинары. Интересные темы для вебинары:
- Обзор аналитики облачный решений AWS, Azure, GCP, Alibaba
- Обзор решений для BI/DW/ETL/BigData и тп (теория + демонстрация продукта)
- Информация про управление и развитие дата команд и дата продуктов
- Аналитические кейсы (внедрение решений аналитики и результаты)
- Ваши истории про иммиграция в любую страну и обзор рынка труда и процесс иммиграции
- Истории про смену проф ориентации
- Да все что угодно, лишь бы это было нам на пользу!
Google Docs
Заявка на Вебина для Data Learn.
Привет! Data Learn себя зарекомендовала в рунете и мы всегда рады провести вебинар или воркшоп с экспертами в области аналитики (BI, DW, ETL, Big Data, Cloud, DS, ML и многое другое).
Вебинар проходит через youtube stream. Запись останется навсегда и мы…
Вебинар проходит через youtube stream. Запись останется навсегда и мы…
Инжиниринг Данных pinned «Всем привет! Мы уже провели немало интересных вебинаров от профессионалов со всего мира! И это только начало. Мы хотим собрать все самые крутые материалы по аналитике в одном месте и структурировать их за счет курсов data learn. Мы создали форму для подачи…»
Через 65 минут будет трансляция посадки марсохода https://youtu.be/gm0b_ijaYMQ
YouTube
Watch NASA’s Perseverance Rover Land on Mars!
Watch an epic journey unfold on Thursday, Feb. 18 as our Perseverance rover lands on Mars. To reach the surface of the Red Planet, the rover has to survive the harrowing final phase known as Entry, Descent, and Landing.
Only then can the rover – the biggest…
Only then can the rover – the biggest…
Вот уже 10 лет я всегда с удовольствием смотрю на квадрант Gartner по BI инструментам.
Gartner, Magic Quadrant for Analytics and Business Intelligence Platforms, February 15, 2021, James Richardson, Kurt Schlegel, Rita Sallam, Austin Kronz, Julian Sun
Gartner, Magic Quadrant for Analytics and Business Intelligence Platforms, February 15, 2021, James Richardson, Kurt Schlegel, Rita Sallam, Austin Kronz, Julian Sun
Хоть и не хотя, я решил выступать хотя бы раз в месяц. В феврале будет презентация для Toronto Data Science user group про Modern Data Stack, а вот в Марте будет Calgary Tableau User Group про Snowflake+Tableau. Потом будет Microsoft User Group в BC про Azure Databricks, а потом Vancouver User Group про Tableau + Databricks. Я уже пришел к выводу, что для меня это бесполезное занятие, но раз в месяц можно делать, авось пригодиться.
PS всем кто никогда нигде не выступал, очень советую! Полезно для опыта, так же как и писать блог посты о чем-нибудь, чтобы в резюме была ссылочка.
PS всем кто никогда нигде не выступал, очень советую! Полезно для опыта, так же как и писать блог посты о чем-нибудь, чтобы в резюме была ссылочка.
Splashthat
Calgary Tableau User Group Meeting - March 2021
Calgary Tableau User Group Meeting - March 2021 - - Tuesday, March 30, 2021
У нас прекрасные новости, мы запускаем гениальный проект - комьюнити для женщин.
Зачем?
Чтобы объединиться и делиться опытом, сделать женщин более заметными в сфере аналитики и предоставить платформу для обсуждения достижений и поддержки
Кураторы сообщества Яна и Яна
Ознакомится и смотреть интро тут:
https://youtu.be/rNSLKxo6DiY
Тусовка будет в отдельном закрытом слак канале внутри нашего проекта DataLearn
Подробней инфа и регистрация тут:
https://datalearn.ru/women-in-data-community
Приглашение в закрытый канал можно получить путем регистрации и прохождением опроса, приглашение получат только те, кто пройдет опрос
ДОБРО ПОЖАЛОВАТЬ
Зачем?
Чтобы объединиться и делиться опытом, сделать женщин более заметными в сфере аналитики и предоставить платформу для обсуждения достижений и поддержки
Кураторы сообщества Яна и Яна
Ознакомится и смотреть интро тут:
https://youtu.be/rNSLKxo6DiY
Тусовка будет в отдельном закрытом слак канале внутри нашего проекта DataLearn
Подробней инфа и регистрация тут:
https://datalearn.ru/women-in-data-community
Приглашение в закрытый канал можно получить путем регистрации и прохождением опроса, приглашение получат только те, кто пройдет опрос
ДОБРО ПОЖАЛОВАТЬ
YouTube
WOMEN IN DATA ANALYTICS START INTRODUCTION
Вступить в сообщество: https://datalearn.ru/women-in-data-community
Нам нужно больше женщин в данных! Нам нужны их коммуникативные навыки, аналитические навыки и их уникальная точка зрения. Карьера в области данных - это хорошее сочетание компьютерных наук…
Нам нужно больше женщин в данных! Нам нужны их коммуникативные навыки, аналитические навыки и их уникальная точка зрения. Карьера в области данных - это хорошее сочетание компьютерных наук…
🔥 Знаешь, чем отличается обычный аналитик от мощного цифрового аналитика?
Настоящий цифровой уже зарегистрировался на онлайн-контест для аналитиков Analyze.ME с призовым фондом 360 000 рублей от Группы «М.Видео-Эльдорадо», чтобы:
• Почелленджить себя, порешать интересные задачи для системных бизнес- и кросс-системных аналитиков
• Провести выходные 26-28 февраля в отличной компании
• Посмотреть, как работают профи в цифровом ритейле #1
• Получить оффер мечты – предложение, от которого невозможно отказаться!
• Кофе-брейк с доставкой на дом
А ты готов ПРОКАЧАТЬ ЦИФРУ В РИТЕЙЛЕ?
PS Как обычно пост поддержал #vsevsevmeste
Настоящий цифровой уже зарегистрировался на онлайн-контест для аналитиков Analyze.ME с призовым фондом 360 000 рублей от Группы «М.Видео-Эльдорадо», чтобы:
• Почелленджить себя, порешать интересные задачи для системных бизнес- и кросс-системных аналитиков
• Провести выходные 26-28 февраля в отличной компании
• Посмотреть, как работают профи в цифровом ритейле #1
• Получить оффер мечты – предложение, от которого невозможно отказаться!
• Кофе-брейк с доставкой на дом
А ты готов ПРОКАЧАТЬ ЦИФРУ В РИТЕЙЛЕ?
PS Как обычно пост поддержал #vsevsevmeste
Все чаще попадается информация про data-mesh. Я с ним не работал, мне ближе платформы данных, которые я могу сам построить от и до. А вот data-mesh это уже более сложная распределённая архитектура, которая подходит крупным Enterprise. В статье рассмотрен вариант внедрения в Intuit. Мне видится это как следующий шаг эволюции решений аналитики. Примерно так видеться:
1) аналитика на OLTP (на источниках)
2) хранилище данных
3) большие данные (озеро, Hadoop)
4) Lakehouse (озеро и хранилище данных) или облачная платформа данных. Так же назвать можно unified platform.
5) data-mesh
Я ещё не дорос пока до №5🙄
1) аналитика на OLTP (на источниках)
2) хранилище данных
3) большие данные (озеро, Hadoop)
4) Lakehouse (озеро и хранилище данных) или облачная платформа данных. Так же назвать можно unified platform.
5) data-mesh
Я ещё не дорос пока до №5🙄
Medium
Intuit’s Data Mesh Strategy
Intuit’s mission is ‘Power Prosperity Around the World’. And Intuit’s strategy for delivering on that mission is to be an ‘AI Driven…