Матилион недавно рассказал просто про Lakehouse на BigData London.
Lakehouse = DW + Data Lake. В облаках они хороши вместе уживаются в общую платформу.
Lakehouse = DW + Data Lake. В облаках они хороши вместе уживаются в общую платформу.
Добавил новое видео про ETL подсистемы.
Согласно Ральфу Кимбаллу (тот самый, который изобрел Dimensional Modelling), существует 34 ETL подсистемы, которые делятся на 4 основных категории:
📌 Data Extracting (получить данные из систем - E в ETL)
📌 Cleaning and Conforming Data (интеграция данных и подготовка к загрузке в DW - T в ETL)
📌 Delivering Data for Presentation (обработка данных в DW - L в ETL)
📌 Managing the ETL environment (yправление и мониторинг компонентов ETL)
Само по себе понятие ETL подсистема - это некая абстракция. Не нужно копать глубоко. Как правило - это либо компонент ETL решения, например готовый компонент в Pentaho DI для создания SCD Type 2 (подсистема 9) или компонент для создания последовательности чисел, в случае необходимости генерации суррогатных ключей (подсистема 10). Это может буть функциональность ETL инструмента для обработки ошибок (подсистема 5) или возможность мониторинга выполнения ETL job (подсистема 27).
Ну а если вы используете код (python, java, C и тд), то вам необъодимо уже изобретать свои компоненты или искать существующие.
Согласно Ральфу Кимбаллу (тот самый, который изобрел Dimensional Modelling), существует 34 ETL подсистемы, которые делятся на 4 основных категории:
📌 Data Extracting (получить данные из систем - E в ETL)
📌 Cleaning and Conforming Data (интеграция данных и подготовка к загрузке в DW - T в ETL)
📌 Delivering Data for Presentation (обработка данных в DW - L в ETL)
📌 Managing the ETL environment (yправление и мониторинг компонентов ETL)
Само по себе понятие ETL подсистема - это некая абстракция. Не нужно копать глубоко. Как правило - это либо компонент ETL решения, например готовый компонент в Pentaho DI для создания SCD Type 2 (подсистема 9) или компонент для создания последовательности чисел, в случае необходимости генерации суррогатных ключей (подсистема 10). Это может буть функциональность ETL инструмента для обработки ошибок (подсистема 5) или возможность мониторинга выполнения ETL job (подсистема 27).
Ну а если вы используете код (python, java, C и тд), то вам необъодимо уже изобретать свои компоненты или искать существующие.
Старый пост от HBR про Learning to Learn. Главное преимущество тогда и тем более сейчас это учиться быстрее чем ваши конкуренты (применимо для компаний). Тоже само и про персональное развитие, это непозволительная роскошь что-то выучить от начала до конца и расслабиться. (В нашей профессии конца нет, пока учишь одно, появляется ещё 3 новых технологии/подхода). Чем дальше тем больше нужно учить, поэтом скорость потребления материала (не количество прочитанных книг или прослушанных лекций), а именно ценные блоки информации, которые помогают нам развивать нашу карьеру и компетенцию.
Harvard Business Review
Learning to Learn
The ever-increasing pace of change in today’s organizations requires that executives understand and then quickly respond to constant shifts in how their businesses operate and how work must get done. That means you must resist your innate biases against doing…
1609865357375.pdf
2.6 MB
Очень веселая презентация - Statistics for Hackers
Forwarded from Oleg Agapov 🇺🇦
я бы сразу линк на talk давал, он супер позитивный, и чувак действительно объясняет очень понятно
https://www.youtube.com/watch?v=Iq9DzN6mvYA
https://www.youtube.com/watch?v=Iq9DzN6mvYA
YouTube
Jake Vanderplas - Statistics for Hackers - PyCon 2016.mp4
Speaker: Jake Vanderplas
Statistics has the reputation of being difficult to understand, but using some simple Python skills it can be made much more intuitive. This talk will cover several sampling-based approaches to solving statistical problems, and show…
Statistics has the reputation of being difficult to understand, but using some simple Python skills it can be made much more intuitive. This talk will cover several sampling-based approaches to solving statistical problems, and show…
Самая крутая Data компания Snowflake сделало 10 предсказаний по аналитике на 2021:
Trend #1: The value of data will rise exponentially
Trend #2: The rise of the Data Cloud - Рассвет The Data Cloud
Trend #3: Modernization beyond the data warehouse
Trend #4: Governance continues to be a top concern
Trend #5: So long, data lakes/warehouses
Trend #6: Collaboration goes mainstream
Trend #7: Analytics democratization becomes attainable
Trend #8: Data processing is available to all
Trend #9: Every app becomes a data app
Trend #10: A single platform for data becomes the solution
В общем без данных, а тем более без правильного места для их хранения (в облаке) и нормальным доступом (sql) вообще никуда. Если вы еще не купили Snowflake, то обязательно купите! Это я вам говорю как эсперт по снего из холодной Канады, несмотря на то, что я живу в самом теплом городе Канады (Виктория), где и снега то нет🤫
Trend #1: The value of data will rise exponentially
Trend #2: The rise of the Data Cloud - Рассвет The Data Cloud
Trend #3: Modernization beyond the data warehouse
Trend #4: Governance continues to be a top concern
Trend #5: So long, data lakes/warehouses
Trend #6: Collaboration goes mainstream
Trend #7: Analytics democratization becomes attainable
Trend #8: Data processing is available to all
Trend #9: Every app becomes a data app
Trend #10: A single platform for data becomes the solution
В общем без данных, а тем более без правильного места для их хранения (в облаке) и нормальным доступом (sql) вообще никуда. Если вы еще не купили Snowflake, то обязательно купите! Это я вам говорю как эсперт по снего из холодной Канады, несмотря на то, что я живу в самом теплом городе Канады (Виктория), где и снега то нет🤫
Snowflake
10 Predictions about Data Cloud Analytics in 2021 - Blog
Discover the Data Cloud analytics trends that will help you start thinking about how your organization can unlock the value of data faster.
Получил приятный подарок из Киева от подписчика Александра Чернина - Кофе Data Learn. Кофе оказался очень вкусным, несмотря на то, что посылка шла довольно долго. Случайно забили указать номер дома. Но так как почта к нам ходит с посылками от Amazon Prime очень часто, смогли меня опознать по имени и найти мой дом.
Снова предлагает бесплатно попробовать экзамены Google Cloud Associate Cloud Engineer Practice Exams
Попался интересный и полезный white paper от Microsoft, особенно для HR или бизнеса - The scientist, the engineer and the warehouse – implementing cloud analytics
5 свежих Tableau Hacks!
InterWorks
Five Tableau UX Hacks for 2021 - InterWorks
“It doesn’t have to look good. It just has to work.” I have a client who often says this when I start a new dashboarding project. The statement seems paradoxical because design and functionality are so intertwined. As Laws of UX says, “Users often perceive...
discover.pdf
9.6 MB
Чтобы получить канадское гражданство, нужно сдать тест на знание истории Канады, прав, законов, государственного строя, населения и много еще чего. Если кому интересно посмотреть факты про Канады, то вы найдете их в этой небольшой брошюре.
Для тех, кто регистрировался на https://datalearn.ru :
Мы обнаружили, что многие из вас не знают про то, что у нас есть гит и думают что у нас только уроки на ютубе.
Ютуб без гита бесполезен...
В слаке многие из вас не знают что у нас много каналов и каждый канал посвящен своей теме и на самом деле все очень удобно
В связи с этим всем вопрос: накидайте предложения как сделать навигацию удобной, чтобы люди те кто регистрировались знали про слак и гит, может подскажите где лучше всего на сайте разместить инфу.
Мы обнаружили, что многие из вас не знают про то, что у нас есть гит и думают что у нас только уроки на ютубе.
Ютуб без гита бесполезен...
В слаке многие из вас не знают что у нас много каналов и каждый канал посвящен своей теме и на самом деле все очень удобно
В связи с этим всем вопрос: накидайте предложения как сделать навигацию удобной, чтобы люди те кто регистрировались знали про слак и гит, может подскажите где лучше всего на сайте разместить инфу.
Часто-задаваемые вопросы про Tableau & Power BI на собеседованиях
1610112167537.pdf
2.4 MB
Февраль 2013 года, начало облачного DW. В приложение paper про Amazon Redshift.
Очень крутая статья про hiring. Кстати, согласно этой статье, самые крутые data scientist - музыканты.
Еще интересная история про compensation:
Once you’ve made an offer and hired someone, you need to keep assessing compensation. I learned this during a period when Netflix was losing people because of exorbitant offers from our competitors. One day I heard that Google had offered one of our folks almost twice his current pay, and I hit the roof. He was a really important guy, so his manager wanted to counter. I got into a heated e-mail exchange with his manager and a couple of VPs. I wrote, “Google shouldn’t decide the salaries for everybody just because they have more money than God!” We bickered for days. They kept telling me, “You don’t understand how good he is!” I was having none of it.
But I woke up one morning and thought, Oh, of course! No wonder Google wants him. They’re right! He had been working on some incredibly valuable personalization technology, and very few people in the world had his expertise. I realized that his work with us had given him a whole new market value. I fired off another e-mail: “I was wrong, and by the way, I went through the P&L, and we can double the salaries of everybody on this team.” ... “We also encouraged our employees to interview elsewhere regularly. That was the most reliable and efficient way to learn how competitive our pay was.”
Это реально классно, когда можно агрументировать свою зарплату, сколь ты заработаешь денег компании. Я вот не могу, отсюда мои трудности с переговорами. Моих агрументов, что на рынке получают (быстренько гуглю максимум) X, и я получаю тот же X (+ бонусы конечно) не всегда прокатывает, и максимум, что можно получить это X - 20%-30%, что по факту будет на 50% больше текущей зарплаты. Но это не тот заветный X, о котором мечталось…
Получается, чтобы много зарабатывать недостаточно быть data engineer/scientist или manager. Нужно понимать как мы можем добавить ценности компании, почему они должны нам платить выше рынка и тп. С этой точки зрения вопрос зарплаты и ее размера становиться очень прозрачным.
Еще интересная история про compensation:
Once you’ve made an offer and hired someone, you need to keep assessing compensation. I learned this during a period when Netflix was losing people because of exorbitant offers from our competitors. One day I heard that Google had offered one of our folks almost twice his current pay, and I hit the roof. He was a really important guy, so his manager wanted to counter. I got into a heated e-mail exchange with his manager and a couple of VPs. I wrote, “Google shouldn’t decide the salaries for everybody just because they have more money than God!” We bickered for days. They kept telling me, “You don’t understand how good he is!” I was having none of it.
But I woke up one morning and thought, Oh, of course! No wonder Google wants him. They’re right! He had been working on some incredibly valuable personalization technology, and very few people in the world had his expertise. I realized that his work with us had given him a whole new market value. I fired off another e-mail: “I was wrong, and by the way, I went through the P&L, and we can double the salaries of everybody on this team.” ... “We also encouraged our employees to interview elsewhere regularly. That was the most reliable and efficient way to learn how competitive our pay was.”
Это реально классно, когда можно агрументировать свою зарплату, сколь ты заработаешь денег компании. Я вот не могу, отсюда мои трудности с переговорами. Моих агрументов, что на рынке получают (быстренько гуглю максимум) X, и я получаю тот же X (+ бонусы конечно) не всегда прокатывает, и максимум, что можно получить это X - 20%-30%, что по факту будет на 50% больше текущей зарплаты. Но это не тот заветный X, о котором мечталось…
Получается, чтобы много зарабатывать недостаточно быть data engineer/scientist или manager. Нужно понимать как мы можем добавить ценности компании, почему они должны нам платить выше рынка и тп. С этой точки зрения вопрос зарплаты и ее размера становиться очень прозрачным.
Harvard Business Review
How to Hire
And other things you’re doing wrong, according to Patty McCord.
Forwarded from Reveal the Data
Guide_to_Dashboard_Design.pdf
5.2 MB
A Guide to Creating Dashboards People Love to Use
Хороший гайд по разработке дашбордов. Всего понемногу и по делу, в институте такое называли методичкой. Только картинки устаревшие, так как выпущена 10 лет назад, но принципы это не отменяет. =)
#ссылка
Хороший гайд по разработке дашбордов. Всего понемногу и по делу, в институте такое называли методичкой. Только картинки устаревшие, так как выпущена 10 лет назад, но принципы это не отменяет. =)
#ссылка
У PacktPub есть классная возможность быть техническим ревьевером. Например, сейчас я проверяю 2 книги:
- Machine Learning Engineering with MLFlow - Я не использовал ML flow вообще никогда, и это будет отличная возможностью изучить технологию и пройти все упражнения
- Cloud scale analytics with Azure Data services - Тут наоборот, я хорошо знаю Azure Data Platform и больше сканирую книгу на здравый смысл.
Так же они еще предлагали проверять книгу по AWS Glue, но я уже переключился на Azure. И Еще была книга про Power Platform. В общем, если вы хорошо шарите в современных технологиях, то можете написать Arindam Majumder <arindamm@packt.com> ему часто нужно технические ревьеверы, и возможно еще нужны по Glue, MLflow и Azure. И можно в PacktPub добавить свой профайл, чтобы приходили.
PS За это не платят, но для меня это удобный способ свежие книги читать по теме.
- Machine Learning Engineering with MLFlow - Я не использовал ML flow вообще никогда, и это будет отличная возможностью изучить технологию и пройти все упражнения
- Cloud scale analytics with Azure Data services - Тут наоборот, я хорошо знаю Azure Data Platform и больше сканирую книгу на здравый смысл.
Так же они еще предлагали проверять книгу по AWS Glue, но я уже переключился на Azure. И Еще была книга про Power Platform. В общем, если вы хорошо шарите в современных технологиях, то можете написать Arindam Majumder <arindamm@packt.com> ему часто нужно технические ревьеверы, и возможно еще нужны по Glue, MLflow и Azure. И можно в PacktPub добавить свой профайл, чтобы приходили.
PS За это не платят, но для меня это удобный способ свежие книги читать по теме.