Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Пример архитектуры для Big Data на AWS/GCP/Azure
Матилион недавно рассказал просто про Lakehouse на BigData London.

Lakehouse = DW + Data Lake. В облаках они хороши вместе уживаются в общую платформу.
Попался интересный ресурс про Data
Добавил новое видео про ETL подсистемы.

Согласно Ральфу Кимбаллу (тот самый, который изобрел Dimensional Modelling), существует 34 ETL подсистемы, которые делятся на 4 основных категории:
📌 Data Extracting (получить данные из систем - E в ETL)
📌 Cleaning and Conforming Data (интеграция данных и подготовка к загрузке в DW - T в ETL)
📌 Delivering Data for Presentation (обработка данных в DW - L в ETL)
📌 Managing the ETL environment (yправление и мониторинг компонентов ETL)

Само по себе понятие ETL подсистема - это некая абстракция. Не нужно копать глубоко. Как правило - это либо компонент ETL решения, например готовый компонент в Pentaho DI для создания SCD Type 2 (подсистема 9) или компонент для создания последовательности чисел, в случае необходимости генерации суррогатных ключей (подсистема 10). Это может буть функциональность ETL инструмента для обработки ошибок (подсистема 5) или возможность мониторинга выполнения ETL job (подсистема 27).

Ну а если вы используете код (python, java, C и тд), то вам необъодимо уже изобретать свои компоненты или искать существующие.
Старый пост от HBR про Learning to Learn. Главное преимущество тогда и тем более сейчас это учиться быстрее чем ваши конкуренты (применимо для компаний). Тоже само и про персональное развитие, это непозволительная роскошь что-то выучить от начала до конца и расслабиться. (В нашей профессии конца нет, пока учишь одно, появляется ещё 3 новых технологии/подхода). Чем дальше тем больше нужно учить, поэтом скорость потребления материала (не количество прочитанных книг или прослушанных лекций), а именно ценные блоки информации, которые помогают нам развивать нашу карьеру и компетенцию.
1609865357375.pdf
2.6 MB
Очень веселая презентация - Statistics for Hackers
Самая крутая Data компания Snowflake сделало 10 предсказаний по аналитике на 2021:
Trend #1: The value of data will rise exponentially
Trend #2: The rise of the Data Cloud - Рассвет The Data Cloud
Trend #3: Modernization beyond the data warehouse
Trend #4: Governance continues to be a top concern
Trend #5: So long, data lakes/warehouses
Trend #6: Collaboration goes mainstream
Trend #7: Analytics democratization becomes attainable
Trend #8: Data processing is available to all
Trend #9: Every app becomes a data app
Trend #10: A single platform for data becomes the solution

В общем без данных, а тем более без правильного места для их хранения (в облаке) и нормальным доступом (sql) вообще никуда. Если вы еще не купили Snowflake, то обязательно купите! Это я вам говорю как эсперт по снего из холодной Канады, несмотря на то, что я живу в самом теплом городе Канады (Виктория), где и снега то нет🤫
Получил приятный подарок из Киева от подписчика Александра Чернина - Кофе Data Learn. Кофе оказался очень вкусным, несмотря на то, что посылка шла довольно долго. Случайно забили указать номер дома. Но так как почта к нам ходит с посылками от Amazon Prime очень часто, смогли меня опознать по имени и найти мой дом.
Снова предлагает бесплатно попробовать экзамены Google Cloud Associate Cloud Engineer Practice Exams
Попался интересный и полезный white paper от Microsoft, особенно для HR или бизнеса - The scientist, the engineer and the warehouse – implementing cloud analytics
discover.pdf
9.6 MB
Чтобы получить канадское гражданство, нужно сдать тест на знание истории Канады, прав, законов, государственного строя, населения и много еще чего. Если кому интересно посмотреть факты про Канады, то вы найдете их в этой небольшой брошюре.
Для тех, кто регистрировался на https://datalearn.ru :
Мы обнаружили, что многие из вас не знают про то, что у нас есть гит и думают что у нас только уроки на ютубе.

Ютуб без гита бесполезен...

В слаке многие из вас не знают что у нас много каналов и каждый канал посвящен своей теме и на самом деле все очень удобно

В связи с этим всем вопрос: накидайте предложения как сделать навигацию удобной, чтобы люди те кто регистрировались знали про слак и гит, может подскажите где лучше всего на сайте разместить инфу.
Часто-задаваемые вопросы про Tableau & Power BI на собеседованиях
1610112167537.pdf
2.4 MB
Февраль 2013 года, начало облачного DW. В приложение paper про Amazon Redshift.
Очень крутая статья про hiring. Кстати, согласно этой статье, самые крутые data scientist - музыканты.

Еще интересная история про compensation:

Once you’ve made an offer and hired someone, you need to keep assessing compensation. I learned this during a period when Netflix was losing people because of exorbitant offers from our competitors. One day I heard that Google had offered one of our folks almost twice his current pay, and I hit the roof. He was a really important guy, so his manager wanted to counter. I got into a heated e-mail exchange with his manager and a couple of VPs. I wrote, “Google shouldn’t decide the salaries for everybody just because they have more money than God!” We bickered for days. They kept telling me, “You don’t understand how good he is!” I was having none of it.

But I woke up one morning and thought, Oh, of course! No wonder Google wants him. They’re right! He had been working on some incredibly valuable personalization technology, and very few people in the world had his expertise. I realized that his work with us had given him a whole new market value. I fired off another e-mail: “I was wrong, and by the way, I went through the P&L, and we can double the salaries of everybody on this team.”
... “We also encouraged our employees to interview elsewhere regularly. That was the most reliable and efficient way to learn how competitive our pay was.

Это реально классно, когда можно агрументировать свою зарплату, сколь ты заработаешь денег компании. Я вот не могу, отсюда мои трудности с переговорами. Моих агрументов, что на рынке получают (быстренько гуглю максимум) X, и я получаю тот же X (+ бонусы конечно) не всегда прокатывает, и максимум, что можно получить это X - 20%-30%, что по факту будет на 50% больше текущей зарплаты. Но это не тот заветный X, о котором мечталось…

Получается, чтобы много зарабатывать недостаточно быть data engineer/scientist или manager. Нужно понимать как мы можем добавить ценности компании, почему они должны нам платить выше рынка и тп. С этой точки зрения вопрос зарплаты и ее размера становиться очень прозрачным.
Forwarded from Reveal the Data
Guide_to_Dashboard_Design.pdf
5.2 MB
A Guide to Creating Dashboards People Love to Use

Хороший гайд по разработке дашбордов. Всего понемногу и по делу, в институте такое называли методичкой. Только картинки устаревшие, так как выпущена 10 лет назад, но принципы это не отменяет. =)

#ссылка
У PacktPub есть классная возможность быть техническим ревьевером. Например, сейчас я проверяю 2 книги:
- Machine Learning Engineering with MLFlow - Я не использовал ML flow вообще никогда, и это будет отличная возможностью изучить технологию и пройти все упражнения
- Cloud scale analytics with Azure Data services - Тут наоборот, я хорошо знаю Azure Data Platform и больше сканирую книгу на здравый смысл.

Так же они еще предлагали проверять книгу по AWS Glue, но я уже переключился на Azure. И Еще была книга про Power Platform. В общем, если вы хорошо шарите в современных технологиях, то можете написать Arindam Majumder <arindamm@packt.com> ему часто нужно технические ревьеверы, и возможно еще нужны по Glue, MLflow и Azure. И можно в PacktPub добавить свой профайл, чтобы приходили.

PS За это не платят, но для меня это удобный способ свежие книги читать по теме.