Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
У всех, наверно бывают моменты, из-за которых вы всю жизнь можете потом грустить и думать, а как бы было хорошо если я сделал бы по другому.

Вот и у меня такой есть, вместо того, чтобы покупать акции apple по 0.4$ я учился в 10 классе в 2002😞
😁109👍20😢7🔥63
Менеджеры в дата области бывают разные, это очень сильно зависит от их бекграунда. Саму дату область можно разделить на несколько областей: BI, хранилище данных, data science. Где-то все это под одним человеком, где-то разбито на части.

Вот несколько типов:

🖇Бизнеса - с трудом отличит sql от python, вообще по барабану как че там работает, главное чтобы работало. Очень классные soft skills, умеет красиво говорить и писать, понимает, что нужно бизнесу.

⚙️Фанаты открытого ПО - аналитическое решение будет разбито на множество git репозиториев, любой запрос на добавление новой фичи будет занимать много времени, решения будет обрастать костылями и workarounds, иначе говорят будет расти technical debt, и с ростом команды скорость разработки не будет расти, зато навыки разработки ПО будут расти. Удовлетворение от работы у инженеров под вопросом.

🎢Иноваторы - обожают buzz words, любят читать gartner и forester, возможно уже внедряют data mesh, data contracts и другие штучки. Не буду писать, что это, сам не очень понимаю. Иногда выстреливает и можно с кейсом идти на конференцию.

🗿Консерваторы - если решение работает, зачем его трогать, пусть работает, главное не дышать на него, а то сломается.

🛠Инженеры - типичный случай, когда инженер, который работал лет 5 в компании становиться менеджером, ему есть до всего дела, кто как пишет код. Как правило везде вставляет свои 5 копеек, чтобы все было так, как он раньше писал. Возникают трудности с развитием команды и soft skills.

🎠Осторожные - те кто не будет изобретать велосипед, а выберет проверенные решения и проверенные кейсы, например сейчас в Северной Америке это будет snowflake+dbt+looker/Tableau.

Конечно я утрирую, но и часто это будет микс. Но это по моему опыту, я кстати буду между «осторожный» и «иноватор». А вы как поделите руководителей аналитики? А может их и нельзя классифицировать:)
👍52😁2😢1
Когда мы чем-то занимаемся мы должны оптимизировать свои усилия на конкретный результат. Чем-то напоминает CAP теорему, когда мы можем получить любые 2 характеристики и пожертвовать третью.

В зависимости от карьерной ступени мы можем менять приоритеты.

Например, в начале карьеры нам важно много учиться и получать опыт, наш фокус на новых скилах и мы можем пожертвовать доходом и комфортом.

Другой вариант, мы можем пожертвовать доход, но работать в месте, которое нам доставляет удовольствие, возможно это престиж компании, офис в центре или международная компания. И зарплата будет не плохой, и опыт хороший. Но перспективы туманные.

Возможно, мы открыты ко всему новому, и готовы сместить фокус на поиск работы за границей, критерий успешности это рабочая виза или программа миграции. Все остальное не так важно.

Иногда, работать надоедает, и хочется сокращать количество рабочих часов, желательно без потери уровня дохода и комфорта. В этом случае, мы уже врят ли получаем много новых знаний и наши доходы не будут расти, зато есть много свободного времени на хобби.

В какой-то момент, можно захотеть стать предпринимателем, и сместить фокус на своё дело. Можно получить хороший опыт, но маленькая вероятность разбогатеть и больше никогда не работать. Зато будет чувство собственного достоинства, главное, чтобы было чем платить по счётам.

Ещё бывают ситуации, когда драйвером становится зарабатывание денег, это опасная дорожка, которая может привести не туда, куда нужно. Теперь KPI это отношение заработанных денег к потраченному времени.

Таким образом у вас есть 60-80 продуктивных часов в неделю, и вам нужно выбрать, на что вы его хотите потратить, и что для вас приоритет в текущий момент и на что будет направлен фокус. Ведь можно работать и 10 часов в неделю и больше ничего наделать, а можно работать все 80 (работать я имею ввиду не бесплатные переработки, а именно оплачиваемое врем. Бесплатные переработки это только в случае, если вы учитесь и получаете новые скилы. ) А ещё нужно найти время на бытовые дела и семью. У кого на что фокус? Меня ли вы приоритеты?
👍58
Товарищ все размышляет о dbt- быть или не быть хороший продукт или плохой, вот в чем вопрос. В итоге он сказал, пока ниче так, можно юзать🦥

https://benn.substack.com/p/how-dbt-fails
👍5
Microsoft празднует 10 лет линейки Surface, и я вам пишу с ноутбука Surface на Windows 11.

В этом году я поработал на разных ноутбуках:
- новый mac pro 16"
- новый mac air 13"
- surface laptop 4 13"
- hp elitebook 15"
- lenovo thinkpad 15"
- dynamobook 13" (toshiba)

Самый удобный это mac pro 16". Вчера поставил Windows 11 на surface, очень приятный интерфейс. Про dynamobook я вообще не слышал, пока не получил такой, оказался достаточно приятный. А вот lenovo, hp для меня показались деревянными.

Кстати как вам Windows 11?
👍94
В Microsoft я не люблю 2 продукта:
- Power BI - просто потому что, я люблю Tableau и Looker
- Azure Data Explorer (ADX или Kusto как наш любимый водолаз в красной шапочке) - потому что это не про хранилище данных или озеро данных в понятии инженера данных. Но в Microsoft используют ADX для всего. Это какая-то универсальная штука, которая умеет хранить, обрабатывать, визуализировать, делать ML, работать с текстом и все в реальном времени. Поэтому, многие разработчики используют этот продукт вообще для полного цикла аналитики, + в Microsoft отличная интеграцию продуктов друг с другом. (Скоро будет SmartData конференция и я там как раз поговорю про инжиниринг данных в Майкрософт).

Так вот, когда я уходил из Xbox, у меня был выбор - присоединиться к Databricks или Synapse (той части, которая отвечает за классическое хранилище данных - Dedicated SQL Pool). Я решил выбрать что полегче и более знакомо - MPP хранилища данных (позиция что-то вроде customer engineer).

Но ирония судьбы заключается в том, что меня назначили отвечать за ADX под Synapse. Выдали мне тренингов на 2 месяца вперед и обрадовали, что я буду экспертом ADX🤪

Кстати вот хорошие материалы по этому продукту:
Introducing Azure Data Explorer
Azure Data Explorer Technology 101
IT and developer success with Microsoft Azure - KEY03
The Intelligent Cloud - Techorama Netherlands 2018 Opening Keynote (Scott Guthrie)
ADX technical white paper
👍35😁19🔥1🤬1
Тема тренингов и курсов мне не нова, я сам часто таким занимался в той или иной степени. Мне часто попадаются хорошие тренинги, которые созданы экспертом в области аналитики или около того. Я не говорю про коммерческие школы, которые, кстати, могут купить рекламу аж за 60т рублей😝 в канале, но по опыту не покупают🤨

Я говорю про классные авторские курсы, которые иногда проскакивают в разных каналах, и которые не нацелены на mass market. Таких не много, но они есть, и их стало еще сложней продавать и стало сложней доносить знания то целевой аудитории, поэтому если у вас есть такой свой курс, то почему бы вам не сделать небольшой вебинар про кусочек вашего курса, и заодно вы сможете бесплатно рассказать о себе, о своем курсе и все это будет хранится в нашем канале и возможно даже поможет студентам datalearn.
👍42
Когда мы работает в облаке, да что там в облаке, просто в интернете, то мы часто сталкиваемся с понятиями identity, authentication, authorization и все, что с этим связано. Это достаточно важные концепты современного цифрового мира, чтобы лучше разобраться, можно например изучить теория Introduction to Identity and Access Management (IAM), это не самое интересное чтение, но явно важно, которое затрагивает много аспектов software и data engineering и architecting.

Есть еще видео Introduction to Identity
👍14👏2🔥1
Теперь вы понимаете, почему я так топлю за использование командной строки. Реально в этом что-то есть, теперь я смотрю с презрением на коллег у кого дефолтный CLI.
😁90🤔3👍2
Forwarded from Data engineering events (Николай Крупий)
#Анонс на неделю (дополняется):

🗓Пн, 17/10:
17-18/10 #SmartData 2022 - Конференция для дата‑инженеров
17-21/10 #Podlodka Techlead Crew - «Observability: monitoring, alerting, tracing»
17-21/10 #Coalesce by dbt Labs - конференция, проводимая dbt Labs

🗓Вт, 18/10:
12:15-13:30 SmartData 2022 - Community day (free)
18-19/10 #PiterPy 2022 - конференция для тех, кто пишет на Python и использует его в работе
17:00 Доступный AutoML: как оптимизировать работу с ML-моделями с помощью VK Cloud и FEDOT

🗓Ср, 19/10:
10:30-13:00 PiterPy 2022 - Community day (free)
19-20/10 #DevOops 2022 - конференция по инженерным DevOps-решениям

🗓Чт, 20/10:
10:30-13:15 DevOops 2022 - Community day (free)

🗓Пт, 21/10:
10:00-18:00 #ArchDays - конференция по архитектуре IT-решений

🗓Сб, 22/10:
🗓Вс, 23/10:

След неделя (draft):
25/10:
18:30 #ЮMoney делает свой уютный, но хардовый митап про системную аналитику
👍16
В чатике Инжиннирг Данных мы обсуждали Data Mesh, и Никита Бабуров скинул несколько хороших вводных материалов по этой теме:

Как с помощью Data Mesh разломать ваше DWH — Евгений Ермаков, Яндекс GO

Introduction to Data Mesh with Zhamak Dehghani

Data Mesh in Practice - Max Schultze

Ну и книга Data Mesh (есть pdf? кидайте в комменты)

Статья, которая легла в основу книги https://martinfowler.com/articles/data-monolith-to-mesh.html


Мне не доводилось внедрять дата меш, как я понимаю это для крупных компаний, у кого уже безнадега в аналитическом (их) решении(ях), то им самое время задуматься о таком концепте и начать думать о своих данных как о продукте.

Как вы понимаете data mesh?
👍20🤬2
У Microsoft прошла их главная конференция Microsoft Ignite. И конечно есть видео, где расскажут все, что касается аналитических решений.

https://youtu.be/IN1xNRFX3ic
👍2
Прошло мое выступление на SmartData с докладом Инжиниринг Данных в Microsoft, 45 слайдов за 45 минут и даже время осталось на вопросы🤗

Рассказал вкратце про задачи аналитики и инжиниринга данных, про трудоустройство, про проекты за 2 года в играх, и про специфику инструментов и технологий.

Организация конференции очень хорошая, надеюсь когда-нибудь смогу приехать и рассказать что-нибудь со сцены. Рано или поздно будет запись и я смогу поделиться.

PS кепка прям поспела за день до конференции:)
🔥68👍26
Forwarded from Data Apps Design (Artemiy Kzr)
Databricks + Wheely Proof of Concept

I will be assessing Databricks as our new data platform (to succeed AWS Redshift)

– Requirements to E - L - T
– Current setup denoscription
– Proof of Concept plan

Desired business impact:

– Cost effective (at least compared to what we currently spend on AWS Redshift reserved flat rate)
– Performance gains desired
– Extended features support (H3, in-database ML, Advanced analytics, ...)
– Access to ecosystem (docs, solutions, code examples, how-to guides)
– Democratization of access to data and data-related services: built-in Notebook experience
– No degradation (performance, outage, timeouts, job failures) in comparison with current state
👍5🤔41
А вот еще интересные новости про Databricks - Databricks Is Trimming Its Valuation While Other Startups Are Slashing Theirs, Snowflake уже публичная компания и они упали на 44 процента с прошлого года, а Darabricks еще не публичная, и каждый год стартапы заполняют форму 409 А, в которой производится оценка компании и пересчитывается цена акции

Valuation in most recent funding round: $38 billion (August 2021)

Public market comp: Snowflake, down 44% since August 2021

Last 409A common share price: $55.77, down 7% from last year

Last valuation implied by 409A: $31 billion

Fidelity share price: Cut Series H shares by 33% to $48.68 as of May

Вообще это хороший показатель, значит Databricks действительно оправдывает ожидание клиентов и это хорошая технология. Поэтому пост выше про Wheely я могу лишь только их поддержать, так как сам работал 2 года с Databricks и мне решение понравилось. Единственный недочет был это локальная разработка без ноутбуков.
👍8
Давайте проведем опрос, кто сколько получает на руки в месяц в рублях или долларах (курс 60р). Понятно, что и цены разные везде, но все равно интересно посмотреть распределение. Можете в комментах писать сколько в месяц на руки, страну и чем занимаетесь:)
Anonymous Poll
8%
Безработный
4%
Студент
7%
До 60т (1к$)
25%
60т-120т(1к$-2к$)
26%
180-240т(3т$-4т$)
22%
240т-480т(4т$-6т$)
4%
480т-720т(6т$-8т$)
2%
720т-1млн20т(8т$-13т$)
0%
1млн20т-1.5млн (13т$-18т$)
1%
1.5млн+ (18т$+)
👍3
В воскресенье — новый выпуск «Исповеди аналитика»

Говорить будем с Дмитрием Аношиным, крутым экспертом по аналитике и инжинирингу данных.

Больше 12 лет Дмитрий создает аналитические решения. Работал в Amazon, Microsoft Xbox и других топовых по мировым меркам командах. Уже 7 лет он живет и работает в Канаде, до этого — в Черногории и Москве.

Дмитрий написал несколько книг по аналитике, обучает облачным вычислениям в The University of Victoria и ведет свой Телеграм-канал @rockyourdata.

А еще он делится опытом и знаниями на datalearn.ru — получить навыки по аналитике и инжинирингу данных там можно бесплатно.

Уверен, разговор будет интересным. Эфир пройдет на моем YouTube-канале в это воскресенье, 23 октября, в 18:00 по Москве. Подписывайтесь и жмите на колокольчик, чтобы не пропустить! Ну а пока есть время подписаться на канал Дмитрия и посмотреть его курсы.

Подпишитесь на уведомления и мы напомним вам о вебинаре по почте - https://alexkolokolov.com/ru/confession#reg
🔥43👍21
Очень приятное, и поучительное чтиво перед началом выходных! Самое интересное, что есть прямая корреляция между опросом я проводил и идеями в статье.

Опрос вообще тянет на целую статью на хабре, начинаю от банальных ошибок в вопросе и восприятии цифр, элементарной невнимательности и лени автора для перепроверки написанного, невнимательности большинства отвечающих (как раз идея think fast and slow) и путей к высоким заработкам, а главное, что делать с деньгами, как планировать цели и перестать верить в чудеса карьерного роста. Ну и вообще понятно, что если поднапрячься можно по всему миру получать сносные деньги за интересную работу.
👍25