Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Посетила интересная мысль😋

Возьмём dbt - безумно популярный продукт, особенно с облаками и со snowflake. Snowflake с удовольствием продвигает dbt, dbt делает тоже самое в ответ.

При этом лента в LinkedIn завалена сообщениями про безумный ценник на снежинку, из-за большого количества CTE, которые dbt создаёт. Проблемы с оптимизацией запросов и партициями (снежинка же это data warehouse as a service, то есть все там и без вас знают как тюнить).

Так вот мне кажется, чтобы сделать успешный продукт в экосистеме snowflake, надо его сделать таким, чтобы он как можно больше бабла тратил и приносил профит «папе» продукту, как история с dbt и snowflake.

Возможно, что без dbt клиенты меньше бы заносили денюшек.

Возможно продукты типа Monte Carlo, работают схожим образом. С MC подучилось интересная история, в одном месте его любят и используют, хотя я не понял в чём прикол, так как slack завален alerts от MC, и это больше похоже на шум. А в другом месте, менеджеры смотрели на MC и сказали, что он бесполезен, так как dbt и так все покрывает тестами.

Хотя в 1м месте помимо MC используют ещё reverse etl High touch (нахера, я не знаю), а во втором используют просто python скрипт.

И ещё один показатель для идентификации типа компании - в 1м варианте это fivetran, во 2м это meltano. И кстати платный fivetran падает чаще.
👍29🤔72
Как часто, при выходе на новую позицию в новую команду компанию, нам хочется все переделать и переписать?

Да, практические всегда! Это уже кажется известный мэм. Но с опытом мы понимаем, что это ловушка, в которую легко попасть.

Часто очевидно, что проще создать новое решение, использовать более современный продукт или сделать миграцию в облако. Все это бесспорно хорошо, в большинстве случаев.

Но, не не стоит забывать, что то решение, которое сейчас есть и тот подход, который использовался, помог организации оказаться там, где она сейчас. И если вас туда взяли на работу, то не все так плохо в организации. Нужно принять этот факт и воздержаться от комментариев, что это 💩.

Критиковать нужно правильно. Легко сказать, что у вас плохо, но это делу не поможет.

Если вы хотите, что-то поменять, то вам нужно сначала разобраться как работает существующее решение, понять почему были сделаны архитектурные решения.

Дальше вам нужно написать документ и сделать дело, как нужно сделать «правильно», описать преимущества и недостатки, стоимость решения, время на внедрению/миграцию и тп. То есть обычной подход - «если критикуешь, предлагай альтернативу.»

Я часто попадал в это ловушку, после пары недель работы на новом месте начинал сыпать идеями, как и что можно поменять, и указывая на недостатки, думаю о том «ну какой же я молодец». С опытом понимаешь, что был совсем не «молодцом», а лишь только спамил и отвлекал коллег.

А как вы критикуете решения, которые были созданы до вас?
🔥52👍195😁5🤔1😭1
В 2024 году в Chrome отменят формат файлов cookies, и рекламный рынок давно обсуждает, как избежать негативных последствий этого решения ИТ-гиганта. На днях появилось новое решение

DMP-платформа AmberData предоставила cookies, а разработчики компании Platforma провели мэтчинг трафика партнеров и телеком-оператора и смогли конвертировать cookie в MAID - идентификаторы мобильных устройств.

Технологию протестировал телеканал UDAR. Они привлекали внимание мужской аудитории, интересующейся боевыми искусствами к трансляции турнира Top Dog. В качестве инструмента использовался таргетинг in-app.

Результаты оказались хорошими: CTR (число кликов к числу показов) в среднем в 6 раз выше, а CPC (cost per click) в 3-4 раза ниже, чем у традиционной открутки баннеров.
👍19🤬2
Бывает еще модная визуализация))
😁10👍3👏1
Статья про geospatial analytics от Tableau.
👍9
Data Engineering Zoomcamp запускается 16 января.

Основные темы:
🔸 Docker
🔸 Orchestration
🔸 Data warehousing
🔸 Analytics engineering
🔸 Batch processing
🔸 Streaming

То есть это уже не начальный уровень. Возможно будет хорошо после завершения имеющихся модулей по datalearn, где вы поймете основы и терминологию. А тут уже упор на open source, но и все на английском, что тоже полезно. Актуальные знания и бесплатно.
👍73🔥371
AWS Glue - serverless ETL инструмент на базе Apache Spark. Вышла новая книга - Serverless ETL and Analytics with AWS Glue: Your comprehensive reference guide to learning about AWS Glue and its features

Я сам уже пользуюсь Glue пол года, после databricks конечно не ice, но в целом, намного удобней чем Elastic Map Reduce (EMR) + Spark (Hadoop от AWS).
👍10
👍232🔥2🤔2
Екатерина написала интересную и полезную статью на хабре - Матрица уровней дата инженеров Amazon. Если у вас в компании есть разные уровни инженеров данных или вы хотите понять какие обязанности должны быть в зависимости от уровня, то вам будет интересно.

PS Поддержите лайком или коментом.

PPS Катя занимается дата аналитикой и инжинирингом данных (уровень мидл) и с удовольствием рассмотрит вакансии по аналитике данных в роли аналитики, BI или инженера данных. Она находится в Самаре, если есть открытые вакансии и нужен хороший специалист, пишете ей в личку!
👍68🔥13
Куда ни глянь, везде пишут про data contracts. Это прям уже какой-то новый тренд после Data Mesh и других “инновационных” вещей. На проекте, где используются Snowflake+dbt поверх платформы на S3, тоже затронули тему data contracts.

Я был очен ленив и не смог прочитать все посты на medium по этой теме, но согласно нашим инженерам, они создали процесс, который посчитает кол-во клиентов/строк/заказов/событий/кликов) или еще чего в системе источнике и в хранилище данных и сравнивают результат. Согласно контракту, кол-во должно совпадать, а если не совпадает, то Хьюстон, у нас проблема! и мы получим в алерт в слак.

Я такое еще делал в SAP BusinessObjects 10 лет назад. А как у вас с data contracts, как вы понимаете этот термин?
👍22
Recruiter:
- We offer a competitive salary.
Employee:
- Great, how much is it?
Recruiter:
- Don't worry about it, it's competitive. Anyways, what skills do you have?
Employee:
- Oh, I have amazing skills.
Recruiter:
- Great, can you tell me more about them?
Employee:
- Don't worry, they're amazing.
😁239👍25👏6🔥5
25-26 октября будет конференция от Monte Carlo - Impact. Вот ссылка для регистрации https://impactdatasummit.com/2022?utm_source=datadog 😏 Можете узнать больше про data observability.

В следующем спринте мне предстоит внедрять это штуку и вообще разобраться в особенностях между dbt, datadog и МС

At Monte Carlo — named after the simulation, not the destination — we’re committed to making data reliable. - это все прекрасно, но гугл выдает совсем другую информацию, когда мы ищем про МС😄
👍7
Пока одни бегут от Redshift на Snowflake, databricks или ещё куда подальше, другие рассказывают об успешных кейсах внедрения redshift. Картинка от Peloton. Интересно, массовые увольнения, резкий спад стоимости акций как-то связан с выбором технологий?🫠
🤔15👍5😁1
Кстати, сегодня первый день я больше не в Xbox. За почти 2 года работы я многое узнал о создании ААА игр, сам процесс от идеи до реализации, особенности аналитики для дизайна игр и анализа поведения игрока и многое другое. За это время у меня было 3 xbox дома, Xbox game pass, топовый gaming PC. Мои дети подсели на Minecraft и сам я понял насколько gaming плохо, когда стала появляться зависимость от Fortnite. Было очень весело играть с одноклассниками сына, наверно я был единственным папашей кто играл онлайн с 4хкласниками. Когда я провалил собес в Epic, мне это помогло разорвать связь с Fortnite и я окончательно решил не тратить время на игры. Главная причина ухода из Xbox локальные отношения с менеджером, мягко говоря у нас была нездоровая среда. Другой минус ААА это жесткий микроменеджемент, мне кажется иначе нереально сделать топ игру за 3-4 года, но такой стиль работы мне не подходит, я больше чувствую себя свободным художником, чем машиной по написанию кода и логированию времени каждый день.

Больше я не принадлежу одной компании, а что-то вроде advisory/consulting для 3х компаний, как говориться один год за три😋
🔥114👍44🎉7🤔5
Мне кажется, замечательная книга, чтобы ее найти и положить в pdf в комменты😜 я не смог найти😞
🤩15🔥9🤔4👍3
Teradata CTO Stephen Brobst drowns data lakehouse concept - несмотря на то, что мне нравится идея lake house, где мы берем лучшее от DW и Data Lake, этот концепт больше про buzz word. До этого был пост на обзор white paper про lake house, где автор тоже не увидел сильных преимуществ.

"You need to have a unified architecture, but they are discrete things. There is a difference between the raw data, which is really data lake, and the data product, which is the enterprise data warehouse," Brobst says.

PS Brobst супер чувак, он как из фильма Назад в Будущее, и всегда в теме, его не проведешь какими-то buzz словечками)) я его видел один раз, когда сам работал в Терадата, он все так же выступал в гавайской рубашке.
👍7🔥7
Snowflake явно лидирует согласно этому опросу https://new.reddit.com/r/dataengineering/comments/xuudr1/what_data_lakewarehouse_do_you_use/
🤔8
Forwarded from Rumyantsev Feed
Октябрь обещает быть богатым на конференции. Все они имеют гибридный формат, а это значит, что мероприятия будут так же транслироваться и онлайн. Подготовил подборку бесплатных конференций, информация о которых всплывала в различных источниках в последние дни.

08.10 - KOLESA Conf: "Масштабная конференция, объединяющая IT-сообщество Казахстана." Анонсировано 35+ спикеров в 4 направлениях: Web, Management, Data, Mobile. А также конкурсы, где можно выйграть мерч, и нетворкинг. Начало в 10.00, но не забываем и про часовой пояс(UTC +6).

11.10 - 14.10 - Next: конфа с большим размахом от Google. Будет несколько стримов, среди которых Analyze(Recommended for data scientists and data analysts) и Design(Recommended for data engineers).

17.10 - 21.10 - Coalesce: конференция, проводимая dbt Labs. Понятное дело, что будет очень много разговоров и примеров использования dbt. Но ведь это и не плохо, верно?

25.10 - 26.10 - IMPACT: The Data Observability Summit: всё о data observability от компании Monte Carlo. Давольно-таки модернстековый состав приглашённых ключевых спикеров, среди которых Ali Ghodsi(CEO & Co-Founder Databricks), George Fraser(CEO & co-founder Fivetran), Zhamak Dehghani(мать Data Mesh), Tristan Handy(CEO & co-founder dbt Labs) и не только.

З.Ы. Пост будет дополняться, если обнаружатся ещё какие-то ивенты.
👍29🔥3
Немножко новостей про экономику на tech рынке. Топовые компании, и не только, все сейчас занимаются тем, что урезают косты. Компаниям становится сложней привлекать клиентов и продавать сервисы и продукты. Все их предыдущие прогнозы на основе линейной регрессии не оправдались.

Если компании поменьше сокращают людей, то компании побольше останавливают найм или закрывают оффлайн офисы.

Facebook Parent Meta to Shrink Some Offices as It Adapts to Hybrid Work

Даже Амазон, который был очень стойкий, и тот, поставил все на паузу.

Amazon Freeze Corporate hiring и по своему опыту я уже понял, что Microsoft так еще сделал в июне (freeze).

И если даже людей не сократили, то их total compensation будет очень низким, так как как минимум половина состояла из стоков. А стоки все упали и больше не ликвидны. Недавно мне выдали стоков на 180к US$. На момент выдачи, они стоили по 120US$. Теперь по 50$. А на пике продавались за 300$.

Поэтому еще один аргумент за диверсификацию рисков.
👍20🤔3
Расскажу вам про lifehack.

Если вы пишите код, но вы не знаете, что вы делаете, или вам лень, а может у вас просто нет время на такую ерунду как писать хороший код, то вам просто надо добавить комментарий:

# TODO: bla bla bla

А если вы прям матерый Senior, то вам нужно сделать так:

# TODO: bla bla bla. Jira #.

Главное, чтобы код хоть что-то делал, а то за один большой TODO зарплату не заплатят.

И уже не прикопаться.

А потом уже будут другие приоритеты, другие задачи, и вы всей командой будет обсуждать technical debt, и на доске miro/figma будете двигать виртуальные sticky notes и планировать ваши битву с technical debt.

Но это будет потом... А пока можно добавить # TODO и пойти по своим делам😜
😁47👍11🔥4🤔3👏1
Подсмотрел, сколько стоит 3 дня тренинга по Azure Synapse Data warehouse для успешных клиентов - 40k$, так что все платные курсы на отечественном рынке это вообще копейки по сравнению с официальными курсами🫣

Вообще как обстановка в компаниях, часто покупает ваша компания курсы? Отправляет вас на конференции? и тп.

Последний раз, я делал что-то оффлайн году в 2017, это когда в перерывах кофе и булочками угощают и можно не думать о работе и просто отдыхать и учиться. А когда учусь онлайн, одним глазом на рабочий слак, другим на лектора, в итоге и там и там не хватает время.

PS ничто меня так не мотивировало: как закончить недельный углубленный тренинг (offline, full time и с полной отдачей) и принести новые идеи и навыки на работу и видеть как начинаешь приносить пользу, поэтому инвестируйте в оффлайн тренинги для своих сотрудников.
👍44😁4🤔2