Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Очень хороший пост про повышение в Амазон. Оплачивают за результат, а повышают за ваше отношение к работе. То есть, допустим вы много работаете и закрываете задачи и проекты, за это вам платят и дают бонус условный, а чтобы перейти на следующий уровень вам необходимо уже фокусироваться на behaviour, взаимоотношениях с коллегами, engineering best practices. Часто человек может делать одно, но неочень делать второе (как я например), но стараюсь исправиться в будущем😇
👍50
Один в один мое первое рабочее место в Канаде в Виннипеге. Environment была там совсем не fast-paced. Но я этого не знал. После черногорского FinTech я бегал как ужаленный по этажам, полон идей и желанием все улучшить.

В один прекрасный зимний день, меня вызвал начальник и отправил домой, так как я был в пиджаке с темными джинсами, а в джинсах нельзя. Получилось, как в том анекдоте - "и плачу и смеюсь". В -40 пришлось на 2х автобусах сгонять домой переодеть штаны и обновить резюме.

Как говориться, "нет худа без добра". В итоге устроился в Амазон и переехал в British Columbia, где вообще нет зимы.
👍61😁11🔥3
Спустя несколько лет наконец-то получилось организовать offline user group для Tableau, как в старые добрые времена - pizza и drinks в хорошем офисе😜
🔥18🎉11👍71
Детский квест - проплыть 20 км на SUP и каяке с детьми и палаткой, собрать карту и найти клад.
👍53
Если вы работаете с AWS, то обычно все данные хранятся в S3 (cloud storage). Часто для локальной разработки или процесса CI/CD нам нужно проверять наш код, например Spark Jobs Unit Tests. Возможно без доступа к облаку, так как для доступа вам нужно использовать credentials.

Попалось очень хорошее решение для такой задачи - How to mock AWS services in local development?

То есть запускается сервис, который имитирует s3://
👍22
Новый игрок в BI был замечен на рынке после недавних инвестиций в 12млн от знающих толк в data людей

Most BI tools are thin applications with no г engine of their own, and only as fast as the database they sit atop. Rill, on the other hand, is a thick application that comes with its own embedded in-memory OLAP engine (DuckDB in Rill Developer, and Apache Druid in Rill Cloud). This is the not-so-secret reason why our dashboards offer incredibly high performance,” the company wrote in a blog post announcing the funding.


https://techcrunch-com.cdn.ampproject.org/c/s/techcrunch.com/2022/08/04/rill-wants-to-rethink-bi-dashboards-with-embedded-database-and-instant-ux/amp/

Посмотрим как пойдёт у них
👍9🔥2
FAANG компании отслеживают интересные метрики - Revenue per employee и Free cash flow per employee.

Согласно статье Why Mark Zuckerberg and Sundar Pichai Are Worried About Productivity эффективность труда падает, и как говорит Цукенберг Realistically, there are probably a bunch of people at the company who shouldn’t be here.

Как вам такой подход? Я знаю, что такой подход хорошо работает на уровень зарплаты (total compensation), и поэтому там такие высокие зарплаты, а вот наоборот, искать взаимосвязь между производительностью конкретного инженера и доходом компании это может обернуться "охотой на ведьм". Возможно причины в неудачных long term решениях.

А так то, кому сейчас легко?😆
🔥23👍8🤔4😁1
Пока вы учите Python, SQL, Airflow и другие полезные ништячки на работе, я прохожу sexual harassment тренинг с элементами сериала 90х.

Вот один из вопросов:
(google сделал перевод для вас)

Несколько сотрудниц офиса являются друзьями на Facebook. Однажды ночью дома одна из женщин публикует рейтинг «Лучших мужских задниц в моем офисе», зная, что она дружит на Facebook только с сотрудницами, которые не обидятся. Когда это видит друг друга друга, он чувствует себя униженным, потому что он занял последнее место. Он сообщает об этом как о сексуальных домогательствах.

Это сексуальные домогательства?

Вопрос конечно серьезный и даже очень полезный для некоторых, но в Канаде тут с этим не шутят, за неудачный комплимент могут вызвать полицию или уволить с работы одним днем. Поэтому тут лучше молчать и глаза не поднимать. 🙈

У меня был еще другой тренинг, но он мне оказался не по силам, я запутался в терминологии и цветах радуги.
😁85🤔24🤬14👍13😢3🔥1
Очень классная статья - Cloud-native Computing, Workloads, and Elasticity - про экономию в облаках.

Казалось бы, если у нас есть кластер для ETL и он будет тратить X денег за 7 часов, то если мы удвоим кластер, то будем платить 2X за 7 часов.

Но в облаке будет работать по другому. При удвоении мощности, наш ETL процесс закончится как минимум в 2 раза быстрей, то есть мы заплатим 2X/2=X. Та же цена, но в 2 раза быстрей. И там можно дальше. Все благодаря преимуществам облака и тарификации за работающие ресурсы.

Я конечно утрирую немного, но в статье смысл про это, от ветерана MPP платформ Rob Klopp (Greenplum, Hana)
👍22👨‍💻1
🔥83😁64👍74
Отличная картинка. Только вместо ERP и CSV можно использовать хранилище данных. Пользователи мега креативны и найдут способ создать одинаковый показатель с разной логикой и результатом, даже если уже такой есть.

И это будет не их вина. Это проблема отсутствия правильной документации, инструмента для отображения документации и on-boarding тренингов.

Хотя нет, даже при наличии всего этого, все равно придумают чего-нить (и никому не скажут)
🔥31😁13👍72
😁31🔥17👍83👏2
Какое-то время назад я писал анонс про книгу “Fundamentals of Data Engineering”.

Книжку я в итоге купил, прочитал и я очень остался доволен. Впервые за долгое время было очень приятно читать книгу, в которой на базовом уровне описываются хорошие практики, про то, как все устроено и с какими проблемами сталкиваются DE и команды.
А еще взгляды автора совпадали на некоторые аспекты и процессы совпадали с моими, приятно осозновать, что я практики, до которых я дошел самостоятельно или научился у других, оказываются, и правда хорошие. Спасибо моим учителям =)

А теперь из прикольного: у ребят в datatalks.club в слаке есть канал book-of-the-week, где эту неделю автор книги отвечает на все вопросы. Советую заглянуть и почитать треды.

@ohmydataengineer
👍27🔥32
В Google podcast есть подкасты, больше про карьеру, чем про данные. https://podcasts.google.com/feed/aHR0cHM6Ly9hbmNob3IuZm0vcy84MGIwMzJkOC9wb2RjYXN0L3Jzcw
👍22
Новости из мира аналитики:

Building Modern Data Teams - собрали много материала по этой теме в одном месте.

Airflow's Problem - популярный пост про судьбу Airflow и его туманное будущее

Databricks usage and cost analysis - пример анализа стоимости Databricks


The Evolution of Transformation Layer Architecture in 99 Group (DBT, Airflow and Kubernetes) - обзор аналитического решения в компании 99 Group

4 Must-Have Tests for Your Apache Kafka CI/CD with GitHub Actions - будет полезно, если вы используете Kafka

A Framework to Understand How Low-Quality Data Hurts Business Performance -

Reporting Data at Criteo: How to Measure at Scale - архитектура аналитического решения в Criteo

Harvard Data Science CS109A materials.

Spark Data Lineage - задачи lineage до сих пор актуальны, а если у вас Spark, то там все еще сложней.

Snowflake query optimiser: unoptimised - хороший пример про использования dbt и их подхода CTE, который в итоге оборачивается в огромной стоимости решения.

The next generation of Data Platforms is the Data Mesh - а может быть очередной buzz word.
👍15🔥31
Lakehouse: A New Generation of Open Platforms that UnifyData Warehousing and Advanced Analytics - paper 2021 года про архитектуру Lakehouse

Пост про обзор Lakehouse paper.

The paper tries to motivate introduction of Lakehouse by high engineering efforts required to maintain “Data Lake” + EDW tandem (that is caused by data lake misuse for cost cutting EDW license), EDW data staleness (which was solved by CDC long ago), EDW lack of advanced analytics support (every EDW vendor provides them), unstructured data processing needs (you don’t want unstructured data inside your EDW). But the actual motivation is the willingness of Databricks to position their solution as a competitor in the cloud EDW market and describe its key features, further generalising their approach to look more comprehensive than their competitors. Unfortunately, I don’t see unique challenges it solves, so for now I will treat Lakehouse as another marketing buzzword.
👍9