Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
😁31🔥17👍83👏2
Какое-то время назад я писал анонс про книгу “Fundamentals of Data Engineering”.

Книжку я в итоге купил, прочитал и я очень остался доволен. Впервые за долгое время было очень приятно читать книгу, в которой на базовом уровне описываются хорошие практики, про то, как все устроено и с какими проблемами сталкиваются DE и команды.
А еще взгляды автора совпадали на некоторые аспекты и процессы совпадали с моими, приятно осозновать, что я практики, до которых я дошел самостоятельно или научился у других, оказываются, и правда хорошие. Спасибо моим учителям =)

А теперь из прикольного: у ребят в datatalks.club в слаке есть канал book-of-the-week, где эту неделю автор книги отвечает на все вопросы. Советую заглянуть и почитать треды.

@ohmydataengineer
👍27🔥32
В Google podcast есть подкасты, больше про карьеру, чем про данные. https://podcasts.google.com/feed/aHR0cHM6Ly9hbmNob3IuZm0vcy84MGIwMzJkOC9wb2RjYXN0L3Jzcw
👍22
Новости из мира аналитики:

Building Modern Data Teams - собрали много материала по этой теме в одном месте.

Airflow's Problem - популярный пост про судьбу Airflow и его туманное будущее

Databricks usage and cost analysis - пример анализа стоимости Databricks


The Evolution of Transformation Layer Architecture in 99 Group (DBT, Airflow and Kubernetes) - обзор аналитического решения в компании 99 Group

4 Must-Have Tests for Your Apache Kafka CI/CD with GitHub Actions - будет полезно, если вы используете Kafka

A Framework to Understand How Low-Quality Data Hurts Business Performance -

Reporting Data at Criteo: How to Measure at Scale - архитектура аналитического решения в Criteo

Harvard Data Science CS109A materials.

Spark Data Lineage - задачи lineage до сих пор актуальны, а если у вас Spark, то там все еще сложней.

Snowflake query optimiser: unoptimised - хороший пример про использования dbt и их подхода CTE, который в итоге оборачивается в огромной стоимости решения.

The next generation of Data Platforms is the Data Mesh - а может быть очередной buzz word.
👍15🔥31
Lakehouse: A New Generation of Open Platforms that UnifyData Warehousing and Advanced Analytics - paper 2021 года про архитектуру Lakehouse

Пост про обзор Lakehouse paper.

The paper tries to motivate introduction of Lakehouse by high engineering efforts required to maintain “Data Lake” + EDW tandem (that is caused by data lake misuse for cost cutting EDW license), EDW data staleness (which was solved by CDC long ago), EDW lack of advanced analytics support (every EDW vendor provides them), unstructured data processing needs (you don’t want unstructured data inside your EDW). But the actual motivation is the willingness of Databricks to position their solution as a competitor in the cloud EDW market and describe its key features, further generalising their approach to look more comprehensive than their competitors. Unfortunately, I don’t see unique challenges it solves, so for now I will treat Lakehouse as another marketing buzzword.
👍9
Media is too big
VIEW IN TELEGRAM
Приглашаем на вебинар «Отток клиентов. Тихая смерть омниканальной стратегии. Обратная сторона LTV».

📆 25 августа (четверг) в 17:00 МСК.

На вебинаре узнаете, как снизить отток и вообще работать с базой, сокращая затраты и увеличивая прибыль, а также соберёте инсайты из разных сфер.

У микрофонов:
⚡️ Максим Мозговой, директор и управляющий партнер компании SegmentValue.
Ex-директор по CRM и аналитике Wargaming, GameHouse, Сбербанк, МТС, Промсвязьбанк, Wildberries, Lamoda, IVI.
⚡️ Стас Розен, основатель агентства Dau Relationship Marketing
Ex-Head of Digital&CRM в Pernod Ricard Rouss. Развивал программы лояльности в Philips, работал с ключевыми клиентами в агентствах Actis Wunderman и Progression (GE Money Bank, Microsoft, PepsiCo).
⚡️ Давид Вачадзе, директор агентства интерактивного маркетинга BrandMobile.
Ex-руководитель компаний ThinkWave, BIX (e-business интегратор, CRM решения), более 20 лет опыта создания и развития высокотехнологичных бизнесов.

📌Участие бесплатное, регистрация уже идет в чат-боте.
👍6🤬2🔥1
7 причин не становиться тимлидом

Мне понравился комментарий - "Плюньте в тех, кто проповедует идею, что тимлид — это следующая ступень для роста разработчика, это не так. Это совершенно другая роль, она не лучше и не хуже — просто она другая." - два чая этому господину.
👍47😁3🤔21🔥1👏1
Все хотят делать простые и понятные решения, в нашем случае аналитические, но почему-то всегда получается наоборот. Мы строим монстров, которых сложно поддерживать и оптимизировать, которые стоят много денег и как маленькие дети всегда нуждаются в нашем внимание. Как же так?
👍28😢6
Подкаст про данные - Data Radicals. У них был интересный спикер - founder of BusinessObjects, еще до SAP:)

Подкаст называется The Beginning of Business Intelligence, где Bernard Liautaud по-простому нам расскажет, что же такое BI.
👍9
Валидация данных (data validation) - очень важная штука. DV это относиться к data quality. Вообще это частый вопрос на собеседованиях про вакансии с данными.

Как правило - это набор тестов, правил, проверок, которые позволяют нам убедиться, что данные, которые мы используем для принятия решений верны и аккуратны.

В реальном мире все данные можно назвать грязными и у вас обязательно будут проблемы из-за их качества. А если, ошибочка попала на стол к руководителю, то можно и по шапке получить. Хотя в мире данных, всегда можно свалить на плохой процесс/софт/кривые руки пользователя и слабый сигнал Wifi.

К сожалению, мы сначала делаем решения, а уже потом, может быть, задумываемся про проверки качества данных. А должно быть наоборот.

Как правило можно начать с простых проверок:
- значение не равно NULL
- значение одно из заданного списка
- ID уникальный в таблице
- сумма больше 0
- цифра в заданном диапазоне

Сейчас популярно несколько инструментов:
- dbt (для трансформации данных) - там есть строенная функциональность тестирования данных, удобная и простая
- great expectation - самый популярный framework. Работает с Pandas, Spark, и SQL через SQLAlchemy. Утилита еще создает отчеты по валидации данных, которые могут быть расшарены с командой.
- Pandera - простой framework для работы с Pandas.
- SodaSQL - простой framework для работы с SQL.

На самом деле я хотел поделиться материалами и примерами в python с использованием GE и Pandera. Недавно посмотрел тренинг Testing Data Pipelines with Data Validation. Ссылка на репозиторий, там код и теория. Можете потренироваться.
👍62🔥13
В Индии очень похожая проблема (как в РФ) - взрослых специалистов никто не любит и не хочет брать на работу, несмотря на опыт. Знаете таких коллег, кому сложно найти работу из за возраста?

Хотя по факту молодые не заинтересованы работать долго на одном месте, а наоборот готовы прыгать с места на места ради опыта и повышения дохода.
🔥36👍14
Я уверен, что многие из вас пользуются командной строкой. Я уже писал про zsh и oh my zsh. Напишу еще раз, так как сегодня установил на Windows, все так же работает как и на Mac.

Вообще, если у вас есть слабенький ноутбук, лучше сразу поставьте Linux и учите data на linux. Он ест меньше ресурсов и все необходимое уже есть.

На Windows по умолчанию есть CMD и PowerShell. Для Microsoft это нормально, а вот за его пределами, ХЗ))

На Windows нужно поставить Ubuntu WSL. А затем вы можете поставить zsh и oh my zsh.

Было бы классно сделать вебинар по настройке и использованию командной строки. А вдруг есть желающие?
👍92🔥131
Пример аналитического open source решения на GCP. На месте GCP и Big Query может быть любое хранилище и любое облако. dbt, airflow, meltano, open metadata не требуют много мощностей и легко запускаются в Docker. В качестве языка используется Python и SQL.

PS Meltano вообще интересный, они дают сразу целую платформу где уже из коробки у вас есть ETL (connectors для ingest, и dbt для трансформации), Aiflow для оркестрации и Preset для BI. Кто-нибудь использовал?
👍19🔥3🤔3
Data Quality - старо как мир, а вот термин Data Observability достаточно свежее, хотят обозначает monitoring/alerting на основе data validations правил (недавно шарил python код). Есть и популярные решения как monte carlo b data fold. Я как раз использую monte carlo для Snowflake.
👍25
Последние 2 года я работаю с git системами Azure DevOps, GitLab, GitHub. Делая commits каждый день не задумываясь, что происходит и как это работает. МНТ (метод научного тыка) обычно работает. Читать документацию я тоже не люблю. Но работая все больше и больше с Software Engineers на data projects я и общаясь с талантливыми программистами за бутылочкой сидра🙃 я решил все-таки начать пользоваться документацией. Спустя 12 лет, у дорос до документации😝

Сегодня вот узнал, что git это база данных, и что все хранится у вас локально в папке .git, еще научился использовать git tag для release кода, в моем случае AWS Glue pyspark.

Полезные материалы:
- Introduction to Git with Scott Chacon of GitHub
- Книга этого же автора

Не ленитесь, почитайте первые 3 главы. Есть даже на русском копия, только смысла нет читать на русском.
👍27😁54
Law of triviality (Закон тривиальности Паркинсона) - «Время, потраченное на обсуждение пункта, обратно пропорционально рассматриваемой сумме»

То есть, люди по своей природе будут сначала обсуждать простые и понятные вещи и всегда будут откладывать на потом действительно важные вещи.

В ИТ используется bike-shed effect ( «эффект велосипедного сарая»).

Почему велосипедный сарай? Потому что, в 1958 году был пример вымышленного комитета, работа которого заключалась в согласовании проекта атомной электростанции. Большую часть времени участники комитета тратили на обсуждение мелких и простых для понимания вопросов, вроде материалов для строительства сарая для велосипедов работников, оставляя без внимания конструкцию самой электростанции, — что является гораздо более важным, но одновременно и гораздо более сложным вопросом.
👍44🔥10
Forwarded from Data Coffee
Мастера оформления профилей в LinkedIn

#datacoffee
😁151🔥23🤔1🤩1
Интересная конференция, как говорят, без BS:)

Ну или просто пример бюджетного маркетинга🙃
👍4
Конференция, про которую я скидывал выше организована на платформе Hopin, организатор девушка, или я бы даже сказал мать драконов данных Lauren Balik, которая не стесняется в выражениях и безконца мандражит Fivetran и другие бесполезные балайки😄

Как я понял, там что-то не работало, и она оставила отзыв. Правада через 20 минут удалила, шедевральный такой ответ, я могу такое же сказать своему менеджеру в Microsoft Gaming, нам с ним осталось 30 дней🤭 Только в моем случае я не платил premium, я почти 2 года работу работал, так-то😇
😁27👍5🤔2