NEW BOT Телеграм, страница

🔋 Труба данных

https://dataproducts.substack.com/p/the-rise-of-data-contracts

Сегодня будет горячая для меня тема: контракты данных. Начнем прямо с главного:

*Today, engineers have almost no incentive to take ownership of the data quality they produce outside operational use cases. This is not their fault. They have been completely abstracted away from analytics and ML.*

И это в большинстве случаев правда. Разработчики не особо парятся про то, что происходит с их данными за пределами базы их сервисов. А нам потом с этим работать и недовольный пользователь первым делом кидается какашкой в нас, владельцев платформы.

Рассмотрим пример: есть GDPR процесс, по которому пользователь может у вас запросить удалить все PII данные про него. Разработчики сервиса решают особо не парится, и просто делают все PII данные NULL, потому что им так удобней и проще (их право, их сервис, про других не подумали). А вот то, что потом эти нули приедут в DWH и там поедут метрики и дашборды, не говоря уже про проверки качества. И будем мы бегать и пытаться понять “А тут NULL почему? Потому что у сервиса что-то пошло не так? Или у нас? Или это GDPR?”
P.S. хорошим решением было бы вместо нулей положить что-то в стиле ’GDPR_deleted_’ + md5(), флаг is_gdpr_deleted и время манипуляции gdpr_deleted_timestamp.

Дата контракты становятся такой-же важной вещью, как и контракты по API между сервисами, фронтом и беком. Договоренности о том, как нам отдают данные, в каком формате, с использованием простого интерфейса и валидацией на входе - сильно упрощает понимание того, что происходит с данными. Разрабы смогут спокойно работать со своими базами не боясь того, что какие-то изменения у них поломают продакшен.

Напишите в комменты, есть ли у вас data contracts?

@ohmydataengineer

Substack

The Rise of Data Contracts

And Why Your Data Pipelines Don't Scale

👍3🔥3

2.2K viewsedited 16:30

🔋 Труба данных

- https://seattledataguy.substack.com/p/cataloging-data-catalogs

- https://github.com/opendatadiscovery/awesome-data-catalogs

- И целый топик в GitHub - https://github.com/topics/data-catalog

Каталог Каталогов Данных

Относительно недавно мы начали готовить почву для того, чтобы внедрять каталог данных и автоматическую документацию. Поэтому я сидел и исследовал, а что же доступно на рынке каталогов данных. В общем и целом, много чего, и платного и опен-сорс.
Поэтому, если вам предстоит похожая задача, вот несколько подборок (по большей части, пересекающиеся между собой).

@ohmydataengineer

SeattleDataGuy’s Newsletter

Cataloging Data Catalogs

And Building Data Infra

👍5🔥3

2.74K views05:35

🔋 Труба данных

https://www.jeremiahlee.com/posts/failed-squad-goals/

Управление командами, а тем более компаниями, штука непростая. Я за последний месяц успел это прочувствовать это на себе, получив обязанности тимлида. Не удивляет меня и то, что компании всегда в поиске модели взаимодействия, которое поможет им:
- упростить взаимодействие между командами
- ускорить поставку нового функционала
- разделять знания и адаптировать лучшие практики соседних команд.

Возможно, вы слышали про инженерную культуры Spotify. Если нет, то можно почитать и посмотреть небольшой видос. Наверняка, вы слышали про эту культуру и организованность.
Меня лично очень сильно удивляло, когда российские компании начали слепо адаптировать эту модель и в некоторых банках появились сквады, трайбы, гильдии и вот это все. Я почему-то чувствовал, что это не работает и просто кто-то занимается ИБД. Как и вся эта идея, слишком много интересных слов, на деле - слишком сложно.
А вот по самой первой ссылке подтверждение моих ощущений: такая модель не сработала и в Spotify, они со временем постепенно вернулись к обычной матричной структуре.

@ohmydataengineer

Jeremiahlee

Spotify’s Failed #SquadGoals

“The Spotify model” got a bunch of companies talking like Taylor Swift about startup culture, but four former Spotify employees reveal the truth: its eponymous way of working failed before it scaled.

👍3🔥1

2.01K views08:25

🔋 Труба данных

https://movedata.airbyte.com/

Есть такие ребята Airbyte (https://airbyte.com), конкуренты Airflow, запускатор по расписанию, опенсорсный бесплатный и платный у них в облаке.
Так вот они решили организовать конференцию по Data Engineering.
Есть только даты (8-10 Ноября) и ссылка на Slack, программы пока нет.

Возможно, будет что-то интересное. А может и нет. Just FYI.

P.S. Аудитория подсказывает, что ближайшие конкуренты это Fivetran, Stitch или Hevo. Спасибо @nikbeesti

@ohmydataengineer

Airbyte

move(data) - The data engineering conference

move(data) is celebrating the hard work and dedication of data engineers and practitioners worldwide! We’re hosting talks with speakers who have spent countless hours working on data movement.

👍2

2.9K viewsedited 06:54

🔋 Труба данных

В продолжении недавней темы про каталоги, вот тут у ребят из Data Cofee вышел выпуск про каталоги данных, что, куда и зачем.

1.55K views11:24

🔋 Труба данных

Forwarded from Data Coffee

Это случилось! К нам пришел гость, который рассказал про то зачем нужны Data-каталоги, какими они бывают и как подобрать тот, который нужен именно вам.

В гостях у подкаста Data Coffee был Алмаз Мурзабеков (Telegram, Email), Data Engineer из Picsart. Он занимается на работе DI и DE, и прямо сейчас внедряет Data Catalog в компании.

Вот лишь один полезный совет из нового эпизода, который вам точно пригодится. По этим двум основным признакам можно понять, что пора внедрять data catalog:
- избыточная коммуникация между data-пользователями;
- чрезмерная сложность работы с имеющимися данными.

P.S.: счетчик этого эпизода показал цифру 8️⃣

#datacoffee #podcast #data

Где слушать🎧:
— Anchor.FM
— YouTube
— Бот (последний эпизод)
— Остальные площадки

Наши Telegram, Twitter и чат

Поддержать нас чашечкой кофе

☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

1.81K views11:24

🔋 Труба данных

https://medium.com/data-monzo/the-many-layers-of-data-lineage-2eb898709ad3

Да-да, каталоги и data lineage - моя больная тема.
А вот тут прекрасная статья нашлась, которая поясняет, что data lineage на деле, это не просто связь между колонками и таблицами, а нечно более. А именно несколько слоев: зависимость колонок, зависимость таблиц, зависимость на уровне моделей (ага, таблица != модель), зависимость на бизнес уровне.
И как только вы построили самый нижний слой (например, при помощи DBT), у вас появляется еще кучка новых вопросов.

@ohmydataengineer

Medium

The many layers of data lineage

What can we learn from google maps to help us extract the untapped potential of our data lineage graphs?

🔥8👍2

2.65K views05:49

🔋 Труба данных

Так, SmartData уже не за горами и на сайте уже появились некоторые доклады https://bit.ly/3KSsrvM
Из интересного лично мне:

Владимир Озеров “Как устроено выполнение SQL-запросов в Trino” (https://smartdataconf.ru/talks/1fc81e775df2473f9865202aca7a4642/)
Наш основной инструмент работы с данными в Gett. И хоть я пару книжек прочитал по теме, все равно интересно.

Юлия Волкова “Любовь и ненависть к Prefect 2.0 после Apache Airflow” (https://smartdataconf.ru/talks/aceb4db19f59418780bcc9dc8fd4fc08/)
Мы ж когда-нибудь свалим с Jenkins (да-да, так бывает, не спрашивайте). И вот выбор Airflow vs Prefect - это наш шортлист. Забавный факт, несколько лет назад, когда я был джуном, меня Юля собесила. Техсобес я не прошел, потому что литкод зло 😁

Анастасия Ожигина “Как загрузить в каталог данных всё на свете и не умереть” (https://smartdataconf.ru/talks/d5dd4232460942648e174e606eb6dc71/)
Это попаболь моих последних дней, вы и сами все знаете.

Напомните работодателю про бюджеты на образование и приходите на конфу!

@ohmydataengineer

SmartData 2024. Конференция по инженерии данных

SmartData 2024 — конференция по инженерии данных. Технические доклады о хранилищах данных, стриминге, data governance, архитектуре DWH и другом, применимые в работе дата-инженера.

👍9

2.02K viewsedited 13:07

🔋 Труба данных

https://blog.pragmaticengineer.com/what-is-data-engineering/

The Pragmatic Engineer вместе с SeattleDataGuy написал огромную статью про то, что же такое Data Engineering.
Если вы не читали Fundamentals of Data Engineering - то это фактически сокращенная выжимка.
Ничего сеньорного, в целом самые базовые концепции поясняются, целевая аудитория все-таки все остальные в айтишке, не дата инженеры =)

Так что если вы вдруг что-то пропустили случайно или вашу голову щекочет какая-то аббревиатура - можно зайти почитать.

P.S. Исправил ссылку, потому что она была из рассылки, а она платная. Но автор выкладывал и в открытый доступ статью, так что теперь выше - правильная ссылка.

@ohmydataengineer

The Pragmatic Engineer

What is Data Engineering?

A broad overview of the data engineering field by former Facebook data engineer Benjamin Rogojan. Part 1.

👍5👎1

3.03K viewsedited 08:30

🔋 Труба данных

Про онбоардинг в Data Teams

Пару недель назад ко мне в команду пришел новый инженер и мне предстояло его онбоардить. До этого процесс онбоардинга у нас выглядел “своеобразно” - 35 видео, от 20 до 40 минут, в какждом из которых рассказывалось про какую-либо тулзу или процесс, котороый у нас есть.
С одной стороны, это прикольно, не тратишь ничье время, смотришь видосы, и ты готов что-то делать. Но практика оказалась другой: видосы ты посмотрел, а делать пока не можешь, потому что уже забыл, в каком видосе и что пояснялось. В итоге, вместо полноценной единицы через месяц получалось что-то на 50% готовое делать полноценные задачи, 70% если ты мотивированный и активный и 30% если нет.

Что я в итоге сделал? Нарезал заранее мелких задач по главным тема, так, чтобы человек начинал делать уже во время просмотра видео, а не после всех. Ну и peer-to-peer сессии с почти каждым членом команды тоже дали эффект. Человек уже через 1.5 недели со всеми доступами и пилит продовые задачи.

Да, можно еще быстрей (видел компании, где коммитят в прод чуть ли не в первый день).
Да, можно еще качественней.
Да, можно еще лучше.
Но я только начал =)

Кстати, неплохой пример подходов онбоардинга в дата командах https://seattledataguy.substack.com/p/onboarding-for-data-teams.
Как всегда, без каких-то откровений и серебрянных пуль.

@ohmydataengineer

SeattleDataGuy’s Newsletter

Onboarding For Data Teams

How to set-up a streamlined onboarding experience that empower your data engineers and analysts day one.

👍20🔥7

2.61K viewsedited 06:30

🔋 Труба данных

https://blog.pragmaticengineer.com/what-is-data-engineering-2/

Продолжение предыдущей части про DE от The Pragmatic Engineer.
Все также основные базовые понятия, сама статья даже маловата, если честно, но для ознакомления, что же такое DE - все еще прекрасно подходит.

@ohmydataengineer

The Pragmatic Engineer

What is Data Engineering: Part 2

A broad overview of the data engineering field by former Facebook data engineer Benjamin Rogojan. Part 2.

👍2🔥1

2.69K views07:01

🔋 Труба данных

Поддержать автора

Привет! В этом канале нет и не будет платной рекламы, поэтому если вам нравится, что я делаю, вы можете поддержать меня донатами. Сумма небольшая, а мне будет приятно!

👍13💩4🔥1

1.97K views16:48

На развитие канала

🔋 Труба данных

🔋 Труба данных pinned «Поддержать автора»

16:48

🔋 Труба данных

Хех,💩 под постом говорят о том, что кому-то не понравился мой пост про донаты. И я даже догадываюсь, почему.

Хочу чуть пояснить свою позицию:

В этом канале никогда не будет платной рекламы. И этим постом я не хотел “вымогать” деньги из подписчиков, в стиле “или задонатьте, или я начну брать рекламу”.
Ее не будет здесь, если я что-то буду постить, это будет потому, что это понравилось мне и я посчитал нужным и полезным этим с вами поделиться.
Донат - это способ для вас сказать мне “спасибо” за то, что я делаю. Даже если мне никто не будет больше донатить (спасибо большое тем, кто закинул), я все равно продолжу вести этот канал в том же стиле, что и раньше.
Поэтому 4 человека, кто поставил какашонки, вернитесь пожалуйста, я вас всех очень люблю. ❤️

P.S. Первое сообщение с сомнительным текстом (который можно было прочитать двояко) я удалю, сделаю новое. Прошу прощение за уведомление!

P.S.S. Та реклама, что появляется в виде отдельного сообщения под самым последним моим постом - я не вижу в своей ленте, не контролирую и с него ничего не получаю. Это ерунда от Дурова и как ее убрать, я хз пока.

👍26💩5🔥2

2.05K viewsedited 16:48

🔋 Труба данных

Важное объявление!
Думаю, по скриншоту все понятно 🤪

Хочется немного порефлексировать: уехать я хотел очень давно. Потому что работа моей мечты не в РФ.

И в целом план по релокации был сначала на 4-5 лет. И сразу в США.

Потом он сократился до 1.5 лет, а список стран изменился и стали были болота (так мы называем Нидерланды).

А потом снова обстоятельства изменились и 1.5 года превратились в 6 месяцев и Сербию. А затем 6 месяцев в 2. И Кипр.

Обстоятельства меняются, страны меняются, сроки меняются. Цель 🎯 остается.

Спасибо Gett что не смотря на все сложности, он делает все, чтобы было хорошо.

Тем, кто остается: это ваш выбор, я его уважаю и вне зависимости от причин, желаю вам сил и побольше возможностей. ❤️

Тем, кто уехал: мы с вами обязательно увидимся где-то на новом месте!

👍57🔥14

2.07K views06:50

🔋 Труба данных

https://www.youtube.com/watch?v=-EbDGTXEsz4

Seattle Data Guy рассказывает про то, какие “плюшки” в работе DE в FAANG есть, чего нет в других компаниях. У меня оч странное ощущение от видоса, такое ощущение, что как будто какой-то другой пузырь (и по классике, кликбейтный заголовок и превьюха). Давайте разберем по пунктам:

- “Мне приходилось делать джойны из разных источников и там, о боже, не совпадали ключи. А в Facebook не надо было, там все было одинаково”.
Мне казалось, что все давным давно уже научились и переболели этой болезнью называть одну и ту же сущность по разному и в разных форматах класть ее. А даже если у вас есть еще такое (что тоже норм), у вас есть этап очистки и подготовки.

- “Вам придется самим управлять вашей инфрой и вообще у нас были Ops команды, которые все проблемы решали, мы просто даги пушили”
Ну тут мне даже нечего сказать, свою поделку через забор перекинули, а дальше пусть остальные поддерживают.

- Onboarding у нас был великолепный
Ну ок, а в остальных всех компаниях он ужасный? Оч сильное натягивание одного удачного и неудачного опыта на всю индустрию.

- В Фаанге понятно как вырасти дальше
Тож самое. Как будто в других компаниях правила игры неизвестны. Иногда, конечно, нет, но чаще всего все можно прояснить в обычном разговоре с TL. Да и в целом, когда у тебя заявлены общие метрики (а не индивидуальные), как перейти на следующий уровень (а там TC больше), люди начинают жульничать вокруг метрик и забывают про продукт. Получается не очень.

В общем, очередное напоминание про различные пузыри и про то, что люди могут не знать, как происходит в другом месте.

YouTube

The Realities Of Working As A Data Engineer At A FAANG

FAANGs for some are still their target after college.

The jobs can pay upwards of 200-300k with minimal experience.

And you get to put ex-FAANG in your linkedin bio.

Maybe even start a youtube channel.

Also I reference an article from the Pragmatic Engineer…

👍9

2.16K views06:10

🔋 Труба данных

Вот так, ты планируешь и готовишься к одному, а приходится адаптироваться под изменившиеся обстоятельства. Pun intended.😄

Потому что я планировал выступать на SmartData со своим докладом, но обстоятельства изменились.
Однако жизнь подкинула других возможностей, за которые я решил ухватиться.
Поэтому завтра буду учавствовать в одной из активностей на SmartData - “Своя Игра”.
Буду самым глупым, заработаю 0 баллов, зато умных людей послушаю 😊

А вы приходите слушать меня, потому что второй день конференции, Community Day, будет бесплатным.
Зарегистрироваться по ссылке выше.

@ohmydataengineer

👍9💩2

1.79K views07:29

🔋 Труба данных

Это было очень забавный и интересный опыт на конференции: я уже был зрителем, я работал на стенде, я был организатором, я был в программном комитете и выбирал доклады, а вот наконец-то, я в телеэкране.

Это пока лишь panel talk & quiz game, но все же. Медленно, но верно идем к собественному докладу.

Посмотреть повтор можно тут:

https://smartdataconf.ru/schedule/video?v=MTAwMTQwwooyMDAwMTE0OMKKMA

Ну и проголосовать за меня в голосовалке 😊

👍1

1.49K views12:22

🔋 Труба данных

Forwarded from Maria Lavrova

Проголосуйте, чей ответ в "Нашей Игре" вам нравится больше?

Где вы видите себя через 5 лет? Игорь: на ферме в лесу, senior manure data expert Семён: SpaceX (на проекте запуска на Марс) - это всегда была моя мечта

Final Results

👍1💩1

89 voters1.53K views12:22

🔋 Труба данных

https://benn.substack.com/p/how-dbt-fails

“На небесах только и разговоров, что ~~о море~~ о dbt”.
Если вы хоть немного смотрите ютуб и читаете профессиональные статьи, вы могли слышать о dbt. Он был создан, чтобы спасти нас с нашими огромными трансформациями в ETL, навесить проверки качества и чуть ли не линедж делать и документация автоматическая.

Однако не все так очевидно и замечательно, и вот у меня наконец дошли руки до того, чтобы прочитать критику про этот тул.
Но даже при всем этом, пока у него больше плюсов, чем минусов. Хотя мб потому что мы не платим за него и пока его использование только в самом начале?)

Но если вы вдруг хотите его использовать, то в телеграме есть сообщество на русском языке @dbt_users и у самого dbt есть Slack - https://www.getdbt.com/community/join-the-community/

@ohmydataengineer

benn.substack

How dbt fails

For sale: data company, worn out.

👍3🔥1

1.92K views12:25

🔋 Труба данных

https://www.starburst.io/info/trinosummit/

Для тех, у кого Trino / Presto в продакшене, 10 ноября будет конференция от Starburst (это одни из главных контрибьюторов / внедренцев Trino).

Самое интересное для меня - Iceberg, а там аж целых два доклада на эту тему.

Онлайн и бесплатно.

@ohmydataengineer

👍8

1.92K views06:37

About

Blog

Apps

Platform