🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
https://dataproducts.substack.com/p/the-rise-of-data-contracts

Сегодня будет горячая для меня тема: контракты данных. Начнем прямо с главного:

*Today, engineers have almost no incentive to take ownership of the data quality they produce outside operational use cases. This is not their fault. They have been completely abstracted away from analytics and ML.*

И это в большинстве случаев правда. Разработчики не особо парятся про то, что происходит с их данными за пределами базы их сервисов. А нам потом с этим работать и недовольный пользователь первым делом кидается какашкой в нас, владельцев платформы.

Рассмотрим пример: есть GDPR процесс, по которому пользователь может у вас запросить удалить все PII данные про него. Разработчики сервиса решают особо не парится, и просто делают все PII данные NULL, потому что им так удобней и проще (их право, их сервис, про других не подумали). А вот то, что потом эти нули приедут в DWH и там поедут метрики и дашборды, не говоря уже про проверки качества. И будем мы бегать и пытаться понять “А тут NULL почему? Потому что у сервиса что-то пошло не так? Или у нас? Или это GDPR?”
P.S. хорошим решением было бы вместо нулей положить что-то в стиле ’GDPR_deleted_’ + md5(), флаг is_gdpr_deleted и время манипуляции gdpr_deleted_timestamp.

Дата контракты становятся такой-же важной вещью, как и контракты по API между сервисами, фронтом и беком. Договоренности о том, как нам отдают данные, в каком формате, с использованием простого интерфейса и валидацией на входе - сильно упрощает понимание того, что происходит с данными. Разрабы смогут спокойно работать со своими базами не боясь того, что какие-то изменения у них поломают продакшен.

Напишите в комменты, есть ли у вас data contracts?

@ohmydataengineer
👍3🔥3
- https://seattledataguy.substack.com/p/cataloging-data-catalogs

- https://github.com/opendatadiscovery/awesome-data-catalogs

- И целый топик в GitHub - https://github.com/topics/data-catalog

Каталог Каталогов Данных

Относительно недавно мы начали готовить почву для того, чтобы внедрять каталог данных и автоматическую документацию. Поэтому я сидел и исследовал, а что же доступно на рынке каталогов данных. В общем и целом, много чего, и платного и опен-сорс.
Поэтому, если вам предстоит похожая задача, вот несколько подборок (по большей части, пересекающиеся между собой).

@ohmydataengineer
👍5🔥3
https://www.jeremiahlee.com/posts/failed-squad-goals/

Управление командами, а тем более компаниями, штука непростая. Я за последний месяц успел это прочувствовать это на себе, получив обязанности тимлида. Не удивляет меня и то, что компании всегда в поиске модели взаимодействия, которое поможет им:
- упростить взаимодействие между командами
- ускорить поставку нового функционала
- разделять знания и адаптировать лучшие практики соседних команд.

Возможно, вы слышали про инженерную культуры Spotify. Если нет, то можно почитать и посмотреть небольшой видос. Наверняка, вы слышали про эту культуру и организованность.
Меня лично очень сильно удивляло, когда российские компании начали слепо адаптировать эту модель и в некоторых банках появились сквады, трайбы, гильдии и вот это все. Я почему-то чувствовал, что это не работает и просто кто-то занимается ИБД. Как и вся эта идея, слишком много интересных слов, на деле - слишком сложно.
А вот по самой первой ссылке подтверждение моих ощущений: такая модель не сработала и в Spotify, они со временем постепенно вернулись к обычной матричной структуре.

@ohmydataengineer
👍3🔥1
https://movedata.airbyte.com/

Есть такие ребята Airbyte (https://airbyte.com), конкуренты Airflow, запускатор по расписанию, опенсорсный бесплатный и платный у них в облаке.
Так вот они решили организовать конференцию по Data Engineering.
Есть только даты (8-10 Ноября) и ссылка на Slack, программы пока нет.

Возможно, будет что-то интересное. А может и нет. Just FYI.

P.S. Аудитория подсказывает, что ближайшие конкуренты это Fivetran, Stitch или Hevo. Спасибо @nikbeesti


@ohmydataengineer
👍2
В продолжении недавней темы про каталоги, вот тут у ребят из Data Cofee вышел выпуск про каталоги данных, что, куда и зачем.
Forwarded from Data Coffee
Это случилось! К нам пришел гость, который рассказал про то зачем нужны Data-каталоги, какими они бывают и как подобрать тот, который нужен именно вам.

В гостях у подкаста Data Coffee был Алмаз Мурзабеков (Telegram, Email), Data Engineer из Picsart. Он занимается на работе DI и DE, и прямо сейчас внедряет Data Catalog в компании.

Вот лишь один полезный совет из нового эпизода, который вам точно пригодится. По этим двум основным признакам можно понять, что пора внедрять data catalog:
- избыточная коммуникация между data-пользователями;
- чрезмерная сложность работы с имеющимися данными.

P.S.: счетчик этого эпизода показал цифру 8️⃣


#datacoffee #podcast #data

Где слушать🎧:
Anchor.FM
YouTube
Бот (последний эпизод)
Остальные площадки

Наши Telegram, Twitter и чат

Поддержать нас чашечкой кофе ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
https://medium.com/data-monzo/the-many-layers-of-data-lineage-2eb898709ad3

Да-да, каталоги и data lineage - моя больная тема.
А вот тут прекрасная статья нашлась, которая поясняет, что data lineage на деле, это не просто связь между колонками и таблицами, а нечно более. А именно несколько слоев: зависимость колонок, зависимость таблиц, зависимость на уровне моделей (ага, таблица != модель), зависимость на бизнес уровне.
И как только вы построили самый нижний слой (например, при помощи DBT), у вас появляется еще кучка новых вопросов.

@ohmydataengineer
🔥8👍2
Так, SmartData уже не за горами и на сайте уже появились некоторые доклады https://bit.ly/3KSsrvM
Из интересного лично мне:

Владимир Озеров “Как устроено выполнение SQL-запросов в Trino” (https://smartdataconf.ru/talks/1fc81e775df2473f9865202aca7a4642/)
Наш основной инструмент работы с данными в Gett. И хоть я пару книжек прочитал по теме, все равно интересно.

Юлия Волкова “Любовь и ненависть к Prefect 2.0 после Apache Airflow” (https://smartdataconf.ru/talks/aceb4db19f59418780bcc9dc8fd4fc08/)
Мы ж когда-нибудь свалим с Jenkins (да-да, так бывает, не спрашивайте). И вот выбор Airflow vs Prefect - это наш шортлист. Забавный факт, несколько лет назад, когда я был джуном, меня Юля собесила. Техсобес я не прошел, потому что литкод зло 😁

Анастасия Ожигина Как загрузить в каталог данных всё на свете и не умереть” (https://smartdataconf.ru/talks/d5dd4232460942648e174e606eb6dc71/)
Это попаболь моих последних дней, вы и сами все знаете.

Напомните работодателю про бюджеты на образование и приходите на конфу!

@ohmydataengineer
👍9
https://blog.pragmaticengineer.com/what-is-data-engineering/

The Pragmatic Engineer вместе с SeattleDataGuy написал огромную статью про то, что же такое Data Engineering.
Если вы не читали Fundamentals of Data Engineering - то это фактически сокращенная выжимка.
Ничего сеньорного, в целом самые базовые концепции поясняются, целевая аудитория все-таки все остальные в айтишке, не дата инженеры =)

Так что если вы вдруг что-то пропустили случайно или вашу голову щекочет какая-то аббревиатура - можно зайти почитать.

P.S. Исправил ссылку, потому что она была из рассылки, а она платная. Но автор выкладывал и в открытый доступ статью, так что теперь выше - правильная ссылка.

@ohmydataengineer
👍5👎1
Про онбоардинг в Data Teams

Пару недель назад ко мне в команду пришел новый инженер и мне предстояло его онбоардить. До этого процесс онбоардинга у нас выглядел “своеобразно” - 35 видео, от 20 до 40 минут, в какждом из которых рассказывалось про какую-либо тулзу или процесс, котороый у нас есть.
С одной стороны, это прикольно, не тратишь ничье время, смотришь видосы, и ты готов что-то делать. Но практика оказалась другой: видосы ты посмотрел, а делать пока не можешь, потому что уже забыл, в каком видосе и что пояснялось. В итоге, вместо полноценной единицы через месяц получалось что-то на 50% готовое делать полноценные задачи, 70% если ты мотивированный и активный и 30% если нет.

Что я в итоге сделал? Нарезал заранее мелких задач по главным тема, так, чтобы человек начинал делать уже во время просмотра видео, а не после всех. Ну и peer-to-peer сессии с почти каждым членом команды тоже дали эффект. Человек уже через 1.5 недели со всеми доступами и пилит продовые задачи.

Да, можно еще быстрей (видел компании, где коммитят в прод чуть ли не в первый день).
Да, можно еще качественней.
Да, можно еще лучше.
Но я только начал =)

Кстати, неплохой пример подходов онбоардинга в дата командах https://seattledataguy.substack.com/p/onboarding-for-data-teams.
Как всегда, без каких-то откровений и серебрянных пуль.

@ohmydataengineer
👍20🔥7
https://blog.pragmaticengineer.com/what-is-data-engineering-2/

Продолжение предыдущей части про DE от The Pragmatic Engineer.
Все также основные базовые понятия, сама статья даже маловата, если честно, но для ознакомления, что же такое DE - все еще прекрасно подходит.

@ohmydataengineer
👍2🔥1
🔋 Труба данных pinned «Поддержать автора»
Хех,💩 под постом говорят о том, что кому-то не понравился мой пост про донаты. И я даже догадываюсь, почему.

Хочу чуть пояснить свою позицию:

В этом канале никогда не будет платной рекламы. И этим постом я не хотел “вымогать” деньги из подписчиков, в стиле “или задонатьте, или я начну брать рекламу”.
Ее не будет здесь, если я что-то буду постить, это будет потому, что это понравилось мне и я посчитал нужным и полезным этим с вами поделиться.
Донат - это способ для вас сказать мне “спасибо” за то, что я делаю. Даже если мне никто не будет больше донатить (спасибо большое тем, кто закинул), я все равно продолжу вести этот канал в том же стиле, что и раньше.
Поэтому 4 человека, кто поставил какашонки, вернитесь пожалуйста, я вас всех очень люблю.
❤️

P.S. Первое сообщение с сомнительным текстом (который можно было прочитать двояко) я удалю, сделаю новое. Прошу прощение за уведомление!

P.S.S. Та реклама, что появляется в виде отдельного сообщения под самым последним моим постом - я не вижу в своей ленте, не контролирую и с него ничего не получаю. Это ерунда от Дурова и как ее убрать, я хз пока.
👍26💩5🔥2
Важное объявление!
Думаю, по скриншоту все понятно 🤪

Хочется немного порефлексировать: уехать я хотел очень давно. Потому что работа моей мечты не в РФ.

И в целом план по релокации был сначала на 4-5 лет. И сразу в США.

Потом он сократился до 1.5 лет, а список стран изменился и стали были болота (так мы называем Нидерланды).

А потом снова обстоятельства изменились и 1.5 года превратились в 6 месяцев и Сербию. А затем 6 месяцев в 2. И Кипр.

Обстоятельства меняются, страны меняются, сроки меняются. Цель 🎯 остается.

Спасибо Gett что не смотря на все сложности, он делает все, чтобы было хорошо.

Тем, кто остается: это ваш выбор, я его уважаю и вне зависимости от причин, желаю вам сил и побольше возможностей. ❤️

Тем, кто уехал: мы с вами обязательно увидимся где-то на новом месте!
👍57🔥14
https://www.youtube.com/watch?v=-EbDGTXEsz4

Seattle Data Guy рассказывает про то, какие “плюшки” в работе DE в FAANG есть, чего нет в других компаниях. У меня оч странное ощущение от видоса, такое ощущение, что как будто какой-то другой пузырь (и по классике, кликбейтный заголовок и превьюха). Давайте разберем по пунктам:

- “Мне приходилось делать джойны из разных источников и там, о боже, не совпадали ключи. А в Facebook не надо было, там все было одинаково”.
Мне казалось, что все давным давно уже научились и переболели этой болезнью называть одну и ту же сущность по разному и в разных форматах класть ее. А даже если у вас есть еще такое (что тоже норм), у вас есть этап очистки и подготовки.

- “Вам придется самим управлять вашей инфрой и вообще у нас были Ops команды, которые все проблемы решали, мы просто даги пушили”
Ну тут мне даже нечего сказать, свою поделку через забор перекинули, а дальше пусть остальные поддерживают.

- Onboarding у нас был великолепный
Ну ок, а в остальных всех компаниях он ужасный? Оч сильное натягивание одного удачного и неудачного опыта на всю индустрию.

- В Фаанге понятно как вырасти дальше
Тож самое. Как будто в других компаниях правила игры неизвестны. Иногда, конечно, нет, но чаще всего все можно прояснить в обычном разговоре с TL. Да и в целом, когда у тебя заявлены общие метрики (а не индивидуальные), как перейти на следующий уровень (а там TC больше), люди начинают жульничать вокруг метрик и забывают про продукт. Получается не очень.


В общем, очередное напоминание про различные пузыри и про то, что люди могут не знать, как происходит в другом месте.
👍9
Вот так, ты планируешь и готовишься к одному, а приходится адаптироваться под изменившиеся обстоятельства. Pun intended.😄

Потому что я планировал выступать на SmartData со своим докладом, но обстоятельства изменились.
Однако жизнь подкинула других возможностей, за которые я решил ухватиться.
Поэтому завтра буду учавствовать в одной из активностей на SmartData - “Своя Игра”.
Буду самым глупым, заработаю 0 баллов, зато умных людей послушаю 😊

А вы приходите слушать меня, потому что второй день конференции, Community Day, будет бесплатным.
Зарегистрироваться по ссылке выше.


@ohmydataengineer
👍9💩2
Это было очень забавный и интересный опыт на конференции: я уже был зрителем, я работал на стенде, я был организатором, я был в программном комитете и выбирал доклады, а вот наконец-то, я в телеэкране.

Это пока лишь panel talk & quiz game, но все же. Медленно, но верно идем к собественному докладу.

Посмотреть повтор можно тут:

https://smartdataconf.ru/schedule/video?v=MTAwMTQwwooyMDAwMTE0OMKKMA

Ну и проголосовать за меня в голосовалке 😊
👍1
Forwarded from Maria Lavrova
Проголосуйте, чей ответ в "Нашей Игре" вам нравится больше?

Где вы видите себя через 5 лет? Игорь: на ферме в лесу, senior manure data expert Семён: SpaceX (на проекте запуска на Марс) - это всегда была моя мечта
Final Results
55%
Игорь
45%
Семён
👍1💩1
https://benn.substack.com/p/how-dbt-fails

“На небесах только и разговоров, что о море о dbt”.
Если вы хоть немного смотрите ютуб и читаете профессиональные статьи, вы могли слышать о dbt. Он был создан, чтобы спасти нас с нашими огромными трансформациями в ETL, навесить проверки качества и чуть ли не линедж делать и документация автоматическая.

Однако не все так очевидно и замечательно, и вот у меня наконец дошли руки до того, чтобы прочитать критику про этот тул.
Но даже при всем этом, пока у него больше плюсов, чем минусов. Хотя мб потому что мы не платим за него и пока его использование только в самом начале?)

Но если вы вдруг хотите его использовать, то в телеграме есть сообщество на русском языке @dbt_users и у самого dbt есть Slack - https://www.getdbt.com/community/join-the-community/

@ohmydataengineer
👍3🔥1
https://www.starburst.io/info/trinosummit/

Для тех, у кого Trino / Presto в продакшене, 10 ноября будет конференция от Starburst (это одни из главных контрибьюторов / внедренцев Trino).

Самое интересное для меня - Iceberg, а там аж целых два доклада на эту тему.

Онлайн и бесплатно.

@ohmydataengineer
👍8