🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
The State of Data Engineering (но не в РФ). Часть 2.

Продолжаем обзор опроса, в этот раз уже речь идет про продвинутые штуки: качество данных, каталоги данных и вот это все. Предыдущая часть доступна была тут.

Что по интересным наблюдениям?

- Дата каталогов нет больше чем у половины. Там есть еще график, показывающий зависимость появления этой штуки от размера компании. И это с учетом каталогов в Экселе 🤪

- Если каталог есть, то это скорее всего какая-нибудь самописная штука. Радует в списке видеть Datafold, с которыми удалось поработать, очень приятные воспоминания остались от них.

- ETL системы немножк не понял, как задавался вопрос, поэтому оставлю без комментариев на радость фанатов dbt


Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part-b61 (иногда пост открывается за paywall, поэтому используйте режим инкогнито)

@ohmydataengineer
Кто отвечает за качество данных?

Тут твиттер (а что же еще? Мастодон? 🤪) принес интересное обсуждение. Дядя из Zendesk и Slack утверждает, что Data Producer не должен отвечать за качество данных. Какие-то базовые проверочки, а дальше пусть потребляторы отвечают за DQ.

https://twitter.com/ananthdurai/status/1627627842929401857

Лично моя позиция немного другая: те, кто данные генерируют в равной степени несут ответственность за их качество, как и те, кто эти данные забирает.

Поэтому приглашаю в комменты поделиться своим опытом: а кто у вас отвечает за качество данных? DE или вдруг есть есть отдельный департамент DQ? Есть Data contracts?

@ohmydataengineer
👍1
И еще немного про текущее состояние индустрии

Кроме блоггеров, такие срезы делают и компании. Так вот, победители в категории “Самый популярный ETL” - dbt, тоже делали срез по модным analytics engineer.
Отчет большой, много всяких графиков, и чтобы не спамить -> https://www.getdbt.com/state-of-analytics-engineering-2023/?utm_campaign=fy-2024_the-state-of-analytics-engineering_aw

Из того, за что у меня зацепился взгляд:
- Топ проблем хоть и очень очевидный, все равно стоит повторить: если не думать о качестве данных, то будет говно и нужны договоренности между теми, кто данные генерит и кто их потребляет.
- Денюжки деньжатки. Разница в базовой компенсации между Европой и США очень сильная.
- Все жалуются на тулы, совместную работу и метаданные


@ohmydataengineer
🔥5
Пятничный юмор 😝

@ohmydataengineer
💩8🔥7
Больше опросов богу опросов!

Jesse Anderson (дядя, который написал вот это - Data Teams: A Unified Management Model for Successful Data-Focused Teams) каждый год тоже делает опросы дата команд и выкладывает результаты. Сам опрос по ссылке ниже в оригинале, графички в начале так себе, конечно, но если полистать ниже, то можно найти парочку интересных наблюдений, которые идут в разрез с предыдущими обзорами. Как будто, в одном отвечали миллениалы, а в другом - зумеры:

- согласно опросу, DQ далеко не проблема, а вот то, что приходится работать с бизнесом и другими командами - очень мешает. И низкое качество специалистов.
- при этом, общение с бизнесом и другими командами - лучший и самый эффективный метод прихода к успеху 🤪
- срезать дата команды или делать хайринг фриз в них почти никто не собирается.


https://www.jesse-anderson.com/2023/03/data-teams-survey-2023-results/ <— на английском.

@ohmydataengineer
💩3👍2
Пятничный юмор 😂

@ohmydataengineer
🔥8💩7👍6
https://smartdataconf.ru/callforpapers/

SmartData открыла CFP (Call for Papers)!
Кто хотел попробовать выступить с докладом, но боялся - самое время перестать бояться и податься.

Комитет обязательно вам поможет, и прогон устроит и вот это все.

Онлайн+Оффлайн будет осенью… в Москве!

@ohmydataengineer
💩11👍43🔥1
https://mattturck.com/landscape/mad2023.pdf

Machine Learning, Artificial Intelligence & Data Landscape 2023

Глаза, как всегда, разбегаются.


@ohmydataengineer
🔥7👍3
Баян пятничного юмора 🤪

@ohmydataengineer
👍9💩4
https://mlops.community/mlops-is-mostly-data-engineering

Если вы переживали, что упускаете что-то в своем развитии, потому что не читаете про ML Ops & Data Ops, могу вас успокоить. Это не так, и вот статья выше в подтверждении этого.
Если вы открыты для новых технологий, подходов, концепций, фреймворков и вот этого всего, то эти магические слова выше (как и, о боже, Platform Engineering) это всего лишь хайповые слова.
Да, там есть задачи на стыке данных, операционки и деплоя, но ничего фантастического для грамотного инженера.

@ohmydataengineer
5🔥2
https://docs.google.com/document/d/1ErZlwz9bbSI43dNo-rgQdkovm2h5ycuW220mWSOAuok

Бурление последних пару дней - Rust (тот самый, который должен убить всех говно-инженеров на Питухоне по заветам Хрыча) выкатил политику по использованию своего логотипа и названия и там просто кромешный адок: почти нигде нельзя использовать, чуть ли не в суд пойдут, если у тебя в названии есть Rust, при создании обучающих материалов надо первым делом говорить «Этот материал не имеет отношения к компании Rust Foundation» и все в этом духе.

Сама политика по ссылке выше, видосик описывающий весь треш - https://youtu.be/gutR_LNoZw0

История о том, как повернуться жопой к сообществу.

@ohmydataengineer
2