🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
How it started / How it is going

Помните такой мем? Немножко улыбнулся от этой новости =)

P.S. Это ни в коем случае не намек и не призыв “А задонатьте мне сейчас!”. Донаты совершенно доброльные и только если вы действительно хотите поддержать то, что я делаю, даже 100 рублями. Это сообщение не должно оказывать давление на вашу совесть.

Впрочем, подозреваю, что 💩 накидают под постом, как бы я не писал о том, что это-просто-юмор!

@ohmydataengineer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💩249👍1
Наверняка, идея не новая, но столкнулся я с ней впервые!

Кажется, что парсят LinkedIn, находят Team Lead позиции, по стандартной схеме name.last_name@company_name.com создают емейл и на него ковром бомбардируют.

Ну или проще (и без паранои и всяких технических уловок), кто-то из конференций и митапов, где я регался на рабочую почту, поделился контактами.
Но в футере с дисклеймерами ничего внятного на эту тему не было написано.

@ohmydataengineer
Пятничный юмор 🤪

@ohmydataengineer
👍9
The State of Data Engineering (но не в РФ). Часть 1.

Когда я выступал какое-то время назад на TechTrain, я делал опрос по поводу технологий/стека и языков, используемых у нас в сфере. Но опрос был сугубо на РФ аудиторию. Наткнулся тут у одного из популярных блоггеров на похожый опрос и решил посмотреть результаты. Результаты в большей степени релевантны для американского рынка, ~400 человек ответило, подавляющее большинство именно определяют себя как Data Engineer.

Смотрим картинки, мои комментарии, как всегда, особо и не нужны, и так все очевидно:

- Ходуб умер. Для аналитических платформ лидирует BQ, затем Snowflake, Redshift и Databricks. И это там, где была выбрана только одна платформа. У 41% респондентов >1 аналитической платформы.

- Airflow или самоделка. Все остальные оркестраторы проигрывают очень много. Еще интересный пункт None, это видимо кто-то руками или по крону запускает 🤪

- Проблема найма. Ну тут ничего удивительного, найти нормального инженера все также сложно, вне зависимости от лейофов.

Там еще 2 части с ответами есть, до них доберемся на неделе.

Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part

@ohmydataengineer
15👍12🔥4
Пятничный юмор 🤪

@ohmydataengineer
🔥163👍2💩1
Встреча в Белграде

На следующей неделе я буду в Белграде, с 24 по 28 марта, поэтому хочу предложить собраться и поболтать за околоайтишные темы.
Если есть желающие сделать мини-сходку, ставьте 🔥 и отписывайтесь в комменты к посту.

Кудрявый на фотки для привлечения внимания 🤪

@ohmydataengineer
🔥10💩3👍2
The State of Data Engineering (но не в РФ). Часть 2.

Продолжаем обзор опроса, в этот раз уже речь идет про продвинутые штуки: качество данных, каталоги данных и вот это все. Предыдущая часть доступна была тут.

Что по интересным наблюдениям?

- Дата каталогов нет больше чем у половины. Там есть еще график, показывающий зависимость появления этой штуки от размера компании. И это с учетом каталогов в Экселе 🤪

- Если каталог есть, то это скорее всего какая-нибудь самописная штука. Радует в списке видеть Datafold, с которыми удалось поработать, очень приятные воспоминания остались от них.

- ETL системы немножк не понял, как задавался вопрос, поэтому оставлю без комментариев на радость фанатов dbt


Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part-b61 (иногда пост открывается за paywall, поэтому используйте режим инкогнито)

@ohmydataengineer
Кто отвечает за качество данных?

Тут твиттер (а что же еще? Мастодон? 🤪) принес интересное обсуждение. Дядя из Zendesk и Slack утверждает, что Data Producer не должен отвечать за качество данных. Какие-то базовые проверочки, а дальше пусть потребляторы отвечают за DQ.

https://twitter.com/ananthdurai/status/1627627842929401857

Лично моя позиция немного другая: те, кто данные генерируют в равной степени несут ответственность за их качество, как и те, кто эти данные забирает.

Поэтому приглашаю в комменты поделиться своим опытом: а кто у вас отвечает за качество данных? DE или вдруг есть есть отдельный департамент DQ? Есть Data contracts?

@ohmydataengineer
👍1
И еще немного про текущее состояние индустрии

Кроме блоггеров, такие срезы делают и компании. Так вот, победители в категории “Самый популярный ETL” - dbt, тоже делали срез по модным analytics engineer.
Отчет большой, много всяких графиков, и чтобы не спамить -> https://www.getdbt.com/state-of-analytics-engineering-2023/?utm_campaign=fy-2024_the-state-of-analytics-engineering_aw

Из того, за что у меня зацепился взгляд:
- Топ проблем хоть и очень очевидный, все равно стоит повторить: если не думать о качестве данных, то будет говно и нужны договоренности между теми, кто данные генерит и кто их потребляет.
- Денюжки деньжатки. Разница в базовой компенсации между Европой и США очень сильная.
- Все жалуются на тулы, совместную работу и метаданные


@ohmydataengineer
🔥5
Пятничный юмор 😝

@ohmydataengineer
💩8🔥7