The State of Data Engineering (но не в РФ). Часть 1.
Когда я выступал какое-то время назад на TechTrain, я делал опрос по поводу технологий/стека и языков, используемых у нас в сфере. Но опрос был сугубо на РФ аудиторию. Наткнулся тут у одного из популярных блоггеров на похожый опрос и решил посмотреть результаты. Результаты в большей степени релевантны для американского рынка, ~400 человек ответило, подавляющее большинство именно определяют себя как Data Engineer.
Смотрим картинки, мои комментарии, как всегда, особо и не нужны, и так все очевидно:
- Ходуб умер. Для аналитических платформ лидирует BQ, затем Snowflake, Redshift и Databricks. И это там, где была выбрана только одна платформа. У 41% респондентов >1 аналитической платформы.
- Airflow или самоделка. Все остальные оркестраторы проигрывают очень много. Еще интересный пункт None, это видимо кто-то руками или по крону запускает 🤪
- Проблема найма. Ну тут ничего удивительного, найти нормального инженера все также сложно, вне зависимости от лейофов.
Там еще 2 части с ответами есть, до них доберемся на неделе.
Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part
@ohmydataengineer
Когда я выступал какое-то время назад на TechTrain, я делал опрос по поводу технологий/стека и языков, используемых у нас в сфере. Но опрос был сугубо на РФ аудиторию. Наткнулся тут у одного из популярных блоггеров на похожый опрос и решил посмотреть результаты. Результаты в большей степени релевантны для американского рынка, ~400 человек ответило, подавляющее большинство именно определяют себя как Data Engineer.
Смотрим картинки, мои комментарии, как всегда, особо и не нужны, и так все очевидно:
- Ходуб умер. Для аналитических платформ лидирует BQ, затем Snowflake, Redshift и Databricks. И это там, где была выбрана только одна платформа. У 41% респондентов >1 аналитической платформы.
- Airflow или самоделка. Все остальные оркестраторы проигрывают очень много. Еще интересный пункт None, это видимо кто-то руками или по крону запускает 🤪
- Проблема найма. Ну тут ничего удивительного, найти нормального инженера все также сложно, вне зависимости от лейофов.
Там еще 2 части с ответами есть, до них доберемся на неделе.
Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part
@ohmydataengineer
❤15👍12🔥4
Встреча в Белграде
На следующей неделе я буду в Белграде, с 24 по 28 марта, поэтому хочу предложить собраться и поболтать за околоайтишные темы.
Если есть желающие сделать мини-сходку, ставьте 🔥 и отписывайтесь в комменты к посту.
Кудрявый на фотки для привлечения внимания 🤪
@ohmydataengineer
На следующей неделе я буду в Белграде, с 24 по 28 марта, поэтому хочу предложить собраться и поболтать за околоайтишные темы.
Если есть желающие сделать мини-сходку, ставьте 🔥 и отписывайтесь в комменты к посту.
Кудрявый на фотки для привлечения внимания 🤪
@ohmydataengineer
🔥10💩3👍2
The State of Data Engineering (но не в РФ). Часть 2.
Продолжаем обзор опроса, в этот раз уже речь идет про продвинутые штуки: качество данных, каталоги данных и вот это все. Предыдущая часть доступна была тут.
Что по интересным наблюдениям?
- Дата каталогов нет больше чем у половины. Там есть еще график, показывающий зависимость появления этой штуки от размера компании. И это с учетом каталогов в Экселе 🤪
- Если каталог есть, то это скорее всего какая-нибудь самописная штука. Радует в списке видеть Datafold, с которыми удалось поработать, очень приятные воспоминания остались от них.
- ETL системы немножк не понял, как задавался вопрос, поэтому оставлю без комментариев на радость фанатов dbt
Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part-b61 (иногда пост открывается за paywall, поэтому используйте режим инкогнито)
@ohmydataengineer
Продолжаем обзор опроса, в этот раз уже речь идет про продвинутые штуки: качество данных, каталоги данных и вот это все. Предыдущая часть доступна была тут.
Что по интересным наблюдениям?
- Дата каталогов нет больше чем у половины. Там есть еще график, показывающий зависимость появления этой штуки от размера компании. И это с учетом каталогов в Экселе 🤪
- Если каталог есть, то это скорее всего какая-нибудь самописная штука. Радует в списке видеть Datafold, с которыми удалось поработать, очень приятные воспоминания остались от них.
- ETL системы немножк не понял, как задавался вопрос, поэтому оставлю без комментариев на радость фанатов dbt
Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part-b61 (иногда пост открывается за paywall, поэтому используйте режим инкогнито)
@ohmydataengineer
Кто отвечает за качество данных?
Тут твиттер (а что же еще? Мастодон? 🤪) принес интересное обсуждение. Дядя из Zendesk и Slack утверждает, что Data Producer не должен отвечать за качество данных. Какие-то базовые проверочки, а дальше пусть потребляторы отвечают за DQ.
https://twitter.com/ananthdurai/status/1627627842929401857
Лично моя позиция немного другая: те, кто данные генерируют в равной степени несут ответственность за их качество, как и те, кто эти данные забирает.
Поэтому приглашаю в комменты поделиться своим опытом: а кто у вас отвечает за качество данных? DE или вдруг есть есть отдельный департамент DQ? Есть Data contracts?
@ohmydataengineer
Тут твиттер (а что же еще? Мастодон? 🤪) принес интересное обсуждение. Дядя из Zendesk и Slack утверждает, что Data Producer не должен отвечать за качество данных. Какие-то базовые проверочки, а дальше пусть потребляторы отвечают за DQ.
https://twitter.com/ananthdurai/status/1627627842929401857
Лично моя позиция немного другая: те, кто данные генерируют в равной степени несут ответственность за их качество, как и те, кто эти данные забирает.
Поэтому приглашаю в комменты поделиться своим опытом: а кто у вас отвечает за качество данных? DE или вдруг есть есть отдельный департамент DQ? Есть Data contracts?
@ohmydataengineer
👍1
И еще немного про текущее состояние индустрии
Кроме блоггеров, такие срезы делают и компании. Так вот, победители в категории “Самый популярный ETL” - dbt, тоже делали срез по модным analytics engineer.
Отчет большой, много всяких графиков, и чтобы не спамить -> https://www.getdbt.com/state-of-analytics-engineering-2023/?utm_campaign=fy-2024_the-state-of-analytics-engineering_aw
Из того, за что у меня зацепился взгляд:
- Топ проблем хоть и очень очевидный, все равно стоит повторить: если не думать о качестве данных, то будет говно и нужны договоренности между теми, кто данные генерит и кто их потребляет.
- Денюжки деньжатки. Разница в базовой компенсации между Европой и США очень сильная.
- Все жалуются на тулы, совместную работу и метаданные
@ohmydataengineer
Кроме блоггеров, такие срезы делают и компании. Так вот, победители в категории “Самый популярный ETL” - dbt, тоже делали срез по модным analytics engineer.
Отчет большой, много всяких графиков, и чтобы не спамить -> https://www.getdbt.com/state-of-analytics-engineering-2023/?utm_campaign=fy-2024_the-state-of-analytics-engineering_aw
Из того, за что у меня зацепился взгляд:
- Топ проблем хоть и очень очевидный, все равно стоит повторить: если не думать о качестве данных, то будет говно и нужны договоренности между теми, кто данные генерит и кто их потребляет.
- Денюжки деньжатки. Разница в базовой компенсации между Европой и США очень сильная.
- Все жалуются на тулы, совместную работу и метаданные
@ohmydataengineer
🔥5
https://github.blog/2023-03-23-we-updated-our-rsa-ssh-host-key/
Немножко “новостей” от GitHub 🤪
@ohmydataengineer
Немножко “новостей” от GitHub 🤪
@ohmydataengineer
The GitHub Blog
We updated our RSA SSH host key
At approximately 05:00 UTC on March 24, out of an abundance of caution, we replaced our RSA SSH host key used to secure Git operations for GitHub.com.
👍3
Больше опросов богу опросов!
Jesse Anderson (дядя, который написал вот это - Data Teams: A Unified Management Model for Successful Data-Focused Teams) каждый год тоже делает опросы дата команд и выкладывает результаты. Сам опрос по ссылке ниже в оригинале, графички в начале так себе, конечно, но если полистать ниже, то можно найти парочку интересных наблюдений, которые идут в разрез с предыдущими обзорами. Как будто, в одном отвечали миллениалы, а в другом - зумеры:
- согласно опросу, DQ далеко не проблема, а вот то, что приходится работать с бизнесом и другими командами - очень мешает. И низкое качество специалистов.
- при этом, общение с бизнесом и другими командами - лучший и самый эффективный метод прихода к успеху 🤪
- срезать дата команды или делать хайринг фриз в них почти никто не собирается.
https://www.jesse-anderson.com/2023/03/data-teams-survey-2023-results/ <— на английском.
@ohmydataengineer
Jesse Anderson (дядя, который написал вот это - Data Teams: A Unified Management Model for Successful Data-Focused Teams) каждый год тоже делает опросы дата команд и выкладывает результаты. Сам опрос по ссылке ниже в оригинале, графички в начале так себе, конечно, но если полистать ниже, то можно найти парочку интересных наблюдений, которые идут в разрез с предыдущими обзорами. Как будто, в одном отвечали миллениалы, а в другом - зумеры:
- согласно опросу, DQ далеко не проблема, а вот то, что приходится работать с бизнесом и другими командами - очень мешает. И низкое качество специалистов.
- при этом, общение с бизнесом и другими командами - лучший и самый эффективный метод прихода к успеху 🤪
- срезать дата команды или делать хайринг фриз в них почти никто не собирается.
https://www.jesse-anderson.com/2023/03/data-teams-survey-2023-results/ <— на английском.
@ohmydataengineer
💩3👍2
https://smartdataconf.ru/callforpapers/
SmartData открыла CFP (Call for Papers)!
Кто хотел попробовать выступить с докладом, но боялся - самое время перестать бояться и податься.
Комитет обязательно вам поможет, и прогон устроит и вот это все.
Онлайн+Оффлайн будет осенью… в Москве!
@ohmydataengineer
SmartData открыла CFP (Call for Papers)!
Кто хотел попробовать выступить с докладом, но боялся - самое время перестать бояться и податься.
Комитет обязательно вам поможет, и прогон устроит и вот это все.
Онлайн+Оффлайн будет осенью… в Москве!
@ohmydataengineer
SmartData 2025. Конференция по инженерии данных
SmartData 2025 | Подача заявки на доклад | Конференция по инженерии данных
Всё о том, как стать спикером SmartData 2025: как подать заявку, как выбрать тему, какие доклады подойдут, как выглядит процесс рассмотрения
💩11👍4❤3🔥1
https://mattturck.com/landscape/mad2023.pdf
Machine Learning, Artificial Intelligence & Data Landscape 2023
Глаза, как всегда, разбегаются.
@ohmydataengineer
Machine Learning, Artificial Intelligence & Data Landscape 2023
Глаза, как всегда, разбегаются.
@ohmydataengineer
🔥7👍3