Больше опросов богу опросов!
Jesse Anderson (дядя, который написал вот это - Data Teams: A Unified Management Model for Successful Data-Focused Teams) каждый год тоже делает опросы дата команд и выкладывает результаты. Сам опрос по ссылке ниже в оригинале, графички в начале так себе, конечно, но если полистать ниже, то можно найти парочку интересных наблюдений, которые идут в разрез с предыдущими обзорами. Как будто, в одном отвечали миллениалы, а в другом - зумеры:
- согласно опросу, DQ далеко не проблема, а вот то, что приходится работать с бизнесом и другими командами - очень мешает. И низкое качество специалистов.
- при этом, общение с бизнесом и другими командами - лучший и самый эффективный метод прихода к успеху 🤪
- срезать дата команды или делать хайринг фриз в них почти никто не собирается.
https://www.jesse-anderson.com/2023/03/data-teams-survey-2023-results/ <— на английском.
@ohmydataengineer
Jesse Anderson (дядя, который написал вот это - Data Teams: A Unified Management Model for Successful Data-Focused Teams) каждый год тоже делает опросы дата команд и выкладывает результаты. Сам опрос по ссылке ниже в оригинале, графички в начале так себе, конечно, но если полистать ниже, то можно найти парочку интересных наблюдений, которые идут в разрез с предыдущими обзорами. Как будто, в одном отвечали миллениалы, а в другом - зумеры:
- согласно опросу, DQ далеко не проблема, а вот то, что приходится работать с бизнесом и другими командами - очень мешает. И низкое качество специалистов.
- при этом, общение с бизнесом и другими командами - лучший и самый эффективный метод прихода к успеху 🤪
- срезать дата команды или делать хайринг фриз в них почти никто не собирается.
https://www.jesse-anderson.com/2023/03/data-teams-survey-2023-results/ <— на английском.
@ohmydataengineer
💩3👍2
https://smartdataconf.ru/callforpapers/
SmartData открыла CFP (Call for Papers)!
Кто хотел попробовать выступить с докладом, но боялся - самое время перестать бояться и податься.
Комитет обязательно вам поможет, и прогон устроит и вот это все.
Онлайн+Оффлайн будет осенью… в Москве!
@ohmydataengineer
SmartData открыла CFP (Call for Papers)!
Кто хотел попробовать выступить с докладом, но боялся - самое время перестать бояться и податься.
Комитет обязательно вам поможет, и прогон устроит и вот это все.
Онлайн+Оффлайн будет осенью… в Москве!
@ohmydataengineer
SmartData 2025. Конференция по инженерии данных
SmartData 2025 | Подача заявки на доклад | Конференция по инженерии данных
Всё о том, как стать спикером SmartData 2025: как подать заявку, как выбрать тему, какие доклады подойдут, как выглядит процесс рассмотрения
💩11👍4❤3🔥1
https://mattturck.com/landscape/mad2023.pdf
Machine Learning, Artificial Intelligence & Data Landscape 2023
Глаза, как всегда, разбегаются.
@ohmydataengineer
Machine Learning, Artificial Intelligence & Data Landscape 2023
Глаза, как всегда, разбегаются.
@ohmydataengineer
🔥7👍3
https://mlops.community/mlops-is-mostly-data-engineering
Если вы переживали, что упускаете что-то в своем развитии, потому что не читаете про ML Ops & Data Ops, могу вас успокоить. Это не так, и вот статья выше в подтверждении этого.
Если вы открыты для новых технологий, подходов, концепций, фреймворков и вот этого всего, то эти магические слова выше (как и, о боже, Platform Engineering) это всего лишь хайповые слова.
Да, там есть задачи на стыке данных, операционки и деплоя, но ничего фантастического для грамотного инженера.
@ohmydataengineer
Если вы переживали, что упускаете что-то в своем развитии, потому что не читаете про ML Ops & Data Ops, могу вас успокоить. Это не так, и вот статья выше в подтверждении этого.
Если вы открыты для новых технологий, подходов, концепций, фреймворков и вот этого всего, то эти магические слова выше (как и, о боже, Platform Engineering) это всего лишь хайповые слова.
Да, там есть задачи на стыке данных, операционки и деплоя, но ничего фантастического для грамотного инженера.
@ohmydataengineer
MLOps Community
MLOps is 98% Data Engineering. - MLOps Community
MLOps emerged as a new category of tools for managing data infrastructure, specifically for ML use cases with the main assumption being that ML has unique needs. After a few years and with the hype gone, it has become apparent that MLOps overlap more with…
❤5🔥2
https://docs.google.com/document/d/1ErZlwz9bbSI43dNo-rgQdkovm2h5ycuW220mWSOAuok
Бурление последних пару дней - Rust (тот самый, который должен убить всех говно-инженеров на Питухоне по заветам Хрыча) выкатил политику по использованию своего логотипа и названия и там просто кромешный адок: почти нигде нельзя использовать, чуть ли не в суд пойдут, если у тебя в названии есть Rust, при создании обучающих материалов надо первым делом говорить «Этот материал не имеет отношения к компании Rust Foundation» и все в этом духе.
Сама политика по ссылке выше, видосик описывающий весь треш - https://youtu.be/gutR_LNoZw0
История о том, как повернуться жопой к сообществу.
@ohmydataengineer
Бурление последних пару дней - Rust (тот самый, который должен убить всех говно-инженеров на Питухоне по заветам Хрыча) выкатил политику по использованию своего логотипа и названия и там просто кромешный адок: почти нигде нельзя использовать, чуть ли не в суд пойдут, если у тебя в названии есть Rust, при создании обучающих материалов надо первым делом говорить «Этот материал не имеет отношения к компании Rust Foundation» и все в этом духе.
Сама политика по ссылке выше, видосик описывающий весь треш - https://youtu.be/gutR_LNoZw0
История о том, как повернуться жопой к сообществу.
@ohmydataengineer
❤2
https://stkbailey.substack.com/p/good-data-engineers-are-lazy
Оч кричащий заголовок, конечно же, но внутри есть очень прекрасный набор вопросов, которые было бы неплохо задавать самим себе и своему руководителю.
Например,
> Надо ли платить за очередную тулзу по перекладыванию данных слева направо?
> А я понимаю, что происходит с моей кодовой базой? Куда она движется? Можно ли из нее что-то спокойно удалить или все поломается?
> А руководство понимает вообще, что происходит у нас с данными, как, куда и зачем?
@ohmydataengineer
Оч кричащий заголовок, конечно же, но внутри есть очень прекрасный набор вопросов, которые было бы неплохо задавать самим себе и своему руководителю.
Например,
> Надо ли платить за очередную тулзу по перекладыванию данных слева направо?
> А я понимаю, что происходит с моей кодовой базой? Куда она движется? Можно ли из нее что-то спокойно удалить или все поломается?
> А руководство понимает вообще, что происходит у нас с данными, как, куда и зачем?
@ohmydataengineer
Data People Etc.
Good data engineers are lazy
Airflow's neighborhood must be razed
https://www.youtube.com/watch?v=35JelBDhvnE
Очень крутую штуку сделали - dbt-excel. Прям теперь очень легко работать с эксельками стало.
P.S. это была шутеха на 1 апреля, но я ее пропустил. Не воспринимайте это всерьез, хотя код в репосе рабочий вроде как🤪
@ohmydataengineer
Очень крутую штуку сделали - dbt-excel. Прям теперь очень легко работать с эксельками стало.
P.S. это была шутеха на 1 апреля, но я ее пропустил. Не воспринимайте это всерьез, хотя код в репосе рабочий вроде как🤪
@ohmydataengineer
YouTube
dbt-excel, the revolutionary dbt adapter that turns spreadsheets into data warehouses
Welcome to dbt-excel, the revolutionary dbt adapter that combines the rigor of dbt with the flexibility and familiarity of Excel. Get ready to change the way you look at data analytics forever.
The adapter is available to everyone; simply pip install dbt…
The adapter is available to everyone; simply pip install dbt…
❤3💩2
https://staysaasy.com/management/2023/03/20/numbers-to-manage-by.html
Как сказал мой бывший коллега и ментор в твиттере про эту статью, “нумерология для руководителей”.
Некоторые цифры клевые и должны быть реальностью, а вот с некоторыми я бы поспорил.
Например, вопрос для обсуждения в комментариях: если вы на первом же собесе понимаете, что человек хороший и подходит, захотите вы “остальных посмотреть” или делаем оффер сразу?
@ohmydataengineer
Как сказал мой бывший коллега и ментор в твиттере про эту статью, “нумерология для руководителей”.
Некоторые цифры клевые и должны быть реальностью, а вот с некоторыми я бы поспорил.
Например, вопрос для обсуждения в комментариях: если вы на первом же собесе понимаете, что человек хороший и подходит, захотите вы “остальных посмотреть” или делаем оффер сразу?
@ohmydataengineer
🔥2
https://www.intercom.com/blog/traits-of-exceptional-engineers/
Помните историю про 10х инженеров? Немного сатиристичная штука, но она вошла довольно плотно в обиход, как и разработчики-рокстары.
Хотя на деле, конечно, крутые и классные инженеры это совсем про другое. Например, мне очень понравился и откликулся пост по ссылке выше.
И на самом деле все очень и очень просто:
- делайте то, что вам нравится, горите своей целью
- делайте хорошо что вы делаете
- помогайте другим становиться лучше
- не пасуйте перед сложностями
Такие простые правила, но сколько раз я видел, как инженер садился такой “Ну, я вот наткнулся на проблему, не знаю, как ее решить, написал пользователю, вот жду…”
@ohmydataengineer
Помните историю про 10х инженеров? Немного сатиристичная штука, но она вошла довольно плотно в обиход, как и разработчики-рокстары.
Хотя на деле, конечно, крутые и классные инженеры это совсем про другое. Например, мне очень понравился и откликулся пост по ссылке выше.
И на самом деле все очень и очень просто:
- делайте то, что вам нравится, горите своей целью
- делайте хорошо что вы делаете
- помогайте другим становиться лучше
- не пасуйте перед сложностями
Такие простые правила, но сколько раз я видел, как инженер садился такой “Ну, я вот наткнулся на проблему, не знаю, как ее решить, написал пользователю, вот жду…”
@ohmydataengineer
The Intercom Blog
The difference between good and great engineers
An engineering culture is created by the people you hire, not by posts and posters. Here are 6 things we look for in exceptional engineers.
👍5❤1
https://architecturenotes.co/
Если есть примеры прекрасной подачи релевантной информации, так это вот эти ребята.
Генерируют очень клевый контент, картиночки очень хорошо заходят и дают хорошие фундаментальные знания про архитектуру.
Есть бесплатные посты, но большинство по подписке, $89 в год.
Из бесплатных и релевантных, например, про шардирование https://architecturenotes.co/database-sharding-explained/
@ohmydataengineer
Если есть примеры прекрасной подачи релевантной информации, так это вот эти ребята.
Генерируют очень клевый контент, картиночки очень хорошо заходят и дают хорошие фундаментальные знания про архитектуру.
Есть бесплатные посты, но большинство по подписке, $89 в год.
Из бесплатных и релевантных, например, про шардирование https://architecturenotes.co/database-sharding-explained/
@ohmydataengineer
🔥8💩1
https://www.youtube.com/watch?v=x1RVNGDSdw4
Мы вот тут строим Data Lake и DWH, меряемся объемами данных и у кого стриминг самый реалтайм.
А по ссылке выше - финал мирового чемпионата по Excel. Просто, совсем другой мир анализа данных.
И даже игры делают в Excel (одно из заданий) и всякий тулинг поверх него. Потыкайте в видос, там есть таймкоды.
@ohmydataengineer
Мы вот тут строим Data Lake и DWH, меряемся объемами данных и у кого стриминг самый реалтайм.
А по ссылке выше - финал мирового чемпионата по Excel. Просто, совсем другой мир анализа данных.
И даже игры делают в Excel (одно из заданий) и всякий тулинг поверх него. Потыкайте в видос, там есть таймкоды.
@ohmydataengineer
YouTube
Excel Esports: ALL-STAR BATTLE
We have said "watch Excel pros battle it out" many times.
This time, it's the best of the best. 3 Excel tasks, 1 winner. All-star Excel esports battle.
Hosted by the fantastic Excel MVPs and YouTube Excel stars Oz du Soleil and Bill Jelen!
Get to know…
This time, it's the best of the best. 3 Excel tasks, 1 winner. All-star Excel esports battle.
Hosted by the fantastic Excel MVPs and YouTube Excel stars Oz du Soleil and Bill Jelen!
Get to know…
❤7👍6🔥2💩1
Data Engineering в разных компаниях. Конкретно в этот раз в Ayden
https://medium.com/adyen/data-engineering-at-adyen-ccded12a6eb
Возможно, кто-то помнит, что какое-то время назад я выступал на конференции с докладом про то, насколько разные бывают задачи у Data Engineers и насколько разные это позиции. Проводя найм сейчас себе в команду, заметил закономерность: на рынке Израиля, например, DE это подавляющее количество задач на SQL и какой-то моделлинг данных, и при этом мало программирования на Python или любом другом языке.
Поэтому это очень важно смотреть и узнавать, а как работают DE в других компаниях, какие бывают задачи и требования, чтобы ваши знания и навыки оставались актуальными. Например, Ayden c болот, это финтех-конкурент Stripe. По ссылке выше - общее описание того, как они работают и мне в глаза бросилось 2 вещи
- data engineers are developers first -> 70% времени ребята все-таки пишут код
- we do not write ‘raw’ SQL in our day to day job -> почти все трансформации отданы на откуп PySpark
- we do not have to ensure there are enough airflow workers, or that we need to ingest raw data from event streams -> есть отдельная команда, которая поддерживает платформу (Airflow и все остальные тулзы) и вставку сырых данных
@ohmydataengineer
https://medium.com/adyen/data-engineering-at-adyen-ccded12a6eb
Возможно, кто-то помнит, что какое-то время назад я выступал на конференции с докладом про то, насколько разные бывают задачи у Data Engineers и насколько разные это позиции. Проводя найм сейчас себе в команду, заметил закономерность: на рынке Израиля, например, DE это подавляющее количество задач на SQL и какой-то моделлинг данных, и при этом мало программирования на Python или любом другом языке.
Поэтому это очень важно смотреть и узнавать, а как работают DE в других компаниях, какие бывают задачи и требования, чтобы ваши знания и навыки оставались актуальными. Например, Ayden c болот, это финтех-конкурент Stripe. По ссылке выше - общее описание того, как они работают и мне в глаза бросилось 2 вещи
- data engineers are developers first -> 70% времени ребята все-таки пишут код
- we do not write ‘raw’ SQL in our day to day job -> почти все трансформации отданы на откуп PySpark
- we do not have to ensure there are enough airflow workers, or that we need to ingest raw data from event streams -> есть отдельная команда, которая поддерживает платформу (Airflow и все остальные тулзы) и вставку сырых данных
@ohmydataengineer
Medium
Data Engineering at Adyen
Engineered for High Quality Data
👍8❤1
Рефакторинг по возможности
https://martinfowler.com/bliki/OpportunisticRefactoring.html
Статья - древняя (почти 12 лет), но до сих пор актуальная (как и большея часть книг Мартина Фаулера). Рефакторинг по возможности, это когда вы делали один тикет, заметили какую-то небольшую ерунду в коде, которую можно быстро поправить - взяли и прибрались. Как у скаутов: “Всегда оставляй место после себя чуть чище, чем оно было до тебя”.
Очень клевый подход, я его разделяю, но у него есть две проблемы, о которых автор упоминает
- Как не провалится в кроличью нору, когда ты, прибираясь в коде, видишь ерунду за ерундой, и ты просто теряешься в этом рефакторинге
- Это требует хорошего покрытия тестами (дабы не поломать что-то случайно) и культуру разработки и подходы в код ревью, в которой такое поведение будут поддерживать, а не ругаться, что у вас в одном PR все намешано.
@ohmydataengineer
https://martinfowler.com/bliki/OpportunisticRefactoring.html
Статья - древняя (почти 12 лет), но до сих пор актуальная (как и большея часть книг Мартина Фаулера). Рефакторинг по возможности, это когда вы делали один тикет, заметили какую-то небольшую ерунду в коде, которую можно быстро поправить - взяли и прибрались. Как у скаутов: “Всегда оставляй место после себя чуть чище, чем оно было до тебя”.
Очень клевый подход, я его разделяю, но у него есть две проблемы, о которых автор упоминает
- Как не провалится в кроличью нору, когда ты, прибираясь в коде, видишь ерунду за ерундой, и ты просто теряешься в этом рефакторинге
- Это требует хорошего покрытия тестами (дабы не поломать что-то случайно) и культуру разработки и подходы в код ревью, в которой такое поведение будут поддерживать, а не ругаться, что у вас в одном PR все намешано.
@ohmydataengineer
martinfowler.com
bliki: Opportunistic Refactoring
Refactoring does not need to be planned out, mostly it is done opportunistically, to fix problems while working on another task.
👍6❤2
Что там с modern data stack?
https://mattpalmer.io/posts/hot-takes/
Ох уж сколько мне этих статей попадалось и продолжает попадаться! Кто-то продолжает восхвалять, а кто-то начинает ругать уже все подряд. Очередной взгляд на вещи, короткая выдержка оттуда
- у dbt нет некоторой функциональности, например column level lineage, которое ей не позволяет стать лучшим инструментом
- Редшифт скатился и больше не конкурент
- DWH все также сложно
- Airflow - окаменелое устарелое💩 . А Airbyte - еще хуже. Поэтому пользуйтесь Mage (https://www.mage.ai/). Его активно форсит пара известных блоггеров, якобы это замена Airflow. Кто-нибудь пробовал?
В общем, как всегда, полезно узнать мнения в других пузырях, но свое лучше формировать опытом.
@ohmydataengineer
https://mattpalmer.io/posts/hot-takes/
Ох уж сколько мне этих статей попадалось и продолжает попадаться! Кто-то продолжает восхвалять, а кто-то начинает ругать уже все подряд. Очередной взгляд на вещи, короткая выдержка оттуда
- у dbt нет некоторой функциональности, например column level lineage, которое ей не позволяет стать лучшим инструментом
- Редшифт скатился и больше не конкурент
- DWH все также сложно
- Airflow - окаменелое устарелое
В общем, как всегда, полезно узнать мнения в других пузырях, но свое лучше формировать опытом.
@ohmydataengineer
Please open Telegram to view this post
VIEW IN TELEGRAM
Matt's Website
Home
Matt is having fun
👍3
Про базовые концепции тестирования в данных
https://www.datafold.com/blog/the-state-of-data-testing
Если вы находитесь на начальной стадии принятия и внедрения тестирования ваших данных, самые базовые концепции и примеры - это то, что вам нужно: Data Accuracy, Data Completeness, Data Consistency, Data Integrity.
Это скорее базовый уровень, но для начала хватит. А еще можно тыкнуть в твиты автора и посмотреть, а что же другие делают для тестирования данных. Например, клевый ответ “Метод пристального взгляда” (мы так уравнения в 7 классе решали по математике: внимательно смотришь на пример и видишь ответ). Так и тут, скролишь всю табличку, видишь какую-нибудь фигню, значит что-то не то.
@ohmydataengineer
https://www.datafold.com/blog/the-state-of-data-testing
Если вы находитесь на начальной стадии принятия и внедрения тестирования ваших данных, самые базовые концепции и примеры - это то, что вам нужно: Data Accuracy, Data Completeness, Data Consistency, Data Integrity.
Это скорее базовый уровень, но для начала хватит. А еще можно тыкнуть в твиты автора и посмотреть, а что же другие делают для тестирования данных. Например, клевый ответ “Метод пристального взгляда” (мы так уравнения в 7 классе решали по математике: внимательно смотришь на пример и видишь ответ). Так и тут, скролишь всю табличку, видишь какую-нибудь фигню, значит что-то не то.
@ohmydataengineer
Datafold
The State of Data Testing
The current state of data testing for analytics and data engineering teams involves a lot of manual work. This is worrisome given how integral data testing is to the development and deployment workflow; catching bugs and data quality issues before they hit…
👍9