🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Пятничный юмор 😝

@ohmydataengineer
💩8🔥7
Больше опросов богу опросов!

Jesse Anderson (дядя, который написал вот это - Data Teams: A Unified Management Model for Successful Data-Focused Teams) каждый год тоже делает опросы дата команд и выкладывает результаты. Сам опрос по ссылке ниже в оригинале, графички в начале так себе, конечно, но если полистать ниже, то можно найти парочку интересных наблюдений, которые идут в разрез с предыдущими обзорами. Как будто, в одном отвечали миллениалы, а в другом - зумеры:

- согласно опросу, DQ далеко не проблема, а вот то, что приходится работать с бизнесом и другими командами - очень мешает. И низкое качество специалистов.
- при этом, общение с бизнесом и другими командами - лучший и самый эффективный метод прихода к успеху 🤪
- срезать дата команды или делать хайринг фриз в них почти никто не собирается.


https://www.jesse-anderson.com/2023/03/data-teams-survey-2023-results/ <— на английском.

@ohmydataengineer
💩3👍2
Пятничный юмор 😂

@ohmydataengineer
🔥8💩7👍6
https://smartdataconf.ru/callforpapers/

SmartData открыла CFP (Call for Papers)!
Кто хотел попробовать выступить с докладом, но боялся - самое время перестать бояться и податься.

Комитет обязательно вам поможет, и прогон устроит и вот это все.

Онлайн+Оффлайн будет осенью… в Москве!

@ohmydataengineer
💩11👍43🔥1
https://mattturck.com/landscape/mad2023.pdf

Machine Learning, Artificial Intelligence & Data Landscape 2023

Глаза, как всегда, разбегаются.


@ohmydataengineer
🔥7👍3
Баян пятничного юмора 🤪

@ohmydataengineer
👍9💩4
https://mlops.community/mlops-is-mostly-data-engineering

Если вы переживали, что упускаете что-то в своем развитии, потому что не читаете про ML Ops & Data Ops, могу вас успокоить. Это не так, и вот статья выше в подтверждении этого.
Если вы открыты для новых технологий, подходов, концепций, фреймворков и вот этого всего, то эти магические слова выше (как и, о боже, Platform Engineering) это всего лишь хайповые слова.
Да, там есть задачи на стыке данных, операционки и деплоя, но ничего фантастического для грамотного инженера.

@ohmydataengineer
5🔥2
https://docs.google.com/document/d/1ErZlwz9bbSI43dNo-rgQdkovm2h5ycuW220mWSOAuok

Бурление последних пару дней - Rust (тот самый, который должен убить всех говно-инженеров на Питухоне по заветам Хрыча) выкатил политику по использованию своего логотипа и названия и там просто кромешный адок: почти нигде нельзя использовать, чуть ли не в суд пойдут, если у тебя в названии есть Rust, при создании обучающих материалов надо первым делом говорить «Этот материал не имеет отношения к компании Rust Foundation» и все в этом духе.

Сама политика по ссылке выше, видосик описывающий весь треш - https://youtu.be/gutR_LNoZw0

История о том, как повернуться жопой к сообществу.

@ohmydataengineer
2
https://stkbailey.substack.com/p/good-data-engineers-are-lazy

Оч кричащий заголовок, конечно же, но внутри есть очень прекрасный набор вопросов, которые было бы неплохо задавать самим себе и своему руководителю.

Например,
> Надо ли платить за очередную тулзу по перекладыванию данных слева направо?
> А я понимаю, что происходит с моей кодовой базой? Куда она движется? Можно ли из нее что-то спокойно удалить или все поломается?
> А руководство понимает вообще, что происходит у нас с данными, как, куда и зачем?


@ohmydataengineer
https://www.youtube.com/watch?v=35JelBDhvnE

Очень крутую штуку сделали - dbt-excel. Прям теперь очень легко работать с эксельками стало.

P.S. это была шутеха на 1 апреля, но я ее пропустил. Не воспринимайте это всерьез, хотя код в репосе рабочий вроде как🤪

@ohmydataengineer
3💩2
https://staysaasy.com/management/2023/03/20/numbers-to-manage-by.html

Как сказал мой бывший коллега и ментор в твиттере про эту статью, “нумерология для руководителей”.

Некоторые цифры клевые и должны быть реальностью, а вот с некоторыми я бы поспорил.
Например, вопрос для обсуждения в комментариях: если вы на первом же собесе понимаете, что человек хороший и подходит, захотите вы “остальных посмотреть” или делаем оффер сразу?

@ohmydataengineer
🔥2
https://www.intercom.com/blog/traits-of-exceptional-engineers/

Помните историю про 10х инженеров? Немного сатиристичная штука, но она вошла довольно плотно в обиход, как и разработчики-рокстары.
Хотя на деле, конечно, крутые и классные инженеры это совсем про другое. Например, мне очень понравился и откликулся пост по ссылке выше.

И на самом деле все очень и очень просто:
- делайте то, что вам нравится, горите своей целью
- делайте хорошо что вы делаете
- помогайте другим становиться лучше
- не пасуйте перед сложностями

Такие простые правила, но сколько раз я видел, как инженер садился такой “Ну, я вот наткнулся на проблему, не знаю, как ее решить, написал пользователю, вот жду…”

@ohmydataengineer
👍51
Еще вам бабаяна в пятничный юмор 😂

@ohmydataengineer
🔥18👍91
https://architecturenotes.co/

Если есть примеры прекрасной подачи релевантной информации, так это вот эти ребята.
Генерируют очень клевый контент, картиночки очень хорошо заходят и дают хорошие фундаментальные знания про архитектуру.

Есть бесплатные посты, но большинство по подписке, $89 в год.

Из бесплатных и релевантных, например, про шардирование https://architecturenotes.co/database-sharding-explained/

@ohmydataengineer
🔥8💩1
https://www.youtube.com/watch?v=x1RVNGDSdw4

Мы вот тут строим Data Lake и DWH, меряемся объемами данных и у кого стриминг самый реалтайм.
А по ссылке выше - финал мирового чемпионата по Excel. Просто, совсем другой мир анализа данных.
И даже игры делают в Excel (одно из заданий) и всякий тулинг поверх него. Потыкайте в видос, там есть таймкоды.


@ohmydataengineer
7👍6🔥2💩1
Вот это я и моя команда 😂

@ohmydataengineer
🔥18👍4💩2
Data Engineering в разных компаниях. Конкретно в этот раз в Ayden

https://medium.com/adyen/data-engineering-at-adyen-ccded12a6eb

Возможно, кто-то помнит, что какое-то время назад я выступал на конференции с докладом про то, насколько разные бывают задачи у Data Engineers и насколько разные это позиции. Проводя найм сейчас себе в команду, заметил закономерность: на рынке Израиля, например, DE это подавляющее количество задач на SQL и какой-то моделлинг данных, и при этом мало программирования на Python или любом другом языке.

Поэтому это очень важно смотреть и узнавать, а как работают DE в других компаниях, какие бывают задачи и требования, чтобы ваши знания и навыки оставались актуальными. Например, Ayden c болот, это финтех-конкурент Stripe. По ссылке выше - общее описание того, как они работают и мне в глаза бросилось 2 вещи

- data engineers are developers first -> 70% времени ребята все-таки пишут код
- we do not write ‘raw’ SQL in our day to day job -> почти все трансформации отданы на откуп PySpark
- we do not have to ensure there are enough airflow workers, or that we need to ingest raw data from event streams -> есть отдельная команда, которая поддерживает платформу (Airflow и все остальные тулзы) и вставку сырых данных

@ohmydataengineer
👍81
Рефакторинг по возможности

https://martinfowler.com/bliki/OpportunisticRefactoring.html

Статья - древняя (почти 12 лет), но до сих пор актуальная (как и большея часть книг Мартина Фаулера). Рефакторинг по возможности, это когда вы делали один тикет, заметили какую-то небольшую ерунду в коде, которую можно быстро поправить - взяли и прибрались. Как у скаутов: “Всегда оставляй место после себя чуть чище, чем оно было до тебя”.

Очень клевый подход, я его разделяю, но у него есть две проблемы, о которых автор упоминает

- Как не провалится в кроличью нору, когда ты, прибираясь в коде, видишь ерунду за ерундой, и ты просто теряешься в этом рефакторинге
- Это требует хорошего покрытия тестами (дабы не поломать что-то случайно) и культуру разработки и подходы в код ревью, в которой такое поведение будут поддерживать, а не ругаться, что у вас в одном PR все намешано.


@ohmydataengineer
👍62