🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
https://habr.com/ru/post/671058/

И еще одна тема для жаркого спора про то, как выглядит хороший инженер. В последнем выпуске подкаста я вскольз затрагивал эту тему: чем больше вы вовлекаетесь в продукт, тем больше вас ценят и если это правильно использовать, то вам за это больше платят.
Я поддерживаю автора статьи за позицию “product engineer” - ты работаешь на благо продукта и гордись тем, что ты делаешь. Всегда старайся сделать это лучше и выгодней для продукта и компании.
Однако, в комментах есть люди (да и среди моих читателей тоже), которые придерживаются позиции “Моя хата с краю, дайте мне тикет нормально описанный, я отвечаю лишь за код, а все остальное - проблемы других людей”. Тоже валидная позиция.

Приходите в комментарии высказаться про то, манипуляция ли это со стороны компании или что-то иное?

@ohmydataengineer
👍2
ООООО! Гартнер выкатил “свежий” обзор текущих технологий и подходов в работе с данными, и это, если честно, очень смешно.
Самые забавные моменты, что мне бросились в глаза:

Data Mesh is obsolete. То у меня все лидеры мнений в линкедине постят про Data Mesh и Data Fabric, а то половина из этого, оказывается, уже устарела, даже не зайдя на хайп, а вторая летит в трубу.
Data Stewardship тоже устарело. Кхм, а не вы ли продвигали кровавому энтерпрайзу, что вам надо заводить Data Stewards?
Data Observability в самом начале пути..
Половина технологий - вообще какой-то странный набор хайпослов, ничего не имеющих общего с реальностью.
Поэтому, как только вам ваш CDO начинает задвигать что-то в стиле “Мы взяли 3-4 приложения из верхнего правого квадранта Гартнера”, это повод задуматься о текущем состоянии дел.


Ах, да. Data Engineering сейчас на самом “дне разочарования”.

@ohmydataengineer
👍2
https://blog.dataminded.com/why-rising-cloud-costs-are-the-silent-killers-of-data-platforms-52a98b371f28

Статья хоть и написана людьми ради продвижения своего продукта, однако в целом, очень правдивая. Snowflake, Databricks и все остальные платформы наглядно нам показывают, как быстро можно раздуть свой бюджет на овердофига тысяч долларов.
Несколько раз уже видел, как казалось бы несложные платформы и относительно простые ETL (а еще и интеграции всякие и другие cloud решения) очень быстренько кушают годовой бюджет.

Потому что что? Правильно, долгое время нам позволяли закидывать проблемы деньгами, вместо того, чтобы сразу делать нормально.

@ohmydataengineer
🔥5
https://medium.com/miro-engineering/our-journey-to-data-engineering-monitoring-c14d6ff20351

О! Моя любимая тема - monitoring & observability. Я был шокирован, когда распрашивал людей о том, что и как они мониторят в части данных. Чаще всего ответ был: “Да там у девопсов настроены алерты!”. Дай боже половина людей имела уведомления в Slack о том, что у них упал какой-то пайплайн.

Поэтому если вы думаете начать, наконец-то!, мониторить свои data-компоненты, вот прекрасная статья о том, как это сделали в Miro.

@ohmydataengineer
👍2
Datacamp (это вот эти https://www.datacamp.com/) с 18 по 24 июля делает все свои курсы открытыми и бесплатными.

Даже карточку привязывать не надо.

Если есть время, то можно успеть пройти какой-нибудь из из курсов

@ohmydataengineer
👍8🔥5
https://clck.ru/sJ4eM

Тинькофф проводит очередной митап по работа с данными, 21 июля. В этот раз следующие темы:

Под капотом каталога данных
Это доклад самих ребят про их Data Detective - каталог данных. Расширенная и дополненная версия доклада с Хайлоада https://highload.ru/foundation/2022/abstracts/8105

Как с помощью Data Mesh разломать ваше DWH
Яндекс GO про модную и хайповую тему. Послушать стоит потому, чтобы понимать, а нужно ли вам вообще это внедрять или “да ну его нафиг!”

Как мы строим Metadata Management
Еще один доклад от ребят и девчат из Т. На этот раз про метаданные

Data-docs — как найти данные о данных
Наконец, Авито, тоже про каталоги данных и документацию данных.


В общем, 3 из 4 тем это главную проблему текущего состояния индустрии: бигдату мы внедрили, стриминги накатили, каргокульта добавили, а теперь нифига не понимаем, где у нас и что лежит и в каком состоянии.

Встреча будет оффлайн и онлайн трансляция. Регистрация по ссылке
👍11👎3🔥1
https://www.youtube.com/playlist?list=PLTPXxbhUt-YVWi_cf2UUDc9VZFLoRgu0l

Databricks выкатили видео с Data + AI Summit 2022. в США.
В плейлисте по ссылке >300 (!) сессий.
Доклады на всевозможные темы: от классических “How to test your ETL pipelines” до экзотических “Sound Data Engineering in Rust”

@ohmydataengineer
🔥14👍7
Часто-заголядывающая рубрика в моем бложике - про карьеру.
Читая книжку Staff Engineer, зашел к автору в блог и наткнулся на клевую заметку про карьерные решения. Актуально в текущих условиях “кризиса”.

- Во-первых, вы же знаете, что сейчас рецессия, кризис, и не только в мире, но и в айтишке. Хоть дебаты идут, “а вообще мы в рецессии?” и “А сколько она продлится?”, статистика говорит о том, что такие события длятся ±15 месяцев. То есть ориентируемся на конец 2023 года. Что мы можем с этим сделать?

- На любой позиции можно сделать приоритетом деньги, “скорость и режим работы”, собственное обучение, престиж или работу с людьми. Возможно, если вам сейчас комфортно, стоит сфокусироваться на обучении и на работе с классными людьми, чем в неспокойное время менять работу ради максимизации собственной прибыли?

- Если все равно хочется максмимизировать свой доход, помните, что даже FAANG компании заметно потеряли в компенсации, ибо существенная часть их компенсаций это стоки, а стоки сейчас на дне. Престиж тоже сюда.

Остальные пункты можно почтать в статье тут, но в целом мне хочется выделить один абзац и оставить его без перевода, ибо он прекрасен:

Combining the last few points: my general advice to folks would be to stay where you are as long as you’re reasonably happy day to day and feel like you’re learning at a good rate. Even if your effective compensation has declined a bit, it’s very hard to determine if the compensation at any other company will hold up either. Don’t get me wrong, if you’re unhappy for non-compensation reasons, then of course you should find another role. Well, unless you’re unhappy because the company is more focused on short-term profitability, because pretty much anywhere you go right now will have that orientation. Referring back to the first point, this isn’t the new normal, just a difficult ~15 month period to navigate
👍8
Так, я тут буквально недавно кидал статью про то, что проблемы с данными есть у всех. И костыли есть у всех, причем иногда целая фабрика костылей.
Ты такой сидишь и думаешь: “Блин, ну это только у нас так! У других все нормально!”. А вот и нет. Вот пример систематических проблем по всей индустрии:

- “Наша инфраструктура для данных ерунда!” - Кажется, что вы используете неправильные тулы и вообще ваша DWH тормозит. На деле большие компании имеют свойство закидывать проблему людьми и ресурсами, поэтому у них работает.

- “А кто за эту табличку отвечает?” - Первыми по башке прилетает всегда дата команде: “А что за херня у вас с данными?”. А то, что поставщик данных, из соседней команды, льющий все в data lake, что-то там неожиданно поменял и никому не сказал - никого не волнует. Люди не хотят брать отвественность за данные.

- “А почему так долго?” - Пользователи хотят как можно быстрей пользоваться данными, а инженеры хотят построить систему, которая не сломается от того, что вместо Null стали прилетать 0 в конкретное поле. Вечная борьба сроков и качества, где чаще всего побеждает первое, к сожалению.

Из этого всего вылезает еще один пункт:
- “А давайте всех научим SQL!” - ага, и выпустим в поле DWH, твори что хочешь! Конечно, знание SQL это прекрасно, и если каждый сможет самостоятельно что-то поглядеть в хранилище. Но для начала нужно все разложить по полочкам, раздать верные уровни доступа и ресурсы, иначе потом у вас будет 300 копий одной и той же метрики в разных таблицах и схемах.

Вольный перевод с отсебятиной вот этой статьи.

@ohmydataenginer
👍13🔥5
https://blog.bytebytego.com/

Я как-то ранее писал про Gergely Orosz (aka Венгр) с его очень хорошей рассылкой The Pragmatic Engineer. Судя по статистике Substack, его подписка самая популярная среди Tech категории. Однако у него появился серьезный конкурент: ByteByteGo. Ребята довольно детально, с картинками, рассказывают как устроены сложные системы. Для понимания System Design - отличное чтиво, вмеру простое, вмеру погруженное.

Примеры рассматриваемых тем:
- What happens when you swipe a credit card?
- SOAP vs REST vs GraphQL vs RPC detailed comparison
- Top caching strategies
- и т.д.

@ohmydataengineer
👍16🔥4
https://www.linkedin.com/posts/chad-sanderson_im-very-happy-to-unveil-the-semantic-warehouse-activity-6958091220157964288-JSXj


I'm very happy to unveil The Semantic Warehouse - the culmination of years of work, thinking, and trial-and-error on how to solve some of the biggest data problems at Convoy. It incorporates best practices espoused by Bill Inmon for robust, scalable Warehouse design built for the Cloud as an abstraction of the Modern Data Stack with Data Modeling at its core.

Вот такой вот цитатой встретил меня утром сегодня LinkedIn. Очередная концепция построения хранилища и вокруг, сколько их уже у нас там? Data Warehouse, Data Lake. Data Lakehouse, Data Fabric, Data Mesh и так далее. В комментах, кстати, заметили проблемки данного дизайна, однако автор говорит, что все фигня и все норм.

У автора есть хорошие материалы в блоге, но вот это, если честно, кажется карго-культом и кандидатом для бритвы Оккамы.

@ohmydataengineer
👍7🔥1
SmartData - конференция для Дата Инженеров.

“О нееет, реклама! А говорил, что не продашься! И вообще ты самый последний, кто запостил эту новость, все с тобой понятно!”

А вот и нет! С ребятами из JUG мы знакомы давно и никаких денег за рекламу единственной в РФ конфы для дата инженеров я не собирался брать.

Ребята открыли CFP - Call For Papers - то есть можно подавать заявки на доклады. Если помните, какое-то время назад я делал опрос про то, о чем написать. Тогда победил всеми любимый DBT. И если вы думаете, что я забил, то ни-фи-га. Я не только не забил, но даже почти притащил DBT в компанию. Осталось презентовать и раскатить 😋 (мы честно, в связи с нагрузкой, презентацию переносили аж полтора месяца). И про вот это все я как раз и хочу рассказать, подав свой доклад на конфу. Ну, а если не пройду, то пойду сам на очную часть, которая пройдет в Питере.

Думаю, докладик будет простого/среднего уровня, как раз разбавит хардкорные доклады.

Кстати, даже если не пойдете, то все доклады с SmartData доступны на Youtube: за 2021 год, за 2020 год.

Билеты по базовой цене - тут


@ohmydataengineer
👍4🔥3
В очередной раз про хороших инженеров…

В мой последний поход в подкаст я говорил о том, как инженерам расти по зарплате / грейдам / whatever внутри компании или, как говорится, “за всё хорошее против всего плохого”.
После этого выпуска мне в личку пришли несколько человек и задали вопрос: “Собственно, а как ты берешь на себя больше ответственности? Еще один пайплайн поддерживаешь? А потом еще базенку берешь деплоить и мониторить? Так на это все времени не хватит!”

Здесь есть маленький секрет: кроме классических “возьму на себя дополнительной работы, буду по ночам Spark деплоить”, есть другой подход. Выглядит он примерно следующим образом:

- Находим раздражающую вас вещь: деплой приложения, запуск тестов, проверка кода, как проходят стендапы
Совершенно не важно, что это будет, главное, что это мешает команде двигаться быстрей, что это тормозит процесс или просто раздражает разработчиков.

- Если возможно, фиксим сразу (автоматизация, документация, рефакт). Если моментальный фикс невозможен (дейли стендапы), то предлагаем команде провести эксперимент и сделать неделю “иначе”.
Или мы сразу в дамки и все нас благодарят, что сделал процесс чуть приятней и быстрей, или мы соберем обратную связь, что и как нам мешает, посмотрим на наш процесс с другой стороны и чуточку улучшим его.

И если мы берем ответственность за свои факапы, объясняем почему так произошло и что мы сделаем для того, чтобы это не повторилось - тем больше к нам доверия. Чем больше к нам доверия, тем бОльше изменения в процессах нам позволяют сделать. Чем бОльше изменения, тем бОльше их позитивное влияние на продукт. Чем бОльше влияние на продукт, тем больше у вас аргументов для разговора с руководителем про свою компенсацию и рост.

Навеяно постом из блога Senior Developer Mindset про Trust / Responsibility.

@ohmydataengineer
👍25🔥5
О чем в кризис надо говорить? Правильно, о зарплатах.

На самом деле я не очень люблю эти корпоративные отчеты. Мне всегда кажется, что они совсем мимо моей картины мира (как по описанию, так и по зарплатам, например). Однако это хороший способ высунуть нос из своего пузыря и узнать, а как еще этот мир видят и, возможно, твой менеджер, потенциально, ведь компании покупают эти отчеты.

И не смотря на то, что я не люблю эти отчеты, я решил посмотреть, что тут выдали ребята из Harnham. Полные отчеты приложены к посту, чтобы вам не пришлось регистрироваться, чтобы их скачать. Несколько наблюдений из отчетов:

- Отчеты называются “Data & Analytics Salary Guide 2022” и вот Top-5 технологий из EU отчета: SQL, Python, SAS, Google Analytics, Tableau. Питон и SQL, никаких Java или Scala, и, боже упаси, data science on Haskell. А вот в американском отчете есть AWS и R, но нет GA и SAS
- Those in the Netherlands, were the least interested in working fully remotely (only 15% wanted to do so). При этом Нидерланды недавно приняли закон WFH is employee right, а в статье написано, что 60% нравятся full remote. Истина где-то рядом. Про принятый закон в NL
- На картинке средние зарплаты в NL. Обладатели 160 base смотрят на директоров с высокой колокольни. Обратите внимание на второй скрин, там US зарплаты. С учетом того, что евро и доллар сравнялись, американские компании в EU смогут предлагать более комфортные условия.

Больше информации вы можете самостоятельно посмотреть в приложенных файлах
👍6