🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
На LinkedIn попался пост, который хорошо лег в душеньку:

Every layoff of 2023 has been a fraction of new headcount added in 2022 alone.
It's not that 2H and 1H 2023 is weird, it's that 2020,2021 were deeply atypical
One of the questions we should be asking companies that hired so aggressively in 2022 is what were you thinking?
What data did you have that suggested Pandemic life was the new normal.


Есть такое выражение “Too big to fail”, которое значит что-то в стиле “Ну Сбербанк никуда не денется!”, то есть “Ну Гугл / Амазон / Мета не могут ошибаться, они очень большие и умные”.
Но, как мы видим, даже топы могут ошибаться. Ну и большие компании делали ошибки, которые приводили к их краху. Например, Nokia, Kodak. Где, например, гарантия того, что Metaverse от Меты выстрелит?

Ну и последнее: хорошие инженеры нужны всегда. Оверфитнутые на собесы в FAANG - останутся на обочине.
https://twitter.com/abstract_artem/status/1618207308919767041


Приходите в комменты сраться за лейофы!

@ohmydataengineer
👍12👎4
Минутка болезненной рефлексии..

В общем, когда в очередной раз я обнаружил, что мой календарь забит встречами с 8 утра до 6 вечера, я погрустнел. При этом я сознательно отдаю команде возможности полидировать какие-то направления и целые фичи, пытаюсь не быть узким горлышком, но все равно выходит какая-то ерунда.

Где-то что-то поломалось и пока я не понял, как починить. В попытках и поисках ответа на этот вопрос я зашел на сервис… ахаха думали тут реклама … я залез в интернет и накопал парочку интересных статей для рефлексии. Статьи интересные, но я все равно не понял про себя, правильно ли я делаю или нет. Вот такие вот пироги, сижу туплю в тупике 🤪

https://erik.wiffin.com/posts/limiting-work-in-progress-as-a-manager/

https://medium.com/illumination/back-to-back-meetings-create-an-illusion-of-productivity-why-the-best-leaders-keep-an-empty-adbb02abdc0f


@ohmydataengineer
👍14💩4
Немного пятничного юмора 🤪


@ohmydataengineer
🔥24👍8
https://betterprogramming.pub/data-engineering-is-not-software-engineering-af81eb8d3949

А давайте посремся немножко?
Вот такой заголовок промелькнул в ленте у меня, глаза зацепились:

Data Engineering is Not Software Engineering
Pretending like data and software are the same is counterproductive to the success of your data engineers


Итак, какие аргументы приводит автор статьи?

- A Pipeline Is Either Completed or Worthless
Ну мы или поставили данные, или нихрена. Наполовину работающее приложение хоть как-то что-то делает пользователю, а вот наполовину отработанный пайплайн - нет. Если мы отправили 9 из 10 нужных колонок в базенку, это все равно бесполезно для DS, например.

- Feedback loops in pipeline development are glacial
Все просто. Если юнит тестов нет, жди пока закончится пайплайн и смотри глазами, что там с данными. В разработке без тестов очень больно, а в “датке” все привыкли писать пайплайны без них, потом разберемся!

- Pipeline Development Can Not Be Parallelized
Вы можете работать параллельно с кем-то над фичей в приложении, а вот над пайплайном - очень редкая практика.


Отсюда мой вопрос к вам (приходите в комменты): как вы считаете, data engineering != sowftware development или нет? Вы называете себя девелопером/разработчиком/инженером?
Или это все просто семантика, называйте меня как хотите, лишь бы $160k base salary?


@ohmydataengineer
👍10🔥4💩4👎21
Очередной пятничный юмор 🤪

@ohmydataengineer
👍27🔥3💩2
https://motherduck.com/blog/big-data-is-dead/

За последнюю неделю эту статью обсудили везде где только можно: во всех чатах, линкединах и пабликах. Если что, автор - один из founding engineers BigQuery, поэтому его слова, как минимум, не стоит игнорировать. Решил перечитать ее пару раз, вот на какие мысли наткнулся в своей головушке, в целом соглашаясь с автором:

Бигдата на самом деле не такая большая
Тут я с автором согласен. Подавляющее большинство компаний и команд, с которыми я общался, считают, что у них очень много данных и они обрабатывают петагигамегабайты, но на деле все сильно меньше. В погоне за хайпом и “у нас хранилище 400 Террабайт!” мы потеряли главный смысл - данные должны приносить пользу, а не лежать в json-гробах.

Compute нужно сильно меньше, даже когда растет Storage
Тут все тоже довольно просто: с легкой барской руки мы накидываем ворверов и экзекьюторов, потому что у нас хранилище увеличилось в 2 раза, но на деле нет прямой пропорциональной зависимости compute (вычислительные мощности) от storage (наших объемов хранилищ).

Данных много, а анализируем всего лишь небольшую часть
Тут можно разделить на две части:
- Базы данных умеют в оптимизацию достаточно хорошо, поэтому даже при плохом запросе умудряются уменьшать объем обрабатываемых данных
- Большинство данных очень важны за вчера, меньше за неделю, за месяц еще реже, за год данные нам нужны чаще всего только для больших корпоративных презентаций. Ну и сезонность / праздники иногда посчитать.

Очень порадовало определение “Big Data is when the cost of keeping data around is less than the cost of figuring out what to throw away”, проще хранить, чем тратить время и выяснять, а что можно удалить, а что по закону надо хранить 7 лет.
Ну и еще из классического: “if the date is older than 2019 use the revenue field, between 2019 and 2021 use the revenue_usd field, and after 2022 use the revenue_usd_audited field”.

В конце статьи есть прекрасный список вопросов, очень рациональный, по поводу внедрения бигдаты и всего этого красивого.

@ohmydataengineer
👍20🔥2
Пятничный юмор 😜

@ohmydataengineer
🔥38👍21
https://dropbox.tech/infrastructure/balancing-quality-and-coverage-with-our-data-validation-framework

Любимая шутка в @datajobs это “Ходуб умер”. Вот история от Dropbox, который использует Hadoop в своей аналитике, про что у них происходит в рамках качества данных.
Как обычно, мои мысли после прочтения:

>In the past, different teams at Dropbox had different approaches to validating data, with different standards and different pipelines.
>Dropbox created a dedicated data engineering team to oversee the validation of data in our data lake and to try and catch these problems before they occurred.
Помните шутку про 14 стандартов? Кажется, такая же ситуация. Я считаю, что те, кто данные генерирует, должен быть ответственен за качество генерируемых данных, а не создавать отдельную команду для Data Quality (модная тенденция в энтерпрайзах, появление выделенных Data Stewards, которых, фактически, заставляют быть QA в мире данных, писать тесты, вот это все…)

>When we couldn’t find anything that quite met our needs, we decided to build a solution from scratch
Ребята пишут “Смотрели Great Expectations и dbt, но там для комплексной логики пришлось бы писать SQL”. Поэтому мы решили написать полностью свое! Хороший пример карго-культа. Для любой сложной логики всегда придется что-то допиливать руками, вне зависимости от инструмента. Зачем тогда еще тратить время для создания и поддержки своего собственного тула?

>Our data engineers had experience in SQL, Java, Scala, SchemaPLT, Python, and C, among others, and each had pros and cons. But after much discussion, we chose SQL.
ААААААААААААА. Вы только что выше писали что вам не хочется писать SQL для дополнительной логики!


Справедливости ради, есть одна здравая мысль: последовательность проверок. Очень часто видел ситуацию, когда мы сначала все данные загрузим в прод, потом выполним проверки, и если все хреново - уведомляем пользователей. Тут же, проверки идут поверх стейджа, поэтому в прод говяные данные не попадают.


@ohmydataengineer
👍7🔥1
Картинка из рассылки The Pragmatic Engineer (платная).

В этом выпуске разбиралась недавняя новость: Цукерберг объявил что “Год эффективности” и что надо-бы немножко структуру схлопнуть, предложив middle management вернуться к IC (individual contributer).

Цитата звучит примерно так: “Meta managers and directors targeted in the initiative will be told to transition to an “individual contributor” role at the company — such as coding, design or research — or exit altogether”.

Хотя… когда у тебя столько директоров и VP, так еще и друг над другом. Хотел побухтеть, но на деле выводы делать вам самим =)

@ohmydataengineer
👍8
Сегодня хочу задать вопрос аудитории. Звучит он примерно следующим образом:

Нужны ли вам анонсы митапов / конференций / вебинаров / воркшопов?

С заядлой периодичностью в личку приходят просьбы прорекламировать за деньги что-либо из выше перечисленного. Чаще всего мой ответ такой: “Если мне понравятся темы - я размещу это бесплатно”. Но я понимаю, что то, что может показаться мне не очень релевантным, может быть инетерсно вам. Тем более, что по ощущениям, мы уже вышли за рамки “только дата-инженеры энтузиасты”.
И если вы заметили, я никогда не делал анонсов шаблонным текстом, всегда это было что-то личное и от себя. Но я не всегда могу написать личное и от себя, если меня тема не зажигает. Но вас может заинтересовать. А я тут сфальшивил…. Ну вы поняли суки мовести муки совести…

Поэтому из этой ситуации есть несколько выходов:
- поставь 🔥 если считаешь, что размещать рекламные анонсы с шаблонным текстом будет ок для тебя и полезно (все такие посты будут помечены отдельно). Можем даже придумать, куда отправлять деньги с таких рекламных постов, благотворительность, приюты, фонды, вот это все. Готов прям отчитываться в комментах за каждый такой пост. Можем даже вместе цену таких постов назначить, например, 10 000 рублей.
- поставь ❤️ если считаешь, что нужно продолжать текущую практику “Размещай только то, что считаешь релевантным и бесплатно”
- поставь 💩 если считаешь, что вообще размещать анонсы митапов и всего остального не надо. Ибо вам хватает каналов @DE_events и @data_events

На фото митап в Х5, который я организовывал и должен был выступать, но в последний момент уронил прод и никуда не поехал =)

@ohmydataengineer
🔥6357💩41👍1
Лошпед Сема забыл включить сердечки в реакциях.
Так что кто выше хотел поставить сердечки ❤️ - приходите поменять свое мнение =)
19💩3👍1
Пятничный юмор 😜

@ohmydataengineer
18🔥10💩1
https://www.linkedin.com/business/talent/blog/talent-strategy/linkedin-most-in-demand-hard-and-soft-skills

Смотрите, что тут LinkedIn выкатил несколько дней назад - “Most in-demand hard and soft skills”. Как всегда, в чатиках успели это уже обсосать, но не спамить же вас контентом тыщу раз на дню?) Пара забавных наблюдений:

Global talent shortages have reached a 16-year high, as 75% of employers can’t find the talent they need with the right blend of technical and soft skills
Сокращения сокращениями, но вот нехватка кадров достигла 16-летнего максимума. Бигтехи сокращают, а людей все равно не хватает.

Второй забавный факт - вторым по популярности hard-скиллом является SQL. Мы все в пыль космическую превратимся, а SQL и Excel будут держать на руках половину анализа данных в мире.

Методика оценки довольно простая - посмотрели на свои данные, благо у LinkedIn этого достаточно:
The most in-demand skills were determined by looking at skills that are most sought after based on six months of data (April to October 2022) from employers, hirers, and job-posters on LinkedIn. Demand is measured by identifying skills possessed by members who were hired or InMailed, as well as the skills listed in paid job postings. In-demand hard skills were identified using the same methodology with an additional filter to exclude some of the most common nonspecialized skills.

@ohmydataengineer
👍12
Можно я обнаглею и повыпендриваюсь немножк, можно да? Ну пожалуйста, можно я чуть-чуть пощекочу и потеребонькаю свою гордость?

Как нужно проводить технический собесы, чтобы кандидаты, вне зависимости от результата, благодарили за него. И еще пара десятов(!!) благодарностей сказано на самих собесах.

Очень приятно это слышать, значит я делаю все правильно.


Спасибо, выпендреж закончен.🤪

@ohmydataengineer
👍49💩72
This media is not supported in your browser
VIEW IN TELEGRAM
Немного очередного пятничного юмора

@ohmydataengineer
👍36🔥19
О покойниках или хорошо, или ничего.

Последний год было очень печально наблюдать смерть ODS. Для тех, кто не знает, что это такое, когда-то это была одна из самых крупных (если не самая крупная) сеть сообществ по DS и все, что связано с обработкой и хранением данных.
Если не обращать внимание на некоторых ну жутко токсичных людей, сообщество было очень полезным. Начиная от какого-то понимания рынка зарплат (к вакансиям было требование, чтобы они публиковались с вилкой), до каких-то узко-специализирванных каналов по технологиям, где всегда можно было подчерпнуть интересный материал.
Если не заходить в каналы-флудилки, это приносило пользу.

Но за последние 2 года там образовался культ нескольких личностей, часть полезных каналов просто утонуло в токсичности. А последний год стал вообще лебединой песней:

Сначала Slack сказал “Нам не важно, что вы большое и полезное сообщество, раз вы из РФ, платите по $10 за пользователя” и отключил регистрацию из РФ.
Организаторы отказались от того, чтобы сообщество стало платным, поэтому сообществу отключили историю выше 10к сообщений. С учетом адового флуда, все полезное быстро ушло.

Затем организаторы решили мигрировать в Matrix (это Web3 частик с e2e шифрованием), предумали всякие федерации и конфедерации (что за безумие?). Инвайты туда выдавали еле-еле, половина не работала, половина чатов и каналов пустовали. В общем, полная херня и ничего не вышло дельного.

А затем организаторы запачкались еще в “конференсном туризме” от РКН и в связах с государством.

Соответственно, вроде как 21 марта Slack должен отключить вообще полностью сообщество. И вот уже народ начал создавать свои сообщества в Slack зарегистрировавшись из других стран, в Mattermost, Discord и еще везде. В итоге, одно огромное сообщество распадется на свои очень маленькие кучки людей по интересам.

@ohmydataengineer
💩22👍8🔥4
How it started / How it is going

Помните такой мем? Немножко улыбнулся от этой новости =)

P.S. Это ни в коем случае не намек и не призыв “А задонатьте мне сейчас!”. Донаты совершенно доброльные и только если вы действительно хотите поддержать то, что я делаю, даже 100 рублями. Это сообщение не должно оказывать давление на вашу совесть.

Впрочем, подозреваю, что 💩 накидают под постом, как бы я не писал о том, что это-просто-юмор!

@ohmydataengineer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💩249👍1
Наверняка, идея не новая, но столкнулся я с ней впервые!

Кажется, что парсят LinkedIn, находят Team Lead позиции, по стандартной схеме name.last_name@company_name.com создают емейл и на него ковром бомбардируют.

Ну или проще (и без паранои и всяких технических уловок), кто-то из конференций и митапов, где я регался на рабочую почту, поделился контактами.
Но в футере с дисклеймерами ничего внятного на эту тему не было написано.

@ohmydataengineer
Пятничный юмор 🤪

@ohmydataengineer
👍9