🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Лошпед Сема забыл включить сердечки в реакциях.
Так что кто выше хотел поставить сердечки ❤️ - приходите поменять свое мнение =)
19💩3👍1
Пятничный юмор 😜

@ohmydataengineer
18🔥10💩1
https://www.linkedin.com/business/talent/blog/talent-strategy/linkedin-most-in-demand-hard-and-soft-skills

Смотрите, что тут LinkedIn выкатил несколько дней назад - “Most in-demand hard and soft skills”. Как всегда, в чатиках успели это уже обсосать, но не спамить же вас контентом тыщу раз на дню?) Пара забавных наблюдений:

Global talent shortages have reached a 16-year high, as 75% of employers can’t find the talent they need with the right blend of technical and soft skills
Сокращения сокращениями, но вот нехватка кадров достигла 16-летнего максимума. Бигтехи сокращают, а людей все равно не хватает.

Второй забавный факт - вторым по популярности hard-скиллом является SQL. Мы все в пыль космическую превратимся, а SQL и Excel будут держать на руках половину анализа данных в мире.

Методика оценки довольно простая - посмотрели на свои данные, благо у LinkedIn этого достаточно:
The most in-demand skills were determined by looking at skills that are most sought after based on six months of data (April to October 2022) from employers, hirers, and job-posters on LinkedIn. Demand is measured by identifying skills possessed by members who were hired or InMailed, as well as the skills listed in paid job postings. In-demand hard skills were identified using the same methodology with an additional filter to exclude some of the most common nonspecialized skills.

@ohmydataengineer
👍12
Можно я обнаглею и повыпендриваюсь немножк, можно да? Ну пожалуйста, можно я чуть-чуть пощекочу и потеребонькаю свою гордость?

Как нужно проводить технический собесы, чтобы кандидаты, вне зависимости от результата, благодарили за него. И еще пара десятов(!!) благодарностей сказано на самих собесах.

Очень приятно это слышать, значит я делаю все правильно.


Спасибо, выпендреж закончен.🤪

@ohmydataengineer
👍49💩72
This media is not supported in your browser
VIEW IN TELEGRAM
Немного очередного пятничного юмора

@ohmydataengineer
👍36🔥19
О покойниках или хорошо, или ничего.

Последний год было очень печально наблюдать смерть ODS. Для тех, кто не знает, что это такое, когда-то это была одна из самых крупных (если не самая крупная) сеть сообществ по DS и все, что связано с обработкой и хранением данных.
Если не обращать внимание на некоторых ну жутко токсичных людей, сообщество было очень полезным. Начиная от какого-то понимания рынка зарплат (к вакансиям было требование, чтобы они публиковались с вилкой), до каких-то узко-специализирванных каналов по технологиям, где всегда можно было подчерпнуть интересный материал.
Если не заходить в каналы-флудилки, это приносило пользу.

Но за последние 2 года там образовался культ нескольких личностей, часть полезных каналов просто утонуло в токсичности. А последний год стал вообще лебединой песней:

Сначала Slack сказал “Нам не важно, что вы большое и полезное сообщество, раз вы из РФ, платите по $10 за пользователя” и отключил регистрацию из РФ.
Организаторы отказались от того, чтобы сообщество стало платным, поэтому сообществу отключили историю выше 10к сообщений. С учетом адового флуда, все полезное быстро ушло.

Затем организаторы решили мигрировать в Matrix (это Web3 частик с e2e шифрованием), предумали всякие федерации и конфедерации (что за безумие?). Инвайты туда выдавали еле-еле, половина не работала, половина чатов и каналов пустовали. В общем, полная херня и ничего не вышло дельного.

А затем организаторы запачкались еще в “конференсном туризме” от РКН и в связах с государством.

Соответственно, вроде как 21 марта Slack должен отключить вообще полностью сообщество. И вот уже народ начал создавать свои сообщества в Slack зарегистрировавшись из других стран, в Mattermost, Discord и еще везде. В итоге, одно огромное сообщество распадется на свои очень маленькие кучки людей по интересам.

@ohmydataengineer
💩22👍8🔥4
How it started / How it is going

Помните такой мем? Немножко улыбнулся от этой новости =)

P.S. Это ни в коем случае не намек и не призыв “А задонатьте мне сейчас!”. Донаты совершенно доброльные и только если вы действительно хотите поддержать то, что я делаю, даже 100 рублями. Это сообщение не должно оказывать давление на вашу совесть.

Впрочем, подозреваю, что 💩 накидают под постом, как бы я не писал о том, что это-просто-юмор!

@ohmydataengineer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💩249👍1
Наверняка, идея не новая, но столкнулся я с ней впервые!

Кажется, что парсят LinkedIn, находят Team Lead позиции, по стандартной схеме name.last_name@company_name.com создают емейл и на него ковром бомбардируют.

Ну или проще (и без паранои и всяких технических уловок), кто-то из конференций и митапов, где я регался на рабочую почту, поделился контактами.
Но в футере с дисклеймерами ничего внятного на эту тему не было написано.

@ohmydataengineer
Пятничный юмор 🤪

@ohmydataengineer
👍9
The State of Data Engineering (но не в РФ). Часть 1.

Когда я выступал какое-то время назад на TechTrain, я делал опрос по поводу технологий/стека и языков, используемых у нас в сфере. Но опрос был сугубо на РФ аудиторию. Наткнулся тут у одного из популярных блоггеров на похожый опрос и решил посмотреть результаты. Результаты в большей степени релевантны для американского рынка, ~400 человек ответило, подавляющее большинство именно определяют себя как Data Engineer.

Смотрим картинки, мои комментарии, как всегда, особо и не нужны, и так все очевидно:

- Ходуб умер. Для аналитических платформ лидирует BQ, затем Snowflake, Redshift и Databricks. И это там, где была выбрана только одна платформа. У 41% респондентов >1 аналитической платформы.

- Airflow или самоделка. Все остальные оркестраторы проигрывают очень много. Еще интересный пункт None, это видимо кто-то руками или по крону запускает 🤪

- Проблема найма. Ну тут ничего удивительного, найти нормального инженера все также сложно, вне зависимости от лейофов.

Там еще 2 части с ответами есть, до них доберемся на неделе.

Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part

@ohmydataengineer
15👍12🔥4
Пятничный юмор 🤪

@ohmydataengineer
🔥163👍2💩1
Встреча в Белграде

На следующей неделе я буду в Белграде, с 24 по 28 марта, поэтому хочу предложить собраться и поболтать за околоайтишные темы.
Если есть желающие сделать мини-сходку, ставьте 🔥 и отписывайтесь в комменты к посту.

Кудрявый на фотки для привлечения внимания 🤪

@ohmydataengineer
🔥10💩3👍2
The State of Data Engineering (но не в РФ). Часть 2.

Продолжаем обзор опроса, в этот раз уже речь идет про продвинутые штуки: качество данных, каталоги данных и вот это все. Предыдущая часть доступна была тут.

Что по интересным наблюдениям?

- Дата каталогов нет больше чем у половины. Там есть еще график, показывающий зависимость появления этой штуки от размера компании. И это с учетом каталогов в Экселе 🤪

- Если каталог есть, то это скорее всего какая-нибудь самописная штука. Радует в списке видеть Datafold, с которыми удалось поработать, очень приятные воспоминания остались от них.

- ETL системы немножк не понял, как задавался вопрос, поэтому оставлю без комментариев на радость фанатов dbt


Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part-b61 (иногда пост открывается за paywall, поэтому используйте режим инкогнито)

@ohmydataengineer
Кто отвечает за качество данных?

Тут твиттер (а что же еще? Мастодон? 🤪) принес интересное обсуждение. Дядя из Zendesk и Slack утверждает, что Data Producer не должен отвечать за качество данных. Какие-то базовые проверочки, а дальше пусть потребляторы отвечают за DQ.

https://twitter.com/ananthdurai/status/1627627842929401857

Лично моя позиция немного другая: те, кто данные генерируют в равной степени несут ответственность за их качество, как и те, кто эти данные забирает.

Поэтому приглашаю в комменты поделиться своим опытом: а кто у вас отвечает за качество данных? DE или вдруг есть есть отдельный департамент DQ? Есть Data contracts?

@ohmydataengineer
👍1