Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Это очень популярный слайд про ML
Сегодня я поймал себя на мысли, что мне неудобно отправлять коллегам письмо в 9 вечера. И outlook мне показал хорошую опцию - поставить письмо на расписание, так как я его написал в нерабочее время.

Раньше я всегда считал, что это круто написать письмо в 12 ночи, и показать насколько я крут😎

А как у вас с коммуникацией в нерабочее время? Не могу похвастаться карьерными перспективами в майкрософт, но work life balance тут существует. При условии, что вы в рабочее время работаете.🦆
Важные обновления по модулю 6.4 про Azure Synapse.
1) Рома нарисовал красивую обложку 😋
2) Сергей Сволодарский создал шикарную пошаговую инструкцию на русском по Azure Synapse workshop (Dedicated SQL Pool, Serverless SQL, ADF, Power BI, table design techniques). https://github.com/Data-Learn/data-engineering/blob/master/DE-101%20Modules/Module06/DE%20-%20101%20Labs/Azure%20-%20Synapse%20Analytics/Azure-Synapse.MD

PS Сергей такой же ученик даталерн. Он живет в Канаде и хочет работать с данными на позиции дата инженера или BI инженера. Он решил пойти немного дальше и проактивно делает очень качественные материалы для вас.

Зачем? Все просто, когда мы учим других, мы сами активно учимся. Я внимательно слежу за его прогрессом и все жду когда он начнет проходит собесы, пора же уже?))) Уверен он уже многому научился и найдет отличную работу, главное начать проходить собеседования.

Вы тоже можете сделать лабы для даталерн, материалов много и темы все интересней.
Сегодня просматривая новости из мира аналитики я заметил 2 очень противоречивых тренда. Сейчас я расскажу, hold my beer!

Во-первых, умные ребята из BI вендора Holistics, у которых очень трезвый взгдяд на вещи и продукты, доперли, что аналитика должна быть в виде кода, они даже заголовок придумали Analytics-As-Code. Looker таким был с самого начала, ну да ладно.

Главная идея, что это решит проблему отслеживания изменений в BI, вот поменяли мы логику метрики, но об этом кроме нас, и может быть, кроме конфлуес/вики никто не узнает (и там это быстро устареет). А вот если у нас BI не приложение, а код, то можно сделать Code Commit, Code Review и даже Unit tests.

Таким образом мы создаем инженерную культуру, повышаем надежность решений. Как следствие для компании зарплата специалистов растет, поэтому это еще вопрос готовы ли мы к этому?

А теперь посмотрим, как дела у инжиниринга данных и пайплайнов. Здесь мы видим совершенно противоположную новсть - The Data Integration Arms Race - Matillion's $150 Million Vs. Fivetran's $565 Million - в которой нам рассказывают про low code solutions. То есть Analytics-as-Application. Вплоть до того, что вам вообще не надо писать код, чтобы делать работу инженера данных. Но у вас возникает проблема, когда у вас больше одного инженера, когда ваши pipelines и SLA имеют важное значение для бизнеса.

Но тем неменее, мы видим как продуктовые компании одновременно рассказывают нам противоположные вещи, причем судя по раундам инвестиций - не безуспешно.

Так как же быть? Как обычно, ответ по середине. Вам как дата профессионалу нынешнему или будущему, надо понимать когда и что использовать, когда low code, хорошо, а когда as a code - must have. Если вы топите только за одно, значит вы доконца поняли другое. У всего есть pros & cons.

По опыту скажу, что для меня лучшее это начать с простого (applications) и двигаться в сторону более сложного (as a code).
Если вдруг, вы еще сомневаетесь😎
Скинули картинку про мой доклад на AI Ukraine.
Очень актуальная картинка про дата отделы. Все хотят всего и сразу от аналитического департамента. Для них-то это пустяк, посмотреть цифЕрку или накидать отчетик.

А для дата команды это растущий backlog, постоянная смена приоритетов, и трата дорогих ресурсов для ерунду.

Поэтому самое лучшее, что мы может сделать - сказать НЕТ. “Telling people no”.
Сегодня я узнал, что такое - faceted charts. Хотя всегда их использовал раньше, не знал, что это faceted.


The facet implies a little face, such as one of the sides of an object (e.g., a cut diamond) that has many faces. The word is useful for describing an object that creates many little graphics that are variations of a single graphic. In a graphical system, facets are frames of frames. Because of this recursion, facets make frames behave like points in the sense that the center of a frame can be located by coordinates derived from a facet. Thus we can use facets to make graphs of graphs or tables of graphs
В статье про межгалактический data stack, знающий человек (как я понял он был одним из основателей Mode - популярного SaaS BI инструмента в 2012-2013 для стартапов на базе SQL) рассуждает про сложность визуализации и ее роль в организации.
https://benn.substack.com/p/the-intergalatic-data-stack
Интересная точка зрения про корреляцию опыта собеседования и опыта работы в компании. Если в описание вакансии хаус, если ваш спрашивают непонятные вопросы и дают непонятные задания, не говорят сроков по этам, уровень дохода, перспективы и многое другое, то скорей всего внутри компании вас не ждет ничего хорошего.

Компании, которые хотят найти хороших спецов постараются сделать этот процесс максимально понятным и прозрачным.
В тему datalearn, ваши первые собеседования будут BAD! И это нормально, главное, что 20е или 30е закончилось офером.

В любом процессе будет сначало плохо, но просто надо двигаться дальше и все будет супер!
👍1
Недавно в нашем чатике обсуждали жизнь и работу в Черногории. Замечательная страна.
O'Reilly опубликовали результаты опроса по зарплатам, которые они провели среди подписчиков Data&AI.

Вот основные моменты:
- Средняя зарплата 146000 US$.
- За последние три года в среднем у людей зарплата выросла на 9252 US$ в год, то есть на 2.25%. Нашлось 8% бедолаг, у кого заработок понизился.
- Толька 22% крепко призадумались о смене работы, возможно из-за пандемии все хотят надежности и боятся поменять работу
- В Калифорнии самая высокая средняя компенсация - 176000 US$, затем NY и Boston (MA штат)
- 84% зарплат женщин оказались меньше их коллег мужчин, зато у женщин было больше ученых степеней
- Многое товарищи прошли сертификация AWS и Azure, и это положительно сказалось на доходах
- Многое из опроса проходят тренинги и проходят курсы.

А что я думаю о результатах?
- Так, я не понял где зарплаты по 500 000 US$, на графиках шкала заканчиватся на 200 000 US$🤔
- Почему у женщин зарплаты меньше? Если мы только и слышим о равенстве в западном мире. Возможно, мужики более наглые и не стесняются торговаться?
- Понятное дело в ИТ все время надо учится, а то будет как у 8% бедолаг - понижение зарплаты
- В списке языков Python и SQL где-то по середине, а сверху Rust и Go. На них тоже делают Data&AI? Кто использует PERL для аналитики, тот вообще, мягко говоря, неудачник (судя по графикам). Еще мне понравился язык D.

Получается очень красивое название у опроса и цель хорошая была, но как-то получается бесполезные результаты, а вы что думаете?
Народ, вы используете docker для DE? В каких случаях можно получить преимущетсва?

PS Никогда не использовал в продакшн.
Microsoft опубликовал курс IoT for Beginners https://github.com/microsoft/IoT-For-Beginners
Креативненько!
https://hh.ru/vacancy/48489049