Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Pasha Finkelshteyn
Чатик, а вы знаете про конфу datalove, которая совсем скоро? https://datalove.konfy.care/
И вы только посомтрите какой там лайнап? Я не видел Холден уже больше года, например!
Я потратил 4 месяца на full time изучение Databricks на Azure. Вчера написал письмо пользователям, что вот все готово, переходим с HDInsight/SQL Server на Databricks. А сегодня оказалось, что больше мы не используем Databricks, и теперь Synapse Analytics. У которого тоже есть managed spark, delta lake, но все это еще местами сыровато. Все мои планы про крутые кейсы на databricks, про collaboration и продвижение продукта среди студий Microsoft улетучились. С завтрашнего дня начинаю ковырять Synapse. Чувствую себя примерно, как переходить с Tableau на Power BI, и вам обещают, что все будет так же и даже лучше🤪 Последние 4 месяца я в голове строил планы про архитектуру решения, возможные use cases, общался с другими командами и убеждал их в превосходстве Databricks над другими решениям, и многое другое, а теперь все это стало не актуальным, надо будет разобраться как это сделать на Synapse.

В любом случае опыт хороший получил по Databricks. Принципы Spark, pyspark и delta lake останутся неизменны. Но есть недостатки, например максимальная версия, которая есть у Synapse -> Spark 2.4.

Из хорошего, будет легче в datalearn засунуть Databricks и Synapse Analytics.
С виду полезная книга
Microsoft продолжает экспериментировать с дата центрами. В статье они используют в качестве охлаждения специальную жидкость. До этого они проводили эксперимент, в котором положили дата центр на дно океана в специальной капсуле. В статье будет ссылку на это.

Крупные tech компании обсуждают экологические проблемы и сокращение выброса CO2. Датацентры потребляют огромное количество энергии и один из главных расходов - охлаждение.
Сегодня на работе затронули важную тему, которую часто упускают из виду, и потом получается не очень комильфо.😵‍💫 Я кстати всегда на эти грабли наступаю. Это naming convention. То есть как вы будете называть ETL jobs, ресурсы в облаке, хосты баз данных, и другие компоненты инфраструктуры. У Azure есть хороший документ про это. Скиньте в коменты ещё полезные ссылки по этой теме.
Для оптимизации запросов через Apache Spark используется система индексации данных hyperspace. Вот описание от Synapse, но там есть ссылка на основной продукт. Используете? #spark
На конференции Microsoft ignite было много новинок, их можно найти в книге.
Оказывается Билайн, это не только мобильный оператор. У hive есть CLI приложение beeline, которое позволяет через командную строку подключаться к spark через JDBC. Кто-то использовал? #spark
Анастасия Дробышева записала новое видео для своего курса:

Курс "Поиск работы для аналитических специальностей в России и за рубежом". Модуль JH 1-4. Стратегия поиска работы. Профессиональное ценностное предложение (PVP)

Что обсуждаем в этом видео:

- зачем PVP и где его применять;
- 3 шага для формулировки PVP;
- 2 примера PVP для аналитика данных и продуктового аналитика.

Шаблон PVP на русском:

Я ____ специалист с опытом в ____ (индустрия/ продукт). Мои сильные стороны - это ____, ___ и ___. Мои достижения/ примеры проектов: _____. Я буду рад(а) применить свои знания в качестве ______ (название должности) в ____ (индустрия/ компания).

Шаблон PVP на английском:

I am a ________________ professional specialising in ________________ . My strengths
include ________________ and ________________ . I have achieved ________________
and ________________ and am excited about ________________ in my next role.