Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Я потратил 4 месяца на full time изучение Databricks на Azure. Вчера написал письмо пользователям, что вот все готово, переходим с HDInsight/SQL Server на Databricks. А сегодня оказалось, что больше мы не используем Databricks, и теперь Synapse Analytics. У которого тоже есть managed spark, delta lake, но все это еще местами сыровато. Все мои планы про крутые кейсы на databricks, про collaboration и продвижение продукта среди студий Microsoft улетучились. С завтрашнего дня начинаю ковырять Synapse. Чувствую себя примерно, как переходить с Tableau на Power BI, и вам обещают, что все будет так же и даже лучше🤪 Последние 4 месяца я в голове строил планы про архитектуру решения, возможные use cases, общался с другими командами и убеждал их в превосходстве Databricks над другими решениям, и многое другое, а теперь все это стало не актуальным, надо будет разобраться как это сделать на Synapse.

В любом случае опыт хороший получил по Databricks. Принципы Spark, pyspark и delta lake останутся неизменны. Но есть недостатки, например максимальная версия, которая есть у Synapse -> Spark 2.4.

Из хорошего, будет легче в datalearn засунуть Databricks и Synapse Analytics.
С виду полезная книга
Microsoft продолжает экспериментировать с дата центрами. В статье они используют в качестве охлаждения специальную жидкость. До этого они проводили эксперимент, в котором положили дата центр на дно океана в специальной капсуле. В статье будет ссылку на это.

Крупные tech компании обсуждают экологические проблемы и сокращение выброса CO2. Датацентры потребляют огромное количество энергии и один из главных расходов - охлаждение.
Сегодня на работе затронули важную тему, которую часто упускают из виду, и потом получается не очень комильфо.😵‍💫 Я кстати всегда на эти грабли наступаю. Это naming convention. То есть как вы будете называть ETL jobs, ресурсы в облаке, хосты баз данных, и другие компоненты инфраструктуры. У Azure есть хороший документ про это. Скиньте в коменты ещё полезные ссылки по этой теме.
Для оптимизации запросов через Apache Spark используется система индексации данных hyperspace. Вот описание от Synapse, но там есть ссылка на основной продукт. Используете? #spark
На конференции Microsoft ignite было много новинок, их можно найти в книге.
Оказывается Билайн, это не только мобильный оператор. У hive есть CLI приложение beeline, которое позволяет через командную строку подключаться к spark через JDBC. Кто-то использовал? #spark
Анастасия Дробышева записала новое видео для своего курса:

Курс "Поиск работы для аналитических специальностей в России и за рубежом". Модуль JH 1-4. Стратегия поиска работы. Профессиональное ценностное предложение (PVP)

Что обсуждаем в этом видео:

- зачем PVP и где его применять;
- 3 шага для формулировки PVP;
- 2 примера PVP для аналитика данных и продуктового аналитика.

Шаблон PVP на русском:

Я ____ специалист с опытом в ____ (индустрия/ продукт). Мои сильные стороны - это ____, ___ и ___. Мои достижения/ примеры проектов: _____. Я буду рад(а) применить свои знания в качестве ______ (название должности) в ____ (индустрия/ компания).

Шаблон PVP на английском:

I am a ________________ professional specialising in ________________ . My strengths
include ________________ and ________________ . I have achieved ________________
and ________________ and am excited about ________________ in my next role.
This media is not supported in your browser
VIEW IN TELEGRAM
Open sourcing Querybook (Pinterest’s collaborative big data hub) (https://medium.com/pinterest-engineering/open-sourcing-querybook-pinterests-collaborative-big-data-hub-ba2605558883)
We started to interview data scientists and engineers about their workflows while scoping out technical details. Shortly, we realized most were organizing their queries outside of the official tool, and many used apps like Evernote. Although Jupyter had a notebook user experience, its requirement to use Python/R and the lack of table metadata integration deterred many users. Based on this finding, our team decided Querybook’s query interface would be a document where users can compose queries and write analyses all in one place with the power of collocated metadata and the simplicity of a note-taking app.
Forwarded from Без шелухи
📈 Руководство по визуализации данных

Ребята из Германии сделали классное руководство по визуализации данных и открыли его под лицензией Creative Commons.

А чтобы никто не догадался и не оценил их труд — назвали максимально непонятно и спрятали на сайте в слабочитаемом виде.

Но я все равно нашел!

Поэтому теперь у вас есть бесплатная книга по визуальному представлению данных для отчетов и дашбордов. Подробная (150 страниц) и практическая (197 иллюстраций). В вебе, epub и pdf:

https://antonz.ru/dataviz-guide/
Lakehouse = data warehouse + data lake. То есть берём лучшее, что есть у обоих подходов и получаем домик у озера))

Пример коммерческих решений snowflake, synapse analytics, databricks.

https://medium.com/snowflake/selling-the-data-lakehouse-a9f25f67c906