NEW BOT Телеграм, страница

Инжиниринг Данных

Я потратил 4 месяца на full time изучение Databricks на Azure. Вчера написал письмо пользователям, что вот все готово, переходим с HDInsight/SQL Server на Databricks. А сегодня оказалось, что больше мы не используем Databricks, и теперь Synapse Analytics. У которого тоже есть managed spark, delta lake, но все это еще местами сыровато. Все мои планы про крутые кейсы на databricks, про collaboration и продвижение продукта среди студий Microsoft улетучились. С завтрашнего дня начинаю ковырять Synapse. Чувствую себя примерно, как переходить с Tableau на Power BI, и вам обещают, что все будет так же и даже лучше🤪 Последние 4 месяца я в голове строил планы про архитектуру решения, возможные use cases, общался с другими командами и убеждал их в превосходстве Databricks над другими решениям, и многое другое, а теперь все это стало не актуальным, надо будет разобраться как это сделать на Synapse.

В любом случае опыт хороший получил по Databricks. Принципы Spark, pyspark и delta lake останутся неизменны. Но есть недостатки, например максимальная версия, которая есть у Synapse -> Spark 2.4.

Из хорошего, будет легче в datalearn засунуть Databricks и Synapse Analytics.

3.11K viewsDmitry Anoshin, edited 01:38

Инжиниринг Данных

С виду полезная книга

3.16K viewsDmitry Anoshin, 04:37

Инжиниринг Данных

Forwarded from Alexander ⚛️ Morozov

Florence the Data Scientist and Her Magical Bookmobile.epub

27.1 MB

Florence the Data Scientist and Her Magical Bookmobile.pdf

32.8 MB

4.43K viewsDmitry Anoshin, 14:14

Инжиниринг Данных

Куда будет развиваться Google Cloud https://cloudwars.co/google-cloud/google-cloud-ceo-thomas-kurian-where-cloud-needs-to-go/

3.06K viewsDmitry Anoshin, 16:04

Инжиниринг Данных

#datamesh будет мероприятие, может будет интересно, название веселое)) https://www.linkedin.com/events/howthe-ck-heck-doyoubuildadatam6780462587961319424/

How the **ck (heck) do you build a Data Mesh? | LinkedIn

TO REGISTER VISIT: https://app.livestorm.co/cinchy/s2-ep7-data-mesh

Data Mesh - Everyone is talking about it but who is actually making it happen? Once you scratch beneath the surface several big questions emerge.

Join Cinchy CEO, Dan DeMers, and Data…

3.12K viewsDmitry Anoshin, 22:26

Инжиниринг Данных

https://www.confessionsofadataguy.com/the-3-types-of-data-engineers-which-one-are-you/

Confessions of a Data Guy

The 3 Types of Data Engineers, Which One Are You? - Confessions of a Data Guy

Every good story starts with a few different characters right? It’s like the spice of life, little bit of this, little bit of that. It’s the way of the world. In all my data wandering I’ve come across lot’s of different types of data engineers. I can usually…

2.89K viewsDmitry Anoshin, 14:20

Инжиниринг Данных

Microsoft продолжает экспериментировать с дата центрами. В статье они используют в качестве охлаждения специальную жидкость. До этого они проводили эксперимент, в котором положили дата центр на дно океана в специальной капсуле. В статье будет ссылку на это.

Крупные tech компании обсуждают экологические проблемы и сокращение выброса CO2. Датацентры потребляют огромное количество энергии и один из главных расходов - охлаждение.

The Verge

Microsoft is now submerging servers into liquid baths

The cooling should improve performance and reliability while using less water.

2.77K viewsDmitry Anoshin, 17:45

Инжиниринг Данных

Вы используете облачные вычисления в работе? (Cloud computing). То есть решения и продукты крупных облачный провайдеров.

Anonymous Poll

Google Cloud Platform🔎

Yandex Cloud🚩

Mail Cloud💌

Мы пользуемся услугами хостинга (арендуем виртуальные машины)🛠️

Планируем изучать западное облако🌈

Планируем изучать отечественное облако🤞

21%

Не используем и не планируем🦕

516 voters2.71K viewsDmitry Anoshin, 19:06

Инжиниринг Данных

2.89K viewsDmitry Anoshin, 20:11

Инжиниринг Данных

Сегодня на работе затронули важную тему, которую часто упускают из виду, и потом получается не очень комильфо.😵‍💫 Я кстати всегда на эти грабли наступаю. Это naming convention. То есть как вы будете называть ETL jobs, ресурсы в облаке, хосты баз данных, и другие компоненты инфраструктуры. У Azure есть хороший документ про это. Скиньте в коменты ещё полезные ссылки по этой теме.

Docs

Define your naming convention - Cloud Adoption Framework

Learn about the considerations for naming your Azure resources and assets, and review example names for resources and assets in Azure.

3.34K viewsDmitry Anoshin, edited 22:06

Инжиниринг Данных

Конференция Microsoft про game development https://developer.microsoft.com/en-us/games/events/game-stack-live/

3K viewsDmitry Anoshin, edited 01:02

Инжиниринг Данных

Для оптимизации запросов через Apache Spark используется система индексации данных hyperspace. Вот описание от Synapse, но там есть ссылка на основной продукт. Используете? #spark

TECHCOMMUNITY.MICROSOFT.COM

Open-sourcing Hyperspace v0.1: An Indexing Subsystem for Apache Spark™

Today, we are making that possible by open-sourcing Hyperspace v0.1 open-sourcing Hyperspace v0.1 – an indexing subsystem for Apache Spark™. Hyperspace is the..

3.01K viewsDmitry Anoshin, edited 19:16

Инжиниринг Данных

На конференции Microsoft ignite было много новинок, их можно найти в книге.

Microsoft Ignite 2021 Book of News

The Book of News is a guide to all the announcements made during Microsoft Ignite, March 2 - 4, 2021.

2.87K viewsDmitry Anoshin, 06:20

Инжиниринг Данных

Оказывается Билайн, это не только мобильный оператор. У hive есть CLI приложение beeline, которое позволяет через командную строку подключаться к spark через JDBC. Кто-то использовал? #spark

2.76K viewsDmitry Anoshin, edited 15:26

Инжиниринг Данных

2.8K viewsDmitry Anoshin, 15:29

Инжиниринг Данных

Анастасия Дробышева записала новое видео для своего курса:

Курс "Поиск работы для аналитических специальностей в России и за рубежом". Модуль JH 1-4. Стратегия поиска работы. Профессиональное ценностное предложение (PVP)

Что обсуждаем в этом видео:

- зачем PVP и где его применять;
- 3 шага для формулировки PVP;
- 2 примера PVP для аналитика данных и продуктового аналитика.

Шаблон PVP на русском:

Я ____ специалист с опытом в ____ (индустрия/ продукт). Мои сильные стороны - это ____, ___ и ___. Мои достижения/ примеры проектов: _____. Я буду рад(а) применить свои знания в качестве ______ (название должности) в ____ (индустрия/ компания).

Шаблон PVP на английском:

I am a ________________ professional specialising in ________________ . My strengths
include ________________ and ________________ . I have achieved ________________
and ________________ and am excited about ________________ in my next role.

YouTube

DATALEARN | JOB HUNTING - 101 | АНАСТАСИЯ ДРОБЫШЕВА | УРОК 1-4 | PVP

Курс "Поиск работы для аналитических специальностей в России и за рубежом". Модуль JH 1-4. Стратегия поиска работы. Профессиональное ценностное предложение (PVP)

Что обсуждаем в этом видео:

- зачем PVP и где его применять;
- 3 шага для формулировки PVP;…

3.14K viewsDmitry Anoshin, edited 17:13

Инжиниринг Данных

This media is not supported in your browser

VIEW IN TELEGRAM

Open sourcing Querybook (Pinterest’s collaborative big data hub) (https://medium.com/pinterest-engineering/open-sourcing-querybook-pinterests-collaborative-big-data-hub-ba2605558883)
We started to interview data scientists and engineers about their workflows while scoping out technical details. Shortly, we realized most were organizing their queries outside of the official tool, and many used apps like Evernote. Although Jupyter had a notebook user experience, its requirement to use Python/R and the lack of table metadata integration deterred many users. Based on this finding, our team decided Querybook’s query interface would be a document where users can compose queries and write analyses all in one place with the power of collocated metadata and the simplicity of a note-taking app.

3.02K viewsDmitry Anoshin, 05:48

Инжиниринг Данных

В этом блоге очень классные рисунки и все по делу написано про основы основ https://luminousmen.com/post/cap-and-pacelc-theorems-in-plain-english

Blog | iamluminousmen

CAP and PACELC Theorems in Plain English

Understand the CAP and PACELC theorems in distributed systems. Learn how to navigate tradeoffs between consistency, availability, and partition tolerance for optimal system design.

3.06K viewsDmitry Anoshin, 15:39

Инжиниринг Данных

Forwarded from Без шелухи

📈 Руководство по визуализации данных

Ребята из Германии сделали классное руководство по визуализации данных и открыли его под лицензией Creative Commons.

А чтобы никто не догадался и не оценил их труд — назвали максимально непонятно и спрятали на сайте в слабочитаемом виде.

Но я все равно нашел!

Поэтому теперь у вас есть бесплатная книга по визуальному представлению данных для отчетов и дашбордов. Подробная (150 страниц) и практическая (197 иллюстраций). В вебе, epub и pdf:

https://antonz.ru/dataviz-guide/

2.69K viewsDmitry Anoshin, 16:21

Инжиниринг Данных

Lakehouse = data warehouse + data lake. То есть берём лучшее, что есть у обоих подходов и получаем домик у озера))

Пример коммерческих решений snowflake, synapse analytics, databricks.

https://medium.com/snowflake/selling-the-data-lakehouse-a9f25f67c906

Medium

Selling the Data Lakehouse for a Data Cloud

The recent craze around the data lakehouse seems to me like much ado about nothing.

3.14K viewsDmitry Anoshin, edited 16:50

About

Blog

Apps

Platform