Инжиниринг Данных – Telegram
Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Хорошая презентация про классику - Dimensional Modelling. (от 15 декабря 2020)

Dimensional modelling described in the Kimball Toolbook was in its 3rd edition 15 years ago yet is still the latest in data modelling advice. So much is different in cloud warehouses that many of those best practices are now bad practices. In this video Dave Fowler, the founder of Chartio and author of Cloud Data Management goes over what no longer applies, and what does.

А про Chartio было в Fancy BI tools на 3м модуле;)
Мы провели очередную Tableau User Group в Vancouver. Было 2 топика:

1. Data Visualization for Global Health at PATH: Jonathan Drummey, Data Visualization Specialist, PATH
2. Latest Feature in 2020.4, and a sneak peak of 2021.: Honto Ming, Tableau (тут можно подсмотреть про roadmap табло и новые фичи от Product Manager Tableau)
Я очень много рассказываю про облачные решения для аналитики (AWS, Azure, GCP). Они уже стали де-факто стандартом в Северной Америке, да и в Европе, наверно тоже. Есть и российские компании, которые создают облако, например Yandex cloud и Mail Cloud. Про mail я совсем не слышал ничего, а вот Яндекс переодически появляется в ленте. Я им недавно написал и предложил провести вебинар для нас, что рассказать про возможности облака, примеры и кейсы. Так же один из подписчиков Сергей Сорокин, который работает в яндекс облаке, скинул материлы по облаку, если вам интересно - Итоги Yandex Cloud за 2020.

Если у вас есть уже опыт или есть какие вопросы для вебинары, пишите в комментах.
Знаете кто это? Это самый популярный мем сейчас!))
А тут было написано, что теперь адские отчёты в excel замёрзли, навсегда!))
И в google дата центре
Интересная ситуация с онлайн образованием. Наверно ещё и коллекторы придут, спросят с вас🙄 кредиты дело такое, лучше не связываться. Никто не попадал?

Я не против онлайн образования за рубли, но я за прозрачность и качество. Если мы платим кучу денег, то за эту кучу денег должны быть гарантии трудоустройства и контент должен быть очень высокого качества.
Физкультура привет! Давайте усложним задачу #datalearn и до конца курса справимся с этим челенджем. Мне рассказал про него канадский морской котик (у нас тут военно морская база на острове) и половину моих знакомых в navy. Все же любят и знают Moby. В его песни Flower мало слов, и ключевые Up/Down. Задача отжиматься и стоять в планке. Это не просто. А вот пример из US Army. В общем до конца песни нужно не свалиться на пол😓
Если вы пропустили вебинар по Git, то он останется в записи. У вас будет отличная возможность потренироваться на примере Datalearn репозитория. Денис Волк делает отличное демо, что можно сделать, и зачем это нужно.
Если будет искать #datalearn на гугле или яндексе, не попадитесь в сети PPCшников Skillbox и других продавцов успеха и светлого будущего!
Свежий пост, где авторы рассказывают про концепт HeadlessBI
Это одно из самых лучших место работы! Если я был бы в Москве, то мечтал бы работать в Яндекс🥰
Forwarded from Reveal the Data
У меня есть две огненные вакансии про BI и Табло в Яндекс.

📈 BI-аналитик в Яндекс Go
Это новая позиция для Яндекса. Ищем человека, который хочет быть на стыке аналитики и визуализации. Вашей задачей будет развивать отчётность большого направления — аналитики приложений Яндекс Go. Необходимо разрабатывать стратегию развития отчётности, собирать данные и делать классные отчёты. Больше всего задач именно про дашборды, но придется готовить и данные. Вы не будете делать все-все дашборды для подразделения, но будете внутренним центром экспертизы по визуализации и Табло внутри команды продуктовой аналитики. Я же буду помогать вам советами и менторством.

Позиция уровня мидл/джун. Нужны классные навыки создания отчётов, сильный SQL, питон как преимущество.

Руководитель — Андрей Кармацкий, которого я считаю нереально крутым специалистом по визуализации и сложным аналитическим инструментам.
Описание вакансии на сайте


📊 Эксперт по визуализации в Маркет
Это позиция уровня тим-лида или мидла, готового к росту. В Маркете есть большая установка Табло и необходимо создать центр компетенций по визуализации. По сути, такая же позиция как у меня в Такси — нужно управлять BI-системой как продуктом. При этом на первом этапе нужно сделать примеры классных отчётов руками, провести обучение, наладить процессы организации контента на сервере, создать задачи на развитие инфраструктуры.

Здесь понадобятся как сильные навыки управления проектами и постановки целей, так и отличные знания визуализации и Табло. Моя команда на первом этапе поможет с примерами того, как это построено у нас.

Руководитель — Максим Левко, отвечающий за развитие DWH и инфраструктуры аналитики в Маркете.
Описание вакансии на сайте


Обе позиции в Москве, но с крутым кандидатом готовы обсудить и другие города. Зарплата обсуждается после интервью. В Яндексе классный соц. пакет, приятные коллеги, премии, опционы и просто интересно.

Присылайте мне в личку CV и небольшой рассказ про себя, смогу разместить вас в рекомендательной системе, или откликайтесь на сайте.

Готов ответить на вопросы — @rbunin
#вакансия
Мне поручили разобраться с новой фичей Power BI - Deployment Pipelines. Разобрался, теперь могу вам рассказать.

В Power BI Service есть новое меню - Deployment Pipelines. Идея позаимствована из Azure Devopes, там тоже есть Pipeline. Эта фича очень сырая. Она позволяет использовать 3 среды (3 Workspace, все должны быть Premium) - Dev, Test и Prod.

Есть 2 сценария:
1) Наш существующий Workspace мы можем клонировать “назад” в Test и Dev. (При этом среда Test и Dev создадутся для нас).
2) Мы можем создать среду Dev, и с нее начать “deployment” на Test и Prod.

То есть, теперь есть возможность разделить среду разработки, тестирования и боевую. И дальше мы можем promote из одной среду в другую. Power BI будет сравнивать объекты (например отчеты, модели) и говорить нам, если расхождения.

Для каждого workspace мы можем дать права и роли. И наконец, мы можешь иметь разные подключения к базе данных, среда Dev будет подключена к базе данных на dev, а Prod и Test мы подключим к базе данных Prod. Я использовал SQL Server on-premise, и поэтому у нас есть gateway. Для того, чтобы изменить параметры подключения к SQL Server, в Power BI Desktop я заменил Host/database в строке подключения на параметры, которые можно заменить в deployment pipelines.

В целом идея хорошая, но очень сырая. Если отчетов 20-30, то еще нормально, а вот если их несколько сотен, я вообще не представляю, как можно справиться. Так же совершенно непонятно, как сравнивать объекты, но разные и разные, а чем разные не говорит. Версионность объектов тоже не поддерживает.

Но посыл хороший. В других BI я такого не встречал. Думаю доделают, докрутят и будет все чики-пики))) Для меня 2 главных преимущества:
1) BI команда, будет разделять dev и prod базы данных, и это будет обязательным упражнением, больше не будет shortcuts.
2) В боевой workspace у нас не будет мусора, а только актуальные отчеты.

PS вопрос по Power BI, как я могу получить статистику использования отчетов? Сколько просмотров и тп?
Сегодня попался интересный материал про генерацию уникальных значений - UUID (англ. universally unique identifier «универсальный уникальный идентификатор»). На википедии, даже есть статья.

UUID представляет собой 16-байтный (128-битный) номер. В каноническом представлении UUID изображают в виде числа в шестнадцатеричной системе счисления, разделённого дефисами на пять групп в формате 8-4-4-4-12. Такое представление занимает 36 символов:
- 123e4567-e89b-12d3-a456-426655440000

В моек контексте, использовалась функция в Python, при экспорте данных из Synapse хранилище через Databricks и было необходимо обеспечить уникальность CustomerKey. Можно еще зашифровать так данные.

Пример функции:

import uuid
from pyspark.sql.types import StringType
from pyspark.sql.functions import udf
uuidUdf = udf(lambda : str(uuid.uuid4()), StringType())
customerUpdatedDF = customerDF.withColumn("CustomerAlternateKey", uuidUdf())
display(customerUpdatedDF)
Евгений Кудашев, который делал вебинар про databricks, перешёл в Exasol в UK. Скоро они проведут user group для русско-язычной аудитории. И в будущем он планирует провести вебинар про Exasol для нас.