NEW BOT Телеграм, страница

Инжиниринг Данных

Расскажу еще про один кейс.

Задача: Создать аналитическое решение, точнее модернизировать существующее с использованием Azure облака. Основной источник данных телеметрия (логи JSON), которые скапливаются в Azure Storage Account в формате year/month/day/hour.

Было: Был HDInsights + Hive (традиционный hadoop), это полный аналог AWS EMR + Hive, только в Azure. Hive читал JSON, преобразовывал его в плоскую таблицу и сохранял данные в формате Parquet. Все трансформации выполнялись с помощью Hive SQL. Это был так называемый Staging.

Далее, на On-premise SQL Server создавались External Tables, что давало возможность использовать on-premise SSIS (ETL инструмент Microsoft) и грузить инкрементально данные в таблицы фактов. А потом, использую Power BI Service, подключались из облако в собственный дана центр через Gateway Service. Ну такое для 2021 года.

Так же сам HDinsights плохо справлялся с пиковой нагрузкой, так как там был единственный compute cluster, который обслуживал все запросы.

Решение: Все консолидировать в облаке в едином инструменте. Было 2 опции Azure Databricks и Synapse. Несмотря на то, что Microsoft заставил всех перейти на Synapse, нам удалось получить разрешение использовать Databricks вместе с Minecraft и Zenimax (Fallout, Skyrim, Quake).

При использовании Databricks не нужно изобретать велосипед, не нужны всякие примочки типа dbt, fivetran, можно все делать внутри самой платформы с помощью кода. Сам databricks - это прежде всего processing/computing данных. Данные хранятся в Azure Storage в формате Delta (Parquet + delta log).

Вся разработка происходит в notebooks, можно писать на PySpark, Scala, R и тп. Достаточно много времени заняло переписание кода из SQL на PySpark, но при желании можно было оставить все как есть и использовать HiveSQL.

Одно из преимуществ это создание нескольких кластеров - для BI, ETL, Data Science, каждый кластер со своими настройками. ETL кластер может автомасштабироваться. Так же, за счет дополнительных мощностей ETL запускался каждый час, а было раз в сутки.

Другое преимущество, что в databricks практически отсутствует vendor lock. Данные хранятся отдельно, metastore живет в отдельной базе (в моем случае было Azure SQL Server). В качестве orchestration tool использовался Azure Data Factory (ADF pipelines создавалась с помощью C# в Visual Studio). Таким образом, можно очень легко поменять Databricks на другой Spark продукт.

Доступ к данным осуществлялся через SQL Analytics (Redash, который был куплен Databricks) и Spark JDBC драйвер для Power BI. Так же аналитики использовали PySpark шаблоны-ноутбуки для анализа и deep dive.

Весь код хранился в Azure DevOps Repo (git система), там же были создан CI/CD процесс на Azure DevOps Pipelines.

Инфраструктура создавалась с помощью Azure Bicep (аналог Terraform).

Data Observability в части Alerts был использован Azure Log Analytics, который умеет собирать данные для каждого сервиса и можно настраивать алерты при ошибках. По умолчанию придет письмо о сбоях.

Следующим сообщением я добавил слайд архитектуры. У меня есть весь код Databricks и Sample данные. То есть в модуле 9, про озеро данных, я расскажу как делать delta lake и data lake и будем использовать этот кейс. Но это будет не скоро, как я понимаю.

PS Если вы хотите рассказать о своих проектах также, пишите в личку, пришлите картинку архитектуры и описание, и я опубликую.

PPS Я работал 2 года с Databricks и сейчас работаю с Snowflake. Оба продукта мне нравятся, но мне кажется философия databricks более честная и прозрачная, но порог вхождения выше, так как SQL там есть, но больше как complimentary.

Примерно напоминает Looker vs Tableau. Оба продукта интересны, но достаточно разные. Я скоро буду делать Workshop по теме Looker vs Tableau для одной из команд и потом расшарю слайды.

👍58🔥7🐳3

7.94K viewsDmitry, 06:01

Инжиниринг Данных

🔥8👍3

8.12K viewsDmitry, 06:02

Инжиниринг Данных

Допустим вы уже более-менее опытный и у вас есть работы с данными, и самое время углубляться дальше.

Я составил список книг, который помогут вам перейти на следующий уровень. Практически все книги у меня в ToDo листе.

Теория:
- Designing Data-Intensive Applications - классика жанра
- The Missing README - небольшой набор полезных советов от бывалых
- Database Internals - ну а как же без баз данных
- Fundamentals of Software Architecture - не самое приятное чтение,
- The Staff Engineer's Path - если вам интересно развиваться в этом направлении

Менеджемент:
- The Manager's Path
- The First 90 Days, Updated and Expanded

Практика (эти книги не достаточно прочитать, с этим надо работать каждый день, чтобы была весомая польза):
- Docker: Up & Running, 2nd Edition - контейнеры везде, возможно стоит еще и в Kubernetes разобраться
- How Linux Works, 3rd Edition - чтобы меньше тупить в командной строке и вообще понимать как устроена операционная система
- Terraform: Up and Running, 3rd Edition - инфраструктура как код это уже обязательный атрибут любой компании
- Snowflake: The Definitive Guide - достаточно популярный DWH, поэтому знать его полезно
- Kafka: The Definitive Guide, 2nd Edition - классика стриминговых решений, сложно без реальных кейсов
- Learning Spark, 2nd Edition - узнать все необходимое про Spark и попробовать на практике

Программирование:
- Clean Code: A Handbook of Agile Software Craftsmanship - классика жанра
- The Pragmatic Programmer: your journey to mastery - классика жанра
- Python Crash Course, 2nd Edition - 2-ая часть книги, где вы будете делать несколько реальных проектов (я сейчас игру делаю)
- Grokking Algorithms - чтобы понимать, что такое O(n), O(1), time & space complexity

Ну или можно просто прочитать одну книгу - I Will Teach You to Be Rich, Second Edition: No Guilt. No Excuses. слушая эту песню get rich or die tryin 😂

Докиньте рекомендаций

🔥85👍23🐳4🤮3❤2🥴2🌭2🌚1

14.5K viewsDmitry, edited 17:50

Инжиниринг Данных

Приятная визуализация от Financial Times, если это действительно так. Напоминает фразу "Как сделать человеку хорошо - сделать плохо а потом как было". Как было уже не будет, но хоть так🫣

👻7🌚4🌭3🍌2👨‍💻1

7.42K viewsDmitry, 22:06

Инжиниринг Данных

Нашел презентацию, которую я показывал на собеседовании в SAP в Москве на позицию Sales Engineer (Pre sales) год 2012-2013 - "Научим слона танцевать"😂

Для меня вообще казалось быть pre sales это самая интересная вакансия, с одной стороны ты знаешь продукт, индустрию, много путешествуешь, делаешь презентации и демо, посещаешь конференции и тренинги, а с другой стороны не сидишь на проектах.

В презентации есть слайды про ROI BI, можно прям в свое резюме добавлять, только цифры поменять. Будете рассказывать как вы помогли компании сэкономить кучу денег))

Но в итоге не договорились по зарплате.

PS Я был очень горд своим креативом на последнем слайде про Кристофари. (первый клиент сбера).

Кстати, у меня было много знакомых в sales, кто продавал решения Oracle, SAS, SAP и тп, и везде были откаты, даже для менеджера по продажам, например, за рекомендацию партнера или другие вещи. Как сейчас с откатами в ИТ?

🐳10🌚3👻3

7.33K viewsDmitry, edited 03:21

Инжиниринг Данных

AWS поделились инновациями zero ETL future. Идея в том, что они улучшают интеграцию между своими продуктами.

Есть база данных Aurora (Managed Postgres/MySQL), которая часто используется как back end для OLTP, и мы строим ETL, чтобы извлекать данные из источника, теперь можно будет сразу интегрировать OLTP базу в Redshift хранилище без создания data pipelines.

Тоже самое и про Spark, если раньше нужно было отдельно создавать EMR+Spark, Glue job , то теперь можно сразу из Redshift использовать Spark.

Но примерно такое же делают и другие вендоры, в Azure Synapse можно все делать в одном месте, в Snowflake есть Snowpark и тд.

US Press Center

AWS Announces Two New Capabilities to Move Toward a Zero-ETL Future on AWS

Amazon Aurora zero-ETL integration with Amazon Redshift enables customers to analyze petabytes of transactional data in near real time, eliminating the need for custom data pipelines

🐳11🍾8🌚2

7.2K viewsDmitry, 17:36

Инжиниринг Данных

Как вы думаете, почему SQL доминирует в аналитике и является самы популярным языком для работы с данными? Но вы можете со мной не согласиться, может быть это совсем не SQL. Я потом напишу интересную теорию, почему он популярный в следующем посте🤭

🐳41🍌5🌚3🌭2

6.64K viewsDmitry, 04:39

Инжиниринг Данных

Отличная получилось дискуссию про SQL, я рад, что вам тоже нравится его простота и удобство.

Но я хотел бы посмотреть на простоту и удобство SQL, data engineering и ИТ в целом с другого ракурса.

Возможно все началось с книги Адам Смита - "Богатство нации", в которой он писал про успешную бизнес модель, где необходимо взять сложный процесс и разбить его на на маленькие задачки, которые могут выполнять не квалицированные и дешевые трудяги. Главная задача - легко найти и заменить человека, если вдруг он посчитал себя особенным и слишком умным.

Так он рассказывал про производство пуговиц. Допустим есть 3 мастера, кто делает самые лучшие пуговицы ручной работы, а есть завод по производству пуговиц, где 10 человек в конвейере делают тысячи пуговиц за тоже время, пока мастер вручную сделает несколько.

Фабрики и заводы имели свой показатель успешности - PERL (Percentage of Easily Replaced Laborers). Интересно FAANG измеряют такое? Все необходимое для этого есть.

Образование кстати тоже часто направлено именно на создание такой ячейки общества, которая будет работать и не задавать лишних вопросов.

Еще немножко по этой теме. В книге "Миф о Е" Майкла Гербера написано:

The model will be operated by people with the lowest possible level of skills.

То есть хорошо использовать неквалифицированный труд, так как если нужны крутые спецы, то ваша бизнес модель в зоне риска и будет сложно ее воспроизвести.

The business model should be such that the employees needed posses the lowest possible level of skill necessary to fulfill the functions for which each is intended.

Вот и получается, что для ~~фабрик~~, корпораций выгодней иметь дело с легко заменимыми сотрудниками.

При этом многие привыкли таже жить с узким кругозором и получать инструкции сверху.

Теперь вернемся к нашему изначальному вопросу, почему SQL популярен? Потому что он легкий.

Почему все крупные вендоры идут по пути упрощения решений, потому что будет легче обучить низкоквалифицированных людей и дать им клавиатуру с мышкой, чтобы они начинали приносить пользу, получали минимум денег, боялись потерять работу и были очень лояльными, ведь как и фабрики, корпорации дают нам job security, insurance, pension.

Вот и ИТ, как и фабрики, работают таким образом, что есть несколько крутых людей, кто понимает как все работает, а остальные 90% это легко заменимые люди, даже со знанием алгоритмов и структур данных.

Поэтому можно легко уволить тысячи людей и потом нанять снова других, все легко заменимые. А если еще все используют простые и понятные технологии SQL, Databricks, Snowflake и тп, то вообще класс, даже без опыта человек может быстро разобраться.

То есть по факту никакой job security🥺 Но при этом от вас хотят покорности и лояльности.

Так что я буду в роли профсоюза для дата специалистов🤓

Получился такой не стандартный ответ, про популярность SQL.🤪

PS на самом деле эти мыли навеяла книга Сет Годин "Linchpin Are you Indispensable", так что цените себя, свое время, и делайте то, что ВАМ выгодно и необходимо, а то владельцы фабрик, выпускники MBA вас быстро разведут на тяжелую работу за просто так😃

В ИТ в целом не так плохо, даже если вы легко заменимый спрос и темпы развития позволяют вам быть гибким и подстраиваться под ситуацию и пользоваться благами корпорация и уделять им столько внимания, сколько они заслужили.

🌚41🐳25🍾9👻9🌭3

7.33K viewsDmitry, 19:45

Инжиниринг Данных

Сегодня коллега показал Mermaid - простой язык для создания диаграмм прямо в документации (Notion, Mirro, Confluence). Это намного удобней, чес использовать тот же drawio для простых схем, который создает статические картинки, и потом их неудобно обновлять.

Я обычно использую draw.io потому что там есть все необходимое иконки Aws, azure.

Еще иногда использую python для создания диаграмм.

А вы что используете?

mermaid.js.org

Create diagrams and visualizations using text and code.

🐳27👻4🍌2💯1

7.08K viewsDmitry, edited 23:15

Инжиниринг Данных

У меня уже есть небольшой опыт работы с Snowflake, не смотря на то, что до пандемии я написал книгу Jumpstart Snowflake, делал Snowflake user groups в Канаде и получил статус Snowflake Data Here (это такой статус их community), реальный опыт только появился летом.

Даже есть некоторые метрики по цене, в месяц за хранилище данных размером 830Тб стоит 100к+ US$. Используем pemifrost и terraform для управление хранилищем и доступом. Основные потребители это Looker, Tableau, dbt. Мой следующий вебинар для коллег будет про сравнение Looker и Tableau, так как "должен остаться только один!". Мы пока не используем Snowpark и хочется его сравнить с AWS Glue. Я попросил провести демо на эту тему их инженеров.

Несколько интересных ссылок по этой теме:
A Spark Developer’s Guide to Snowpark
Data Engineering with Snowpark Python and dbt

Вообще мне нравится работать с простыми технологиями, самостоятельно я могу сделать все что угодно, все просто и понятно, и если что-то сломается, я починю. Это к вопросу про легкозаменых людей. Другой вопрос, что я один могу сделать это быстрей чем команда из 3х менее опытных человек.

Потому что мой другой проект это вообще адок, он полностью состоит из Open Source решений, и чтобы добавить новый показатель в таблицу, это займет у меня неделю, нужно будет изменить код в 3-4х репозиториях. И тут конечно сложно заменить человека. Я не понимаю, почему 7 дата инженеров продолжают обслужить technical dbt, в котором есть Luigi, Airflow, Prefect, AWS Batch, куча custom code. Вместо того, чтобы убивать старое и плохое, мы продолжаем стоить новое, ничем не лучше, чем старое. Я как то писал про типы менеджеров, и это тот случай, когда директор по дата инжинирингу фанат открытого ПО и даже не знает преимуществ snowflake, databricks. Цена такого аналитического решения несколько тысячи $, но и объемы данных 50Тб для озера данных.

В целом хороший опыт, сразу участвовать в двух кардинально разных проектах. И видеть преимущества и недостатки каждого из них.

PS Я писал про возможность для желающих, кому нужно показать опыт в США/Канаде, могут использовать компания Rock Your Data - сайт работает, но у компании нет никаких активностей. Я даже на письма клиентов потенциальных не отвечаю.

Процесс примерно такой:
1) Добавляете себе компанию в Linkedin (любую вакансию)
2) Пишите в резюме про свои проекты (даже не настоящие)
3) Нужно написать статью на medium, чтобы опубликовать ее в блог компании
4) В linkedin в ленте компании расшарим пост и тег автора (это для надежности)
Для несерьезных контор этого вполне хватает, им не нужны доказательства, им важен ваш опыт.

👨‍💻14🍾6❤‍🔥3🐳3😈3👻3🍓2🌚1🍌1

6.56K viewsDmitry, edited 19:21

Инжиниринг Данных

Ну как не выложить такое стихотворение, которое мне прочитали на прошедший день рождение, да еще подарили форму полицейского😝

Дядя Дима - милиционер.
OST. Дядя Степа, Сергей Михалков

Кто не знает дядю Диму? Дядю Диму знать не лень ! Знают все, что дядя Дима Был рожден в особый день.

Что давно когда-то жил он рядом с парком, что в Филях. а теперь уже в Канаде
Быстро движется в делах

В амазонах, Майкрософтах Тех, что знает вся страна, трудится Аношин Дмитрий есть любимая семья

Он шагает по Порт Муди От двора и до двора, кофе пьет, читает книги под диваном два ружья.

Он плывет на борде смело, тут канадец, например Рот раскрыл от изумленья: вот это Дата инженер

Дядю Диму уважают Все, от взрослых до ребят. Встретят - взглядом провожают И с улыбкой говорят:

- Да-а! Людей такого роста Встретить запросто не просто! Да-а! Такому молодцу Форма новая к лицу!

Ведь день полиции теперь
С Димой празднуй в один день
Пусть по сивью драйв пройдёт
И порядок наведет !

Чтоб с делами было в норме
Ты ходи теперь по форме
Полицейской
Каждый день

🍾106❤‍🔥12🐳4🍌2🍓1

6.48K viewsDmitry, 03:33

Инжиниринг Данных

В посте выше я писал про новинки от AWS, где главный упор был про размыв границ между инструментами, например между OLTP и Data Warehouse.

Сегодня мне попался похожий пример, но у Azure - hybrid transactional and analytical processing (HTAP) - позволяет Synapse Analytics напрямую подключаться к ComosDB (Azure NoSql база данных). Такая же идея ETL zero.

Но у всего этого большой минус, если что-то не работает будет сложней найти, что именно, так как для клиента это black box.

❤‍🔥3🌚2

6.18K viewsDmitry, edited 20:14

Инжиниринг Данных

Хорошее напоминание, что HR защищает интересы компании, а не сотрудников.

Недавно была интересная история, в одной компании, когда она была маленькая, да "удаленькая" обещали делать каждый год всем одинаковое повышение , чтобы догнать инфляцию. Так в начале 2022 все получили автоматом 7%. Потом компания выросла раза в 3-4 раза и наняла армию HR, и в этом году они сказали, что они такие молодцы, и всем сделают stock refresh (компания не публичная), на мой вопрос про один из бенефитов - ежегодное повышение зарплаты равное инфляции, мне сказали, что не было такого. Я не берусь говорить, что это было официально (офер я даже свой не читал, меня обычно кроме зарплаты в нем ничего не интересует, и копию не нашел, скорей всего это было просто на словах про такие бенефиты).

Сейчас-то инфляцию огого, и лучше дать ~~фантиков~~ стоков, которые как бы и нет, чем платить деньги. И кто еще после это жульничает🤭

❤‍🔥23🐳3🍾3🌭1🍓1👻1

6.73K viewsDmitry, 23:53

Инжиниринг Данных

Где смотреть новости про Power BI?

Microsoft Power BI Blog - все про Power BI, описание новых фич, релизов и даты проведения workshops.

Previous monthly updates to Power BI Desktop and the Power BI service - ежемесячные релизы по Power BI и их описание

What's new in the mobile apps for Power BI - ежемесячные релизы для мобильного клиента и их описание.

What's new and planned for Power BI - запланированные фичи и их дата релиза.

Microsoft

Power BI Blog—Updates and News | Microsoft Power BI

Keep up with the latest Power BI updates, announcements, information, and new features on the Power BI blog. Search by category or date published.

❤‍🔥17😈2🍌1👻1👨‍💻1

7.14K viewsDmitry, 17:57

Инжиниринг Данных

Одно их моих не любимых занятий это смотреть на Query план в Oracle, SQL Server, Teradata, Redshift или даже Spark. Не хватало терпения погрузиться в эту тему.

Зато вот у Snowflake очень приятный Query Profiler, не думаю, что в него часто смотрят, ведь если запрос работает относительно быстро, а платим за базу не мы, то "и так сойдет"😁

Как у вас дела с планами БД? Освоили тайное знание оптимизации БД? Какие ресурсы хорошие?🦾

👨‍💻9

6.63K viewsDmitry, 07:02

Инжиниринг Данных

Классный пример палитры для Табло дашбордов, который сделали для AWS департамента сертификации и загрузи в Tableau Public.

PS Значит Quicksight все еще пыль глотает от табло😅

Tableau Public

AWS Training and Certification Style Guide

We use this #template at AWS Training to encourage standardization, improve user experience, and analyst efficiency. The data and the formulas are from the Sales #TableauAccelerators | #BusinessDashboard #Tiledlayout #UI #UX

👻7🌭3

6.48K viewsDmitry, 15:28

Инжиниринг Данных

Еще один пост про Табло, про пример embedded analytics.

На сайте правительства Канады есть табло дашборды - COVID-19: Outbreak update, достаточно печальная визуализация. И вот еще один COVID-19 vaccination in Canada.

Это проект был сделан канадским deloitte, и используют AWS, Tableau Server (high availability cluster), и к сожалению весь ETL для dashboard сделан на Tableau Prep🙈

www.canada.ca

COVID-19: Current situation - Canada.ca

Information for Canadians on COVID-19 (coronavirus) including current cases, risk, monitoring, COVID-19 variants and how to get updates.

😈4🍌2

6.31K viewsDmitry, edited 18:33

Инжиниринг Данных

Если вы еще не слушали! Спасибо товарищу, кто скинул скрин. Подкаст научит вас жизни🙃

👻16🍌3❤‍🔥2👨‍💻2

6.33K viewsDmitry, edited 20:50

Инжиниринг Данных

Из очень старого (2014 -2015) - прародитель курса datalearn https://smartia.me/profession/bintelligent/

smartia.me

Разработчик Business Intelligence

Крупному бизнесу всё сложнее: чтобы принимать важные решения, приходится обрабатывать всё больше и больше информации. Для этого созданы целые классы специальных компьютерных программ и даже отдельные языки работы с данными.

BI-разработчик — тот, кто помогает…

❤‍🔥12🌚3

6.23K viewsDmitry, 01:44

Инжиниринг Данных

Forwarded from Лего

А можно так - бесплатно и про ds

https://datascienceatthecommandline.com/

Data Science at the Command Line

Home | Data Science at the Command Line

This thoroughly revised guide demonstrates how the flexibility of the command line can help you become a more efficient and productive data scientist. You’ll learn how to combine small yet powerful command-line tools to quickly obtain, scrub, explore, and…

🌚5

6.38K viewsDmitry, 17:04

Инжиниринг Данных

Сегодня увидел хороший пост в Linkedin и понравилась цитата - "You should either earn, or learn. "

То есть либо вы учитесь, либо вы зарабатываете. И если ни того, ни другого, то вы теряете время. И даже если вы зарабатываете, но не учитесь при этом, то наступает апатия, поэтому учится важно всегда, и я заметил если еще и зарабатывать хорошо, то и учиться есть мотивация даже больше.

А потом еще можно зарабатывать и учится 6 дней в неделю по 12 часов🦾

👨‍💻55❤‍🔥20🐳7🍌3🌭2

6.25K viewsDmitry, 20:00

About

Blog

Apps

Platform