Data Apps Design – Telegram
Data Apps Design
1.54K subscribers
143 photos
2 videos
41 files
231 links
В этом блоге я публикую свои выводы и мнения на работу в Data:

— Data Integration
— Database engines
— Data Modeling
— Business Intelligence
— Semantic Layer
— DataOps and DevOps
— Orchestrating jobs & DAGs
— Business Impact and Value
Download Telegram
26 октября (среда) в 20:00 проведу вебинар:

Работа с ГЕО-данными в DWH: координаты, зоны, агрегация

– Привязка событий к зонам на карте города
– Агрегирование и аналитика данных с помощью H3 (гексагоны)
– Оптмизация расчетов и производительности, кэширование

Расскажу подробно, как это устроено в проекте Wheely, над которым я работаю.
Как и зачем индексировать данные (например, с использованием библиотеки H3 от Uber).
Выполнение гео-операций, проверка вхождения точки в конкретные зоны (аэропорты, вокзалы, ТЦ, районы города).

⬇️ Ссылка на YouTube-трансляцию будет в этом канале

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6
Новая публикация на Хабр ⬇️⬇️⬇️
Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH

В публикации резюмирую свои знания:

— Каталог поддерживаемых источников и приемников данных.
— Метод чтения данных из источников (Extract).
— Способы репликации в целевое Хранилище (Load).
— Работа с изменениями структуры данных (Schema Evolution).
— Трансформации перед загрузкой данных (EtLT).
— Тип развертывания решения (Deployment).

Буду объяснять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии универсальны и применимы для любых других систем подобного класса.

Читать на Хабр →

#Pipelines #ELT

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3
Databricks - пока понятно то, что ничего непонятно

Пробую Databricks
– Установка в свой аккаунт AWS, сделать может только администратор (это не я) - ОК
– Развертывание в Cloud Formation Stack в пару кликов, вроде удобно. Однако очень сложно понять, что происходит и зачем: S3, IAM, Lambda, CopyZips(??)
– Сразу поднялись 3 жирных EC2 Instances i3.xlarge (зачем??), явным образом меня об этом не спросили, это не было очевидно
– Очень много текста в документации, но хочется поглотить всё

Кто пользуется Databricks?
Какие самые главные советы можете дать?
21 ноября (понедельник) в 20:00 проведу вебинар:

🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀

Вы узнаете:
🔹 Каким образом собирать события организации из Github (Webhook, Airbyte)
🔹 С помощью чего осуществить парсинг, трансформации, сборку витрин данных (dbt)
🔹 Как приготовить метрики: PR Rate, Time to Review / Merge (Looker)

Кому подходит:
🔹 Начинающим и продолжающим специалистам в области Аналитики данных, Data Engineering
🔹 Тем, кто интересуется современными подходами организации Хранилищ Данных
🔹 Руководителям команд разработки, менеджерам и даже CTO

Результаты:
🔹 Познакомитесь с современными инструментами организации DWH
🔹 Поймете, как устроены процессы разработки ПО в современных компаниях
🔹 Получите понимание, какие метрики интересуют руководителей разработки

Регистрация по ссылке →

⬇️ Ссылка на YouTube-трансляцию будет в этом канале за час до начала

#webinars

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥2
Data Apps Design
21 ноября (понедельник) в 20:00 проведу вебинар: 🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀 Вы узнаете: 🔹 Каким образом собирать события организации из Github (Webhook, Airbyte) 🔹 С помощью чего осуществить парсинг, трансформации…
🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀

🔹 Запись вебинара в YouTube: https://youtu.be/Y_xGZzI5sNI

🔹 Слайды: https://docs.google.com/presentation/d/187qBQGZWYpCkBAptNCCgHr8YZonMuHuwiZ6GlN5XMBY/edit?usp=sharing

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
💎 Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census 💎

В публикации:

— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM

Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.

Читать на Хабр →

#Pipelines #reverse-ETL

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
🚀 Released myBI dbt Core and myBI Market showcase

⚙️ myBI dbt Core module allows quick start transformations on top of data synced by myBI Connect along with multiple useful macros.

— Supported Adapters: Clickhouse, PostgreSQL
— Reference any data source as simple as select * from source('general', 'dates')
— Build staging layer in one command with filters on account_id applied, pre-join with date dimension, comprehensive data testing (unique, not_null, relationships)
— Leverage macros: source_filter_rows to limit rows for dev/test environments, any macro from dbt_utils package

⚡️ myBI Market showcase guides you through building Modern Data Stack analytics:

— Configure environment
— Install and configure mybi_dbt_core package
— Configure data sources
— Build staging layer models
— Model Data Marts
— Visualize on a dashboard
— Publish dbt project docs
— Introduce Continuous Integration

Check it out and leave your comments and questions in Tg discussions.

I will follow up with detailed publications on Habr soon.

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7🤩1🏆1
Finishing a new Analytics Engineering Lab on Github

🚀 DWH powered by Clickhouse and dbt

– Build DWH powered by Clickhouse and dbt
– Deploy Infrastructure as Code with Terraform and Yandex.Cloud
– Instant development with Github Codespaces
– Assignment checks with Github Actions

#lab #modeling #dbt #iac
👍4🔥2
⚡️ I have run a Proof of Concept with Redshift Serverless

And here's the summary:

— Reserving Redshift nodes is the best option given specific usage patterns.
— Reserved nodes are 30% cheaper than on-demand ones.
— Serverless doesn't show stable and production-ready results: faced with multiple query failures during data refresh.
— Moreover, Serverless will definitely cost more with the same usage patterns.

Read more →

#dbt #redshift #database #serverless

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
Why I use dev containers?

How to package dbt and dependencies to a reproducible container

– works almost instanty for you and team members
– latest stable dbt + adapter versions
– easy inividual secrets set up
– configuring multiple dbt targets
– fancy terminal: zsh + git plugin + shell history

+ 30 second gif live demo

Read more →

#dbt #dev #container

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥31🍓1
What I value most in BI tool

❄️ I use Looker and totally satisfied with it.

Here's my list of features labeled with (H)igh, (M)edium and (L)ow priority and grouped by:
— Developer experience
— User experience
— Administration
— Monitoring, System activity
— Integrations & Apps

I used this list to compare different solutions against what I currently use to see if I can benefit from switching to another tool.

You can use it as reference to populate BI tool comparison matrix (included).

➡️ https://telegra.ph/What-I-value-most-in-BI-tool-03-14

#bi #tool #solution

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Аналитика ключевых метрик компании: dbt Metrics / Cube.js / LookML

Привет! 25 апреля Вт в 20:00 проведу вебинар на YouTube.

Рассмотрим на практике грани интересной темы:
🔸 Что такое семантический слой, и в чем разница между Метрикой и Витриной данных
🔸 Пути формирования метрик: SQL (ad-hoc), dbt Metrics package, Cube.js, LookML (Looker)
🔸 Примеры декларативной конфигурации dbt metrics в yaml
🔸 Как использовать продвинутые возможности dbt Metrics (derived metrics, secondary calculations)

Важные выводы и идеи при выборе решения:
🔸
Open source solutions vs. Vendor lock-in
🔸 Flexibility vs. Speed tradeoff (online queries vs. pre-materialized)
🔸 Access vs. Expressiveness (in-depth features vs. ease of use)

Если тема интересна, приходите на транcляцию - буду отвечать на вопросы, можно будет подискутировать.

Ссылка будет в этом канале за 10-15 минут до начала трансляции.

#dbt #metrics #bi

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍7
Семантический слой для Аналитики ключевых метрик – dbt Metrics vs. Cube

🔸 Что такое семантический слой, и в чем разница между Метрикой и Витриной данных.
🔸 Пути формирования метрик: SQL (ad-hoc), UI, dbt Metrics, Cube.
🔸 Примеры декларативной конфигурации в YAML и использования метрик.
🔸 На что обращать внимание при выборе решения: Стек технологий, Доступность vs. Выразительнось, Гибкость vs. Скорость.

В продолжение последней темы - для тех, кто любит читать.

Читать на Habr →

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Having extensive experience with Looker and dbt I've got several thoughts on

⚡️ Replacing Looker with Cube + Superset ⚡️

🔸 Future of BI and Analytics revolves around declarative metrics store and polyglot serving
— You set your metrics simple way, in a single store and version control them
— You then consume these metrics from wherever needed (BI, SQL, Apps, REST API)

🔸 Cube is a powerful rival to Looker
— Both support: Declarative Metrics, Dynamic SQL generation, Caching, RBAC
— Cube is Open Source while Looker is a vendor lock-in (which is tying your options and opportunities)
— Cube offers freemium plan while Looker is top-tier in terms of pricing

🔸 Cube still has got many things to improve
— Looker has fancy browser IDE with code-completion, syntax checks and built-in docs
— Cube is of a higher entry level in terms of: deployment, git, development, updates, etc.
— Looker supports flexible templating with Liquid: variables, dynamic joins, filters etc. enabling otherwise impossible opportunities
— Looker has impressive list of supported data sources and dialects

Apart from this Cube is not a visualization tool, so you will definitely need one on top of Cube (e.g. Superset, Metabase).
Looker has everything to be named top grade BI tool: rich dashboards, scheduling, alerting, API.

🔸 I would go on with Looker
— In case you have invested much into your LookML project and using it for a long period of time
— I would strongly consider using Cube with OSS BI tool if you are searching for a new stack or want to switch

#bi #looker #cube #metrics

⬇️ Share your thought if you've ever used Looker or Cube.

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
⚙️ Clickhouse is advancing at data integration

Apart from having fully-functional DB links to PostgreSQL and MySQL,

Clickhouse is also able to fetch data from any URL:

— No need for 3rd party tools (ELT)
— Extensive configurations for data formats and compression
— Do it SQL declarative way
— Works best with dbt modeling

Now I give you a brief example of how to sync data from external API (e.g. gSheets) to Clickhouse:

1. You create a table with URL engine pointing to external API either manually or using dbt macro
2. You register this table as a dbt source
3. You then reference this source anywhere in your dbt project

See the code →

#elt #integration #clickhouse #dbt

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM