SQL и хранилищам данных, полезные ссылки по теме:
🟡 PostgreSQL
🔘 Домашняя страница базы данных
🔘 Что такое PostgreSQL? (краткие сведения)
🔘 Документация к PostgreSQL 14.5 на русском языке
🔘 Курс молодого бойца PostgreSQL
🔘 Подборка статей
🔘 Язык SQL
🟢 Архитектура хранилищ данных
🔘 Хранилище данных: понятия
🔘 Архитектура хранилищ данных: традиционная и облачная
🔘 Что такое хранилище данных?
🔘 Публикации, рассказывающие о хранилищах данных, подборка Habr
🔘 Обзор гибких методологий проектирования DWH
🔘 Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud
🔘 Создание Data Lake и Warehouse на GCP
#sql #postgres #dwh #clickhouse #datalake
#sql #postgres #dwh #clickhouse #datalake
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2
Преобразование данных с помощью SQL и SCD2: строим эффективные BI-решения
Две ключевые концепции, которые пригодятся специалистам по бизнес-аналитике и базам данных: SQL (Structured Query Language) и SCD2 (Slowly Changing Dimension Type 2). Они играют неотъемлемую роль в обработке, хранении и анализе данных для оптимизации принятия решений на различных уровнях управления предприятием.
SQL — это стандартный язык программирования для управления реляционными базами данных. С его помощью можно создавать, изменять и удалять таблицы, добавлять, обновлять и извлекать данные, а также управлять правами доступа.
SCD2 Slowly Changing Dimension (медленно изменяющееся измерение) – это концепция хранения исторической информации об изменениях во времени. SCD2 является одним из подходов к реализации медленно изменяющихся измерений и используется в хранилищах данных и BI-системах для сохранения и анализа истории изменений во времени.
SCD2 позволяет сохранять несколько версий строки данных с учетом периода их действия. Главными особенностями подхода SCD2 являются наличие двух дополнительных столбцов в таблице: дата начала действия записи (effective date) и дата окончания действия записи (expiration date).
Использование SQL и SCD2 для создания эффективных BI-решений Сочетание SQL и принципов SCD2 делает возможным создание эффективных BI-решений для анализа исторических изменений на уровне отдельных записей данных. Благодаря применению SCD2, аналитики могут использовать SQL-запросы, чтобы находить тренды и изменения, связанные с различными временными периодами.
Овладение SQL и понимание принципов SCD2 являются неотъемлемыми инструментами для специалистов по бизнес-аналитике и базам данных. Вместе эти методологии позволяют эффективно управлять данными, отслеживать историческую динамику и принимать заслуженные основанные на данных решения.
Две ключевые концепции, которые пригодятся специалистам по бизнес-аналитике и базам данных: SQL (Structured Query Language) и SCD2 (Slowly Changing Dimension Type 2). Они играют неотъемлемую роль в обработке, хранении и анализе данных для оптимизации принятия решений на различных уровнях управления предприятием.
SQL — это стандартный язык программирования для управления реляционными базами данных. С его помощью можно создавать, изменять и удалять таблицы, добавлять, обновлять и извлекать данные, а также управлять правами доступа.
SCD2 Slowly Changing Dimension (медленно изменяющееся измерение) – это концепция хранения исторической информации об изменениях во времени. SCD2 является одним из подходов к реализации медленно изменяющихся измерений и используется в хранилищах данных и BI-системах для сохранения и анализа истории изменений во времени.
SCD2 позволяет сохранять несколько версий строки данных с учетом периода их действия. Главными особенностями подхода SCD2 являются наличие двух дополнительных столбцов в таблице: дата начала действия записи (effective date) и дата окончания действия записи (expiration date).
Использование SQL и SCD2 для создания эффективных BI-решений Сочетание SQL и принципов SCD2 делает возможным создание эффективных BI-решений для анализа исторических изменений на уровне отдельных записей данных. Благодаря применению SCD2, аналитики могут использовать SQL-запросы, чтобы находить тренды и изменения, связанные с различными временными периодами.
Овладение SQL и понимание принципов SCD2 являются неотъемлемыми инструментами для специалистов по бизнес-аналитике и базам данных. Вместе эти методологии позволяют эффективно управлять данными, отслеживать историческую динамику и принимать заслуженные основанные на данных решения.
👍3
Работа с большими данными, Hadoop, полезные ссылки:
🔵 DWH + Data Lake или что такое LakeHouse
🔵 Форматы файлов в больших данных: краткий ликбез
🔵 Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin
🔵 Apache Spark, объяснение ключевых терминов
🔵 Hadoop: что, где и зачем
🔵 Шпаргалка по командам Hadoop HDFS
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍1
Arenadata DB (Greenplum), полезные ссылки:
🟣 Arenadata
🟣 3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum
🟣 Greenplum vs PostgreSQL: 7 сходств и 3 отличия
🟣 Функции на языке запросов (SQL)
🟣 Как хранить большие данных в Greenplum: ТОП-15 рекомендаций
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍1
Прокачаем SQL❓
SQL важен, потому что он является стандартом для управления базами данных и может использоваться с любой реляционной базой данных.
SQL позволяет проводить быстрый и эффективный поиск, извлечение, добавление, удаление и изменение данных в базе данных.
SQL также обеспечивает безопасность данных и сохранность целостности данных в базе данных.
Благодаря SQL упрощают и автоматизируют свою работу с базами данных.
Полезные ресурсы:
⏩ sql-ex.ru
⏩ sql-practice.com
⏩ mode.com/sql-tutorial
⏩ sqlbolt.com
⏩ datalemur.com
⏩ w3schools.com/sql
SQL важен, потому что он является стандартом для управления базами данных и может использоваться с любой реляционной базой данных.
SQL позволяет проводить быстрый и эффективный поиск, извлечение, добавление, удаление и изменение данных в базе данных.
SQL также обеспечивает безопасность данных и сохранность целостности данных в базе данных.
Благодаря SQL упрощают и автоматизируют свою работу с базами данных.
Полезные ресурсы:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
TLDR Автор статьи рассказывает о том, как они перешли с ClickHouse на Apache Doris, потому что в Doris есть, а в ClickHouse отсутствуют следующие штуки:
1️⃣ Частичный апдейт колонок
2️⃣ Нет необходимости в построении гигантских плоских таблиц, соответственно уменьшается стоимость хранилища
3️⃣ Дешевле в поддержке
Please open Telegram to view this post
VIEW IN TELEGRAM
Medium
Tencent Data Engineer: Why We Go from ClickHouse to Apache Doris?
This article is co-written by me and my colleague Kai Dai. We are both data platform engineers at Tencent Music (NYSE: TME), a music…
😁2
Бесплатные курсы и туториалы:
🎓 Python for Beginners: Free Course to Learn Python Basics
🔨 Python Projects: 30 Cool, Easy & Fun Python Projects with Source Code [2023]
🚸 DSA with Python: Intro to Data Structures & Algorithms
🌐 Learn Flask: Create fully-featured, interactive web applications with Flask
🔧 Flask Projects: 10+ Unique Flask Projects with Source Code – 2023
🔄 Learn REST API with Flask: Python REST APIs With Flask, Connexion, and SQLAlchemy
🧩 Learn Multithreading & Asyncio: Python Multithreading and Multiprocessing Tutorial
🚦 Gunicorn & Nginx with Flask: How To Serve Flask Applications with Gunicorn and Nginx on Ubuntu 18.04
✅ TDD with Python & Flask: Modern Test-Driven Development in Python
📚 Basic RDBMS: Relational Database Management System
🐘 PostgreSQL with Python
🎁 Flask App with PostgreSQL: Build your first REST API with Flask and PostgreSQL
💻 Basics of Bash: Basics of BASH for Beginners
🐳 Basics of Docker: A Step by Step Guide on Docker for Beginners
🚢 Deploy Flask App with Docker: How To Build and Deploy a Flask Application Using Docker on Ubuntu 20.04
🌟 Learn Git & GitHub
🎓 Python for Beginners: Free Course to Learn Python Basics
🔨 Python Projects: 30 Cool, Easy & Fun Python Projects with Source Code [2023]
🚸 DSA with Python: Intro to Data Structures & Algorithms
🌐 Learn Flask: Create fully-featured, interactive web applications with Flask
🔧 Flask Projects: 10+ Unique Flask Projects with Source Code – 2023
🔄 Learn REST API with Flask: Python REST APIs With Flask, Connexion, and SQLAlchemy
🧩 Learn Multithreading & Asyncio: Python Multithreading and Multiprocessing Tutorial
🚦 Gunicorn & Nginx with Flask: How To Serve Flask Applications with Gunicorn and Nginx on Ubuntu 18.04
✅ TDD with Python & Flask: Modern Test-Driven Development in Python
📚 Basic RDBMS: Relational Database Management System
🐘 PostgreSQL with Python
🎁 Flask App with PostgreSQL: Build your first REST API with Flask and PostgreSQL
💻 Basics of Bash: Basics of BASH for Beginners
🐳 Basics of Docker: A Step by Step Guide on Docker for Beginners
🚢 Deploy Flask App with Docker: How To Build and Deploy a Flask Application Using Docker on Ubuntu 20.04
🌟 Learn Git & GitHub
👍5
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Dan Okhlopkov - канал
Эволюция моей оркестрации:
🥉 jupyter ноутбук
Запускаешь парсинг, пока на созвоне, смотришь кинчик или спишь.
Улучшения для покемона:
▪️Сохранять сразу в базу, а не локально
▪️Хостить жупутер на сервере, чтобы хоть с телефона можно было триггернуть задачку
🥈 Airflow
Крон на максималках, но нормально его задеплоить без полпинты нельзя. Проект древний, документации много и плохо. Если в вашей конторе он уже есть - кайф. Если вам нужно все это запустить с нуля — добро пожаловать в девопс.
🥇 Prefect
Тоже хрен разберешься, как нормально его задеплоить, ведь качество документации и тут тоже заряжено на генерацию лидов в enterprise вершн. Особенно это нетривиально через Dokku, которую я использую, чтобы особо не девопсить.
Но если завелось - ты будешь награжден. Просто пишешь в питоне функции, вешаешь декораторы и typing — и у тебя есть веб интерфейс к каждой функции. В отличие от Airflow, Prefect одобряет запуск неопределенного числа тасок (см скрин), что бывает часто, если тыпарсишь .
🥉 jupyter ноутбук
Запускаешь парсинг, пока на созвоне, смотришь кинчик или спишь.
Улучшения для покемона:
▪️Сохранять сразу в базу, а не локально
▪️Хостить жупутер на сервере, чтобы хоть с телефона можно было триггернуть задачку
🥈 Airflow
Крон на максималках, но нормально его задеплоить без полпинты нельзя. Проект древний, документации много и плохо. Если в вашей конторе он уже есть - кайф. Если вам нужно все это запустить с нуля — добро пожаловать в девопс.
🥇 Prefect
Тоже хрен разберешься, как нормально его задеплоить, ведь качество документации и тут тоже заряжено на генерацию лидов в enterprise вершн. Особенно это нетривиально через Dokku, которую я использую, чтобы особо не девопсить.
Но если завелось - ты будешь награжден. Просто пишешь в питоне функции, вешаешь декораторы и typing — и у тебя есть веб интерфейс к каждой функции. В отличие от Airflow, Prefect одобряет запуск неопределенного числа тасок (см скрин), что бывает часто, если ты
Forwarded from Инжиниринг Данных (Dmitry)
DATALEARN | DE - 101 | МОДУЛЬ 7-5 SPARK SQL и SPARK функции
Мы уже познакомились с Spark и писали запросы с помощью PySpark, так сказать Python flavor. А теперь мы посмотрим на Spark SQL
В этом видео вы узнаете про:
📌 Методы SparkSession для работы с SQL
📌 Как создавать таблицы и вьюхи
📌 Виды таблиц - Managed vs Unmanaged
📌 Примеры SQL запросов в PySpark
📌 Кеш в Spark
📌 Результат SQL запроса в DataFrame и наоборот
📌 Пример работы с различными файлами в Spark - Parquet, CSV, JSON, AVRO, ORC
📌 Пример использования Spark для бинарных файлов и изображений
📌 Функции и операции Spark
📌 UNION, JOIN для DataFrame
📌 Window Functions
📌 UDF
📌 Партиционирование данных и оптимизация с командами coalesce, repartition.
В качестве лабораторной работы вам нужно будет выполнить все запросы из примеров в CLI и Databricks.
Мы уже познакомились с Spark и писали запросы с помощью PySpark, так сказать Python flavor. А теперь мы посмотрим на Spark SQL
В этом видео вы узнаете про:
📌 Методы SparkSession для работы с SQL
📌 Как создавать таблицы и вьюхи
📌 Виды таблиц - Managed vs Unmanaged
📌 Примеры SQL запросов в PySpark
📌 Кеш в Spark
📌 Результат SQL запроса в DataFrame и наоборот
📌 Пример работы с различными файлами в Spark - Parquet, CSV, JSON, AVRO, ORC
📌 Пример использования Spark для бинарных файлов и изображений
📌 Функции и операции Spark
📌 UNION, JOIN для DataFrame
📌 Window Functions
📌 UDF
📌 Партиционирование данных и оптимизация с командами coalesce, repartition.
В качестве лабораторной работы вам нужно будет выполнить все запросы из примеров в CLI и Databricks.
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 7-5 SPARK SQL и SPARK функции
Мы уже познакомились с Spark и писали запросы с помощью PySpark, так сказать Python flavor. А теперь мы посмотрим на Spark SQL
В этом видео вы узнаете про:
📌 Методы SparkSession для работы с SQL
📌 Как создавать таблицы и вьюхи
📌 Виды таблиц - Managed…
В этом видео вы узнаете про:
📌 Методы SparkSession для работы с SQL
📌 Как создавать таблицы и вьюхи
📌 Виды таблиц - Managed…
Spark SQL Query Engine Deep Dive (19) – Adaptive Query Execution (Part 1)
https://dataninjago.com/2022/02/14/spark-sql-query-engine-deep-dive-19-adaptive-query-execution-part-1/
https://dataninjago.com/2022/02/14/spark-sql-query-engine-deep-dive-19-adaptive-query-execution-part-1/
Data Ninjago (Finsight-Tech Blogs)
Spark SQL Query Engine Deep Dive (19) – Adaptive Query Execution (Part 1)
Cost-based optimisation (CBO) is not a new thing. It has been widely used in the RDBMS world for many years. However, the use of CBO in a distributed, storage/computing separated system, such as Sp…