NEW BOT Телеграм, страница

Популярный вопрос с собеседований
data engineer/data analyst (lvl jun/mid)

Что такое хранилище данных? Чем хранилище отличается от обычной Базы данных? Что такое озеро данных?

*здесь база данных понимается не в общем смысле, а как БД под капотом у классического ПО и транзакционных приложений*

1. База данных (Database, DB) - это система для хранения и управления операционными данными, предназначенная для частых транзакций (добавление, изменение, удаление).

Назначение: Операционная обработка данных (OLTP).

Основные характеристики:
✔️ Оптимизирована для частых транзакций (добавление, изменение, удаление)
✔️ Текущие данные (актуальное состояние системы)
✔️ Нормализованная структура (минимум дублирования)

Примеры:
➖PostgreSQL
➖MySQL
➖Oracle

Когда использовать?
➜ Когда нужна работа с актуальными данными в реальном времени (например, онлайн-платежи, заказы в интернет-магазине).

2. Хранилище данных (Data Warehouse, DWH) - это централизованное хранилище структурированных данных, оптимизированное для аналитики и отчетности. Оно собирает информацию из разных источников, очищает и преобразует её для удобного анализа.

Назначение: Аналитика и отчёты (OLAP).

Основные характеристики:
✔️ Структурированные данные (таблицы, схемы)
✔️ Оптимизировано для сложных аналитических запросов
✔️ Исторические данные (хранятся годами)
✔️ ETL-процессы (очистка и преобразование перед загрузкой)
✔️ Денормализованные схемы ("звезда", "снежинка")

Примеры:
➖Snowflake
➖Greenplum
➖Oracle Exadata

Когда использовать?
➜ Когда нужна аналитика на структурированных данных (например, отчёты по продажам за 5 лет, BI-дашборды).

3. Озеро данных (Data Lake) - это хранилище сырых данных любого формата (структурированных, полуструктурированных, неструктурированных), без строгой схемы.

Назначение: Хранение сырых данных любого формата.

Основные характеристики:
✔️ Любые данные (структурированные, JSON, логи, видео, изображения)
✔️ Масштабируемость (Big Data: Hadoop, S3)
✔️ Используется для ML, AI и глубокого анализа, архивации больших данных на дешевом железе

Примеры:
➖AWS S3 + Athena
➖Hadoop HDFS
➖Yandex Object Storage

Когда использовать?
➜ Когда нужно хранить разнородные данные для последующей обработки (например, логи сервера, данные IoT-устройств, архивы).

Еще раз 😁

🔹 Ключевые отличия 🔹

📌 База данных (DB)
▪️ Тип данных: Структурированные
▪️ Оптимизация: OLTP (транзакции)
▪️ Пример: Банковские транзакции

📌 Хранилище (DWH)
▪️ Тип данных: Структурированные
▪️ Оптимизация: OLAP (аналитика)
▪️ Пример: Анализ продаж за 5 лет

📌 Озеро данных (Data Lake)
▪️ Тип данных: Любые (структур./неструктур.)
▪️ Оптимизация: Хранение + гибкий анализ
▪️ Пример: Хранение логов сервера

Современные системы часто комбинируют подходы, например:

➖Data Lakehouse (озеро + хранилище) – как в Delta Lake или Databricks.
➖Гибридные DWH (поддержка полуструктурированных данных, как в Snowflake).

#Вопросы_с_собесов #архитектура

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥4⚡2

1.16K viewsedited 09:15