DE – Telegram
522 subscribers
312 photos
81 videos
15 files
405 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
😁2
SQL и хранилищам данных, полезные ссылки по теме:

🟡PostgreSQL

🔘Домашняя страница базы данных

🔘Что такое PostgreSQL? (краткие сведения)

🔘Документация к PostgreSQL 14.5 на русском языке

🔘Курс молодого бойца PostgreSQL

🔘Подборка статей

🔘Язык SQL

🟢Архитектура хранилищ данных

🔘Хранилище данных: понятия

🔘Архитектура хранилищ данных: традиционная и облачная

🔘Что такое хранилище данных?

🔘Публикации, рассказывающие о хранилищах данных, подборка Habr

🔘Обзор гибких методологий проектирования DWH

🔘Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

🔘Создание Data Lake и Warehouse на GCP

#sql #postgres #dwh #clickhouse #datalake
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
⭐️ Elasticsearch - это одна из самых популярных поисковых систем в мире, которая используется для хранения и быстрого поиска большого объема данных. Она основана на Apache Lucene и предоставляет широкий набор функций для работы с данными любого размера и типа.

🍀 Одна из ключевых особенностей Elasticsearch - это его распределенная архитектура. Он позволяет разбивать данные на несколько индексов и распределять их на разные серверы, что обеспечивает высокую доступность и масштабируемость. В случае сбоя одного из серверов, Elasticsearch позволяет перенаправить запросы на другой сервер без прерывания работы системы.

📕 Elasticsearch также предоставляет дополнительные возможности для работы с данными, такие как механизмы аналитики, машинного обучения и интеграции со сторонними приложениями. Он также обладает мощным языком запросов, который позволяет выполнять сложные запросы и агрегации данных.

📌 Кроме того, Elasticsearch имеет расширяемую архитектуру, которая обеспечивает возможность создания собственных плагинов и расширений. Это позволяет создавать решения с высокой производительностью и гибкостью в зависимости от потребностей проекта.

📌 В целом, Elasticsearch - это мощный инструмент для работы с большими объемами данных, который обладает высокой производительностью, масштабируемостью и расширяемостью. Он позволяет быстро и эффективно обрабатывать сложные запросы и аналитику данных, что делает его популярным выбором для различных проектов и приложений.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2
😁5
Преобразование данных с помощью SQL и SCD2: строим эффективные BI-решения

Две ключевые концепции, которые пригодятся специалистам по бизнес-аналитике и базам данных: SQL (Structured Query Language) и SCD2 (Slowly Changing Dimension Type 2). Они играют неотъемлемую роль в обработке, хранении и анализе данных для оптимизации принятия решений на различных уровнях управления предприятием.

SQL — это стандартный язык программирования для управления реляционными базами данных. С его помощью можно создавать, изменять и удалять таблицы, добавлять, обновлять и извлекать данные, а также управлять правами доступа.

SCD2 Slowly Changing Dimension (медленно изменяющееся измерение) – это концепция хранения исторической информации об изменениях во времени. SCD2 является одним из подходов к реализации медленно изменяющихся измерений и используется в хранилищах данных и BI-системах для сохранения и анализа истории изменений во времени.

SCD2 позволяет сохранять несколько версий строки данных с учетом периода их действия. Главными особенностями подхода SCD2 являются наличие двух дополнительных столбцов в таблице: дата начала действия записи (effective date) и дата окончания действия записи (expiration date).

Использование SQL и SCD2 для создания эффективных BI-решений Сочетание SQL и принципов SCD2 делает возможным создание эффективных BI-решений для анализа исторических изменений на уровне отдельных записей данных. Благодаря применению SCD2, аналитики могут использовать SQL-запросы, чтобы находить тренды и изменения, связанные с различными временными периодами.

Овладение SQL и понимание принципов SCD2 являются неотъемлемыми инструментами для специалистов по бизнес-аналитике и базам данных. Вместе эти методологии позволяют эффективно управлять данными, отслеживать историческую динамику и принимать заслуженные основанные на данных решения.
👍3
Работа с большими данными, Hadoop, полезные ссылки:

🔵 DWH + Data Lake или что такое LakeHouse

🔵 Форматы файлов в больших данных: краткий ликбез

🔵 Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin

🔵 Apache Spark, объяснение ключевых терминов

🔵 Hadoop: что, где и зачем

🔵 Шпаргалка по командам Hadoop HDFS
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍1
Arenadata DB (Greenplum), полезные ссылки:

🟣 Arenadata

🟣 3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum

🟣 Greenplum vs PostgreSQL: 7 сходств и 3 отличия

🟣 Функции на языке запросов (SQL)

🟣 Как хранить большие данных в Greenplum: ТОП-15 рекомендаций
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍1
pandas 2.0.0

Встречаем новый pandas с Apache Arrow, теперь очень быстро 🐼
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
😁1
Прокачаем SQL

SQL важен, потому что он является стандартом для управления базами данных и может использоваться с любой реляционной базой данных.

SQL позволяет проводить быстрый и эффективный поиск, извлечение, добавление, удаление и изменение данных в базе данных.

SQL также обеспечивает безопасность данных и сохранность целостности данных в базе данных.

Благодаря SQL упрощают и автоматизируют свою работу с базами данных.

Полезные ресурсы:

sql-ex.ru

sql-practice.com

mode.com/sql-tutorial

sqlbolt.com

datalemur.com

w3schools.com/sql
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
TLDR Автор статьи рассказывает о том, как они перешли с ClickHouse на Apache Doris, потому что в Doris есть, а в ClickHouse отсутствуют следующие штуки:

1️⃣ Частичный апдейт колонок

2️⃣ Нет необходимости в построении гигантских плоских таблиц, соответственно уменьшается стоимость хранилища

3️⃣ Дешевле в поддержке
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
Бесплатные курсы и туториалы:

🎓 Python for Beginners: Free Course to Learn Python Basics


🔨 Python Projects: 30 Cool, Easy & Fun Python Projects with Source Code [2023]

🚸 DSA with Python: Intro to Data Structures & Algorithms

🌐 Learn Flask: Create fully-featured, interactive web applications with Flask

🔧 Flask Projects: 10+ Unique Flask Projects with Source Code – 2023

🔄 Learn REST API with Flask: Python REST APIs With Flask, Connexion, and SQLAlchemy

🧩 Learn Multithreading & Asyncio: Python Multithreading and Multiprocessing Tutorial

🚦 Gunicorn & Nginx with Flask: How To Serve Flask Applications with Gunicorn and Nginx on Ubuntu 18.04

TDD with Python & Flask: Modern Test-Driven Development in Python

📚 Basic RDBMS: Relational Database Management System

🐘 PostgreSQL with Python

🎁 Flask App with PostgreSQL: Build your first REST API with Flask and PostgreSQL

💻 Basics of Bash: Basics of BASH for Beginners

🐳 Basics of Docker: A Step by Step Guide on Docker for Beginners

🚢 Deploy Flask App with Docker: How To Build and Deploy a Flask Application Using Docker on Ubuntu 20.04

🌟 Learn Git & GitHub
👍5
Аналог Литкода от Яндекс.

https://coderun.yandex.ru/

👩‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣3
Эволюция моей оркестрации:

🥉 jupyter ноутбук
Запускаешь парсинг, пока на созвоне, смотришь кинчик или спишь.

Улучшения для покемона:
▪️Сохранять сразу в базу, а не локально
▪️Хостить жупутер на сервере, чтобы хоть с телефона можно было триггернуть задачку

🥈 Airflow
Крон на максималках, но нормально его задеплоить без полпинты нельзя. Проект древний, документации много и плохо. Если в вашей конторе он уже есть - кайф. Если вам нужно все это запустить с нуля — добро пожаловать в девопс.

🥇 Prefect
Тоже хрен разберешься, как нормально его задеплоить, ведь качество документации и тут тоже заряжено на генерацию лидов в enterprise вершн. Особенно это нетривиально через Dokku, которую я использую, чтобы особо не девопсить.

Но если завелось - ты будешь награжден. Просто пишешь в питоне функции, вешаешь декораторы и typing — и у тебя есть веб интерфейс к каждой функции. В отличие от Airflow, Prefect одобряет запуск неопределенного числа тасок (см скрин), что бывает часто, если ты парсишь.