DE – Telegram
525 subscribers
322 photos
81 videos
15 files
411 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
🎄8
🎄
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄5
This media is not supported in your browser
VIEW IN TELEGRAM
Top вариантов использования Kafka:

🔘 Обработка и анализ логов
🔘 Потоковая передача данных
🔘 Мониторинг и оповещения
🔘 CDC (захват данных с изменениями)
🔘 Миграции

#kafka
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4🎄1
❤‍🔥3
Forwarded from Dealer.AI
Юмор уходящего рабочего дня.

Я не трудоголик ITшник, а на тренде💅
❤‍🔥5🎄2
Гайд о том как развернуть Apache Airflow локально через Kubernetes: https://blog.det.life/setting-up-apache-airflow-on-kubernetes-for-local-development-f873115fbe93

#airflow
❤‍🔥3
😁8❤‍🔥1🆒1
💾 Хранение 4 ГБ данных в 1959 году.
🆒4
😁4❤‍🔥1🆒1
Сейчас много шума вокруг DuckDB. Это компактная OLAP база данных на стероидах. На днях наткнулся на статью в рассылке про DuckDB и почему на неё стоит обратить внимание: What is DuckDB?

Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
❤‍🔥3
🔄Airbyte: преимущества и недостатки

Airbyte - это открытая платформа интеграции данных, призванная упростить процесс сбора, преобразования и передачи данных (ETL). Она призвана помочь компаниям легко обмениваться данными между различными источниками и целями.

😊Преимущества Airbyte:

1️⃣ Открытый исходный код:
Airbyte предоставляет открытый исходный код, который позволяет пользователям изменять и настраивать платформу в соответствии со своими требованиями.

2️⃣ Простота использования:
Интерфейс Airbyte удобен и интуитивно понятен. Пользователи могут создавать и управлять коннекторами для различных источников данных, не требуя при этом обширных технических знаний.

3️⃣ Масштабируемость:
Платформа имеет масштабируемую архитектуру, что делает её пригодной для обработки больших объемов данных.

4️⃣ Поддержка большого количества коннекторов:
Airbyte поставляется с большим количеством встроенных коннекторов для популярных источников данных, таких как базы данных, API, облачные сервисы и другие.

5️⃣ Графический интерфейс и версионирование:
Визуальные инструменты и версионирование облегчают создание, отслеживание и управление конфигурациями интеграции.

😕Недостатки:

1️⃣ Отсутствие некоторых коннекторов:
Несмотря на широкий спектр поддерживаемых источников данных, могут возникнуть ситуации, когда необходимый коннектор отсутствует.

3️⃣ Не поддерживает работу в режиме реального времени:
В настоящее время Airbyte не обеспечивает полную поддержку реального времени для всех источников данных.

В целом Airbyte - это перспективный инструмент интеграции данных, который может быть полезен в тех случаях, когда важны простота использования, открытость и масштабируемость.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3
Статья об использовании Airflow в Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. Автор рассказывает о развёрнутом Airflow с 300 DAG's и примерно 5 000 task's. Запускаются в основном лёгкие задачи, такие как dbt-трансформации, поэтому при использовании KubernetesExecutor автор столкнулся с тем, что инициализация Kubernetes Pod занимает больше времени чем выполнение самой задачи. В итоге автор заменил исполнителя на CeleryExecutor.

Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.

#airflow
❤‍🔥3🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
import warnings
warnings.filterwarnings('ignore')
😁8
😁4
🙂Хранилище данных и озеро данных: преимущества и недостатки

Хранилища данных и озёра данных - это два разных подхода к управлению и хранению данных. Давай рассмотрим основные аспекты каждого из них.

〰️〰️〰️〰️〰️〰️〰️〰️

⭐️Хранилище данных (Data Storage).

😆 Преимущества:

1️⃣ Структурированные данные:
Хранилища данных обычно предназначены для хранения структурированных данных, что упрощает их анализ и обработку.

2️⃣ Производительность:
Хранилища данных используют оптимизированные структуры для быстрого доступа к данным, что приводит к высокой производительности запросов.

3️⃣ Готовность к использованию:
Данные в хранилище предварительно обработаны и упорядочены, что делает их готовыми к использованию для бизнес-аналитики и отчётности.

🥲 Недостатки:

1️⃣ Ограниченные типы данных:
Хранилища данных могут быть менее гибкими при работе с различными типами данных, такими как неструктурированные или полуструктурированные данные.

2️⃣ Сложность масштабирования:
По мере увеличения объёма данных их хранение и обработка в хранилище могут усложняться и требовать дополнительных ресурсов.

〰️〰️〰️〰️〰️〰️〰️〰️

🔥 Озеро данных (Data Lake):

😊Преимущества:

1️⃣ Гибкость в типах данных:
Data Lake предоставляет возможность хранить неструктурированные и полуструктурированные данные, что делает его пригодным для различных данных.

2️⃣ Масштабируемость:
Data Lake легко масштабируется с ростом объёма данных, обеспечивая повышенную производительность и хранение больших объёмов информации.

3️⃣ Обработка данных "на лету":
Возможность анализировать данные в режиме реального времени позволяет быстро использовать информацию для принятия решений.

🙃Недостатки:

1️⃣ Сложность управления:
Управление озером данных может потребовать более сложных процессов и стратегий, позволяющих избежать беспорядка и поддерживать качество данных.

2️⃣ Неоптимизированный доступ:
Поскольку данные в хранилище данных хранятся в исходном виде, доступ к ним может потребовать дополнительных усилий по оптимизации запросов.

〰️〰️〰️〰️〰️〰️〰️〰️

Таким образом, выбор между хранилищем данных и озером данных зависит от уникальных потребностей бизнеса и природы данных. В некоторых случаях оптимальным решением может быть комбинация обоих подходов, обеспечивающая комплексный подход к управлению данными в организации.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6