DE – Telegram
524 subscribers
320 photos
81 videos
15 files
410 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
🎄8
🎄
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄5
This media is not supported in your browser
VIEW IN TELEGRAM
Top вариантов использования Kafka:

🔘 Обработка и анализ логов
🔘 Потоковая передача данных
🔘 Мониторинг и оповещения
🔘 CDC (захват данных с изменениями)
🔘 Миграции

#kafka
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4🎄1
❤‍🔥3
Forwarded from Dealer.AI
Юмор уходящего рабочего дня.

Я не трудоголик ITшник, а на тренде💅
❤‍🔥5🎄2
Гайд о том как развернуть Apache Airflow локально через Kubernetes: https://blog.det.life/setting-up-apache-airflow-on-kubernetes-for-local-development-f873115fbe93

#airflow
❤‍🔥3
😁8❤‍🔥1🆒1
💾 Хранение 4 ГБ данных в 1959 году.
🆒4
😁4❤‍🔥1🆒1
Сейчас много шума вокруг DuckDB. Это компактная OLAP база данных на стероидах. На днях наткнулся на статью в рассылке про DuckDB и почему на неё стоит обратить внимание: What is DuckDB?

Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
❤‍🔥3
🔄Airbyte: преимущества и недостатки

Airbyte - это открытая платформа интеграции данных, призванная упростить процесс сбора, преобразования и передачи данных (ETL). Она призвана помочь компаниям легко обмениваться данными между различными источниками и целями.

😊Преимущества Airbyte:

1️⃣ Открытый исходный код:
Airbyte предоставляет открытый исходный код, который позволяет пользователям изменять и настраивать платформу в соответствии со своими требованиями.

2️⃣ Простота использования:
Интерфейс Airbyte удобен и интуитивно понятен. Пользователи могут создавать и управлять коннекторами для различных источников данных, не требуя при этом обширных технических знаний.

3️⃣ Масштабируемость:
Платформа имеет масштабируемую архитектуру, что делает её пригодной для обработки больших объемов данных.

4️⃣ Поддержка большого количества коннекторов:
Airbyte поставляется с большим количеством встроенных коннекторов для популярных источников данных, таких как базы данных, API, облачные сервисы и другие.

5️⃣ Графический интерфейс и версионирование:
Визуальные инструменты и версионирование облегчают создание, отслеживание и управление конфигурациями интеграции.

😕Недостатки:

1️⃣ Отсутствие некоторых коннекторов:
Несмотря на широкий спектр поддерживаемых источников данных, могут возникнуть ситуации, когда необходимый коннектор отсутствует.

3️⃣ Не поддерживает работу в режиме реального времени:
В настоящее время Airbyte не обеспечивает полную поддержку реального времени для всех источников данных.

В целом Airbyte - это перспективный инструмент интеграции данных, который может быть полезен в тех случаях, когда важны простота использования, открытость и масштабируемость.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3
Статья об использовании Airflow в Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. Автор рассказывает о развёрнутом Airflow с 300 DAG's и примерно 5 000 task's. Запускаются в основном лёгкие задачи, такие как dbt-трансформации, поэтому при использовании KubernetesExecutor автор столкнулся с тем, что инициализация Kubernetes Pod занимает больше времени чем выполнение самой задачи. В итоге автор заменил исполнителя на CeleryExecutor.

Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.

#airflow
❤‍🔥3🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
import warnings
warnings.filterwarnings('ignore')
😁8
😁4