DE – Telegram
524 subscribers
320 photos
81 videos
15 files
410 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
❤‍🔥3
Forwarded from Dealer.AI
Юмор уходящего рабочего дня.

Я не трудоголик ITшник, а на тренде💅
❤‍🔥5🎄2
Гайд о том как развернуть Apache Airflow локально через Kubernetes: https://blog.det.life/setting-up-apache-airflow-on-kubernetes-for-local-development-f873115fbe93

#airflow
❤‍🔥3
😁8❤‍🔥1🆒1
💾 Хранение 4 ГБ данных в 1959 году.
🆒4
😁4❤‍🔥1🆒1
Сейчас много шума вокруг DuckDB. Это компактная OLAP база данных на стероидах. На днях наткнулся на статью в рассылке про DuckDB и почему на неё стоит обратить внимание: What is DuckDB?

Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
❤‍🔥3
🔄Airbyte: преимущества и недостатки

Airbyte - это открытая платформа интеграции данных, призванная упростить процесс сбора, преобразования и передачи данных (ETL). Она призвана помочь компаниям легко обмениваться данными между различными источниками и целями.

😊Преимущества Airbyte:

1️⃣ Открытый исходный код:
Airbyte предоставляет открытый исходный код, который позволяет пользователям изменять и настраивать платформу в соответствии со своими требованиями.

2️⃣ Простота использования:
Интерфейс Airbyte удобен и интуитивно понятен. Пользователи могут создавать и управлять коннекторами для различных источников данных, не требуя при этом обширных технических знаний.

3️⃣ Масштабируемость:
Платформа имеет масштабируемую архитектуру, что делает её пригодной для обработки больших объемов данных.

4️⃣ Поддержка большого количества коннекторов:
Airbyte поставляется с большим количеством встроенных коннекторов для популярных источников данных, таких как базы данных, API, облачные сервисы и другие.

5️⃣ Графический интерфейс и версионирование:
Визуальные инструменты и версионирование облегчают создание, отслеживание и управление конфигурациями интеграции.

😕Недостатки:

1️⃣ Отсутствие некоторых коннекторов:
Несмотря на широкий спектр поддерживаемых источников данных, могут возникнуть ситуации, когда необходимый коннектор отсутствует.

3️⃣ Не поддерживает работу в режиме реального времени:
В настоящее время Airbyte не обеспечивает полную поддержку реального времени для всех источников данных.

В целом Airbyte - это перспективный инструмент интеграции данных, который может быть полезен в тех случаях, когда важны простота использования, открытость и масштабируемость.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3
Статья об использовании Airflow в Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. Автор рассказывает о развёрнутом Airflow с 300 DAG's и примерно 5 000 task's. Запускаются в основном лёгкие задачи, такие как dbt-трансформации, поэтому при использовании KubernetesExecutor автор столкнулся с тем, что инициализация Kubernetes Pod занимает больше времени чем выполнение самой задачи. В итоге автор заменил исполнителя на CeleryExecutor.

Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.

#airflow
❤‍🔥3🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
import warnings
warnings.filterwarnings('ignore')
😁8
😁4
🙂Хранилище данных и озеро данных: преимущества и недостатки

Хранилища данных и озёра данных - это два разных подхода к управлению и хранению данных. Давай рассмотрим основные аспекты каждого из них.

〰️〰️〰️〰️〰️〰️〰️〰️

⭐️Хранилище данных (Data Storage).

😆 Преимущества:

1️⃣ Структурированные данные:
Хранилища данных обычно предназначены для хранения структурированных данных, что упрощает их анализ и обработку.

2️⃣ Производительность:
Хранилища данных используют оптимизированные структуры для быстрого доступа к данным, что приводит к высокой производительности запросов.

3️⃣ Готовность к использованию:
Данные в хранилище предварительно обработаны и упорядочены, что делает их готовыми к использованию для бизнес-аналитики и отчётности.

🥲 Недостатки:

1️⃣ Ограниченные типы данных:
Хранилища данных могут быть менее гибкими при работе с различными типами данных, такими как неструктурированные или полуструктурированные данные.

2️⃣ Сложность масштабирования:
По мере увеличения объёма данных их хранение и обработка в хранилище могут усложняться и требовать дополнительных ресурсов.

〰️〰️〰️〰️〰️〰️〰️〰️

🔥 Озеро данных (Data Lake):

😊Преимущества:

1️⃣ Гибкость в типах данных:
Data Lake предоставляет возможность хранить неструктурированные и полуструктурированные данные, что делает его пригодным для различных данных.

2️⃣ Масштабируемость:
Data Lake легко масштабируется с ростом объёма данных, обеспечивая повышенную производительность и хранение больших объёмов информации.

3️⃣ Обработка данных "на лету":
Возможность анализировать данные в режиме реального времени позволяет быстро использовать информацию для принятия решений.

🙃Недостатки:

1️⃣ Сложность управления:
Управление озером данных может потребовать более сложных процессов и стратегий, позволяющих избежать беспорядка и поддерживать качество данных.

2️⃣ Неоптимизированный доступ:
Поскольку данные в хранилище данных хранятся в исходном виде, доступ к ним может потребовать дополнительных усилий по оптимизации запросов.

〰️〰️〰️〰️〰️〰️〰️〰️

Таким образом, выбор между хранилищем данных и озером данных зависит от уникальных потребностей бизнеса и природы данных. В некоторых случаях оптимальным решением может быть комбинация обоих подходов, обеспечивающая комплексный подход к управлению данными в организации.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6
Ребята, которые сделали ruff, выпустили свой тул для работы с зависимостями для python - uv. Они позиционируют его как замену pip, pip-tools и virtualenv. Написан на расте, поэтому работает быстро.

Также они взяли на себя дальнейшую поддержку rye (который изначально сделал Армин Ронахер, автор flask) и судя по всем планируют постепенно эти проекты объединить в один.

Выглядит круто.

Анонс: https://astral.sh/blog/uv
Репозиторий проекта: https://github.com/astral-sh/uv
🆒4
OS DE Landscape 2024
❤‍🔥6
🔥 Бесплатный курс по LuigiВведение в Data Engineering: дата-пайплайны

Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 автор курса писал небольшой обзорный пост на Luigi в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒3❤‍🔥2