Сейчас много шума вокруг DuckDB. Это компактная OLAP база данных на стероидах. На днях наткнулся на статью в рассылке про DuckDB и почему на неё стоит обратить внимание: What is DuckDB?
Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
DuckDB
An in-process SQL OLAP database management system
DuckDB is an in-process SQL OLAP database management system. Simple, feature-rich, fast & open source.
❤🔥3
Airbyte - это открытая платформа интеграции данных, призванная упростить процесс сбора, преобразования и передачи данных (ETL). Она призвана помочь компаниям легко обмениваться данными между различными источниками и целями.
Airbyte предоставляет открытый исходный код, который позволяет пользователям изменять и настраивать платформу в соответствии со своими требованиями.
Интерфейс Airbyte удобен и интуитивно понятен. Пользователи могут создавать и управлять коннекторами для различных источников данных, не требуя при этом обширных технических знаний.
Платформа имеет масштабируемую архитектуру, что делает её пригодной для обработки больших объемов данных.
Airbyte поставляется с большим количеством встроенных коннекторов для популярных источников данных, таких как базы данных, API, облачные сервисы и другие.
Визуальные инструменты и версионирование облегчают создание, отслеживание и управление конфигурациями интеграции.
Несмотря на широкий спектр поддерживаемых источников данных, могут возникнуть ситуации, когда необходимый коннектор отсутствует.
В настоящее время Airbyte не обеспечивает полную поддержку реального времени для всех источников данных.
В целом Airbyte - это перспективный инструмент интеграции данных, который может быть полезен в тех случаях, когда важны простота использования, открытость и масштабируемость.
Please open Telegram to view this post
VIEW IN TELEGRAM
Airbyte
Airbyte | Open-Source Data Integration Platform | ELT Tool
Explore Airbyte, your go-to data integration platform and ELT tool. Seamlessly integrate, transform, and load data with our powerful, user-friendly solution.
❤🔥3
Статья об использовании Airflow в Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. Автор рассказывает о развёрнутом Airflow с 300 DAG's и примерно 5 000 task's. Запускаются в основном лёгкие задачи, такие как dbt-трансформации, поэтому при использовании
Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.
#airflow
KubernetesExecutor автор столкнулся с тем, что инициализация Kubernetes Pod занимает больше времени чем выполнение самой задачи. В итоге автор заменил исполнителя на CeleryExecutor. Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.
#airflow
Medium
What we learned after running Airflow on Kubernetes for 2 years
Apache Airflow is one of the most important components in our Data Platform, used by different teams inside the business. It powers all of…
❤🔥3🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
import warnings
warnings.filterwarnings('ignore')
😁8
Хранилища данных и озёра данных - это два разных подхода к управлению и хранению данных. Давай рассмотрим основные аспекты каждого из них.
Хранилища данных обычно предназначены для хранения структурированных данных, что упрощает их анализ и обработку.
Хранилища данных используют оптимизированные структуры для быстрого доступа к данным, что приводит к высокой производительности запросов.
Данные в хранилище предварительно обработаны и упорядочены, что делает их готовыми к использованию для бизнес-аналитики и отчётности.
Хранилища данных могут быть менее гибкими при работе с различными типами данных, такими как неструктурированные или полуструктурированные данные.
По мере увеличения объёма данных их хранение и обработка в хранилище могут усложняться и требовать дополнительных ресурсов.
Data Lake предоставляет возможность хранить неструктурированные и полуструктурированные данные, что делает его пригодным для различных данных.
Data Lake легко масштабируется с ростом объёма данных, обеспечивая повышенную производительность и хранение больших объёмов информации.
Возможность анализировать данные в режиме реального времени позволяет быстро использовать информацию для принятия решений.
Управление озером данных может потребовать более сложных процессов и стратегий, позволяющих избежать беспорядка и поддерживать качество данных.
Поскольку данные в хранилище данных хранятся в исходном виде, доступ к ним может потребовать дополнительных усилий по оптимизации запросов.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥6
Ребята, которые сделали
Также они взяли на себя дальнейшую поддержку
Выглядит круто.
Анонс: https://astral.sh/blog/uv
Репозиторий проекта: https://github.com/astral-sh/uv
ruff, выпустили свой тул для работы с зависимостями для python - uv. Они позиционируют его как замену pip, pip-tools и virtualenv. Написан на расте, поэтому работает быстро.Также они взяли на себя дальнейшую поддержку
rye (который изначально сделал Армин Ронахер, автор flask) и судя по всем планируют постепенно эти проекты объединить в один.Выглядит круто.
Анонс: https://astral.sh/blog/uv
Репозиторий проекта: https://github.com/astral-sh/uv
astral.sh
uv: Python packaging in Rust
uv is an extremely fast Python package installer and resolver, designed as a drop-in alternative to pip and pip-tools.
🆒4
Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 автор курса писал небольшой обзорный пост на Luigi в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Please open Telegram to view this post
VIEW IN TELEGRAM
Khashtamov
Строим Data Pipeline на Python и Luigi
ВведениеВ эпоху data-intensive приложений рядовым разработчикам всё чаще приходится сталкиваться с задачами по обработке и анализу данных. Ещё десять лет назад данные большинства проектов могли у…
🆒3❤🔥2
Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые автор планирует покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе автор подробно разбирает как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
Startdatajourney
Apache Airflow 2.2: практический курс
Практический курс по основам Apache Airflow версии 2.2 и выше
🆒8
https://developers.google.com/idx
А вы знали, что Google разрабатывает облачную IDE - IDX?
Напичкана всем подряд: кросс-платформа, iOS и Android эмуляторы, интерпретаторы и компиляторы, облачная среда и терминал и конечно же аналог Copilot.
Проект в публичной бете, можно встать в лист ожидания и получить приглашение.
А вы знали, что Google разрабатывает облачную IDE - IDX?
Напичкана всем подряд: кросс-платформа, iOS и Android эмуляторы, интерпретаторы и компиляторы, облачная среда и терминал и конечно же аналог Copilot.
Проект в публичной бете, можно встать в лист ожидания и получить приглашение.
😁2🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
Steampipe — это zero ETL решение для получения данных непосредственно из API и сервисов.
Твоё облако — это живая база данных, которая быстро меняется. Не жди синхронизации ETL и не полагайся на старые данные. Забирай данные там, где они появились, создавая новые варианты использования и быстрые решения.
Используй native Postgres Foreign Data Wrappers для подключения к api через Postgres.
Твоё облако — это живая база данных, которая быстро меняется. Не жди синхронизации ETL и не полагайся на старые данные. Забирай данные там, где они появились, создавая новые варианты использования и быстрые решения.
Используй native Postgres Foreign Data Wrappers для подключения к api через Postgres.
🆒3❤🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
highon.coffee
SQLMap Cheat Sheet: Flags & Commands for SQL Injection
SQLMap cheat sheet - Learn SQLMap with this Tutorial containing Flags, & SQLMap Command Examples.
❤🔥2
GQL — язык запросов с синтаксисом, который похож на SQL, с минималистичным движком для выполнения запросов к файлам .git вместо файлов базы данных.
Движок выполняет запрос на лету без необходимости создавать файлы базы данных или конвертировать файлы .git в любой другой формат.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - AmrDeveloper/GQL: GitQL is a extensible SQL-like query language and SDK to perform queries on various data sources such…
GitQL is a extensible SQL-like query language and SDK to perform queries on various data sources such .git files with supports of most of SQL features such as grouping, ordering and aggregation and...
❤🔥2