DuckDB: Простота работы с CSV файлами
Традиционные базы данных требуют предварительно определённой схемы таблицы и не поддерживают работу с CSV файлами без предварительной обработки. DuckDB решает эту проблему, позволяя напрямую считывать файлы CSV. Это устраняет необходимость в явном создании таблицы и загрузке данных, значительно упрощая процесс работы с данными.
#db #postgres #duckdb
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥6
Небольшая подборка не очень популярных, но полезных библиотек для анализа данных
PySheets - предоставляет пользовательский интерфейс для работы с электронными таблицами на Python.
Используй Pandas, создавай диаграммы, импортируй таблицы Excel, анализируй данные и создавай отчеты.
py2wasm - преобразует программы и данные на Python в WebAssembly и запускает их в ~3 раза быстрее.
databonsai - библиотека на Python, которая использует LLM для задач очистки данных, таких как категоризация, преобразование и извлечение.
#py #python #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥5
StarRocks, проект Linux Foundation, — высокопроизводительная MPP OLAP БД нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и многое другое.
#starrocks #db #olap
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - StarRocks/starrocks: The world's fastest open query engine for sub-second analytics both on and off the data lakehouse.…
The world's fastest open query engine for sub-second analytics both on and off the data lakehouse. With the flexibility to support nearly any scenario, StarRocks provides best-in-class perf...
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8
Forwarded from DataEng
На прошлой неделе JetBrains анонсировали релиз их новой IDE для разработки на Rust: RustRover
Изначально это был плагин для их IDE, который в итоге перерос в полноценный продукт. Также ребята решили предоставить бесплатную лицензию на продукт для некоммерческой разработки для всех. Я попробовал и получил бесплатную лицензию на 1 год, возможно в будущем её можно будет продлить.
Впервые язык Rust я попробовал ещё в далёком 2015 году, когда вышла первая стабильная версия языка. С тех пор были неоднократные попытки с моей стороны написать что-нибудь существенное, но не было подходящих проектов под рукой. Сейчас же видно, что Rust плотно вошел в экосистему Python и внёс значительный вклад в её развитие. Наверняка вы слышали о таких проектах как Pydantic, Polars, PyO3 и т.д. Некоторые из них стали революционными для Python.
Python + Rust = ❤️
Также буквально на днях вышел вебинар от JetBrains, посвященный языку Rust и методам его изучения: Programming Education: Tailoring Tools and Techniques for Rust. Если вы вдруг задумались об изучении Rust, то рекомендую к просмотру. В описании к видео есть полезные ресурсы, которые помогут лучше усвоить сложные концепции языка такие, например, как Ownership.
Со своей стороны я попробую ещё раз оседлать эту лошадку и найти подходящий проект, чтобы не потерять мотивацию на пути изучения.
А какой у вас был опыт с Rust?
Изначально это был плагин для их IDE, который в итоге перерос в полноценный продукт. Также ребята решили предоставить бесплатную лицензию на продукт для некоммерческой разработки для всех. Я попробовал и получил бесплатную лицензию на 1 год, возможно в будущем её можно будет продлить.
Впервые язык Rust я попробовал ещё в далёком 2015 году, когда вышла первая стабильная версия языка. С тех пор были неоднократные попытки с моей стороны написать что-нибудь существенное, но не было подходящих проектов под рукой. Сейчас же видно, что Rust плотно вошел в экосистему Python и внёс значительный вклад в её развитие. Наверняка вы слышали о таких проектах как Pydantic, Polars, PyO3 и т.д. Некоторые из них стали революционными для Python.
Python + Rust = ❤️
Также буквально на днях вышел вебинар от JetBrains, посвященный языку Rust и методам его изучения: Programming Education: Tailoring Tools and Techniques for Rust. Если вы вдруг задумались об изучении Rust, то рекомендую к просмотру. В описании к видео есть полезные ресурсы, которые помогут лучше усвоить сложные концепции языка такие, например, как Ownership.
Со своей стороны я попробую ещё раз оседлать эту лошадку и найти подходящий проект, чтобы не потерять мотивацию на пути изучения.
А какой у вас был опыт с Rust?
The JetBrains Blog
RustRover Is Released and Includes a Free Non-Commercial Option | The RustRover Blog
We’re excited to announce the general availability of RustRover, the powerhouse IDE for Rust developers!
Anonymous Quiz
5%
89
5%
69
4%
07
3%
17
68%
87
1%
99
2%
100
12%
pg_cron - планировщик заданий на основе cron для PostgreSQL (10 и выше), который запускается внутри БД в качестве расширения. Он использует тот же синтаксис, что и обычный cron, но позволяет планировать команды PostgreSQL непосредственно из БД.
В pg_cron можно использовать "$" для указания последнего дня месяца.
Пример использования:
#cron #sql #postgres #postgresql
В pg_cron можно использовать "$" для указания последнего дня месяца.
Пример использования:
-- Vacuum every day at 3:00am (GMT)
SELECT cron.schedule('nightly-vacuum', '0 3 * * *', 'VACUUM');
schedule
----------
43
-- Stop scheduling jobs
SELECT cron.unschedule('nightly-vacuum' );
unschedule
------------
t
#cron #sql #postgres #postgresql
GitHub
GitHub - citusdata/pg_cron: Run periodic jobs in PostgreSQL
Run periodic jobs in PostgreSQL. Contribute to citusdata/pg_cron development by creating an account on GitHub.
Что выведет код ниже?
Anonymous Quiz
5%
int
8%
TypeError
0%
str
2%
Toyota
17%
AttributeError
53%
300
15%
DataclassError
❤🔥5😁3 3
#etl #de #sql #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
Прелюдия
#duckdb #python #etl #de #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
Начало
Если ты активно работаешь с данными, ты, вероятно, сталкивался с такими системами, как Snowflake, Databricks, Kafka и т.д., о которых было написано много статей о том, как они произвели революцию в обработке данных.
Однако, несмотря на всю эту шумиху, многие компании поняли, что всё это быстро становится дорогостоящим. Мониторинг и отработка отказов обходятся дорого, особенно в таких системах, как Kafka, Apache Spark и Snowflake, в которых много узлов.
Если тебе интересно:
Если да, то этот цикл постов для тебя. Представь, если бы твои затраты на обработку данных были настолько низкими, что тебе даже не пришлось бы их отслеживать!
Обсудим подход, который использует последние достижения в области обработки данных в оперативной памяти в сочетании с дешёвым и мощным железом для значительного снижения затрат на обработку данных!
#duckdb #python #etl #de #elt #kafka #spark #databricks #snowflake
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DE
🐍🦆
Построение эффективных дата-пайплайнов с помощью Python и DuckDB
TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов
👇👇👇
0⃣ Прелюдия
1️⃣ Начало
2️⃣ Проект
…
Построение эффективных дата-пайплайнов с помощью Python и DuckDB
TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов
👇👇👇
0⃣ Прелюдия
1️⃣ Начало
2️⃣ Проект
…