DE – Telegram
523 subscribers
313 photos
81 videos
15 files
406 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
https://stamina.hynek.me/en/latest/tutorial.html

Нашел интересный проект от известного спикера и opensource деятеля Hynek Schlawack

Если вам надоело в очередной раз объяснять новичкам как правильно конфигурировать tenacity, то рекомендую присмотреться. Апи выглядит максимально просто и понятно, при этом есть интеграция со structlog и метриками для prometheus.

Можно использовать как декоратор (асинк поддерживается из коробки)
@stamina.retry(
on=httpx.HTTPError, attempts=3, timeout=dt.timedelta(seconds=10)
)
async def do_it_async(code: int) -> httpx.Response: ...


Можно как контекстный менеджер с возможностью получить доступ к счетчику попыток
for attempt in stamina.retry_context(on=httpx.HTTPError):
with attempt:
resp = httpx.get(f"https://httpbin.org/status/404")
resp.raise_for_status()


А вообще интересно, что для ретраев сейчас модно использовать?
4❤‍🔥2
🦆

DuckDB: Простота работы с CSV файлами

Традиционные базы данных требуют предварительно определённой схемы таблицы и не поддерживают работу с CSV файлами без предварительной обработки. DuckDB решает эту проблему, позволяя напрямую считывать файлы CSV. Это устраняет необходимость в явном создании таблицы и загрузке данных, значительно упрощая процесс работы с данными.

👩‍💻 Github

#db #postgres #duckdb
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6
😁9
🧐
Небольшая подборка не очень популярных, но полезных библиотек для анализа данных

PySheets - предоставляет пользовательский интерфейс для работы с электронными таблицами на Python.
Используй Pandas, создавай диаграммы, импортируй таблицы Excel, анализируй данные и создавай отчеты.

py2wasm - преобразует программы и данные на Python в WebAssembly и запускает их в ~3 раза быстрее.

databonsai - библиотека на Python, которая использует LLM для задач очистки данных, таких как категоризация, преобразование и извлечение.

#py #python #dev
Please open Telegram to view this post
VIEW IN TELEGRAM
6❤‍🔥32
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчики LLM 🤖 меряются силами, сравнивая свои лучшие модели на арене чат-ботов LMSYS.

Автор визуализации представил результаты таких соревнований.

#ai #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5
⭐️ StarRocks — БД для аналитики

StarRocks, проект Linux Foundation, — высокопроизводительная MPP OLAP БД нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и многое другое.

#starrocks #db #olap
Please open Telegram to view this post
VIEW IN TELEGRAM
7❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Джуны в ожидании оффера

#meme #junior #dev
😁11
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8
😁8
Forwarded from DataEng
На прошлой неделе JetBrains анонсировали релиз их новой IDE для разработки на Rust: RustRover
Изначально это был плагин для их IDE, который в итоге перерос в полноценный продукт. Также ребята решили предоставить бесплатную лицензию на продукт для некоммерческой разработки для всех. Я попробовал и получил бесплатную лицензию на 1 год, возможно в будущем её можно будет продлить.

Впервые язык Rust я попробовал ещё в далёком 2015 году, когда вышла первая стабильная версия языка. С тех пор были неоднократные попытки с моей стороны написать что-нибудь существенное, но не было подходящих проектов под рукой. Сейчас же видно, что Rust плотно вошел в экосистему Python и внёс значительный вклад в её развитие. Наверняка вы слышали о таких проектах как Pydantic, Polars, PyO3 и т.д. Некоторые из них стали революционными для Python.

Python + Rust = ❤️

Также буквально на днях вышел вебинар от JetBrains, посвященный языку Rust и методам его изучения: Programming Education: Tailoring Tools and Techniques for Rust. Если вы вдруг задумались об изучении Rust, то рекомендую к просмотру. В описании к видео есть полезные ресурсы, которые помогут лучше усвоить сложные концепции языка такие, например, как Ownership.

Со своей стороны я попробую ещё раз оседлать эту лошадку и найти подходящий проект, чтобы не потерять мотивацию на пути изучения.

А какой у вас был опыт с Rust?
43❤‍🔥1
🙂 Разминка для мозга.

Какое число скрывается под машиной? Справишься с такой задачей? #task
Anonymous Quiz
5%
89
5%
69
4%
07
3%
17
68%
87
1%
99
2%
100
12%
🙈
❤‍🔥6
😁11
pg_cron - планировщик заданий на основе cron для PostgreSQL (10 и выше), который запускается внутри БД в качестве расширения. Он использует тот же синтаксис, что и обычный cron, но позволяет планировать команды PostgreSQL непосредственно из БД.

В pg_cron можно использовать "$" для указания последнего дня месяца.

Пример использования:

-- Vacuum every day at 3:00am (GMT)
SELECT cron.schedule('nightly-vacuum', '0 3 * * *', 'VACUUM');
schedule
----------
43

-- Stop scheduling jobs
SELECT cron.unschedule('nightly-vacuum' );
unschedule
------------
t

#cron #sql #postgres #postgresql
5
🙂Разминка для мозга

Что выведет код ниже?
Anonymous Quiz
5%
int
8%
TypeError
0%
str
2%
Toyota
17%
AttributeError
53%
300
15%
DataclassError
❤‍🔥5😁33
from dataclasses import dataclass


@dataclass
class Car:
mark: str
model: str = 'Supra'
colour: str = 'red'
max_speed: int = 300


print(Car().max_speed)

#py #python #task #quiz
8
😁13❤‍🔥1👏1
👆 Малоизвестные, но интересные ETL-инструменты


▶️ Astera Centerprise - готовое к использованию ETL-решение корпоративного уровня, которое предлагает возможности интеграции и преобразования необработанных данных любой сложности и размера в различных форматах: от сложных иерархических файлов и неструктурированных документов до отраслевых форматов, таких как EDI, и даже устаревших данных, таких как COBOL.

▶️ Talend - программная платформа с открытым исходным кодом, которая предлагает решения для интеграции данных и управления ими. Talend специализируется на интеграции больших данных. Этот инструмент предоставляет такие функции, как облачные технологии, большие данные, интеграция корпоративных приложений, качество данных и управление основными данными. Он также предоставляет единое хранилище для хранения и повторного использования метаданных.

▶️ Skyvia - веб-сервис для интеграции облачных данных и резервного копирования. Он предлагает инструменты ETL для интеграции cloud CRM с другими источниками данных и позволяет пользователям контролировать все свои бизнес-данные. Данные можно просматривать и обрабатывать с помощью SQL. Skyvia обеспечивает простую интеграцию данных без навыков программирования.

▶️ Pentaho - инструмент бизнес-аналитики, который предоставляет клиентам широкий спектр решений для бизнес-аналитики. Он способен создавать отчеты, анализировать данные, интегрировать данные, извлекать данные и т.д. Pentaho также предлагает полный набор функций BI, которые могут повысить производительность и эффективность бизнеса.

▶️ Hevo Data - платформа ETL, которая поддерживает интеграцию, перемещение и обработку данных. Она поддерживает широкий спектр источников данных и обеспечивает репликацию данных в режиме реального времени. Этот инструмент облегчает извлечение, преобразование и загрузку данных в указанные целевые пункты назначения.

#etl #de #sql #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
5
🐍🦆

Построение эффективных дата-пайплайнов с помощью Python и DuckDB

TL;DR: DuckDB делает обработку данных дешёвой и простой. Покажу, как эффективно использовать DuckDB в цикле постов

👇👇👇

0⃣ Прелюдия

1️⃣ Начало

2️⃣ Проект

#duckdb #python #etl #de #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥63👏1
0⃣-й пост из цикла.

Прелюдия

🔘Ты ежедневно обрабатываешь несколько ГБ данных, но тратишь часы на настройку/отладку масштабных систем обработки данных? Кто бы ни создавал инфраструктуру данных, он скорее всего скопировал её из какого-то блога/выступления крупной технологической компании!

🔘Представь, что внезапно ответственность за управление расходами команд обработки данных легла на твои плечи. Тебе приходится тщательно проверять все расходы на систему, какими бы незначительными они ни были, чтобы сэкономить немного денег для компании.

🔘Может быть неприятно, когда поставщики данных взимают с компании кучу денег и с радостью возьмут ещё больше, если ты не будешь осторожен с использованием доставшегося тебе легаси.

🔘Представь себе, если бы затраты на обработку данных были очень дешёвыми! Представь себе, что ты можешь быстро воспроизводить и отлаживать проблемы на своем ноутбуке!

🔘В цикле постов расскажу, как использовать последние достижения в области систем обработки данных и дешёвое оборудование для обеспечения дешёвой обработки данных. Буду использовать DuckDB и Python, чтобы показать, как быстро и дёшево обрабатывать данные, одновременно улучшая эргономику разработчиков.

#duckdb #python #etl #de #elt
Please open Telegram to view this post
VIEW IN TELEGRAM
55
😁71