DataEng – Telegram
DataEng
4.38K subscribers
41 photos
11 files
541 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
XLTable - OLAP Cервер для нового стека данных
Работайте с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.

Предоставьте пользователям возможность самостоятельно работать с данными, с помощью знакомого инструмента.

📈Ключевые возможности XLTable:
• Аналог MS OLAP (SSAS) для больших данных
• Интеграция с MS Excel по протоколу XMLA
• Поддержка ClickHouse, BigQuery, Snowflake
• Скоро: YDB, Greenplum
• Множество групп мер, иерархий и измерений в одном кубе
• Гибкие настройки кэширования
• Развёртывание внутри вашей инфраструктуры или в облаке

🔒Безопасность:
• Интеграция с LDAP
• Разграничение доступа на уровне мер, измерений и их членов

⚙️Производительность:
• Безлимитное количество мер и измерений
• Работа из Excel c миллиардами строк данных
• Все расчеты производятся на уровне ClickHouse
• Отличные возможности для масштабирования

Хочешь получить бесплатную пробную версию на 30 дней?

👉🏻Напиши «OLAP» - покажем демо и поможем с настройкой

Контакт: https://news.1rj.ru/str/vorobiova_anastasia
Сайт с информацией о продукте: https://xltable.com/
🔥11👍10💯4
Best_practices_for_ETL_and_ELT_pipelines_with_Apache_Airflow_3.pdf
3.6 MB
Очередной подгон от Astronomer про лучшие практики построения ETL/ELT пайплайнов на базе Apache Airflow 3 — Best practices for ETL and ELT pipelines with Apache Airflow 3

Небольшая электронная книга на 50 страниц, удобно использовать как справочник.
👍20
Orchestrate LLMs and Agents with Apache Airflow.pdf
2.6 MB
Orchestrate LLMs and Agents with Apache Airflow®

Новая книга от Astronomer про управление агентами через airflow-ai-sdk и Human In The Loop, который появился в Airflow 3.
🔥11
Обновленный мини-курс по Apache Kafka от небезызвестного Тима Бёргланда: Apache Kafka 101 (2025 Edition)
🔥21
The Definitive Guide to Apache Airflow 3 Dags.pdf
5.6 MB
The Definitive Guide to Apache Airflow® 3 DAGs

146 страниц отборного мяса и лучших практик про написание DAGов для Apache Airflow 3.
🔥17
Zen Habits

Встречайте, ещё один побочный продукт моего вайб-кодинга — Zen Habits.

Веб-приложение с нативной интеграцией с Telegram. Авторизуйтесь через телеграм, создавайте привычки и получайте о них нотификации прямо от телеграм-бота. В этом же боте выполняйте их. Внутри есть стена коммитов по типу Github.

Велком: https://zenhabits.dev/

Пожелания, критику и оскорбления жду в чатике канала 🫂
👍10🔥10💯2
fastjsondiff - High-performance JSON comparison with a Zig-powered core

Написал небольшую библиотеку для сравнения двух JSON-текстов/файлов. В Python есть популярная либа jsondiff, но её основная проблема это сильные тормоза, если на вход подать более менее крупный JSON-текст. Давно вынашивал идею реализации чего-то такого, но на Zig/Rust, т.к. чистая реализация на Python будет всё равно медленнее. По итогу получилось реализовать на Zig основную либу и Python-интерфейс к ней.

pip install fastjsondiff-zig


Github: https://github.com/adilkhash/fastjsondiff
PyPI: https://pypi.org/project/fastjsondiff-zig/

Буду признателен за на репе в гитхабе, это поможет её распространить дальше.
👍14🔥7
pandas 3.0

Вышла мажорная версия самой, пожалуй, популярной библиотеки для работы с данными в Python - pandas 3.0. В новом релизе появилось два значительных изменения: новый dtype для строк str вместо привычного numpy object. По словам разработчиков это значительно улучшает производительность кода. Также теперь Copy-on-Write это единственный режим для изменения значения колонок у датафрейма, более подробно здесь. Перед миграцией на новую версия pandas необходимо прошерстить легаси код и внести изменения, если вдруг в коде есть проверки на object или неоднозначные изменения датафрейма (вездесущий SettingWithCopyWarning в логах).

Ссылка на полный release notes.
🔥21👍5
📣 📢 13 ИИ агентов для дата инженера

Ребята из Astronomer выложили 13 полезных ИИ агентов для дата инженера. В списке есть имба-агент, помогающий мигрировать Airflow 2 на Airflow 3 — migrating-airflow-2-to-3
Преимущественно агенты сконцентрированы вокруг написания и тестирования Airflow DAGs, проектирования таблиц БД, data lineage. Боевой комплект дата инженера.

Из БД они умеют в Snowflake, Postgres, BigQuery. Также есть навык для работы с SQLAlchemy ORM.

Установка агентов:

npx skills add astronomer/agents


Для Claude Code можно установить прямо их маркетплейса

claude plugin marketplace add astronomer/agents
claude plugin install data@astronomer


В комплекте есть Airflow MCP сервер.

Ссылка на репозиторий: astronomer/agents
🔥17👍6
Data Pipelines with Apache Airflow_Final.pdf
28 MB
Data Pipelines with Apache Airflow, 2-е издание

Ребята из Astronomer совершенно бесплатно раздают электронную книгу Data Pipelines with Apache Airflow®, Second Edition, by Manning. Это обновлённое издание с учётом новой 3-й ветки Airflow, в книге используется версия Apache Airflow 3.1.0. Ну и конечно же ИИ не обделили, в книге появился контент про RAG, AI Orchestration и т.д.

Приятного чтения, господа! 🤓
👍10🔥8