DataEng – Telegram
DataEng
4.36K subscribers
41 photos
10 files
540 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
The Annual Airflow Survey

Если вы пользуетесь Apache Airflow, то давайте поможем сообществу собрать больше информации об использовании Airflow. До 20 ноября необходимо заполнить опросник на сайте взамен вы получите возможность пройти сертификацию по Airflow от Astronomer бесплатно (я сдавал их экзамен и он хороший). Опросник небольшой, замёт не более 10 минут вашего времени.
👍4
Ребята из Qdrant запустили бесплатный семидневный курс про свою векторную базу данных: Qdrant Essentials

Меня в последнее время интересует тема векторного поиска и векторных БД, и Qdrant как раз неплохой кандидат на изучение и реализацию какого-нибудь проекта (спойлер: домашнего векторного поисковика). Курс прям как по заказу!
🔥14👍4
Построение пайплайнов dlt в Apache Airflow

dlt это python библиотека для загрузки данных из разных источников. Она из коробки поддерживает работу с REST API, SQL, облачными хранилища и т.д. В сети появился бесплатный курс как подружить dlt и Apache Airflow — Deploy dlt pipelines. Сейчас доступны материалы про Apache Airflow, но на подходе информация и про Prefect, Dagster, Kestra, Orchestra и Modal. Я неоднократно слышал про dlt, но ни разу не доводилось использовать. Сейчас у меня есть пара проектов, где необходимо забирать данные из Airtable. Планирую ознакомиться с курсом и попробовать переделать свой пайплайн.
🔥6👍4
Apache Airflow 3.1.1

Вышел новый релиз Apache Airflow 3.1.1 очередным паком багфиксов — Airflow 3.1.1 (2025-10-27). Пофиксали очередную утечку памяти с remote logging connection cache.

Что-то 3-я версия Эйрфлоу богата на ошибки с утечками памяти. Бегу обновлять свой инстанс.
👍6🔥5
XLTable - OLAP Cервер для нового стека данных
Работайте с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.

Предоставьте пользователям возможность самостоятельно работать с данными, с помощью знакомого инструмента.

📈Ключевые возможности XLTable:
• Аналог MS OLAP (SSAS) для больших данных
• Интеграция с MS Excel по протоколу XMLA
• Поддержка ClickHouse, BigQuery, Snowflake
• Скоро: YDB, Greenplum
• Множество групп мер, иерархий и измерений в одном кубе
• Гибкие настройки кэширования
• Развёртывание внутри вашей инфраструктуры или в облаке

🔒Безопасность:
• Интеграция с LDAP
• Разграничение доступа на уровне мер, измерений и их членов

⚙️Производительность:
• Безлимитное количество мер и измерений
• Работа из Excel c миллиардами строк данных
• Все расчеты производятся на уровне ClickHouse
• Отличные возможности для масштабирования

Хочешь получить бесплатную пробную версию на 30 дней?

👉🏻Напиши «OLAP» - покажем демо и поможем с настройкой

Контакт: https://news.1rj.ru/str/vorobiova_anastasia
Сайт с информацией о продукте: https://xltable.com/
🔥11👍10💯4
Best_practices_for_ETL_and_ELT_pipelines_with_Apache_Airflow_3.pdf
3.6 MB
Очередной подгон от Astronomer про лучшие практики построения ETL/ELT пайплайнов на базе Apache Airflow 3 — Best practices for ETL and ELT pipelines with Apache Airflow 3

Небольшая электронная книга на 50 страниц, удобно использовать как справочник.
👍20
Orchestrate LLMs and Agents with Apache Airflow.pdf
2.6 MB
Orchestrate LLMs and Agents with Apache Airflow®

Новая книга от Astronomer про управление агентами через airflow-ai-sdk и Human In The Loop, который появился в Airflow 3.
🔥11
Обновленный мини-курс по Apache Kafka от небезызвестного Тима Бёргланда: Apache Kafka 101 (2025 Edition)
🔥21
The Definitive Guide to Apache Airflow 3 Dags.pdf
5.6 MB
The Definitive Guide to Apache Airflow® 3 DAGs

146 страниц отборного мяса и лучших практик про написание DAGов для Apache Airflow 3.
🔥16
Zen Habits

Встречайте, ещё один побочный продукт моего вайб-кодинга — Zen Habits.

Веб-приложение с нативной интеграцией с Telegram. Авторизуйтесь через телеграм, создавайте привычки и получайте о них нотификации прямо от телеграм-бота. В этом же боте выполняйте их. Внутри есть стена коммитов по типу Github.

Велком: https://zenhabits.dev/

Пожелания, критику и оскорбления жду в чатике канала 🫂
🔥10👍8💯2
fastjsondiff - High-performance JSON comparison with a Zig-powered core

Написал небольшую библиотеку для сравнения двух JSON-текстов/файлов. В Python есть популярная либа jsondiff, но её основная проблема это сильные тормоза, если на вход подать более менее крупный JSON-текст. Давно вынашивал идею реализации чего-то такого, но на Zig/Rust, т.к. чистая реализация на Python будет всё равно медленнее. По итогу получилось реализовать на Zig основную либу и Python-интерфейс к ней.

pip install fastjsondiff-zig


Github: https://github.com/adilkhash/fastjsondiff
PyPI: https://pypi.org/project/fastjsondiff-zig/

Буду признателен за на репе в гитхабе, это поможет её распространить дальше.
👍13🔥7
pandas 3.0

Вышла мажорная версия самой, пожалуй, популярной библиотеки для работы с данными в Python - pandas 3.0. В новом релизе появилось два значительных изменения: новый dtype для строк str вместо привычного numpy object. По словам разработчиков это значительно улучшает производительность кода. Также теперь Copy-on-Write это единственный режим для изменения значения колонок у датафрейма, более подробно здесь. Перед миграцией на новую версия pandas необходимо прошерстить легаси код и внести изменения, если вдруг в коде есть проверки на object или неоднозначные изменения датафрейма (вездесущий SettingWithCopyWarning в логах).

Ссылка на полный release notes.
🔥21👍5