DataEng – Telegram
DataEng
4.33K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Data_Engineering_Design_Patterns_2025.pdf
6.9 MB
Data Engineering Design Patterns 🔥

В сети бесплатно раздают электронную копию книги Data Engineering Design Patterns. Я её ещё не читал. На книжных сайтах у неё неплохой рейтинг. Если вдруг искали что почитать по теме, то думаю стоит приглядеться. Ну а чтобы вам не нужно было заполнять форму, я сразу прикрепил pdf с книгой к сообщению.
2👍26🔥20
Jetbrains DataGrip бесплатно для некоммерческих целей

Теперь JetBrains DataGrip можно использовать бесплатно в некоммерческих целях. Я уже давно пользуюсь продуктами JetBrains, мой фаворит безусловно PyCharm. Работая в компании Playirx, я регулярно использовал DataGrip и считаю его лучшей оболочкой для работы с базами данных. DataGrip пополнил линейку бесплатных продуктов (для некоммерческих целей) наряду с CLion, RustRover, WebStorm и RubyMine. Вполне возможно, что скоро мы увидим и Rider и GoLand в этом списке 🤞
🔥20👍5💯3
MCP сервер для Apache Airflow

Нашел репозиторий с готовым MCP сервером для Apache Airflow — mcp-server-apache-airflow

MCP или Model Context Protocol - это протокол, позволяющий большим языковым моделям взаимодействовать со сторонними сервисами, дергая их за "ручки". Например, используя этот MCP сервер для Airflow можно через ИИ-агента манипулировать дагами и не только.
🔥8👍4
Airflow AI SDK

Нашел интересный реп от Astronomer с набором тасков для работы с большими языковыми моделями — airflow-ai-sdk.

Пакет предлагает набор декораторов:
— LLM tasks with @task.llm: Define tasks that call language models to process text
— Agent tasks with @task.agent: Orchestrate multi-step AI reasoning with custom tools
—Branching with @task.llm_branch: Change DAG control flow based on LLM output
— Embedding tasks with @task.embed: Create vector embeddings from text

Поддерживает работу с OpenAI, Anthropic, Gemini и другими через пакет pydantic-ai. С новым механизмом Human-in-the-Loop в Airflow 3.1 стало ещё удобнее контролировать процесс с помощью человека. Имхо, Airflow неплохо вписывается в эру ИИ мульти-агентов в качестве надёжного оркестратора.
🔥9👍3
The Annual Airflow Survey

Если вы пользуетесь Apache Airflow, то давайте поможем сообществу собрать больше информации об использовании Airflow. До 20 ноября необходимо заполнить опросник на сайте взамен вы получите возможность пройти сертификацию по Airflow от Astronomer бесплатно (я сдавал их экзамен и он хороший). Опросник небольшой, замёт не более 10 минут вашего времени.
👍3
Ребята из Qdrant запустили бесплатный семидневный курс про свою векторную базу данных: Qdrant Essentials

Меня в последнее время интересует тема векторного поиска и векторных БД, и Qdrant как раз неплохой кандидат на изучение и реализацию какого-нибудь проекта (спойлер: домашнего векторного поисковика). Курс прям как по заказу!
🔥12👍4
Построение пайплайнов dlt в Apache Airflow

dlt это python библиотека для загрузки данных из разных источников. Она из коробки поддерживает работу с REST API, SQL, облачными хранилища и т.д. В сети появился бесплатный курс как подружить dlt и Apache Airflow — Deploy dlt pipelines. Сейчас доступны материалы про Apache Airflow, но на подходе информация и про Prefect, Dagster, Kestra, Orchestra и Modal. Я неоднократно слышал про dlt, но ни разу не доводилось использовать. Сейчас у меня есть пара проектов, где необходимо забирать данные из Airtable. Планирую ознакомиться с курсом и попробовать переделать свой пайплайн.
🔥5👍4
Apache Airflow 3.1.1

Вышел новый релиз Apache Airflow 3.1.1 очередным паком багфиксов — Airflow 3.1.1 (2025-10-27). Пофиксали очередную утечку памяти с remote logging connection cache.

Что-то 3-я версия Эйрфлоу богата на ошибки с утечками памяти. Бегу обновлять свой инстанс.
👍6🔥5
XLTable - OLAP Cервер для нового стека данных
Работайте с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.

Предоставьте пользователям возможность самостоятельно работать с данными, с помощью знакомого инструмента.

📈Ключевые возможности XLTable:
• Аналог MS OLAP (SSAS) для больших данных
• Интеграция с MS Excel по протоколу XMLA
• Поддержка ClickHouse, BigQuery, Snowflake
• Скоро: YDB, Greenplum
• Множество групп мер, иерархий и измерений в одном кубе
• Гибкие настройки кэширования
• Развёртывание внутри вашей инфраструктуры или в облаке

🔒Безопасность:
• Интеграция с LDAP
• Разграничение доступа на уровне мер, измерений и их членов

⚙️Производительность:
• Безлимитное количество мер и измерений
• Работа из Excel c миллиардами строк данных
• Все расчеты производятся на уровне ClickHouse
• Отличные возможности для масштабирования

Хочешь получить бесплатную пробную версию на 30 дней?

👉🏻Напиши «OLAP» - покажем демо и поможем с настройкой

Контакт: https://news.1rj.ru/str/vorobiova_anastasia
Сайт с информацией о продукте: https://xltable.com/
🔥11👍9💯4
Best_practices_for_ETL_and_ELT_pipelines_with_Apache_Airflow_3.pdf
3.6 MB
Очередной подгон от Astronomer про лучшие практики построения ETL/ELT пайплайнов на базе Apache Airflow 3 — Best practices for ETL and ELT pipelines with Apache Airflow 3

Небольшая электронная книга на 50 страниц, удобно использовать как справочник.
👍19
Orchestrate LLMs and Agents with Apache Airflow.pdf
2.6 MB
Orchestrate LLMs and Agents with Apache Airflow®

Новая книга от Astronomer про управление агентами через airflow-ai-sdk и Human In The Loop, который появился в Airflow 3.
🔥9
Обновленный мини-курс по Apache Kafka от небезызвестного Тима Бёргланда: Apache Kafka 101 (2025 Edition)
🔥14