DE – Telegram
521 subscribers
312 photos
81 videos
15 files
405 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
😁10
😁7
▶️ Линейность (lineage) — без неё любой дебаг превращается в детективное расследование

Баг в отчёте — классика. Вопросы всегда одни и те же:
🔘 откуда вообще взялись эти цифры?
🔘 какой слой сломался — сырые данные, стейджинг, витрина?
🔘 где конкретно в цепочке логика пошла не туда?

Без data lineage всё это — ручной форензик в стиле "гуляем по кодовой базе и гадаем".

Что даёт нормальная линейность:

1️⃣ Быстрый ответ на вопрос "из каких таблиц и трансформаций родилась эта витрина?".

2️⃣ Возможность пройти путь: отчёт 🔜 витрина ➡️ факт/измерения 🔜 стейджинг 🔜 сырые данные.

3️⃣ В регуляторных областях (финансы, медицина) — это вообще must-have для аудита.

Многие современные тулзы уже умеют в lineage из коробки (dbt, SQLMesh и не только).

Но главный пойнт такой:

Если у тебя нет наглядной lineage-картинки, каждая проблема в данных будет стоить тебе или твоей команде человеко-дней, а не часов.

〰️〰️〰️〰️〰️〰️〰️〰️
Порядок в DWH

#dev #de #dwh
Please open Telegram to view this post
VIEW IN TELEGRAM
163❤‍🔥1
😁13
⭐️ Единый источник правды для метрик — иначе все живут в разных реальностях

Со временем в компании становится:
🔘 всё больше метрик
🔘 всё больше команд
🔘 всё больше дашбордов, считающих "почти одно и то же, но чуть-чуть по-другому"

Без единого источника правды ты получаешь войну дашбордов: у маркетинга один LTV, у продукта другой, у финансов третий.

Критически важно держаться одной из двух стратегий (или гибрида):

1️⃣ Semantic layer
🟢 отдельный слой, где объявляются метрики: как считать, из чего, какие фильтры
🟢 все системы (BI, отчёты, сервисы) бьют запросами в этот слой и получают одно и то же определение.

2️⃣ Data mart с метриками
🟢 заранее считаем метрики в витринах
🟢 BI только читает уже готовые значения

Общее правило:
🟣 у каждой метрики должен быть owner
🟣 определения метрик должны жить в одном месте
🟣 чем более метрики размазаны по командам, тем тяжелее их дебажить и согласовывать.

〰️〰️〰️〰️〰️〰️〰️〰️
Порядок в DWH

#dev #de #dwh
Please open Telegram to view this post
VIEW IN TELEGRAM
181
Нейродроны от neiry

🚀 Новая эра дронов — живых дронов. Neiry представила своих первых "птиц-биодронов" — реальных голубей с вживлёнными нейроинтерфейсами.

🧠 Как это работает: в мозг птицы имплантируют электроды, подключённые к контроллеру и стимулятору, который размещается в маленьком рюкзачке на спине. С его помощью оператор может задавать маршрут — и птица летит туда, куда нужно.

🌍 Зачем это нужно: такие живые дроны могут использоваться для мониторинга инфраструктуры (линии электропередач, газовые узлы), экологического и промышленного контроля, поисково-спасательных операций, охраны и наблюдения.

🔥 Преимущества перед обычными БПЛА: биодроны автономны — птица ведёт обычную жизнь, а электроника питается от солнечных батарей. Дальность полётов, выносливость и скрытность сильно выше.



❗️ По словам Neiry, проект уже переходит к реальным испытаниям и внедрению — возможно, подобные живые беспилотники мы увидим в деле совсем скоро.

#pigeon #drone #biodrone #bird #neiry
Please open Telegram to view this post
VIEW IN TELEGRAM
6😁1
Всё вместе: как этим реально пользоваться 🌟

Соберём картинку целиком.

Если ты хочешь строить быстрые и стабильные модели, которые уважают и бизнес, и инженерию, у тебя должны появиться:

1️⃣ Bus matrix
чтобы показывать бизнесу прогресс в их координатах: процессы × разрезы.

2️⃣Data contracts
чтобы каждая продовая таблица была продуктом с понятными ожиданиями.

3️⃣ Insert-only факты и snapshot-измерения
чтобы пайплайны были простыми, а история — честной.

4️⃣ 4 базовых DQ-паттерна
constraints, референциальная целостность, reconciliation, variance.

5️⃣ Lineage
чтобы дебаг был техзадчей, а не расследованием.

6️⃣ Централизованные метрики
чтобы в компании была одна реальность, а не десять.

Это тот редкий случай, когда набор простых практик:
🟢 снимает кучу боли у дата-инженеров
🟢 делает бизнес счастливее
🟢 помогает тебе выглядеть взрослым инженером, а не человеком, который крутит SQL по запросу

〰️〰️〰️〰️〰️〰️〰️〰️
Порядок в DWH

#dev #de #dwh
Please open Telegram to view this post
VIEW IN TELEGRAM
25👏222
😁8
DE
pandas 2.0.0 Встречаем новый pandas с Apache Arrow, теперь очень быстро 🐼
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше были просто нереалистичны в pandas.

Автор статьи считает, что pandas «сдулся» для тяжёлых задач:
🔘 Когда автор начинал писать pandas в 2008, задачи были проще, рамок не было для анализа сотен гигабайт — внутренности pandas (через BlockManager, NumPy и Python-объекты) были адекватны.
🔘Современные сценарии часто подразумевают большие данные. По грубой оценке автора, чтобы безопасно работать с датасетом ~10 ГБ, нужно 64–128 ГБ RAM.
🔘Кроме того, представление строк и других типов через отдельные Python-объекты размазывает данные по куче — жёстко бьёт по памяти и скорости.

В следующих постах расскажу:
🔘Плюсы Apache Arrow
🔘Что даёт на практике
🔘Когда Arrow даёт преимущество

#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
15❤‍🔥3👏2😁1
Плюсы Apache Arrow

Arrow закладывает новый memory-уровень — колонное, компактное, соседнее в памяти хранение всех значений столбца. Это даёт сразу несколько плюсов:

🟣Данные хранятся contiguously — т.е. подряд в памяти, что снижает количество промахов кэша и повышает производительность при сканировании столбцов.

🟣Поддержка null / пропусков (missing data) на уровне битовой маски: отдельная карта битов, быстрая проверка, оптимизация путей, когда null отсутствуют.

🟣Возможность мемаппинга больших датасетов — работать с таблицами, превышающими RAM, как с mmap-файлами, читать куски данных без загрузки всего.

🟣Эффективная поддержка категориальных данных (categorical / dictionary types) — не костыли, а родной тип.

🟣Более "нормальное" добавление данных / апенд — благодаря chunked/streamed колонной структуре, можно делать append без жёсткого переписывания всего столбца.

🟣Широкая типизация и возможность добавлять новые типы данных с гибким мета-описанием, расширяемое.

То есть Arrow — это фундамент, на котором можно строить более масштабируемые, быстрые и "бигдатаподобные" аналоги pandas-подходов.

Apache Arrow

#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
26❤‍🔥11
😁8
This media is not supported in your browser
VIEW IN TELEGRAM
Персональное средство воздухоплавания.
Цена вопроса - $250k

#helicopter #flyscooter #wow #zapata
26❤‍🔥1👏1
Что даёт на практике Arrow

🟢 Быстрая загрузка / выгрузка больших табличных данных — поскольку Arrow ориентирован на колоночное, бинарное хранение, это хорошо подходит для интеграций с базами и форматами вроде Parquet / Feather.

🟢 Возможность работы с данными больше RAM — благодаря памяти-маппингу и chunked-формату, реально обрабатывать большие датасеты, не загружая всё в RAM.

🟢Более стабильное — и иногда быстрее — создание pandas-объектов при использовании Arrow как промежуточного формата (например, через pyarrow 🔜 pandas) вместо прямого pd.DataFrame(...). Есть реальные бенчмарки с 20–35% ускорением в ряде случаев.

🟢Возможность построения более продвинутых вычислительных движков: с query-planning, ленивыми выражениями, многопоточностью, оптимизированной аллокацией памяти — в духе того, как устроены современные БД или big-data фреймворки. Это путь к pandas v2 / next-gen DataFrame-средам.

Apache Arrow


#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Forwarded from 5 minutes of data
DBHub

DBHub — это универсальный сервер баз данных MCP, реализующий интерфейс сервера Model Context Protocol (MCP).
Этот шлюз позволяет клиентам, совместимым с MCP, подключаться и исследовать различные базы данных:

Универсальный шлюз: Единый интерфейс для PostgreSQL, MySQL, MariaDB, SQL Server и SQLite

Безопасный доступ: Режим только для чтения, туннелирование SSH и поддержка шифрования SSL/TLS

Мультибазы данных: Подключение к нескольким базам данных одновременно с конфигурацией TOML

Готов к продакшену: Ограничение строк, контроль таймаута блокировок и пул соединений

Нативный MCP: Полная реализация Model Context Protocol с ресурсами, инструментами и промптами

Теперь можно не костылить Text-to-SQL а использовать готовый MCP.
Но как и всегда с AI инструментами, нужно быть осторожным, так как DBHub может

Execute SQL queries directly from AI tools:
- Run SELECT queries for data analysis
- Execute DDL/DML in read-write mode
- Support for parameterized queries
- Multi-statement execution with transaction support



@five_minutes_of_data
15❤‍🔥2👏2
Когда Arrow даёт преимущество

Реальный плюс ты увидишь в таких задачах, где:

🔵наборы данных большие — десятки/сотни ГБ;

🔵есть необходимость частых чтений/записей, обменов с БД, файлами, потоками данных;

🔵важна память и скорость — например, в системах ML, аналитики, ETL-конвейерах;

🔵нужно interop между разными языками / системами;

🔵хочется масштабировать (мемаппинг, параллельность, out-of-core).

То
есть — во многих real-world сценариях, где pandas переходит из удобной игрушки» в узкое место.

Если ты работаешь с большими данными, ETL, перемещениями между системами, хранением в Parquet/Feather, или просто хочешь, чтобы твоё Python-data-решение было максимально надёжным и масштабируемым — Arrow однозначно стоит держать в арсенале. Это как сменить инструменты для анализа на ноутбуке на инструменты для продакшн-данных.


Apache Arrow


#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
6
😁6
Forwarded from 5 minutes of data
🎄 Сегодня стартовал Advent of Code 2025

Если вдруг не слышали — это цифровой адвент-календарь для разработчиков.
Каждый день до Рождества выходит новый пазл, который можно решить на любом языке программирования.

Mногие используют AOC как повод наконец-то потрогать язык, который давно хотел попробовать.
Кто-то вообще решает задачи на SQL.

Для многих Advent of Code — зимний ритуал: кофе, уют и ежедневная задачка, от которой иногда приятно плавится мозг.

Если искали причину попробовать новый язык — она появилась.
А если просто хочется немного игровой мотивации в декабре — тоже отлично подходит.

А вот тут можно посмотреть, как решают первый день на bash

Happy coding! 🎁
6
😁93