DE – Telegram
521 subscribers
312 photos
81 videos
15 files
405 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://news.1rj.ru/str/boost/data_engi
Download Telegram
Всё вместе: как этим реально пользоваться 🌟

Соберём картинку целиком.

Если ты хочешь строить быстрые и стабильные модели, которые уважают и бизнес, и инженерию, у тебя должны появиться:

1️⃣ Bus matrix
чтобы показывать бизнесу прогресс в их координатах: процессы × разрезы.

2️⃣Data contracts
чтобы каждая продовая таблица была продуктом с понятными ожиданиями.

3️⃣ Insert-only факты и snapshot-измерения
чтобы пайплайны были простыми, а история — честной.

4️⃣ 4 базовых DQ-паттерна
constraints, референциальная целостность, reconciliation, variance.

5️⃣ Lineage
чтобы дебаг был техзадчей, а не расследованием.

6️⃣ Централизованные метрики
чтобы в компании была одна реальность, а не десять.

Это тот редкий случай, когда набор простых практик:
🟢 снимает кучу боли у дата-инженеров
🟢 делает бизнес счастливее
🟢 помогает тебе выглядеть взрослым инженером, а не человеком, который крутит SQL по запросу

〰️〰️〰️〰️〰️〰️〰️〰️
Порядок в DWH

#dev #de #dwh
Please open Telegram to view this post
VIEW IN TELEGRAM
25👏222
😁8
DE
pandas 2.0.0 Встречаем новый pandas с Apache Arrow, теперь очень быстро 🐼
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше были просто нереалистичны в pandas.

Автор статьи считает, что pandas «сдулся» для тяжёлых задач:
🔘 Когда автор начинал писать pandas в 2008, задачи были проще, рамок не было для анализа сотен гигабайт — внутренности pandas (через BlockManager, NumPy и Python-объекты) были адекватны.
🔘Современные сценарии часто подразумевают большие данные. По грубой оценке автора, чтобы безопасно работать с датасетом ~10 ГБ, нужно 64–128 ГБ RAM.
🔘Кроме того, представление строк и других типов через отдельные Python-объекты размазывает данные по куче — жёстко бьёт по памяти и скорости.

В следующих постах расскажу:
🔘Плюсы Apache Arrow
🔘Что даёт на практике
🔘Когда Arrow даёт преимущество

#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
15❤‍🔥3👏2😁1
Плюсы Apache Arrow

Arrow закладывает новый memory-уровень — колонное, компактное, соседнее в памяти хранение всех значений столбца. Это даёт сразу несколько плюсов:

🟣Данные хранятся contiguously — т.е. подряд в памяти, что снижает количество промахов кэша и повышает производительность при сканировании столбцов.

🟣Поддержка null / пропусков (missing data) на уровне битовой маски: отдельная карта битов, быстрая проверка, оптимизация путей, когда null отсутствуют.

🟣Возможность мемаппинга больших датасетов — работать с таблицами, превышающими RAM, как с mmap-файлами, читать куски данных без загрузки всего.

🟣Эффективная поддержка категориальных данных (categorical / dictionary types) — не костыли, а родной тип.

🟣Более "нормальное" добавление данных / апенд — благодаря chunked/streamed колонной структуре, можно делать append без жёсткого переписывания всего столбца.

🟣Широкая типизация и возможность добавлять новые типы данных с гибким мета-описанием, расширяемое.

То есть Arrow — это фундамент, на котором можно строить более масштабируемые, быстрые и "бигдатаподобные" аналоги pandas-подходов.

Apache Arrow

#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
26❤‍🔥11
😁8
This media is not supported in your browser
VIEW IN TELEGRAM
Персональное средство воздухоплавания.
Цена вопроса - $250k

#helicopter #flyscooter #wow #zapata
26❤‍🔥1👏1
Что даёт на практике Arrow

🟢 Быстрая загрузка / выгрузка больших табличных данных — поскольку Arrow ориентирован на колоночное, бинарное хранение, это хорошо подходит для интеграций с базами и форматами вроде Parquet / Feather.

🟢 Возможность работы с данными больше RAM — благодаря памяти-маппингу и chunked-формату, реально обрабатывать большие датасеты, не загружая всё в RAM.

🟢Более стабильное — и иногда быстрее — создание pandas-объектов при использовании Arrow как промежуточного формата (например, через pyarrow 🔜 pandas) вместо прямого pd.DataFrame(...). Есть реальные бенчмарки с 20–35% ускорением в ряде случаев.

🟢Возможность построения более продвинутых вычислительных движков: с query-planning, ленивыми выражениями, многопоточностью, оптимизированной аллокацией памяти — в духе того, как устроены современные БД или big-data фреймворки. Это путь к pandas v2 / next-gen DataFrame-средам.

Apache Arrow


#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Forwarded from 5 minutes of data
DBHub

DBHub — это универсальный сервер баз данных MCP, реализующий интерфейс сервера Model Context Protocol (MCP).
Этот шлюз позволяет клиентам, совместимым с MCP, подключаться и исследовать различные базы данных:

Универсальный шлюз: Единый интерфейс для PostgreSQL, MySQL, MariaDB, SQL Server и SQLite

Безопасный доступ: Режим только для чтения, туннелирование SSH и поддержка шифрования SSL/TLS

Мультибазы данных: Подключение к нескольким базам данных одновременно с конфигурацией TOML

Готов к продакшену: Ограничение строк, контроль таймаута блокировок и пул соединений

Нативный MCP: Полная реализация Model Context Protocol с ресурсами, инструментами и промптами

Теперь можно не костылить Text-to-SQL а использовать готовый MCP.
Но как и всегда с AI инструментами, нужно быть осторожным, так как DBHub может

Execute SQL queries directly from AI tools:
- Run SELECT queries for data analysis
- Execute DDL/DML in read-write mode
- Support for parameterized queries
- Multi-statement execution with transaction support



@five_minutes_of_data
15❤‍🔥2👏2
Когда Arrow даёт преимущество

Реальный плюс ты увидишь в таких задачах, где:

🔵наборы данных большие — десятки/сотни ГБ;

🔵есть необходимость частых чтений/записей, обменов с БД, файлами, потоками данных;

🔵важна память и скорость — например, в системах ML, аналитики, ETL-конвейерах;

🔵нужно interop между разными языками / системами;

🔵хочется масштабировать (мемаппинг, параллельность, out-of-core).

То
есть — во многих real-world сценариях, где pandas переходит из удобной игрушки» в узкое место.

Если ты работаешь с большими данными, ETL, перемещениями между системами, хранением в Parquet/Feather, или просто хочешь, чтобы твоё Python-data-решение было максимально надёжным и масштабируемым — Arrow однозначно стоит держать в арсенале. Это как сменить инструменты для анализа на ноутбуке на инструменты для продакшн-данных.


Apache Arrow


#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
6
😁6
Forwarded from 5 minutes of data
🎄 Сегодня стартовал Advent of Code 2025

Если вдруг не слышали — это цифровой адвент-календарь для разработчиков.
Каждый день до Рождества выходит новый пазл, который можно решить на любом языке программирования.

Mногие используют AOC как повод наконец-то потрогать язык, который давно хотел попробовать.
Кто-то вообще решает задачи на SQL.

Для многих Advent of Code — зимний ритуал: кофе, уют и ежедневная задачка, от которой иногда приятно плавится мозг.

Если искали причину попробовать новый язык — она появилась.
А если просто хочется немного игровой мотивации в декабре — тоже отлично подходит.

А вот тут можно посмотреть, как решают первый день на bash

Happy coding! 🎁
6
😁93
1😁921
😁9
Andrej Karpathy выпустил LLM Council — "БЯМ совет", где несколько моделей вместе думают над ответом и выбирают лучший.🚀

Что это такое:
Ты задаёшь вопрос 🔜 сразу несколько LLM отвечают ➡️ они анонимно оценивают ответы друг друга 🔜 "председатель совета" собирает финальный лучший вариант.

🤔 Зачем нужно:
🟢меньше галлюцинаций
🟢 более взвешенные ответы
🟢 сразу несколько точек зрения
🟢 удобно тестить разные модели в одном интерфейсе

⭐️ Open-source, работает через OpenRouter, легко кастомизируется.

GitHub: https://github.com/karpathy/llm-council

#бям #ии #dev #ai #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
16❤‍🔥2👏1
Forwarded from epsilon correct
Breakneck: China's Quest to Engineer the Future – Dan Wang, 2025.
#book_review

Какое фундаментальное отличие китайского и американского обществ? Дэн Ван, который прожил в Китае несколько последних лет, нашёл новый тезис, вокруг которого построена вся книга. По его словам,
Америкой управляют юристы, а Китаем — инженеры.


Как пример, в текущей американской администрации большинство – юристы, тогда как в Политбюро ЦК КПК – почти все инженеры. Это приводит к существенным различиям в государственной политике, результаты которой мы можем видеть, например, в Сан-Диего, где общественная инфраструктура проиграет многим китайским деревням. Первая часть книги посвящена контрасту таких различий, и читать её максимально интересно.

Отдельная часть посвящена демографической политике в Китае (политика одного ребенка) как пример того, где инженерное государство с его возможностями планирования не может сравниться с государством, где юристы будут биться за индивидуальные права.

К концу книга немного скатывается из аналитики в описание личного опыта автора, его друзей-эмигрантов из Китая, родителей, что, если честно, быстро становится довольно размазано. Но первую половину (до 5 главы) прочитать точно стоит.

Сейчас на нипсе много мл-стартапов нанимают на возрождение производства – роборуки, создание новых материалов и лекарств. Интересно, смогут ли юристы оперативно решить регуляторные барьеры или всё-таки государство инженеров на его поле побить не получится.
❤‍🔥6
🖼️ Выкатили долгожданный Django 6.0 — много полезного для безопасности, удобства шаблонов, фоновых задач и работы с почтой.


🔍 Главное из Django 6.0

▶️ Новые template partials — возможность вынесения повторяющихся частей шаблонов в именованные фрагменты (с помощью {% partialdef %} / {% partial %}), что делает шаблоны чище и модульнее.

▶️ Встроенная поддержка Content Security Policy (CSP) — готовое middleware + настройки для CSP с nonce, чтобы проще защищаться от XSS и инъекций.

▶️ Встроенный framework фоновых задач (background tasks) — можно запускать задачи вне HTTP-цикла (например, отправку писем, тяжёлую обработку) без сторонних решений вроде Celery.

▶️ Обновлённый API работы с почтой — класс EmailMessage стал более современным, с поддержкой Unicode и новых MIME-типов.

#django #dev #py #backend
Please open Telegram to view this post
VIEW IN TELEGRAM
5❤‍🔥11
😁9