NEW BOT Телеграм, страница

🔋 Труба данных

https://amdatalakehouse.substack.com/p/ultimate-directory-of-apache-iceberg

Про Iceberg из каждого утюга!

Сейчас моя лента в твиттере забита двумя типами постов: как Cursor великолепен и как он скоро заменит всех программистов и про то, какой Iceberg великолепный табличный формат.
Обещаю, на ближайшие 2-3 месяца больше ничего не буду писать про Iceberg, потому что в статье выше - ссылки на все что можно касаемо этой технологии.
Читать не перечитать!

@ohmydataengineer - канал "🕯Труба Данных" который вас заколебал новостями про Iceberg

Please open Telegram to view this post

VIEW IN TELEGRAM

Substack

Ultimate Directory of Apache Iceberg Resources

Resources on Streaming, Migration, Ingestion and more!

👍14❤4💩2

2.7K viewsSimon Osipov, 09:12

🔋 Труба данных

3500+

Все еще удивлен, что мой канал, который когда-то был блокнотом с сохраненными заметками, превратится во что-то большее, на которое будут подписаны несколько тысяч (!) человек.

Спасибо, что читаете, я продолжу радовать вас адекватными и полезными новостями в сфере работы с данными. ❤️

Поддержать автора можно на регулярной основе на Бусти - https://boosty.to/datapipeline и на единоразовой - https://www.tbank.ru/cf/AIJMQbw3wE3

@ohmydataengineer - канал "🕯Труба Данных"

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥42❤10💩4

2.22K viewsSimon Osipov, 07:49

🔋 Труба данных

https://www.uber.com/en-DE/blog/query-gpt/

Как Uber SQL в чат засунул

Очень интересная статья из инженерного блога Uber о том, как они прикрутили в чат text-to-sql (nlp, вся фигня), накрутив сверху еще с десяток фич, например, подсказка и выбор таблицы из которой тянуть данные.
Видел я тут одну штуковину в стиле "А давайте сделаем бота в Whatsapp, который будет директору отвечать про стандартные метрики!"

@ohmydataengineer - канал "🕯Труба Данных" против неразумного применения LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9💩6❤2😢1

3.29K viewsSimon Osipov, 08:42

🔋 Труба данных

https://jack-vanlightly.com/blog/2024/8/7/table-format-comparisons-how-do-the-table-formats-represent-the-canonical-set-of-files

Я ж вас точно заколебал своим Iceberg (ну правда, из каждого угла, даже обещал ничего не постить про него). Так вот табличных форматов, на самом деле, больше: Delta Lake, Apahce Hudi, и так далее. Вы знали, что у Apache есть еще и Paimon?
Хорошая статья (а в блоге еще и несколько других сценариев сравнения, например, при CDC) про сравнение этих табличных форматов.

@ohmydataengineer - канал "🕯Труба Данных" заколебался слушать про айсберг

Please open Telegram to view this post

VIEW IN TELEGRAM

Jack Vanlightly

Table format comparisons - How do the table formats represent the canonical set of files? — Jack Vanlightly

This is the first in a series of short comparisons of table format internals. While I have written in some detail about each, I think it’s interesting to look at what is the same or similar and what sets them apart from each other. Question: How do the…

👍10💩4🔥2

2.46K viewsSimon Osipov, 07:58

🔋 Труба данных

https://docs.python.org/3.13/whatsnew/3.13.html

The biggest changes include a new interactive interpreter, experimental support for running in a free-threaded mode (PEP 703), and a Just-In-Time compiler (PEP 744).

А именно:

CPython now has experimental support for running in a free-threaded mode, with the global interpreter lock (GIL) disabled

@ohmydataengineer - канал "🕯Труба Данных" который сожалеет, что вопросы про GIL на собесах скоро станут нерелевантными.

Please open Telegram to view this post

VIEW IN TELEGRAM

Python documentation

What’s New In Python 3.13

Editors, Adam Turner and Thomas Wouters,. This article explains the new features in Python 3.13, compared to 3.12. Python 3.13 was released on October 7, 2024. For full details, see the changelog. ...

💩9👍3

2.7K viewsSimon Osipov, 07:45

🔋 Труба данных

https://www.youtube.com/@ApacheAirflow/videos

Apache Airflow Summit 2024 видосики подъехали!

Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs

Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.

@ohmydataengineer - канал "🕯Труба Данных" который продолжает следить за Airflow

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Apache Airflow

This channel is a central repository for all talks and videos related to Apache Airflow.

Check out airflow.apache.org for more information.

Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…

👍15💩2🔥1

3.54K viewsSimon Osipov, 07:31

🔋 Труба данных

Кстати...

1❤13😢11👍4🔥3💩2

3.7K viewsSimon Osipov, 14:25

🔋 Труба данных

Я не мог не перепостить эту новость!

Нейминг просто 🔥

💩4

2.86K viewsSimon Osipov, 11:23

🔋 Труба данных

Forwarded from Клуб CDO (Denis Afanasev)

Как говориться - "как корабль назовешь" (не на правах рекламы, за название - пятерка)

Закрома – передовое российское ПО для хранения и управления корпоративными данными

Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.

https://zakroma.ru/

Закрома

ЗАКРОМА – российская платформа управления корпоративными данными

ЗАКРОМА — платформа для хранения и управления корпоративными данными. Единая экосистема для хранения, архивирования и совместной работы с файлами, полностью соответствующая требованиям 152-ФЗ и 187-ФЗ.

50🔥26❤8💩4

3.39K viewsSimon Osipov, 11:23

🔋 Труба данных

Я люблю смотреть футбол и горячо поддерживаю Челси в АПЛ. Там Oracle Cloud и Opta во время игры показывают всякие live-статистики о том, кто сколько пробежал, сколько касаний сделал в штрафной и так далее. Наткнулся на очень прикольный доклад про то, как это все работает (путь и в испанской La Liga, но суть понятна)

https://www.youtube.com/watch?v=yncU9F_FK8Y

@ohmydataengineer - канал "🕯Труба Данных" продвигает датку в спорте

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Technical and Tactical Football Analysis Through Data

How LaLiga uses and combines eventing and tracking data to implement novel analytics and metrics, thus helping analysts to better understand the technical and tactical aspects of their clubs.

This presentation will explain the treatment of these data and…

👍15🔥6💩3❤1

3.5K viewsSimon Osipov, 07:58

🔋 Труба данных

https://clickhouse.com/blog/a-new-powerful-json-data-type-for-clickhouse

В продолжении разговора про JSON и Clickhouse, последние в своем блоге выкатили мяготки-внутрянки про то, как же под капотом работает новый нативный тип JSON.

@ohmydataengineer - канал "🕯Труба Данных" все еще радуется как ребенок JSON

Please open Telegram to view this post

VIEW IN TELEGRAM

ClickHouse

How we built a new powerful JSON data type for ClickHouse

We’re excited to introduce our new and significantly enhanced JSON data type, purpose-built to deliver high-performance handling of JSON data. Our core engineer, Pavel Kruglov, dives into how we built this feature on top of ClickHouse's columnar storage.

👍8💩4

3.3K viewsSimon Osipov, 09:45

🔋 Труба данных

https://vutr.substack.com/p/datahub-the-metadata-platform-developed

Хороший вводный пост про то, как устроен и эволюционировал DataHub (это который каталог данных).
У автора, на самом деле, оч неплохой блог и интересные посты, глубже, чем стандартная писака в инторнетах, с погружением в детали. Полистайте его блог, там много интересного.

@ohmydataengineer - канал "🕯Труба Данных" который делится интересным блогом про датку

Please open Telegram to view this post

VIEW IN TELEGRAM

Substack

DataHub: The Metadata Platform Developed at LinkedIn

How did LinkedIn manage the data catalog at scale?

🔥5👍3💩3❤1

4.39K viewsSimon Osipov, 09:11

🔋 Труба данных

https://xtable.incubator.apache.org

Наплодили форматов разных для таблиц, кто это будет все вместе собирать? Iceberg, Hive, Hudi, Delta Lake и так далее.

У Apache теперь появился X Table, тулза чтобы синхронизировать метаданные среди этого всего зоопарка.

@ohmydataengineer - канал "🕯Труба Данных" который держит обещание и не пишет про Iceberg (почти).

Please open Telegram to view this post

VIEW IN TELEGRAM

xtable.incubator.apache.org

Apache XTable™ (Incubating)

Apache XTable™ (Incubating) is a cross-table interop of lakehouse table formats Apache Hudi, Apache Iceberg, and Delta Lake. Apache XTable™ is NOT a new or separate format, Apache XTable™ provides abstractions and tools for the translation of lakehouse table…

🔥9👍4💩4🥱2❤1

3.6K viewsSimon Osipov, 09:16

🔋 Труба данных

В качестве пятничного юмора вашему вниманию представляется экспонат "Полочка" или что такое мутации в Clickhouse на больших объемах 😁

@ohmydataengineer

💩17😢7🔥3

2.71K viewsSimon Osipov, 12:06

🔋 Труба данных

https://dataengineeringcentral.substack.com/p/10-billion-row-challenge-duckdb-vs

Забавная статья о том, как сравнивали на одной машинке DuckDB, Polars и Daft и что из этого вышло. Первый так вообще какое-то время назад был из каждого утюга, но в итоге я пока не видел ни одного хорошо нагруженного production-ready решения. А в статье выше решение из коробки жиденько обделалось с датасетом на 16 гигов из Parquet. Причем в прошлом году, кажется, я читал пост этого же автора, с DuckDB были все те же проблемы с ООМ.

Конечно, тест можно было бы провести и поглубже, ну как минимум не один раз (для сравнения). Ну да ладно.

(По работе, возможно, предстоит потрогать Rust, поэтому и смотрю на статьи, связанные с обработкой данных и Растом)

Upd: в личные сообщения принесли дополнение к статье (by @dnbnero)

Статья немного странная.
Плюс когда стал перепроверять у себя - либо я что-то делаю не так, либо в статье заблуждение/ошибка/обман. Даже если брать сжатый parquet, строка в среднем весит 52 байта, что при 10 млрд записей никак не 16гб. А в оригинале утилита выдаёт несжатые файлы...

И в комментариях без меня написали, что зря ctas использовали в duckdb - он умеет запросы напрямую в с3 и паркеты запускать

@ohmydataengineer - канал "🕯Труба Данных" напоминает, что модное и молодежное - не всегда... (ну вы поняли)

Please open Telegram to view this post

VIEW IN TELEGRAM

Substack

10 billion row challenge. DuckDB vs Polars vs Daft.

... just for fun.

👍9💩4❤3

3.07K viewsSimon Osipov, edited 07:23

🔋 Труба данных

https://vutr.substack.com/p/i-spent-6-hours-learning-apache-arrow

Долго для вас хранил мяготку, никому не отдавал, но пришло время - мне оч нравится этот блог и как статьи пишет автор в нем. Погружается достаточно глубоко в детали и очень все доступно поясняет. Как пример - как работает Apache Arrow.

Потыкайте в его блог, там еще очень много всяких интересных чтив.

@ohmydataengineer - канал "🕯Труба Данных" не прячет от вас крутые блоги и статьи и не переписывает их своими словами

Please open Telegram to view this post

VIEW IN TELEGRAM

Substack

I spent 6 hours learning Apache Arrow: Overview

Why do we need a standard memory format for analytics workload?

❤26👍9💩3

3.69K viewsSimon Osipov, 08:02

🔋 Труба данных

https://www.uber.com/en-BG/blog/d3-an-automated-system-to-detect-data-drifts/

Статья 2-х годовалой давности, но все также интересная. О том как Uber работает с Data Drift для своих ML моделей.

@ohmydataengineer - канал "🕯Труба Данных" это коротко и интересно.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3💩1

3.66K viewsSimon Osipov, 09:56

🔋 Труба данных

https://github.com/ClickHouse/ClickHouse/pull/71542

Я обещал ничего не рассказывать про Iceberg какое-то время, но такого обещания не было про Clickhouse.
Однако новость выше не могу пропустить! 🔥

Clickhouse в процессе добавления поддержки Iceberg каталога (на скриншоте пример чтения из Apache Polaris)

@ohmydataengineer - канал "🕯Труба Данных" не нарушает своих обещаний!.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17💩3❤2👍2

3.68K viewsSimon Osipov, edited 08:33

🔋 Труба данных

https://aws.amazon.com/about-aws/whats-new/2024/12/amazon-s3-tables-apache-iceberg-tables-analytics-workloads/

Ну что я могу поделать, если уже и Amazon подкидывает мне новости, которые я обещал не рассказывать? AWS выкатывает специальные Amazon S3 Tables бакеты, с нативной и встроенной поддержкой Apache Iceberg

По словам провайдера - specifically optimized for analytics workloads, resulting in up to 3x faster query throughput and up to 10x higher transactions per second compared to self-managed tables

@ohmydataengineer - канал "🕯Труба Данных" все-таки иногда нарушает своих обещаний!.

Please open Telegram to view this post

VIEW IN TELEGRAM

Amazon

Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads - AWS

Discover more about what's new at AWS with Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads

❤13💩4👍2🔥2

3.44K viewsSimon Osipov, 09:21

🔋 Труба данных

Forwarded from Время Валеры

Интересные времена, оказывается разбивать данные на партиции в момент их заливки уже немодно, согласно Progressive Partitioning for Parallelized Query Execution in Google’s Napa

Внедрили динамическое партицирование для каждого запроса, потому что:
* Гранулярность партиций сильно зависит от конкретного запроса.
* Фиксированные партиции не справляются с перекошенным распределением данных и динамическими нагрузками.

Система использует прогрессивное партицирование, уточняя границы партиций итеративно до тех пор, пока не будет достигнута оптимальная гранулярность для запроса. Это позволяет балансировать между качеством разбиения и производительностью.

Как это работает?
1. Данные хранятся в LSM деревьях, где каждый апдейт добавляется в виде дельты (таких дельт в системе может быть тысячи).
2. Дельта - это иммутабельные (неизменяемые) снапшоты, и они образуются, когда данные из памяти (memtable) сбрасываются на диск. Вдобавок они отсортированы по ключам. Дельты попадают сначала в Level 0, где данные остаются отсортированными, но разные дельты могут перекрываться по ключам. Компактизация со временем переносит данные на следующий уровень, устраняя дублирование и перекрытия.
3. В каждой дельте есть свой B Tree индекс, позволяющий эффективно работать с широкими диапазонами ключей и выбирать нужную гранулярность в рамках дельты.
4. Min/max информация о ключах хранится как отдельные метаданные, позволяя быстро отфильтровать ненужные дельты еще до обхода B Tree.
5. Вместо того чтобы полагаться на статическое разбиение, система динамически партицирует данные в момент выполнения запроса.

В чем плюсы?
Быстрая запись: данные просто записываются в неизменяемые файлы (дельты), без затрат на реструктуризацию.
Эффективное чтение: запросы динамически получают оптимальные партиции, что минимизирует перекос нагрузки.
Масштабируемость: иерархическая структура B-деревьев и организация дельт позволяют LSM-деревьям работать с петабайтами данных и миллиардами запросов.

Этот подход помогает Google масштабировать свои хранилища, оставаясь гибкими и эффективными даже под нагрузкой в миллиарды запросов в день.

Интересно и неожиданно - не думал что партицирование будет динамическим, но логично.

👍24💩2❤1

3.24K viewsSimon Osipov, 09:35

🔋 Труба данных

Помните, какое-то время назад просил заполнить опрос, на каких специалистов в публичном поле и каналы / блоги вы подписаны? Так вот NEWHR выпустили рейтинг и список.

В этом году ни в какие топы я не попал 😁, а в топе есть пара новых имен.

Если вам интересно посмотреть на полные рейтинги и списки экспертов из исследования можно тут.

@ohmydataengineer - канал "🕯Труба Данных" вне всяких рейтингов!

Please open Telegram to view this post

VIEW IN TELEGRAM

💩6👍4😢4

3.19K viewsSimon Osipov, 10:33

About

Blog

Apps

Platform