https://www.uber.com/en-DE/blog/query-gpt/
Как Uber SQL в чат засунул
Очень интересная статья из инженерного блога Uber о том, как они прикрутили в чат text-to-sql (nlp, вся фигня), накрутив сверху еще с десяток фич, например, подсказка и выбор таблицы из которой тянуть данные.
Видел я тут одну штуковину в стиле "А давайте сделаем бота в Whatsapp, который будет директору отвечать про стандартные метрики!"
@ohmydataengineer - канал "🕯 Труба Данных" против неразумного применения LLM
Как Uber SQL в чат засунул
Очень интересная статья из инженерного блога Uber о том, как они прикрутили в чат text-to-sql (nlp, вся фигня), накрутив сверху еще с десяток фич, например, подсказка и выбор таблицы из которой тянуть данные.
Видел я тут одну штуковину в стиле "А давайте сделаем бота в Whatsapp, который будет директору отвечать про стандартные метрики!"
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩6❤2😢1
https://jack-vanlightly.com/blog/2024/8/7/table-format-comparisons-how-do-the-table-formats-represent-the-canonical-set-of-files
Я ж вас точно заколебал своим Iceberg (ну правда, из каждого угла, даже обещал ничего не постить про него). Так вот табличных форматов, на самом деле, больше: Delta Lake, Apahce Hudi, и так далее. Вы знали, что у Apache есть еще и Paimon?
Хорошая статья (а в блоге еще и несколько других сценариев сравнения, например, при CDC) про сравнение этих табличных форматов.
@ohmydataengineer - канал "🕯 Труба Данных" заколебался слушать про айсберг
Я ж вас точно заколебал своим Iceberg (ну правда, из каждого угла, даже обещал ничего не постить про него). Так вот табличных форматов, на самом деле, больше: Delta Lake, Apahce Hudi, и так далее. Вы знали, что у Apache есть еще и Paimon?
Хорошая статья (а в блоге еще и несколько других сценариев сравнения, например, при CDC) про сравнение этих табличных форматов.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Jack Vanlightly
Table format comparisons - How do the table formats represent the canonical set of files? — Jack Vanlightly
This is the first in a series of short comparisons of table format internals. While I have written in some detail about each, I think it’s interesting to look at what is the same or similar and what sets them apart from each other. Question: How do the…
👍10💩4🔥2
https://docs.python.org/3.13/whatsnew/3.13.html
The biggest changes include a new interactive interpreter, experimental support for running in a free-threaded mode (PEP 703), and a Just-In-Time compiler (PEP 744).
А именно:
@ohmydataengineer - канал "🕯 Труба Данных" который сожалеет, что вопросы про GIL на собесах скоро станут нерелевантными.
The biggest changes include a new interactive interpreter, experimental support for running in a free-threaded mode (PEP 703), and a Just-In-Time compiler (PEP 744).
А именно:
CPython now has experimental support for running in a free-threaded mode, with the global interpreter lock (GIL) disabled
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Python documentation
What’s New In Python 3.13
Editors, Adam Turner and Thomas Wouters,. This article explains the new features in Python 3.13, compared to 3.12. Python 3.13 was released on October 7, 2024. For full details, see the changelog. ...
💩9👍3
https://www.youtube.com/@ApacheAirflow/videos
Apache Airflow Summit 2024 видосики подъехали!
Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs
Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.
@ohmydataengineer - канал "🕯 Труба Данных" который продолжает следить за Airflow
Apache Airflow Summit 2024 видосики подъехали!
Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs
Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Apache Airflow
This channel is a central repository for all talks and videos related to Apache Airflow.
Check out airflow.apache.org for more information.
Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…
Check out airflow.apache.org for more information.
Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…
👍15💩2🔥1
Forwarded from Клуб CDO (Denis Afanasev)
Как говориться - "как корабль назовешь" (не на правах рекламы, за название - пятерка)
Закрома – передовое российское ПО для хранения и управления корпоративными данными
Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.
https://zakroma.ru/
Закрома – передовое российское ПО для хранения и управления корпоративными данными
Гибридное хранилище, предназначенное для безопасного и экономичного хранения и управления корпоративными данными произвольного формата в крупных организациях.
ЗАКРОМА обеспечивает быстрый поиск, предоставляет API для удобного взаимодействия и обладает мощным контролем доступа. В основе ЗАКРОМА лежит современный стандарт S3, который позволяет создавать высоконадежное хранилище для эффективного хранения больших объемов данных.
https://zakroma.ru/
Закрома
ЗАКРОМА – российская платформа управления корпоративными данными
ЗАКРОМА — платформа для хранения и управления корпоративными данными. Единая экосистема для хранения, архивирования и совместной работы с файлами, полностью соответствующая требованиям 152-ФЗ и 187-ФЗ.
50🔥26❤8💩4
Я люблю смотреть футбол и горячо поддерживаю Челси в АПЛ. Там Oracle Cloud и Opta во время игры показывают всякие live-статистики о том, кто сколько пробежал, сколько касаний сделал в штрафной и так далее. Наткнулся на очень прикольный доклад про то, как это все работает (путь и в испанской La Liga, но суть понятна)
https://www.youtube.com/watch?v=yncU9F_FK8Y
@ohmydataengineer - канал "🕯 Труба Данных" продвигает датку в спорте
https://www.youtube.com/watch?v=yncU9F_FK8Y
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Technical and Tactical Football Analysis Through Data
How LaLiga uses and combines eventing and tracking data to implement novel analytics and metrics, thus helping analysts to better understand the technical and tactical aspects of their clubs.
This presentation will explain the treatment of these data and…
This presentation will explain the treatment of these data and…
👍15🔥6💩3❤1
https://clickhouse.com/blog/a-new-powerful-json-data-type-for-clickhouse
В продолжении разговора про JSON и Clickhouse, последние в своем блоге выкатили мяготки-внутрянки про то, как же под капотом работает новый нативный тип JSON.
@ohmydataengineer - канал "🕯 Труба Данных" все еще радуется как ребенок JSON
В продолжении разговора про JSON и Clickhouse, последние в своем блоге выкатили мяготки-внутрянки про то, как же под капотом работает новый нативный тип JSON.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
ClickHouse
How we built a new powerful JSON data type for ClickHouse
We’re excited to introduce our new and significantly enhanced JSON data type, purpose-built to deliver high-performance handling of JSON data. Our core engineer, Pavel Kruglov, dives into how we built this feature on top of ClickHouse's columnar storage.
👍8💩4
https://vutr.substack.com/p/datahub-the-metadata-platform-developed
Хороший вводный пост про то, как устроен и эволюционировал DataHub (это который каталог данных).
У автора, на самом деле, оч неплохой блог и интересные посты, глубже, чем стандартная писака в инторнетах, с погружением в детали. Полистайте его блог, там много интересного.
@ohmydataengineer - канал "🕯 Труба Данных" который делится интересным блогом про датку
Хороший вводный пост про то, как устроен и эволюционировал DataHub (это который каталог данных).
У автора, на самом деле, оч неплохой блог и интересные посты, глубже, чем стандартная писака в инторнетах, с погружением в детали. Полистайте его блог, там много интересного.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
DataHub: The Metadata Platform Developed at LinkedIn
How did LinkedIn manage the data catalog at scale?
🔥5👍3💩3❤1
https://xtable.incubator.apache.org
Наплодили форматов разных для таблиц, кто это будет все вместе собирать? Iceberg, Hive, Hudi, Delta Lake и так далее.
У Apache теперь появился X Table, тулза чтобы синхронизировать метаданные среди этого всего зоопарка.
@ohmydataengineer - канал "🕯 Труба Данных" который держит обещание и не пишет про Iceberg (почти).
Наплодили форматов разных для таблиц, кто это будет все вместе собирать? Iceberg, Hive, Hudi, Delta Lake и так далее.
У Apache теперь появился X Table, тулза чтобы синхронизировать метаданные среди этого всего зоопарка.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
xtable.incubator.apache.org
Apache XTable™ (Incubating)
Apache XTable™ (Incubating) is a cross-table interop of lakehouse table formats Apache Hudi, Apache Iceberg, and Delta Lake. Apache XTable™ is NOT a new or separate format, Apache XTable™ provides abstractions and tools for the translation of lakehouse table…
🔥9👍4💩4🥱2❤1
В качестве пятничного юмора вашему вниманию представляется экспонат "Полочка" или что такое мутации в Clickhouse на больших объемах 😁
@ohmydataengineer
@ohmydataengineer
💩17😢7🔥3
https://dataengineeringcentral.substack.com/p/10-billion-row-challenge-duckdb-vs
Забавная статья о том, как сравнивали на одной машинке DuckDB, Polars и Daft и что из этого вышло. Первый так вообще какое-то время назад был из каждого утюга, но в итоге я пока не видел ни одного хорошо нагруженного production-ready решения. А в статье выше решение из коробки жиденько обделалось с датасетом на 16 гигов из Parquet. Причем в прошлом году, кажется, я читал пост этого же автора, с DuckDB были все те же проблемы с ООМ.
Конечно, тест можно было бы провести и поглубже, ну как минимум не один раз (для сравнения). Ну да ладно.
(По работе, возможно, предстоит потрогать Rust, поэтому и смотрю на статьи, связанные с обработкой данных и Растом)
Upd: в личные сообщения принесли дополнение к статье (by @dnbnero)
Статья немного странная.
Плюс когда стал перепроверять у себя - либо я что-то делаю не так, либо в статье заблуждение/ошибка/обман. Даже если брать сжатый parquet, строка в среднем весит 52 байта, что при 10 млрд записей никак не 16гб. А в оригинале утилита выдаёт несжатые файлы...
И в комментариях без меня написали, что зря ctas использовали в duckdb - он умеет запросы напрямую в с3 и паркеты запускать
@ohmydataengineer - канал "🕯 Труба Данных" напоминает, что модное и молодежное - не всегда... (ну вы поняли)
Забавная статья о том, как сравнивали на одной машинке DuckDB, Polars и Daft и что из этого вышло. Первый так вообще какое-то время назад был из каждого утюга, но в итоге я пока не видел ни одного хорошо нагруженного production-ready решения. А в статье выше решение из коробки жиденько обделалось с датасетом на 16 гигов из Parquet. Причем в прошлом году, кажется, я читал пост этого же автора, с DuckDB были все те же проблемы с ООМ.
Конечно, тест можно было бы провести и поглубже, ну как минимум не один раз (для сравнения). Ну да ладно.
(По работе, возможно, предстоит потрогать Rust, поэтому и смотрю на статьи, связанные с обработкой данных и Растом)
Upd: в личные сообщения принесли дополнение к статье (by @dnbnero)
Статья немного странная.
Плюс когда стал перепроверять у себя - либо я что-то делаю не так, либо в статье заблуждение/ошибка/обман. Даже если брать сжатый parquet, строка в среднем весит 52 байта, что при 10 млрд записей никак не 16гб. А в оригинале утилита выдаёт несжатые файлы...
И в комментариях без меня написали, что зря ctas использовали в duckdb - он умеет запросы напрямую в с3 и паркеты запускать
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
10 billion row challenge. DuckDB vs Polars vs Daft.
... just for fun.
👍9💩4❤3
https://vutr.substack.com/p/i-spent-6-hours-learning-apache-arrow
Долго для вас хранил мяготку, никому не отдавал, но пришло время - мне оч нравится этот блог и как статьи пишет автор в нем. Погружается достаточно глубоко в детали и очень все доступно поясняет. Как пример - как работает Apache Arrow.
Потыкайте в его блог, там еще очень много всяких интересных чтив.
@ohmydataengineer - канал "🕯 Труба Данных" не прячет от вас крутые блоги и статьи и не переписывает их своими словами
Долго для вас хранил мяготку, никому не отдавал, но пришло время - мне оч нравится этот блог и как статьи пишет автор в нем. Погружается достаточно глубоко в детали и очень все доступно поясняет. Как пример - как работает Apache Arrow.
Потыкайте в его блог, там еще очень много всяких интересных чтив.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
I spent 6 hours learning Apache Arrow: Overview
Why do we need a standard memory format for analytics workload?
❤26👍9💩3
https://www.uber.com/en-BG/blog/d3-an-automated-system-to-detect-data-drifts/
Статья 2-х годовалой давности, но все также интересная. О том как Uber работает с Data Drift для своих ML моделей.
@ohmydataengineer - канал "🕯 Труба Данных" это коротко и интересно.
Статья 2-х годовалой давности, но все также интересная. О том как Uber работает с Data Drift для своих ML моделей.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3💩1
https://github.com/ClickHouse/ClickHouse/pull/71542
Я обещал ничего не рассказывать про Iceberg какое-то время, но такого обещания не было про Clickhouse.
Однако новость выше не могу пропустить!🔥
Clickhouse в процессе добавления поддержки Iceberg каталога (на скриншоте пример чтения из Apache Polaris)
@ohmydataengineer - канал "🕯 Труба Данных" не нарушает своих обещаний!.
Я обещал ничего не рассказывать про Iceberg какое-то время, но такого обещания не было про Clickhouse.
Однако новость выше не могу пропустить!
Clickhouse в процессе добавления поддержки Iceberg каталога (на скриншоте пример чтения из Apache Polaris)
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17💩3❤2👍2
https://aws.amazon.com/about-aws/whats-new/2024/12/amazon-s3-tables-apache-iceberg-tables-analytics-workloads/
Ну что я могу поделать, если уже и Amazon подкидывает мне новости, которые я обещал не рассказывать? AWS выкатывает специальные Amazon S3 Tables бакеты, с нативной и встроенной поддержкой Apache Iceberg
По словам провайдера - specifically optimized for analytics workloads, resulting in up to 3x faster query throughput and up to 10x higher transactions per second compared to self-managed tables
@ohmydataengineer - канал "🕯 Труба Данных" все-таки иногда нарушает своих обещаний!.
Ну что я могу поделать, если уже и Amazon подкидывает мне новости, которые я обещал не рассказывать? AWS выкатывает специальные Amazon S3 Tables бакеты, с нативной и встроенной поддержкой Apache Iceberg
По словам провайдера - specifically optimized for analytics workloads, resulting in up to 3x faster query throughput and up to 10x higher transactions per second compared to self-managed tables
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Amazon
Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads - AWS
Discover more about what's new at AWS with Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads
❤13💩4👍2🔥2
Forwarded from Время Валеры
Интересные времена, оказывается разбивать данные на партиции в момент их заливки уже немодно, согласно Progressive Partitioning for Parallelized Query Execution in Google’s Napa
Внедрили динамическое партицирование для каждого запроса, потому что:
* Гранулярность партиций сильно зависит от конкретного запроса.
* Фиксированные партиции не справляются с перекошенным распределением данных и динамическими нагрузками.
Система использует прогрессивное партицирование, уточняя границы партиций итеративно до тех пор, пока не будет достигнута оптимальная гранулярность для запроса. Это позволяет балансировать между качеством разбиения и производительностью.
Как это работает?
1. Данные хранятся в LSM деревьях, где каждый апдейт добавляется в виде дельты (таких дельт в системе может быть тысячи).
2. Дельта - это иммутабельные (неизменяемые) снапшоты, и они образуются, когда данные из памяти (memtable) сбрасываются на диск. Вдобавок они отсортированы по ключам. Дельты попадают сначала в Level 0, где данные остаются отсортированными, но разные дельты могут перекрываться по ключам. Компактизация со временем переносит данные на следующий уровень, устраняя дублирование и перекрытия.
3. В каждой дельте есть свой B Tree индекс, позволяющий эффективно работать с широкими диапазонами ключей и выбирать нужную гранулярность в рамках дельты.
4. Min/max информация о ключах хранится как отдельные метаданные, позволяя быстро отфильтровать ненужные дельты еще до обхода B Tree.
5. Вместо того чтобы полагаться на статическое разбиение, система динамически партицирует данные в момент выполнения запроса.
В чем плюсы?
Быстрая запись: данные просто записываются в неизменяемые файлы (дельты), без затрат на реструктуризацию.
Эффективное чтение: запросы динамически получают оптимальные партиции, что минимизирует перекос нагрузки.
Масштабируемость: иерархическая структура B-деревьев и организация дельт позволяют LSM-деревьям работать с петабайтами данных и миллиардами запросов.
Этот подход помогает Google масштабировать свои хранилища, оставаясь гибкими и эффективными даже под нагрузкой в миллиарды запросов в день.
Интересно и неожиданно - не думал что партицирование будет динамическим, но логично.
Внедрили динамическое партицирование для каждого запроса, потому что:
* Гранулярность партиций сильно зависит от конкретного запроса.
* Фиксированные партиции не справляются с перекошенным распределением данных и динамическими нагрузками.
Система использует прогрессивное партицирование, уточняя границы партиций итеративно до тех пор, пока не будет достигнута оптимальная гранулярность для запроса. Это позволяет балансировать между качеством разбиения и производительностью.
Как это работает?
1. Данные хранятся в LSM деревьях, где каждый апдейт добавляется в виде дельты (таких дельт в системе может быть тысячи).
2. Дельта - это иммутабельные (неизменяемые) снапшоты, и они образуются, когда данные из памяти (memtable) сбрасываются на диск. Вдобавок они отсортированы по ключам. Дельты попадают сначала в Level 0, где данные остаются отсортированными, но разные дельты могут перекрываться по ключам. Компактизация со временем переносит данные на следующий уровень, устраняя дублирование и перекрытия.
3. В каждой дельте есть свой B Tree индекс, позволяющий эффективно работать с широкими диапазонами ключей и выбирать нужную гранулярность в рамках дельты.
4. Min/max информация о ключах хранится как отдельные метаданные, позволяя быстро отфильтровать ненужные дельты еще до обхода B Tree.
5. Вместо того чтобы полагаться на статическое разбиение, система динамически партицирует данные в момент выполнения запроса.
В чем плюсы?
Быстрая запись: данные просто записываются в неизменяемые файлы (дельты), без затрат на реструктуризацию.
Эффективное чтение: запросы динамически получают оптимальные партиции, что минимизирует перекос нагрузки.
Масштабируемость: иерархическая структура B-деревьев и организация дельт позволяют LSM-деревьям работать с петабайтами данных и миллиардами запросов.
Этот подход помогает Google масштабировать свои хранилища, оставаясь гибкими и эффективными даже под нагрузкой в миллиарды запросов в день.
Интересно и неожиданно - не думал что партицирование будет динамическим, но логично.
👍24💩2❤1
Помните, какое-то время назад просил заполнить опрос, на каких специалистов в публичном поле и каналы / блоги вы подписаны? Так вот NEWHR выпустили рейтинг и список.
В этом году ни в какие топы я не попал 😁, а в топе есть пара новых имен.
Если вам интересно посмотреть на полные рейтинги и списки экспертов из исследования можно тут.
@ohmydataengineer - канал "🕯 Труба Данных" вне всяких рейтингов!
В этом году ни в какие топы я не попал 😁, а в топе есть пара новых имен.
Если вам интересно посмотреть на полные рейтинги и списки экспертов из исследования можно тут.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
💩6👍4😢4
Пора подводить итоги 2024!
Вот тут год назад писал про свои цели. Посмотрим, что ж из этого вышло:
✔️ Рост каналов @ohmydataengineer и @career_works
Второй канал я удалил, потому что он что-то совсем меня не зажигал в течении года. Материалов копилось много, а обрабатывать их совершенно не было сил. Ну а Труба Данных выросла до 3600+, исполнив цель минимум. Так что можно сказать успех.
✔️ Полноценный релиз Data Catalog, Data Contracts и удалить Jenkins
Каталог появился, дата контракты тоже, да и на Airflow с Jenkins пошел полным ходом.
⚠️ Карьерные консультации
Продолжало идти само по себе. Но есть несколько хороших кейсов (+800 евро net в месяц на вакухе в Европе или +150 тыс. руб. net в России). В индивидуальных консультациях тоже все идет как идет. Не могу сказать, что цель провалена, но и что я достиг того, что планировал.
❌ Substack и материалы на английском языке
Так и не нашел смысла начать писать на английском языке. Точнее смысл то был, но цель снова не легла в душу, поэтому я ее всячески откладывал и прокрастинировал. В итоге удалил Substack так и не написав ни одной статьи.
❌ Выступление на конференции
Что-то в этом году не было ни сил, ни тем выступать. Также, к сожалению, не стало в живых Маши, моего постоянного куратора на SmartData и я не смог отойти от этого. BigData Londong тоже прошла мимо.
С точки зрения выполнения целей ставлю себе "почти удовлетворительно" - хотелось бы больше, масштабней, но не удалось. Однако почти все "неуспехи" удалось проработать с психологом или с ментором, поэтому следующий год должен быть обязательно продуктивней!
@ohmydataengineer
Вот тут год назад писал про свои цели. Посмотрим, что ж из этого вышло:
Второй канал я удалил, потому что он что-то совсем меня не зажигал в течении года. Материалов копилось много, а обрабатывать их совершенно не было сил. Ну а Труба Данных выросла до 3600+, исполнив цель минимум. Так что можно сказать успех.
Каталог появился, дата контракты тоже, да и на Airflow с Jenkins пошел полным ходом.
Продолжало идти само по себе. Но есть несколько хороших кейсов (+800 евро net в месяц на вакухе в Европе или +150 тыс. руб. net в России). В индивидуальных консультациях тоже все идет как идет. Не могу сказать, что цель провалена, но и что я достиг того, что планировал.
Так и не нашел смысла начать писать на английском языке. Точнее смысл то был, но цель снова не легла в душу, поэтому я ее всячески откладывал и прокрастинировал. В итоге удалил Substack так и не написав ни одной статьи.
Что-то в этом году не было ни сил, ни тем выступать. Также, к сожалению, не стало в живых Маши, моего постоянного куратора на SmartData и я не смог отойти от этого. BigData Londong тоже прошла мимо.
С точки зрения выполнения целей ставлю себе "почти удовлетворительно" - хотелось бы больше, масштабней, но не удалось. Однако почти все "неуспехи" удалось проработать с психологом или с ментором, поэтому следующий год должен быть обязательно продуктивней!
@ohmydataengineer
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27👍12💩3
https://clickhouse.com/blog/a-simple-guide-to-clickhouse-query-optimization-part-1
Чем меньше SLA, тем быстрей должен работать Clickhouse, реальность моей текущей работы.
Поэтому приходится читать много про всякие оптимизации.
А тут и сам Clickhouse подвез прекрасную стартовую статью для этого. Просто следуйте за ходом мыслей в статье при анализе плана запроса и применяйте в своей работе.
Ах да, мое любимое, каждый раз забываю 🤪 - An easy rule of thumb for determining which columns are good candidates for LowCardinality is that any column with less than 10,000 unique values is a perfect candidate.
@ohmydataengineer - канал "🕯 Труба Данных" продолжает любить Clickhouse!
Чем меньше SLA, тем быстрей должен работать Clickhouse, реальность моей текущей работы.
Поэтому приходится читать много про всякие оптимизации.
А тут и сам Clickhouse подвез прекрасную стартовую статью для этого. Просто следуйте за ходом мыслей в статье при анализе плана запроса и применяйте в своей работе.
Ах да, мое любимое, каждый раз забываю 🤪 - An easy rule of thumb for determining which columns are good candidates for LowCardinality is that any column with less than 10,000 unique values is a perfect candidate.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
ClickHouse
A simple guide to ClickHouse query optimization: part 1
A beginner-friendly guide to spotting slow ClickHouse queries and applying basic optimization tips.
👍22🔥7💩2👎1🥱1