https://vutr.substack.com/p/how-clickhouse-built-their-internal
Одна из технологий, с которой я очень люблю работать - Clickhouse. О том, как сам Clickhouse строит у себя DWH - по ссылке в статье.
Все очень просто: CH, S3, Airflow, Superset и никаких дата волтов.
@ohmydataengineer - канал "🕯 Труба Данных" про работу с данными
Одна из технологий, с которой я очень люблю работать - Clickhouse. О том, как сам Clickhouse строит у себя DWH - по ссылке в статье.
Все очень просто: CH, S3, Airflow, Superset и никаких дата волтов.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
I spent 5 hours learning how ClickHouse built their internal data warehouse.
19 data sources and a total of 470 TB of compressed data.
🔥25❤10💩6👍2👎1
https://clickhouse.com/blog/clickhouse-release-24-08
И в продолжении темы Clickhouse, последний релиз принес прям очень хорошую фичу - JSON as native type.
По ссылке - релиз-ноуты с примерами
@ohmydataengineer - канал "🕯 Труба Данных" про работу с данными
И в продолжении темы Clickhouse, последний релиз принес прям очень хорошую фичу - JSON as native type.
По ссылке - релиз-ноуты с примерами
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
ClickHouse
ClickHouse Release 24.8 LTS
ClickHouse 24.8 LTS is available. In this post, you will learn about the new JOIN datatype and TimeSeries table engine.
🔥13❤5👍2💩1
https://archive.apache.org/dist/spark/spark-4.0.0-preview2/
А я помню времена, когда мы всем селом переезжали с Spark 2 на Spark 3, а оно вон как уже - Spark 4 на подходе!
Все новые фичи:
- видос от Databricks https://www.youtube.com/watch?v=WwVE_be2JuA
- их же слайды (много слайдов) https://drive.google.com/viewerng/viewer?url=https://microsites.databricks.com/sites/default/files/dais/2024/D242404B_2024.06.17.What%25E2%2580%2599s%2520Next%2520for%2520the%2520Upcoming%2520Apache%2520Spark%25204.0_1718511032810001JGNS.pdf
@ohmydataengineer - канал "🕯 Труба Данных" про ток, как мигрировать данные!
А я помню времена, когда мы всем селом переезжали с Spark 2 на Spark 3, а оно вон как уже - Spark 4 на подходе!
Все новые фичи:
- видос от Databricks https://www.youtube.com/watch?v=WwVE_be2JuA
- их же слайды (много слайдов) https://drive.google.com/viewerng/viewer?url=https://microsites.databricks.com/sites/default/files/dais/2024/D242404B_2024.06.17.What%25E2%2580%2599s%2520Next%2520for%2520the%2520Upcoming%2520Apache%2520Spark%25204.0_1718511032810001JGNS.pdf
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
What’s Next for the Upcoming Apache Spark 4.0?
"The upcoming release of Apache Spark 4.0 delivers substantial enhancements that refine the functionality and augment the developer experience with the unified analytics engine. This presentation will highlight: Spark Connect’s GA for enhanced usability and…
👍14💩2
https://new.mta.info/article/mta-open-data-challenge
Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge.
Без каких-либо супер огромных денежных призов, ручка/кружка и пост в блоге☺️ Но датасеты клевые, покрутить можно всякое.
@ohmydataengineer - канал "🕯 Труба Данных", который расскажет про публичные датасеты интересно
Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge.
Participants will develop a project that creatively utilizes at least one MTA open dataset.
Whether you're passionate about transportation, technology, or urban planning, this is your chance to dig deeper into MTA’s open data and make a meaningful impact.
Без каких-либо супер огромных денежных призов, ручка/кружка и пост в блоге☺️ Но датасеты клевые, покрутить можно всякое.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
MTA
MTA Open Data Challenge
The MTA is excited to announce our first-ever Open Data Challenge! This month-long competition invites community members, developers, and data enthusiasts to harness the power of MTA's open data.
👍15💩3❤1🔥1
Simon Osipov
https://new.mta.info/article/mta-open-data-challenge Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge. Participants will develop…
Мне справедливо заметили, что чтобы официально поучавствовать и подать свой проект - нужно быть резидентом USA.
Придется выкладывать "на сетку" бесплатно 😄
Придется выкладывать "на сетку" бесплатно 😄
💩15
Пришло время обновлять Airbyte!
https://www.youtube.com/watch?v=cy6S14zv4qo
Еще один крупный инструмент на рынке перемещения данных туда-сюда Airbyte получил свою первую мажорную версию 1.0! По ссылке выше - видео-трансляция дня релиза, а все новые фичи описаны тут https://airbyte.com/v1
Штук много всяких интересных привезли, но самое интересное для меня - https://airbyte.com/blog/supporting-very-large-cdc-syncs-with-wass Large CDC with WASS и чекпоинты - https://airbyte.com/blog/checkpointing
@ohmydataengineer - канал "🕯 Труба Данных" который продолжает обновлять инструменты!
https://www.youtube.com/watch?v=cy6S14zv4qo
Еще один крупный инструмент на рынке перемещения данных туда-сюда Airbyte получил свою первую мажорную версию 1.0! По ссылке выше - видео-трансляция дня релиза, а все новые фичи описаны тут https://airbyte.com/v1
Штук много всяких интересных привезли, но самое интересное для меня - https://airbyte.com/blog/supporting-very-large-cdc-syncs-with-wass Large CDC with WASS и чекпоинты - https://airbyte.com/blog/checkpointing
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Airbyte 1.0 Launch
Airbyte is the leading open-source data movement infrastructure for building extract and load (EL) data pipelines. It is designed for versatility, scalability, and ease-of-use.
This video features the entire launch event of Airbyte 1.0 with the following…
This video features the entire launch event of Airbyte 1.0 with the following…
👍12🔥4💩3❤2
https://craftingdataproducts.substack.com/p/the-data-death-cycle
О том, как помирают дата проекты.
В основе статьи лежит довольно простой, но обухом бьющий по голове, список ошибок:
- The Tech Trap: когда мы задаем вопрос "Какую проблему может решить эта технология?" вместо поиска проблемы и затем двигаться к технологии
- The Doing Trap: когда мы сразу как лего-ниндзяга прыгаем кодить решение, когда на деле нужно было посидеть и сделать дизайн / планирование. Так как кодинг - знакомая нам территория.
- The Project Trap: когда мы запланировали "проект" и совершенно не следим за тем, что окружение и задачи могли смениться и нам тоже нужно меняться. Но нет, мы будем дальше долбить спринты на то, что для нас уже не очень актуально
- The Silo Trap: мы сейчас все у себя нафигачим и всем дадим. А то, что всем это уже возможно не нужно, или они ожидают это иначе - не важно. Коммуникация важней чем кранчи.
- The Performance-First Trap: важные, но не актуальные или сложно-достижимые метрики становятся во главу угла и идет мастурбирование на них (100% DATA QUALITY!!?!?!)
В итоге получается как на картинке.
@ohmydataengineer - канал "🕯 Труба Данных" про то, как работать с данными нормально.
О том, как помирают дата проекты.
В основе статьи лежит довольно простой, но обухом бьющий по голове, список ошибок:
- The Tech Trap: когда мы задаем вопрос "Какую проблему может решить эта технология?" вместо поиска проблемы и затем двигаться к технологии
- The Doing Trap: когда мы сразу как лего-ниндзяга прыгаем кодить решение, когда на деле нужно было посидеть и сделать дизайн / планирование. Так как кодинг - знакомая нам территория.
- The Project Trap: когда мы запланировали "проект" и совершенно не следим за тем, что окружение и задачи могли смениться и нам тоже нужно меняться. Но нет, мы будем дальше долбить спринты на то, что для нас уже не очень актуально
- The Silo Trap: мы сейчас все у себя нафигачим и всем дадим. А то, что всем это уже возможно не нужно, или они ожидают это иначе - не важно. Коммуникация важней чем кранчи.
- The Performance-First Trap: важные, но не актуальные или сложно-достижимые метрики становятся во главу угла и идет мастурбирование на них (100% DATA QUALITY!!?!?!)
В итоге получается как на картинке.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18💩3😢2
https://www.timescale.com/blog/scaling-postgresql-to-petabyte-scale
Ожидал побольше мяготки и деталей от самих TimeScale, но внутри без графиков, к сожалению. Что очень странно, ведь ребята в прямом смысле делали dogfooding.
Однако в целом очень жирное заявление: 1 (!!) инстанс, 800 миллиардов метрик в день. Ничего себе так разогнали Postgres⬆️
@ohmydataengineer - канал "🕯 Труба Данных" про то, как не сходить с ума от очень большой даты.
Ожидал побольше мяготки и деталей от самих TimeScale, но внутри без графиков, к сожалению. Что очень странно, ведь ребята в прямом смысле делали dogfooding.
Однако в целом очень жирное заявление: 1 (!!) инстанс, 800 миллиардов метрик в день. Ничего себе так разогнали Postgres
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8💩4
https://juhache.substack.com/p/rip-iceberg-catalogs
Ложка дегтя о модном Iceberg
Если вы собираетесь пересаживаться на Iceberg формат табличке (модная сейчас тема), полезно знать и возможные проблемки, с которыми вы столкнетесь и пути их решения. Небольшая статья с картинками. Пригодится в споре с закисшими архитекторами.
@ohmydataengineer - канал "🕯 Труба Данных" разрушает фантазии о модных технологиях.
Ложка дегтя о модном Iceberg
Если вы собираетесь пересаживаться на Iceberg формат табличке (модная сейчас тема), полезно знать и возможные проблемки, с которыми вы столкнетесь и пути их решения. Небольшая статья с картинками. Пригодится в споре с закисшими архитекторами.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
RIP Iceberg Catalogs ?
Ju Data Engineering Weekly - Ep 74
💩7👍4
https://www.uber.com/en-DE/blog/preon/
Как Uber написал свой анализатор запросов (оптимизатор, улучшатор) для Presto
В общем, классика - стандартные инструменты не справлялись с нагрузкой / задачами / итд, поэтому мы написали свою - Preon. Потому что нужно и потому что можем.
Но под капотом там интересные штуки, например, если они понимают, что запрос один и тот же, то зачем его исполнять, если у тебя есть TTL в 24 часа и этот запрос закеширован? 😃
@ohmydataengineer - канал "🕯 Труба Данных" рассказывает про проблемы 1% компаний.
Как Uber написал свой анализатор запросов (оптимизатор, улучшатор) для Presto
В общем, классика - стандартные инструменты не справлялись с нагрузкой / задачами / итд, поэтому мы написали свою - Preon. Потому что нужно и потому что можем.
Но под капотом там интересные штуки, например, если они понимают, что запрос один и тот же, то зачем его исполнять, если у тебя есть TTL в 24 часа и этот запрос закеширован? 😃
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16💩3
https://prestodb.io/blog/2024/09/26/query-optimization-with-historical-based-optimization-framework-in-presto/
Ну и далеко чтобы далеко не ходить, вот еще больше деталей про HBO (Historical-Based Optimization) в Мете, на том же Presto.
Чтиво по ссылке выше, а вот видео со скриншотов (и весь плейлист с одного из митапов Presto) - вот тут https://www.youtube.com/watch?v=C1LVg7VOWwg&list=PLJVeO1NMmyqUO07nUAbu7RyG1AM36iCGS&index=10
@ohmydataengineer - канал "🕯 Труба Данных" решающий теорему Эскобара для Trino и Presto
Ну и далеко чтобы далеко не ходить, вот еще больше деталей про HBO (Historical-Based Optimization) в Мете, на том же Presto.
Чтиво по ссылке выше, а вот видео со скриншотов (и весь плейлист с одного из митапов Presto) - вот тут https://www.youtube.com/watch?v=C1LVg7VOWwg&list=PLJVeO1NMmyqUO07nUAbu7RyG1AM36iCGS&index=10
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
PrestoDB
Query Optimization with Historical-Based Optimization Framework in Presto
In this blog I'll discuss the historical-based optimization (HBO), a framework open-sourced by Meta (see their presentation from PrestoCon) and used in
👍3💩1
SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL
Мы все умрем, а SQL и Excel остануться править миром. Даже из нейроинтерфейсов все равно будем вставлять данные в ячейки.
При этом Google внутри себя написал новую спецификацию c видоизменным синтакисом, типа так удобней. И даже почти 2 тысячи человек этим внутри теперь пользуется.
Всякие подробности в PDF (но ее можно скачать отсюда - https://research.google/pubs/sql-has-problems-we-can-fix-them-pipe-syntax-in-sql)
Как мне кажется, так и останется нишевой штукой внутри Гугла🤓
@ohmydataengineer - канал "🕯 Труба Данных" смотрящий за помиранием Ходуба и SQL
Мы все умрем, а SQL и Excel остануться править миром. Даже из нейроинтерфейсов все равно будем вставлять данные в ячейки.
При этом Google внутри себя написал новую спецификацию c видоизменным синтакисом, типа так удобней. И даже почти 2 тысячи человек этим внутри теперь пользуется.
Всякие подробности в PDF (но ее можно скачать отсюда - https://research.google/pubs/sql-has-problems-we-can-fix-them-pipe-syntax-in-sql)
Как мне кажется, так и останется нишевой штукой внутри Гугла
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11💩8🥱3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Опросики мои любимые опросики!
Оч люблю ребят из NEW.HR за контент, который они делают (в том числе карьерные консультации и исследования). Я сам принимал участие в некоторых (кстати, DE обещают в 2025) и всегда получал очень интересные наблюдения.
Ребята как раз сейчас проводят исследование аналитиков всех типов и видов:
Что исследуют?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют
Выборка там, чаще всего, из нескольких тысяч человек, всем кто проходит опрос - присылают результаты заранее (а там мяготка в виде зарплат, например. Вам же надо чем-то аргументировать про рынок?😂)
Прошу вас потратить 10-15 минут и пройти опрос, будет очень полезно для сообщества.
Ну и результаты я сюда тоже выложу.
▶️ Ссылка на опросник тут ◀️
@ohmydataengineer - канал "🕯 Труба Данных" который помогает узнать больше информации про рынок работы с данными
Оч люблю ребят из NEW.HR за контент, который они делают (в том числе карьерные консультации и исследования). Я сам принимал участие в некоторых (кстати, DE обещают в 2025) и всегда получал очень интересные наблюдения.
Ребята как раз сейчас проводят исследование аналитиков всех типов и видов:
Что исследуют?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков
👉 Где и как работают аналитики
👉 Как меняется зона ответственности аналитиков
👉 Как аналитики ищут работу и выбирают работодателя.
👉 Чему учатся аналитики
👉 Каких экспертов котируют
Выборка там, чаще всего, из нескольких тысяч человек, всем кто проходит опрос - присылают результаты заранее (а там мяготка в виде зарплат, например. Вам же надо чем-то аргументировать про рынок?😂)
Прошу вас потратить 10-15 минут и пройти опрос, будет очень полезно для сообщества.
Ну и результаты я сюда тоже выложу.
▶️ Ссылка на опросник тут ◀️
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩7❤1🔥1
https://cwiki.apache.org/confluence/display/AIRFLOW/Airflow+3.0
Airflow 3 на подходе
По заголовку все понятно, там скоро-скоро (ладно, не скоро, Альфа в январе, Бета в феврале, Релиз - в марте 2025) мажорное обновление Airflow, а с ним и куча фичей и новый UI и так далее.
Что же новенького будет - по ссылке выше. Меня интересует 3 вещи - конечно же, новый UI, Assets и External Event Driver Scheduling.
@ohmydataengineer - канал "🕯 Труба Данных" который сильно заранее рассказывает про обновления
Airflow 3 на подходе
По заголовку все понятно, там скоро-скоро (ладно, не скоро, Альфа в январе, Бета в феврале, Релиз - в марте 2025) мажорное обновление Airflow, а с ним и куча фичей и новый UI и так далее.
Что же новенького будет - по ссылке выше. Меня интересует 3 вещи - конечно же, новый UI, Assets и External Event Driver Scheduling.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤2🔥2💩2
https://www.rand.org/pubs/research_reports/RRA2680-1.html
The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed
Прекрасная статья о том, почему на текущем хайпе проваливаются большинство проектов, связанных с AI. Детали в самой статье (на английском, кнопка скачать PDF в правом верхнем углу).
А вот главные причины коротко:
Optimizing for the Wrong Business Problem
Пытаемся оптимизировать не то, что надо оптимизировать бизнесу.
Using Artificial Intelligence to Solve Simple Problems
Пытаемся решить и так уже простые, решенные задачи - например, ответ на вопрос на который у нас уже есть дашборд
Overconfidence in Artificial Intelligence
Надеемся, что AI решит все наши проблемы, одна моделька и графики c деньгами go brrrr!
Underestimating the Time Commitment Needed
Не представляем, сколько нам нужно времени на внедрение чего-то действительно стоящего
Lack of Suitable Data & Unbalanced Data
Ну, тут все как обычно - GIGO - если на входе у нас дерьмовые данные, то и на выходе у нас будет дерьмовый AI
@ohmydataengineer - канал "🕯 Труба Данных" разрушает фантазии о том, что AI вас спасет
The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed
Прекрасная статья о том, почему на текущем хайпе проваливаются большинство проектов, связанных с AI. Детали в самой статье (на английском, кнопка скачать PDF в правом верхнем углу).
А вот главные причины коротко:
Optimizing for the Wrong Business Problem
Пытаемся оптимизировать не то, что надо оптимизировать бизнесу.
Using Artificial Intelligence to Solve Simple Problems
Пытаемся решить и так уже простые, решенные задачи - например, ответ на вопрос на который у нас уже есть дашборд
Overconfidence in Artificial Intelligence
Надеемся, что AI решит все наши проблемы, одна моделька и графики c деньгами go brrrr!
Underestimating the Time Commitment Needed
Не представляем, сколько нам нужно времени на внедрение чего-то действительно стоящего
Lack of Suitable Data & Unbalanced Data
Ну, тут все как обычно - GIGO - если на входе у нас дерьмовые данные, то и на выходе у нас будет дерьмовый AI
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
www.rand.org
Why AI Projects Fail and How They Can Succeed
By some estimates, more than 80 percent of AI projects fail. That's twice the rate of failure of information technology projects that do not involve AI. Interviews with data scientists and engineers in industry and academia highlight five leading root causes…
👍13💩3🥱3