🧊Итак, по холодным следам конференции, пост про айсберг (Apache Iceberg)
Если вкратце то мне показалось, что это Hive Metastore на стероидах, фактически iceberg сводит все метаданные в одно место и консистентно их обновляет предварительно разложив на более сложную структуру каталогов и снепшотов (4 типа файлов метаданных)
Ряд особенностей
🧊 Уходят проблемы HMS (Hive Metastore), в части скорости чтения и конфликтов читателей и писателей. (Очень актуально для моей команды)
🧊 К айсбергу можно подключить любые вычислительные движки и фреймворки (Trino, Spark etc)
🧊 Iceberg частично привносит ACID в дата лейки.
🧊 Айсберг не поддерживает кросс табличные транзакции
🧊 Метаданные обновляются по принципу схожему с гитом - те есть возможность сказать айсбергу - «обратись к таблице на такой то момент времени»
🧊 Атомарность реализуется с помощью систем каталогов. Самые популярные в СНГ HMS каталоги. Есть JDBC каталоги. Самые перспективные - REST каталоги их в основном используют в западных командах - на них в конечном счете все перейдут.
Подводя итог:
Главный selling point айсберга - универсальность движков
- увеличение скорости обращения к данным
- условно реализуется ACID для больших данных
Рекомендуется внедрять если
✅У вас много разных вычислительных движков
✅У вас к одним и тем же данным обращается система визуализации, интеграционные процессы и например пайплайны обработки данных
✅Вы не хотите платить за не опенсорс решения вроде
Hudi, delta lake, Paimon
Если вкратце то мне показалось, что это Hive Metastore на стероидах, фактически iceberg сводит все метаданные в одно место и консистентно их обновляет предварительно разложив на более сложную структуру каталогов и снепшотов (4 типа файлов метаданных)
Ряд особенностей
🧊 Уходят проблемы HMS (Hive Metastore), в части скорости чтения и конфликтов читателей и писателей. (Очень актуально для моей команды)
🧊 К айсбергу можно подключить любые вычислительные движки и фреймворки (Trino, Spark etc)
🧊 Iceberg частично привносит ACID в дата лейки.
🧊 Айсберг не поддерживает кросс табличные транзакции
🧊 Метаданные обновляются по принципу схожему с гитом - те есть возможность сказать айсбергу - «обратись к таблице на такой то момент времени»
🧊 Атомарность реализуется с помощью систем каталогов. Самые популярные в СНГ HMS каталоги. Есть JDBC каталоги. Самые перспективные - REST каталоги их в основном используют в западных командах - на них в конечном счете все перейдут.
Подводя итог:
Главный selling point айсберга - универсальность движков
- увеличение скорости обращения к данным
- условно реализуется ACID для больших данных
Рекомендуется внедрять если
✅У вас много разных вычислительных движков
✅У вас к одним и тем же данным обращается система визуализации, интеграционные процессы и например пайплайны обработки данных
✅Вы не хотите платить за не опенсорс решения вроде
Hudi, delta lake, Paimon
🔥10🤔2🤯2
⚡️ Я проник на новую конференцию - CodeFest 15 …
Тематика на этот раз более общий computer science и programming, но есть доклады и про данные.
Так же никак не обошлось без AI
Конференция стартует завтра, вместе с серией новых постов от меня
P.S. забавно как меня пустили в павильоны до начала конференции
Тематика на этот раз более общий computer science и programming, но есть доклады и про данные.
Так же никак не обошлось без AI
Конференция стартует завтра, вместе с серией новых постов от меня
P.S. забавно как меня пустили в павильоны до начала конференции
🔥4❤2🆒1
📊 📈 📉 Интересно было послушать про DMP/КАПы крупных компаний
В целом пришел к выводу что среди гигантов нет явных фаворитов и аутсайдеров.
Например, изучив инструменты Т-Банка, могу сказать что они используют очень модный тех стек, уже полностью разделили compute от storage, у них очень мощный CI/CD.
X5 в процессе перехода на новую платформу. Явно ничем не выделяется, но и не опаздывает, такие же spark, trino, clxikhouse, GP итп.
Зеленый банк, пока значительно не меняет свою Аналитическую Платформу, однако так же в процессе разделения compute от storage, дальше больше.
Т.е. везде используется, плюс минус одинаковый набор технологий и нельзя сказать кто то неожиданно стал луддитом на перфокартах.
🐘 Hadoop все еще не умер (хотя т банк использует уже только s3)
Из других интересных поинтов
🗡️ В СДЭК официально есть новые должности - Data Steward (жду должности Data Knight, Data Lord, Data King)
Везде есть AI инициативы в виде встроенных в интерфейс BI, Jupyter notebook чат ботов а ля Chat GPT.
Open source dbt не используется в X5 тк несет только издержки в виде излишних абстракций, а не преимущества (Я так рад что, кто то наконец то сказал это вслух громко и четко)
В Х5 аналитики сами интегрируют новые источники данных.
Подключение нового потока происходит через заполнение конфигов.
В X5 30/70 разделение горячего и холодного стораджа.
Относительно других команд, у моей достаточно низкий time2market, тк считается что в среднем 30 дней на разработку витрины данных это неплохо.
В целом пришел к выводу что среди гигантов нет явных фаворитов и аутсайдеров.
Например, изучив инструменты Т-Банка, могу сказать что они используют очень модный тех стек, уже полностью разделили compute от storage, у них очень мощный CI/CD.
X5 в процессе перехода на новую платформу. Явно ничем не выделяется, но и не опаздывает, такие же spark, trino, clxikhouse, GP итп.
Зеленый банк, пока значительно не меняет свою Аналитическую Платформу, однако так же в процессе разделения compute от storage, дальше больше.
Т.е. везде используется, плюс минус одинаковый набор технологий и нельзя сказать кто то неожиданно стал луддитом на перфокартах.
🐘 Hadoop все еще не умер (хотя т банк использует уже только s3)
Из других интересных поинтов
🗡️ В СДЭК официально есть новые должности - Data Steward (жду должности Data Knight, Data Lord, Data King)
Везде есть AI инициативы в виде встроенных в интерфейс BI, Jupyter notebook чат ботов а ля Chat GPT.
Open source dbt не используется в X5 тк несет только издержки в виде излишних абстракций, а не преимущества (Я так рад что, кто то наконец то сказал это вслух громко и четко)
В Х5 аналитики сами интегрируют новые источники данных.
Подключение нового потока происходит через заполнение конфигов.
В X5 30/70 разделение горячего и холодного стораджа.
Относительно других команд, у моей достаточно низкий time2market, тк считается что в среднем 30 дней на разработку витрины данных это неплохо.
🔥7❤3💔1
✈️ Подводя итог, скажу что конференция мне понравилась.
☀️ Порог входа существенно ниже чем на Highload, сюда можно ходить даже стажерам. Есть очень легкие к пониманию доклады.
☀️ Чуть хуже кейтеринг, бот конференции, нет возможности устроить random coffee, поэтому нетворкаться нужно по старинке - сложнее.
☀️ Во многих темах был сильный упор на психологию, тимлидство и вот это вот все. Причем залы с этими темами были переполнены.
В то же время залы с более техническими темами, но не менее интересными, были полупустыми…
☀️ Все стенды классные и щедрые, никогда так сильно не набивал карманы.
В целом, рекомендую к посещению, однако, если вы преисполнены в познании и не умеете отключать внутреннего душнилу, то вам здесь не понравится.
☀️ Порог входа существенно ниже чем на Highload, сюда можно ходить даже стажерам. Есть очень легкие к пониманию доклады.
☀️ Чуть хуже кейтеринг, бот конференции, нет возможности устроить random coffee, поэтому нетворкаться нужно по старинке - сложнее.
☀️ Во многих темах был сильный упор на психологию, тимлидство и вот это вот все. Причем залы с этими темами были переполнены.
В то же время залы с более техническими темами, но не менее интересными, были полупустыми…
☀️ Все стенды классные и щедрые, никогда так сильно не набивал карманы.
В целом, рекомендую к посещению, однако, если вы преисполнены в познании и не умеете отключать внутреннего душнилу, то вам здесь не понравится.
🔥6❤🔥2